Package tokenizer
class AbstractBPETokenizer
func decode
public func decode(tokens: Array<UInt32>): String
- 描述: 将token数组解码为字符串
- 参数:
tokens: Array<UInt32>, 要解码的token数组
func encode
public func encode(input: String): Array<UInt32>
class BPETokenizer
func init
init(modelPath: String)
- 描述: 初始化BPETokenizer,加载tokenizer配置
- 参数:
modelPath: String, 模型路径,用于加载tokenizer配置
struct BPETokenizerConfig
func deserialize
static func deserialize(dm: DataModel): BPETokenizerConfig
- 描述: 从DataModel反序列化BPETokenizerConfig对象
- 参数:
dm: DataModel, 包含BPETokenizerConfig数据的DataModel
class Cl100kTokenizer
func init
init(path: String)
- 描述: 初始化Cl100kTokenizer实例
- 参数:
interface JsonDeserializable
func fromJson
static func fromJson(str: String)
func serialize
func serialize(): DataModel
class Pair
func operator !=
public operator func !=(other: Pair<T>): Bool
- 描述: 比较两个Pair是否不相等
- 参数:
other: Pair<T>, 要比较的另一个Pair
func operator ==
public operator func ==(other: Pair<T>): Bool
- 描述: 比较两个Pair是否相等
- 参数:
other: Pair<T>, 要比较的另一个Pair
func hashCode
public func hashCode(): Int64
func init
public init(left: T, right: T)
- 描述: 初始化Pair对象
- 参数:
left: T, Pair的左值
right: T, Pair的右值
prop left
public prop left: T
prop right
public prop right: T
struct TokenizerJson
func deserialize
static func deserialize(dm: DataModel): TokenizerJson
- 描述: 从DataModel反序列化TokenizerJson对象
- 参数:
dm: DataModel, 包含TokenizerJson数据的DataModel
class TokenizerLoader
func load
public static func load(modelNameOrPath: String): Tokenizer
- 描述: 加载指定模型名称或路径的分词器
- 参数:
modelNameOrPath: String, 模型名称或路径