可用于日语文本生成等自然语言处理任务。该项目提供预训练和指令微调模型,支持多种应用场景,基于混合语料训练,适配日语、英语及代码,使用 Hugging Face 生态工具便于部署和使用。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: apache-2.0 language:
- en
- ja programming_language:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript library_name: transformers pipeline_tag: text-generation inference: false
llm-jp-1.3b-v1.0
本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。
| 预训练模型 |
| llm-jp-13b-v1.0 |
| llm-jp-1.3b-v1.0 |
| 检查点格式:Hugging Face Transformers(Megatron-DeepSpeed 格式模型可在此处获取) |
所需库及其版本
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
使用方法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-1.3b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-1.3b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=20,
do_sample=True,
top_p=0.90,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
模型详情
- 模型类型:基于 Transformer 的语言模型
- 总处理 tokens:3000 亿
| 模型 | 参数规模 | 层数 | 隐藏层大小 | 注意力头数 | 上下文长度 |
|---|---|---|---|---|---|
| 13b model | 130 亿 | 40 | 5120 | 40 | 2048 |
| 1.3b model | 13 亿 | 24 | 2048 | 16 | 2048 |
训练
-
预训练:
- 硬件:96 张 A100 40GB GPU(mdx cluster)
- 软件:Megatron-DeepSpeed
-
指令微调:
- 硬件:8 张 A100 40GB GPU(mdx cluster)
- 软件:TRL、PEFT 和 DeepSpeed
分词器
本模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型。
词汇表条目由 llm-jp-tokenizer v2.1 (50k) 转换而来。
有关词汇构建过程的详细信息,请参阅 llm-ja-tokenizer 的 README.md。
- 模型:采用 Unigram 字节回退模型的 Hugging Face 快速分词器,要求
tokenizers>=0.14.0 - 训练算法:SentencePiece Unigram 字节回退
- 训练数据:模型预训练数据集的一个子集
- 词汇表大小:50,570(日语、英语和源代码的混合词汇)
数据集
预训练
模型使用以下数据集的混合数据进行预训练。
| 语言 | 数据集 | Tokens |
|---|---|---|
| 日语 | Wikipedia | 15 亿 |
| mC4 | 1360 亿 | |
| 英语 | Wikipedia | 50 亿 |
| The Pile | 1350 亿 | |
| 代码 | The Stack | 100 亿 |
预训练使用 10 折非重叠数据持续进行,每折数据包含约 270-280 亿 tokens。 我们使用从上述 10 折数据所用的相同源数据集中获取的额外(可能)高质量的 270 亿 tokens 数据完成了预训练。
指令微调
模型已在以下数据集上进行了微调。
| 语言 | 数据集 | 描述 |
|---|---|---|
| 日语 | jaster | 基于现有日语NLP数据集自动转换得到的数据 |
| databricks-dolly-15k | 由LLM-jp项目使用DeepL翻译的版本 | |
| OpenAssistant Conversations Dataset | 由LLM-jp项目使用DeepL翻译的版本 |
评估
您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。
风险与限制
此处发布的模型仍处于我们研发的早期阶段,尚未针对确保输出符合人类意图和安全考量进行调整。
问题反馈
llm-jp(at)nii.ac.jp
许可证
模型卡片作者
姓名按字母顺序排列。
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.