可用于日语文本生成等自然语言处理任务。该项目提供预训练和指令微调模型，支持多种应用场景，基于混合语料训练，适配日语、英语及代码，使用 Hugging Face 生态工具便于部署和使用。【此简介由AI生成】

343b15a7创建于 2023年10月20日13次提交

文件	最后提交记录	最后更新时间
.gitattributes	initial commit	2 年前
README.md	Update README.md	2 年前
config.json	Update config.json	2 年前
generation_config.json	Upload model	2 年前
pytorch_model.binLFS	Upload model	2 年前
special_tokens_map.json	Upload 3 files	2 年前
tokenizer.json	Upload 3 files	2 年前
tokenizer_config.json	Upload 3 files	2 年前

自动翻译

license: apache-2.0 language:

en
ja programming_language:
C
C++
C#
Go
Java
JavaScript
Lua
PHP
Python
Ruby
Rust
Scala
TypeScript library_name: transformers pipeline_tag: text-generation inference: false

llm-jp-1.3b-v1.0

本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。

模型变体
指令模型
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0


预训练模型
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0
检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式模型可在此处获取）

所需库及其版本

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-1.3b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-1.3b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=20,
        do_sample=True,
        top_p=0.90,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型详情

模型类型：基于 Transformer 的语言模型
总处理 tokens：3000 亿

模型	参数规模	层数	隐藏层大小	注意力头数	上下文长度
13b model	130 亿	40	5120	40	2048
1.3b model	13 亿	24	2048	16	2048

训练

预训练：
- 硬件：96 张 A100 40GB GPU（mdx cluster）
- 软件：Megatron-DeepSpeed
指令微调：
- 硬件：8 张 A100 40GB GPU（mdx cluster）
- 软件：TRL、PEFT 和 DeepSpeed

分词器

本模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型。词汇表条目由 llm-jp-tokenizer v2.1 (50k) 转换而来。有关词汇构建过程的详细信息，请参阅 llm-ja-tokenizer 的 README.md。

模型：采用 Unigram 字节回退模型的 Hugging Face 快速分词器，要求 tokenizers>=0.14.0
训练算法：SentencePiece Unigram 字节回退
训练数据：模型预训练数据集的一个子集
词汇表大小：50,570（日语、英语和源代码的混合词汇）

数据集

预训练

模型使用以下数据集的混合数据进行预训练。

语言	数据集	Tokens
日语	Wikipedia	15 亿
	mC4	1360 亿
英语	Wikipedia	50 亿
	The Pile	1350 亿
代码	The Stack	100 亿

预训练使用 10 折非重叠数据持续进行，每折数据包含约 270-280 亿 tokens。我们使用从上述 10 折数据所用的相同源数据集中获取的额外（可能）高质量的 270 亿 tokens 数据完成了预训练。

指令微调

模型已在以下数据集上进行了微调。

语言	数据集	描述
日语	jaster	基于现有日语NLP数据集自动转换得到的数据
	databricks-dolly-15k	由LLM-jp项目使用DeepL翻译的版本
	OpenAssistant Conversations Dataset	由LLM-jp项目使用DeepL翻译的版本

评估

您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。

风险与限制

此处发布的模型仍处于我们研发的早期阶段，尚未针对确保输出符合人类意图和安全考量进行调整。

问题反馈

llm-jp(at)nii.ac.jp

许可证

Apache License, Version 2.0

模型卡片作者

姓名按字母顺序排列。

Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

llm-jp-1.3b-v1.0:基于 Hugging Face Transformers 的日语大语言模型项目