japanese-reranker-cross-encoder-small-v1:基于 sentence-transformers 的日语文本重排序模型项目

可用于日语查询与文本的相关性排序任务，提升搜索或问答系统的准确性。该项目是在日语语料上训练的 CrossEncoder 模型，具备 12 层网络和 384 隐藏层大小，在 JQaRA、MIRACL 等数据集上表现良好。【此简介由AI生成】

46c04ede创建于 2024年11月18日8次提交

文件	最后提交记录	最后更新时间
.cache	Upload folder using openMind hub	1 年前
examples	Upload folder using openMind hub	1 年前
.gitattributes	Upload folder using openMind hub	1 年前
README.md	Update README.md	1 年前
README_ori.md	Upload folder using openMind hub	1 年前
config.json	Upload folder using openMind hub	1 年前
model.safetensorsLFS	Upload folder using openMind hub	1 年前
sentencepiece.bpe.modelLFS	Upload folder using openMind hub	1 年前
special_tokens_map.json	Upload folder using openMind hub	1 年前
tokenizer.jsonLFS	Upload folder using openMind hub	1 年前
tokenizer_config.json	Upload folder using openMind hub	1 年前
training_args.binLFS	Upload folder using openMind hub	1 年前

自动翻译

license: mit datasets:

hotchpotch/JQaRA
shunk031/JGLUE
miracl/miracl
castorini/mr-tydi
unicamp-dl/mmarco language:
ja library_name: sentence-transformers

japanese-reranker-cross-encoder-small-v1

这是一系列使用日语训练的重排序模型（CrossEncoder）。

模型名称	层数	隐藏层大小
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	6	384
hotchpotch/japanese-reranker-cross-encoder-small-v1	12	384
hotchpotch/japanese-reranker-cross-encoder-base-v1	12	768
[hotchpotch/japanese-reranker-cross-encoder-large-v1]	24	1024
[hotchpotch/japanese-bge-reranker-v2-m3-v1]	24	1024

关于重排序模型（Reranker）的技术报告、评估等内容，请参考以下链接。

使用方法

推理

import argparse
import torch
from sentence_transformers import CrossEncoder
from openmind import is_torch_npu_available

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default=None,
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    MODEL_NAME = args.model_name_or_path
    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
    model = CrossEncoder(MODEL_NAME, max_length=512, device=device)
    model.model.half()
    query = "感動的な映画について"
    passages = [
        "深いテーマを持ちながらも、観る人の心を揺さぶる名作。登場人物の心情描写が秀逸で、ラストは涙なしでは見られない。",
        "重要なメッセージ性は評価できるが、暗い話が続くので気分が落ち込んでしまった。もう少し明るい要素があればよかった。",
        "どうにもリアリティに欠ける展開が気になった。もっと深みのある人間ドラマが見たかった。",
        "アクションシーンが楽しすぎる。見ていて飽きない。ストーリーはシンプルだが、それが逆に良い。",
    ]
    scores = model.predict([(query, passage) for passage in passages])
    print(scores)
    
if __name__ == "__main__":
    main()

评估结果

Model Name	[JQaRA]	[JaCWIR]	[MIRACL]	[JSQuAD]
japanese-reranker-cross-encoder-xsmall-v1	0.6136	0.9376	0.7411	0.9602
japanese-reranker-cross-encoder-small-v1	0.6247	0.939	0.7776	0.9604
japanese-reranker-cross-encoder-base-v1	0.6711	0.9337	0.818	0.9708
[japanese-reranker-cross-encoder-large-v1]	0.7099	0.9364	0.8406	0.9773
[japanese-bge-reranker-v2-m3-v1]	0.6918	0.9372	0.8423	0.9624
[bge-reranker-v2-m3]	0.673	0.9343	0.8374	0.9599
[bge-reranker-large]	0.4718	0.7332	0.7666	0.7081
[bge-reranker-base]	0.2445	0.4905	0.6792	0.5757
[cross-encoder-mmarco-mMiniLMv2-L12-H384-v1]	0.5588	0.9211	0.7158	0.932
[shioriha-large-reranker]	0.5775	0.8458	0.8084	0.9262
[bge-m3+all]	0.576	0.904	0.7926	0.9226
[bge-m3+dense]	0.539	0.8642	0.7753	0.8815
[bge-m3+colbert]	0.5656	0.9064	0.7902	0.9297
[bge-m3+sparse]	0.5088	0.8944	0.6941	0.9184
[JaColBERTv2]	0.5847	0.9185	0.6861	0.9247
[multilingual-e5-large]	0.554	0.8759	0.7722	0.8892
[multilingual-e5-small]	0.4917	0.869	0.7025	0.8565
bm25	0.458	0.8408	0.4387	0.9002

许可证

MIT 许可证

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

japanese-reranker-cross-encoder-small-v1

使用方法

推理

评估结果

许可证

项目介绍

下载使用量

目录