distilbert-dot-tas_b-b256-msmarco:基于 DistilBERT 的密集 passage 检索项目

可用于对候选集重新排序或直接进行基于向量索引的密集检索。是采用平衡主题感知采样(TAS-B)在MSMARCO-Passage上训练的6层DistilBERT双编码器模型,通过CLS向量池化获取查询/段落表示,共享编码器层以提升性能并降低内存需求。【此简介由AI生成】

分支1Tags0

language: "en" tags:

  • dpr
  • dense-passage-retrieval
  • knowledge-distillation datasets:
  • ms_marco

基于平衡主题感知采样(TAS-B)训练的 DistilBert 密集段落检索模型

我们提供了一个基于 DistilBert 的检索训练模型(我们将这种“双编码器+点积评分”架构称为 BERT_Dot),该模型在 MSMARCO-Passage 数据集上采用平衡主题感知采样进行训练。

本模型实例的训练批次大小为 256,可用于候选集重排序直接基于向量索引的密集检索。其架构为 6 层 DistilBERT,未对架构进行任何添加或修改(仅在训练过程中调整权重)——通过对 CLS 向量进行池化来获取查询/段落表示。查询和段落编码使用相同的 BERT 层(这样能获得更好的结果,并降低内存需求)。

如果您想了解更多关于我们高效(可在单块消费级 GPU 上 48 小时内完成)的批次组合过程以及用于密集检索训练的双重监督方法,请查阅我们的论文:https://arxiv.org/abs/2104.06967 🎉

有关更多信息和最小化使用示例,请访问:https://github.com/sebastian-hofstaetter/tas-balanced-dense-retrieval

在 MSMARCO Passage 和 TREC-DL'19 上的效果

我们的模型在经过 TAS-B 方法重新采样的 MSMARCO 标准(“小型”-400K 查询)训练三元组上进行训练。教师模型方面,我们使用了 BERT_CAT 成对分数以及 ColBERT 模型来提供批内负样本信号,相关内容发布于:https://github.com/sebastian-hofstaetter/neural-ranking-kd

MSMARCO-DEV(7K)

MRR@10 NDCG@10 Recall@1K
BM25 .194 .241 .857
TAS-B BERT_Dot(检索) .347 .410 .978

TREC-DL'19

对于 MRR 和 Recall,我们使用推荐的等级相关性二值化点 2。与其他二值化点数值相比,这可能会使结果产生偏差。

MRR@10 NDCG@10 Recall@1K
BM25 .689 .501 .739
TAS-B BERT_Dot(检索) .883 .717 .843

TREC-DL'20

对于MRR和Recall指标,我们采用推荐的等级相关性二值化阈值2。与其他二值化阈值相比,这可能会使结果产生偏差。

MRR@10 NDCG@10 Recall@1K
BM25 .649 .475 .806
TAS-B BERT_Dot (Retrieval) .843 .686 .875

有关更多基线、信息和分析,请参见论文:https://arxiv.org/abs/2104.06967

局限性与偏差

  • 该模型继承了DistilBERT和MSMARCO的社会偏见。

  • 该模型仅在MSMARCO的相对较短段落(平均长度60词)上进行训练,因此可能难以处理较长文本。

引用

如果您使用我们的模型检查点,请按以下方式引用我们的工作:

@inproceedings{Hofstaetter2021_tasb_dense_retrieval,
 author = {Sebastian Hofst{\"a}tter and Sheng-Chieh Lin and Jheng-Hong Yang and Jimmy Lin and Allan Hanbury},
 title = {{Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling}},
 booktitle = {Proc. of SIGIR},
 year = {2021},
}

项目介绍

可用于对候选集重新排序或直接进行基于向量索引的密集检索。是采用平衡主题感知采样(TAS-B)在MSMARCO-Passage上训练的6层DistilBERT双编码器模型,通过CLS向量池化获取查询/段落表示,共享编码器层以提升性能并降低内存需求。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新