sentence-transformers模型,将文本映射到1024维向量空间,与SetFit配合提升德语少样本文本分类效果,采用欧氏距离损失函数训练,性能优于基础模型。【此简介由AI生成】
pipeline_tag: sentence-similarity language:
- de tags:
- sentence-transformers
- sentence-similarity
- transformers
- setfit
license: mit
datasets:
- deutsche-telekom/ger-backtrans-paraphrase
German BERT large paraphrase euclidean
这是一个 sentence-transformers 模型。 它能将句子和段落(文本)映射到 1024 维的稠密向量空间中。 该模型旨在与 SetFit 配合使用,以改进德语小样本文本分类。 它有一个姊妹模型,名为 deutsche-telekom/gbert-large-paraphrase-cosine。
此模型基于 deepset/gbert-large 构建。 非常感谢 deepset!
训练
损失函数
我们使用了 BatchHardSoftMarginTripletLoss 作为损失函数,并采用欧几里得距离:
train_loss = losses.BatchHardSoftMarginTripletLoss(
model=model,
distance_metric=BatchHardTripletLossDistanceFunction.eucledian_distance,
)
训练数据
该模型基于经过精心筛选的数据集 deutsche-telekom/ger-backtrans-paraphrase 进行训练。我们删除了以下句子对:
min_char_len小于 15jaccard_similarity大于 0.3de_token_count大于 30en_de_token_count大于 30cos_sim小于 0.85
超参数
- learning_rate: 5.5512022294147105e-06
- num_epochs: 7
- train_batch_size: 68
- num_gpu: ???
评估结果
我们使用 NLU Few-shot Benchmark - English and German 数据集,在德语少样本场景下对该模型进行评估。
定性结果
- 多语言句子嵌入效果最差
- Electra 模型效果同样不佳
- 德语 BERT base 规模模型(deepset/gbert-base)效果良好
- 德语 BERT large 规模模型(deepset/gbert-large)效果非常好
- 我们的微调模型(本模型及 deutsche-telekom/gbert-large-paraphrase-cosine)效果最佳
许可信息
版权所有 (c) 2023 Philip May、德国电信股份公司(Deutsche Telekom AG)
版权所有 (c) 2022 deepset GmbH
本模型基于 MIT 许可证(简称“许可证”)授权。除非遵守许可证规定,否则不得使用本文件。您可以通过查阅仓库中的 LICENSE 文件获取许可证副本。
项目介绍
sentence-transformers模型,将文本映射到1024维向量空间,与SetFit配合提升德语少样本文本分类效果,采用欧氏距离损失函数训练,性能优于基础模型。【此简介由AI生成】
定制我的领域下载使用量
项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新