gbert-large-paraphrase-euclidean:基于German BERT的句向量模型,优化德语少样本分类

sentence-transformers模型,将文本映射到1024维向量空间,与SetFit配合提升德语少样本文本分类效果,采用欧氏距离损失函数训练,性能优于基础模型。【此简介由AI生成】

分支1Tags0

pipeline_tag: sentence-similarity language:

  • de tags:
  • sentence-transformers
  • sentence-similarity
  • transformers
  • setfit license: mit datasets:
    • deutsche-telekom/ger-backtrans-paraphrase

German BERT large paraphrase euclidean

这是一个 sentence-transformers 模型。 它能将句子和段落(文本)映射到 1024 维的稠密向量空间中。 该模型旨在与 SetFit 配合使用,以改进德语小样本文本分类。 它有一个姊妹模型,名为 deutsche-telekom/gbert-large-paraphrase-cosine

此模型基于 deepset/gbert-large 构建。 非常感谢 deepset

训练

损失函数
我们使用了 BatchHardSoftMarginTripletLoss 作为损失函数,并采用欧几里得距离:

    train_loss = losses.BatchHardSoftMarginTripletLoss(
       model=model,
       distance_metric=BatchHardTripletLossDistanceFunction.eucledian_distance,
   )

训练数据
该模型基于经过精心筛选的数据集 deutsche-telekom/ger-backtrans-paraphrase 进行训练。我们删除了以下句子对:

  • min_char_len 小于 15
  • jaccard_similarity 大于 0.3
  • de_token_count 大于 30
  • en_de_token_count 大于 30
  • cos_sim 小于 0.85

超参数

  • learning_rate: 5.5512022294147105e-06
  • num_epochs: 7
  • train_batch_size: 68
  • num_gpu: ???

评估结果

我们使用 NLU Few-shot Benchmark - English and German 数据集,在德语少样本场景下对该模型进行评估。

定性结果

许可信息

版权所有 (c) 2023 Philip May德国电信股份公司(Deutsche Telekom AG)
版权所有 (c) 2022 deepset GmbH

本模型基于 MIT 许可证(简称“许可证”)授权。除非遵守许可证规定,否则不得使用本文件。您可以通过查阅仓库中的 LICENSE 文件获取许可证副本。

项目介绍

sentence-transformers模型,将文本映射到1024维向量空间,与SetFit配合提升德语少样本文本分类效果,采用欧氏距离损失函数训练,性能优于基础模型。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新