MetricX-24系列混合模型，兼顾参考型与无参考型（QE）翻译质量评估，速度与准确率平衡，自动限制分数在0-25区间，助力翻译质量自动评测。【此简介由AI生成】

SsystemAdd a pointer to the bfloat16 variant in the README. (#3 )

51e875ba创建于 2024年12月13日4次提交

文件	最后提交记录	最后更新时间
.gitattributes	initial commit	1 年前
README.md	Add a pointer to the bfloat16 variant in the README. (#3) - Add a pointer to the bfloat16 variant in the README. (b6ab6d09319164a707899b6185535e0cbd914006) Co-authored-by: Jurik Juraska <jjuraska@users.noreply.huggingface.co>	1 年前
config.json	Upload MT5ForRegression	1 年前
pytorch_model.binLFS	Upload MT5ForRegression	1 年前

自动翻译

license: apache-2.0

MetricX-24（大型版本）

此非 Google 官方支持产品。

ℹ️ 如需此模型的 bfloat16 变体，请参阅 MetricX-24（大型版本，bfloat16）。

GitHub 代码库：https://github.com/google-research/metricx

该代码库包含用于在 MetricX-24 模型上进行推理的代码。该系列模型专为自动评估翻译质量而设计，曾应用于 WMT'24 指标共享任务的提交成果——《MetricX-24：Google 向 WMT 2024 指标共享任务提交的方案》。这些模型最初在 T5X 框架中训练，随后转换为 PyTorch 版本以供使用。

可用模型

Hugging Face 平台上提供了 3 款不同参数规模的 MetricX-24 模型。与 MetricX-23 系列不同，MetricX-24 模型均为混合模型，可同时执行基于参考译文（reference-based）和无参考译文（reference-free，又称质量评估或 QE）的推理：

若追求与人工翻译质量评估的最高一致性，建议选用 XXL 版本；若优先考虑推理速度，大型版本最为合适；XL 版本则适用于对两者有平衡需求的场景。

相对于 WMT'24 提交版本的变更

此处提供的 MetricX-24 模型与 WMT'24 指标共享任务的主要提交版本最为相似。它们基于 mT5 初始化，随后在 WMT'15 至 '22 的直接评估（direct assessment）和 MQM 数据组合上进行微调。不过，我们做了几处细微调整，使这些模型与 WMT'24 提交版本有所区别。

首先，指标得分会自动裁剪至 0 到 25 之间，确保严格处于 [0, 25] 区间内。这是因为回归模型的特性可能导致得分偶尔超出该范围。

其次，我们额外增加了一类在官方提交时尚未准备就绪的合成训练样本。这类样本源自 WMT'20 至 '22 的 MQM 数据，生成了多句子段落的完美翻译示例。此类合成数据旨在减少模型在面对较长源文本或参考译文时对较长翻译结果存在的偏见。

模型性能表现

为与WMT'24 指标共享任务的提交结果进行对比，我们提供了MetricX-24评分与翻译质量MQM评级在系统级和段落级的相关性分数概览，该数据基于共享任务测试集计算得出：

模型	系统级SPA（英-德）	段落级准确率（英-德）	系统级SPA（英-西）	段落级准确率（英-西）	系统级SPA（日-中）	段落级准确率（日-中）
MetricX-24-Hybrid-XXL	0.865	0.543	0.785	0.685	0.878	0.541
MetricX-24-Hybrid-XL	0.884	0.522	0.806	0.683	0.859	0.528
MetricX-24-Hybrid-Large	0.879	0.511	0.795	0.686	0.845	0.514
MetricX-24-Hybrid-QE-XXL	0.884	0.525	0.789	0.685	0.863	0.527
MetricX-24-Hybrid-QE-XL	0.879	0.502	0.774	0.683	0.849	0.509
MetricX-24-Hybrid-QE-Large	0.809	0.490	0.762	0.684	0.847	0.508

以下为上述相关性分数的平均值，该指标在共享任务中用于确定最终排名：

模型	平均相关性
MetricX-24-Hybrid-XXL	0.716
MetricX-24-Hybrid-XL	0.714
MetricX-24-Hybrid-Large	0.705
MetricX-24-Hybrid-QE-XXL	0.712
MetricX-24-Hybrid-QE-XL	0.699
MetricX-24-Hybrid-QE-Large	0.683

注：由于MetricX-24系列为混合模型，MetricX-24-<尺寸>与MetricX-24-QE-<尺寸>实为同一模型，分别代表使用参考译文和未使用参考译文的评估结果。

引用文献

若您在研究中使用MetricX-24，请引用以下出版物：

@inproceedings{juraska-etal-2024-metricx,
    title = "{M}etric{X}-24: The {G}oogle Submission to the {WMT} 2024 Metrics Shared Task",
    author = "Juraska, Juraj  and
      Deutsch, Daniel  and
      Finkelstein, Mara  and
      Freitag, Markus",
    editor = "Haddow, Barry  and
      Kocmi, Tom  and
      Koehn, Philipp  and
      Monz, Christof",
    booktitle = "Proceedings of the Ninth Conference on Machine Translation",
    month = nov,
    year = "2024",
    address = "Miami, Florida, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.wmt-1.35",
    pages = "492--504",
}

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

metricx-24-hybrid-large-v2p6:WMT'24获奖翻译评估模型，支持有/无参考两种模式