プレプリント / バージョン1

高精度翻訳モデルのための自動評価手法の検討

##article.authors##

DOI:

https://doi.org/10.51094/jxiv.2428

キーワード:

翻訳、 大規模言語モデル、 ベンチマーク、 評価

抄録

機械翻訳システムの品質向上に伴い、特に明確な誤りの少ない高精度なモデルにおいて、モデル間の性能差を識別することが難しくなっている。そこで、本研究では、高精度なモデルに対しても十分な分解能を持ち、再現性と計算効率に優れる表層マッチング型評価手法を検討する。
まず、英和・和英それぞれ約 150 語程度の原文 50 件に対し、評価対象のモデルによって生成された翻訳文群を作成した。
その上で、複数の大規模言語モデル(LLM)による全対比較から翻訳の優劣を判定して、評価対象のモデル間のランキングを構築し、これを評価の正解データとしてみなすこととした。
なお、実験の中で、この正解データは異なる LLM 群間での Spearman 順位相関が極めて高く、高い一貫性があることが確認された。
このデータセットを評価軸として、新たな表層マッチング指標について検討した。
提案指標は、言語非依存性のため文字 $n$-gram 特徴量を用い、言い換えの多様性を吸収するため多数の参照訳を活用する。
最大 1{,}000 件の生成参照訳を用いた評価では、参照訳の数の増加に伴い提案指標は一貫して性能向上を示し、BLEU および chrF を上回った。
また、LLMを活用しつつ人手で作成した高品質参照訳を用いた実験では、提案指標を含む表層マッチング指標が、WMT24 で上位の指標である MetricX-24 より高い順位相関を示した。これらの結果から、表層マッチングに基づく軽量かつ安定した自動評価が可能であることが示唆された。

利益相反に関する開示

開示すべき利益相反はありません。

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Markus Freitag, George Foster, David Grangier, Viresh Ratnakar, Qijun Tan, and Wolfgang Macherey. Experts, errors, and context: A large-scale study of human evaluation for machine translation. Transactions of the Association for Computational Linguistics, Vol. 9, pp. 1460–1474, 2021.

Nitika Mathur, Johnny Wei, Markus Freitag, Qingsong Ma, and Ondˇrej Bojar. Results of the WMT20 metrics shared task. In Proceedings of the Fifth Conference on Machine Translation, Online, 2020. Association for Computational Linguistics.

Arle Richard Lommel, Aljoscha Burchardt, and Hans Uszkoreit. Multidimensional quality metrics (MQM): A framework for declaring and describing translation quality metrics. Technical report, DFKI, 2014.

Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311–318, Philadelphia, USA, 2002. Association for Computational Linguistics.

Maja Popovi´c. chrF: character n-gram F-score for automatic MT evaluation. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392–395, Lisbon, Portugal, 2015. Association for Computational Linguistics.

Markus Freitag, David Grangier, and Isaac Caswell. BLEU might be guilty but references are not innocent. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, pp. 61–71, Online, 2020. Association for Computational Linguistics.

Vil´em Zouhar and Ondˇrej Bojar. Quality and quantity of machine translation references for automated metrics. arXiv preprint, Vol. arXiv:2401.01283, , 2024.

Ricardo Rei, Craig Stewart, Ana C. Farinha, and Alon Lavie. COMET: A neural framework for MT evaluation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Online, 2020. Association for Computational Linguistics.

Google Research. Metricx-24: The google submission to the WMT 2024 metrics shared task. In Proceedings of the Ninth Conference on Machine Translation, 2024. Author list omitted; see ACL Anthology id 2024.wmt-1.35 for full metadata.

Tom Kocmi and Christian Federmann. Large language models are state-of-the-art evaluators of translation quality. In Proceedings of the 24th Annual Conference of the European Association for Machine Translation, pp. 193–203, Tampere, Finland, 2023. European Association for Machine Translation.

ダウンロード

公開済


投稿日時: 2025-12-26 09:19:53 UTC

公開日時: 2026-01-07 03:57:59 UTC
研究分野
情報科学