ソーシャルメディアからの偽誤情報データセット作成とLLM 正確性ベンチマークの構築
DOI:
https://doi.org/10.51094/jxiv.875キーワード:
LLM、 偽情報、 誤情報、 ソーシャルメディア、 ベンチマーク抄録
大規模言語モデル(LLM)が発展する一方で、LLMによる正確でない情報の生成や流布の問題が生じつつある。このような問題の克服に向けて、日本語に関するLLMの正確性のベンチマークが必要とされるが、既存のベンチマークには実際に流通しているソーシャルメディア上の日本特有の偽・誤情報が十分に含まれていないといった課題がある。本稿では、実際にソーシャルメディアで流通している日本語ドメインの誤解を招く情報に基づいて、LLMの正確性に関するベンチマークJSocialFactを提案する。JSocialFactは複数の人間のアノテータにより作成され、Xのコミュニティノートデータと投稿データをもとに、流通している多様な誤情報・偽情報・悪意のある情報を網羅したユニークなデータセットの作成を目指す。
利益相反に関する開示
開示すべきCOIはありません。ダウンロード *前日までの集計結果を表示します
引用文献
Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, and Yue Zhang. A survey on large language model (LLM) security and privacy: The good, the bad, and the ugly. High-Confidence Computing, Vol. 4, No. 2, p. 100211, June 2024.
Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. September 2021.
BIG bench authors. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. Transactions on Machine Learning Research, 2023.
Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, and Xuanjing Huang. Do large language models know what they don’t know? In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki, editors, Findings of the Association for Computational Linguistics: ACL 2023, pp. 8653–8665, Toronto, Canada, July 2023. Association for Computational Linguistics.
Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, and Timothy Baldwin. Do-not-answer: Evaluating safeguards in LLMs. In Yvette Graham and Matthew Purver, editors, Findings of the Association for Computational Linguistics: EACL 2024, pp. 896–911, St. Julian’s, Malta, March 2024. Association for Computational Linguistics.
Hitomi Yanaka, Namgi Han, Ryoma Kumon, Jie Lu, Masashi Takeshita, Ryo Sekizawa, Taisei Kato, and Hiromi Arai. Analyzing social biases in japanese large language models. arxiv:2406.02050, 2024.
友亮中村, 大輔河原. 日本語 truthfulqa の構築. 言語処理学会第 30 回年次大会 発表論文集, March 2024.
Matthew R Allen, Nimit Desai, Aiden Namazi, Eric Leas, Mark Dredze, Davey M Smith, and John W Ayers. Characteristics of X (formerly twitter) community notes addressing COVID-19 vaccine misinformation. JAMA, Vol. 331, No. 19, pp. 1670–1672, May 2024.
Moritz Pilarski, Kirill Solovev, and Nicolas Pr¨ollochs. Community notes vs. snoping: How the crowd selects fact-checking targets on social media. arXiv. org, 2023.
Jennifer Allen, Cameron Martel, and David G Rand. Birds of a feather don’t fact-check each other: Partisanship and the evaluation of news in twitter’s birdwatch crowdsourced fact-checking program. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, No. Article 245 in CHI ’22, pp. 1–19, New York, NY, USA, April 2022. Association for Computing Machinery.
Eleni Kapantai, Androniki Christopoulou, Christos Berberidis, and Vassilios Peristeras. A systematic literature review on disinformation: Toward a unified taxonomical framework. New Media & Society, Vol. 23, No. 5, pp. 1301–1326, May 2021.
Esma A¨ımeur, Sabrine Amri, and Gilles Brassard. Fake news, disinformation and misinformation in social media: a review. Soc Netw Anal Min, Vol. 13, No. 1, p. 30, February 2023.
関根聡, 小島淳嗣, 貞光九月, 北岸郁雄. LLM の出力結果に対する人間による評価分析と gpt-4 による自動評価との比較分析. 言語処理学会第 30 回年次大会, pp. 937–942, 2024.
ダウンロード
公開済
投稿日時: 2024-09-04 03:26:40 UTC
公開日時: 2024-09-05 05:34:54 UTC
バージョン
- 2024-09-27 02:20:26 UTC(2)
- 2024-09-05 05:34:54 UTC(1)
改版理由
ライセンス
Copyright(c)2024
中里, 朋楓
鈴木, 久美
大西, 正輝
この作品は、Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International Licenseの下でライセンスされています。