日本の司法試験を題材とした GPT モデルの評価

チェ, ジョンミン; 笠井, 淳吾; 坂口, 慶祐

doi:10.51094/jxiv.559

##article.authors##

チェ, ジョンミン理化学研究所AIP
笠井, 淳吾 Kotoba Technologies, Inc
坂口, 慶祐東北大学大学院情報科学研究科

DOI:

https://doi.org/10.51094/jxiv.559

キーワード:

自然言語処理、大規模言語モデル、司法試験

抄録

ChatGPTなどの大規模言語モデルが，多岐にわたるタスクにおいて人間の専門家の精度を上回ると報告されている．とくに日本の医師国家試験にChatGPTが合格したという最近の研究報告からも，日本語についての高い性能が確認されている．
本研究では，日本の司法試験（短答式）の憲法，民法，刑法それぞれ過去5年分を対象に，GPT-3, GPT-4およびChatGPTの精度を評価した．結果として，現段階では日本の司法試験に対する正答率が3〜4割と，合格水準に比べ非常に低いことが明らかになった．
本研究では，単なる正解率にとどまらず，回答に必要な知識，能力を分解し，それぞれの観点での大規模言語モデルの性能を検証した．その結果，1)大規模言語モデルは多くの条文の知識を有していること，2)特定の条文や判例の知識を必要としないが学説の理解を必要とする問題に関しては正解率が高いこと，3)判例の知識を必要とする問題に関しては正解率が低いこと，が示された．アメリカの司法試験と比較して性能が低い原因の大部分は，日本法の知識，とくに判例の知識の乏しさにあると考えられる．

利益相反に関する開示

本論文に関して，開示すべき利益相反関連事項はない．

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Blair-Stanek, Andrew, Nils Holzenberger, and Benjamin Van Durme (2023). Can GPT-3 Perform Statutory Reasoning? in Proceedings of the Nineteenth International Conference on Artificial Intelligence and Law, ICAIL ’23, p. 22–31, New York, NY, USA: Association for Computing Machinery.

Brown, Tom, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei (2020). Language Models are Few-Shot Learners. In Larochelle, H., M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin eds. Advances in Neural Information Processing Systems, Vol. 33, pp. 1877–1901: Curran Associates, Inc.

Choi, Jonathan H., Kristin E Hickman, Amy Monahan, and Daniel Schwarcz (2023). ChatGPT goes to law school. Journal of Legal Education.

Iu, Kwansai and Vanessa Man-Yi Wong (2023). ChatGPT by OpenAI: The End of Litigation Lawyers? SSRN Electronic Journal.

Kasai, Jungo, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, and Dragomir R. Radev (2023). Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations. ArXiv, Vol. abs/2303.18027.

Kim, Mi-Young, Juliano Rabelo, Randy Goebel, Masaharu Yoshioka, Yoshinobu Kano, and Ken Satoh (2023). COLIEE 2022 Summary: Methods for Legal Document Retrieval and Entailment. In Takama, Yasufumi, Katsutoshi Yada, Ken Satoh, and Sachiyo Arai eds. New Frontiers in Artificial Intelligence, pp. 51–67, Cham: Springer Nature Switzerland.

Kung, Tiffany H., Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepa ̃no, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo, and Victor Tseng (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, Vol. 2, No. 2, pp. 1–12, 02.

Kurihara, Kentaro, Daisuke Kawahara, and Tomohide Shibata (2022). JGLUE: Japanese General Language Understanding Evaluation. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 2957–2966, Marseille, France: European Language Resources Association, June.

Macey-Dare, Rupert (2023). ChatGPT & Generative AI Systems as Quasi-Expert Legal Advice Lawyers - Case Study Considering Potential Appeal Against Conviction of Tom Hayes. SSRN Electronic Journal.

Nay, John J. (2023). Large Language Models as Fiduciaries: A Case Study Toward Robustly Communicating With Artificial Intelligence Through Legal Standards. ArXiv, Vol. abs/2301.10095.

Nguyen, Ha-Thanh, Randy Goebel, Francesca Toni, Kostas Stathis, and Ken Satoh (2023). Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task.

Oltz, Tammy Pettinato (2023). ChatGPT, Professor of Law. SSRN Electronic Journal.

OpenAI (2023). GPT-4 Technical Report. ArXiv, Vol. abs/2303.08774.

Trautmann, Dietrich, Alina Petrova, and Frank Schilder (2022). Legal Prompt Engineering for Multilingual Legal Judgement Prediction. ArXiv, Vol. abs/2212.02199.

Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le (2022). Finetuned Language Models are Zero-Shot Learners. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022: OpenReview.net.

Yu, Fang, Lee Quartey, and Frank Schilder (2022). Legal Prompting: Teaching a Language Model to Think Like a Lawyer. ArXiv, Vol. abs/2212.01326.