Preprint / Version 1

Benchmarking Large Language Models Using Agricultural Certification Exam Questions

##article.authors##

DOI:

https://doi.org/10.51094/jxiv.1203

Keywords:

LLM, Agriculture Exam

Abstract

農業分野における大規模言語モデル(LLM)の実用可能性を評価するため、日本語で記述された農業検定1級(2023年度)の4択問題全70問を対象に、近年のLLM 27種に対する予備的なベンチマーク評価を実施した。最高正答率は85.7%に達し、合格基準である70%を大きく上回るモデルも複数確認された。LLMが農業分野における専門的な知識理解・推論において実用域に到達しつつあることが示唆されたと同時に、知識の偏在や構文解釈の限界といった課題も浮き彫りとなった。分野特化型の知識強化や体系的な日本語ベンチマークの整備が、農業用LLMの高度化に向けた鍵となる。

Conflicts of Interest Disclosure

Toda and Kawai is hired by phytometrics and LPIXEL, respectively

Downloads *Displays the aggregated results up to the previous day.

Download data is not yet available.

References

Arshad, M. A., Jubery, T. Z., Tirtho, R., Rim, N., Singh, A. K., Hegde, A. S. C., Baskar, G., Krishnamurthy, A. B. A., & Soumik, S. (2024). AgEval: A benchmark for zero-shot and few-shot plant stress phenotyping with multimodal LLMs. In arXiv. arXiv. https://arxiv.org/html/2407.19617v1

Hakoishi, K., Sugeta, D., Hitokoto, M., Shiono, T., Kudo, A., Omino, S., Ichihara, A., & Yokoyama, K. (2024). Creation of a Japanese Dataset on Agricultural Water Management Facilities and Future Prospects. 農業農村工学会大会講演会講演要旨集, 2024年度(第73回), 237–238.

Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H., & Szolovits, P. (2021). What disease does this patient have? A large-scale open domain question answering dataset from medical exams. Applied Sciences (Basel, Switzerland), 11(14), 6421. https://doi.org/10.3390/app11146421

Kasai, J., Kasai, Y., Sakaguchi, K., Yamada, Y., & Radev, D. (2023). Evaluating GPT-4 and ChatGPT on Japanese medical licensing examinations. In arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2303.18027

Kpodo, J., Kordjamshidi, P., & Nejadhashemi, A. P. (2024). AgXQA: A benchmark for advanced Agricultural Extension question answering. Computers and Electronics in Agriculture, 225(109349), 109349. https://doi.org/10.1016/j.compag.2024.109349

Ollama. (n.d.). https://github.com/ollama/ollama

Phan, L., Gatti, A., Han, Z., & Li, N. (2025). Humanity’s Last Exam. SuperIntelligence - Robotics - Safety & Alignment, 2(1). https://doi.org/10.70777/si.v2i1.13973

Zhang, H., Sun, J., Chen, R., Liu, W., Yuan, Z., Zheng, X., Wang, Z., Yang, Z., Yan, H., Zhong, H.-S., Wang, X., Ouyang, W., Yang, F., & Dong, N. (2024). Empowering and assessing the utility of large language models in crop science. Neural Information Processing Systems, 37, 52670–52722. https://proceedings.neurips.cc/paper_files/paper/2024/hash/5e5783c673cf05cfd4b3ebf46e96abfc-Abstract-Datasets_and_Benchmarks_Track.html

Zhou, Y., & Ryo, M. (2024). AgriBench: A hierarchical agriculture benchmark for MultiModal Large Language Models. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2412.00465

国立情報学研究所大学共同利用機関法人 情報・システム研究機構. (2016). NII人工知能プロジェクト「ロボットは東大に入れるか」/センター試験模試6科目で偏差値50以上. https://www.nii.ac.jp/news/release/2016/1114.html

株式会社LifePrompt. (2025). 【東大理3合格】ChatGPT o1とDeepSeek R1に2025年度東大受験を解かせた結果と答案分析【採点協力:河合塾】. https://note.com/lifeprompt/n/n0078de2ef36b

Posted


Submitted: 2025-04-23 13:33:29 UTC

Published: 2025-04-28 00:47:00 UTC
Section
Agriculture & Food Sciences