これは2025-10-21 01:03:58 UTCで公開された古いバージョンです。最新バージョンをお読みください。
プレプリント / バージョン1

東南アジアにおける研究の実践から見た大規模言語モデルの利活用について

##article.authors##

  • 八木, 暢昭 京都大学大学院アジア・アフリカ地域研究研究科

DOI:

https://doi.org/10.51094/jxiv.1644

キーワード:

東南アジア地域研究、 マレーシア政治、 大規模言語モデル、 GPT、 BERT

抄録

本稿は、 東南アジアの政治研究における非構造化テキストの構造化という課題に対し、 大規模言語モデル (LLM) の実践的利活用を検討したものである。 従来の研究は人手のラベリングに依存し、 大規模データへの対応と一貫性に課題が生じていた。 本稿では、 ⑴OpenAI API で汎用モデルを用いる方法と、⑵BERTをファインチューニングして用いる方法を、同一タスク(マレーシア政治のニュース/コメントを 12 個のトピック、 4 つの極性で分類するという事例) で比較しながら提示する。 前者ではプロンプトエンジニアリングを施しながら、温度パラメータ(temperature)を 0 にし、Structured Outputs による JSON 形式の出力設定で多様性と出力形式を制御することで、少数の例示で高精度かつ一定の再現性を得る利点があるが、完全な再現性を得ることには限界がある。Facebook と Reddit の計 43,546 件から抽出したテスト 50件に対し、 GPT-4o-mini で分類した結果の重み付き F1 スコアは 0.8752 であった。 後者の BERT では Human-in-the-Loop を核に、 k 平均法による多様性サンプリングと予測確率に基づく不確実性サンプリングを反復して決定境界付近を重点的にアノテーションしていき、データを 405 件、1,205 件、そして 1,705 件へと拡充した。加えて肯定的/中立的なデータが少ないというデータの偏りを補正するため、OpenAI API で200 件の人工的なデータを作成してデータ拡張を行った。その結果、重み付き F1 は 0.6898、 0.7134、 0.8212、0.8476 と改善し、 最終的にハイパーパラメータのチューニングをしたモデルでは 0.8606 に到達して GPT-4o-mini に近い性能となった。トピック別では政治的リーダーシップや行政パフォーマンスなど、単一文に賛否が並存しやすい領域では性能が伸び悩み、実務上ではラベル設計の再考が有効であることが示唆された。再現性の許容度が高い場面では API の活用が有効であり、長期の安定運用やバージョン固定、データ拡張による性能の向上を目指す場面では BERT のファインチューニングが有利である。加えて、人間による出力の監視とデータの統計的な品質管理、大規模言語モデルを適用する領域に関する知見とデータサイエンスの協働が不可欠である。 本報告は LLM を用いた社会科学における定量的な分析に対する実務的なロードマップを提示した。

利益相反に関する開示

利益相反はありません。

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Alammar, Jay and Grootendorst, Maarten(2025)、『直感LLM―ハンズオンで動かして学ぶ大規模言語モデル入門』(中山光樹訳、原著は2024年発行)オライリー・ジャパン。

Vajjala, Sowmya., Majumder, Bodhisattwa., Gupta, Anuj and Suranam Harshit(2022)『実践自然言語処理―実世界NLPアプリケ ーション開発のベストプラクティス』(中山光樹訳、原著は2020年発行)オライリー・ジャパン。

岡本正明・八木暢昭・久納源太(2024)、「第5回ティックトックの政治化は民主主義を空洞化するのか? 」『IDEスクエア--世界を見る眼』、1- 9ペ ージ。

OpenAI(2020)、『OpenAI API』(2025年10月7日に最終アクセス、https://openai.com/ja-JP/index/openai-api/)。

——— (2024)、『APIにStructured Outputsを導入』(2025年10月7日に最終アクセス、https://openai.com/ja-JP/index/introducing-structured-outputs-in-the-api/)。

Ozdemir, Sinan(2023)、『事例で学ぶ特徴量エンジニアリング』(田村広平・大野真一朗・砂長谷健・土井健・大貫峻平・石山将成訳、原著は2022年発行)オライリー・ジャパン。

Géron, Aurélien(2024)『scikit-learn、Keras、TensorFlowによる実践機械学習第3版』(下田倫大・牧允皓・長尾高弘訳、原著は2022年発行)オライリー・ジャパン。

鈴木貴之編(2023)、『人工知能とどうつきあうか哲学から考える』勁草書房。

Tunstall, Lewis., Von Werra, Leandro and Wolf, Thomas(2022)、『機械学習エンジニアのためのTransformers―最先端の自然言語処理ライブラリによるモデル開発』(中山光樹訳、原著は2022年発行)オライリー・ジャパン。

Huyen, Chip(2023)、『機械学習システムデザイン―実運用レベルのアプリケーションを実現する継続的反復プロセス』(江川崇・平山順一訳、原著は2022年発行)オライリー・ジャパン。

Fregly, Chris., Barth, Antje and Eigenbrode, Shelbee(2024)『AWSではじめる生成AI―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ』(久富木隆一訳、本橋和貴・久保隆宏技術監修、原著は2023年発行)オライリー・ジャパン。

Monarch, R. M.(2023)、『Human-in-the-Loop機械学習―人間参加型AIのための能動学習とアノテーション―』(上田隼也・角野為耶・伊藤寛祥訳、原著は2021年発行)共立出版。

山田育矢・鈴木正敏・山田康輔・李凌寒(2023)、『大規模言語モデル入門』技術評論社。

Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., ... and McGrew, B. (2023). "GPT-4 technical report," arXiv preprint arXiv:2303.08774.

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... and Amodei, D. (2020). "Language models are few-shot learners," Advances in neural information processing systems, 33, pp. 1877-1901.

Chinnasamy, S., & Manaf, N. A. (2018). "Social media as political hatred mode in Malaysia's 2018 General Election," SHS Web of Conferences, 53.

Devlin, J., Chang, M. W., Lee, K. and Toutanova, K. (2019). "Bert: Pre-training of deep bidirectional transformers for language understanding," Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), pp. 4171-4186.

Geiger, R. S., Yu, K., Yang, Y., Dai, M., Qiu, J., Tang, R. and Huang, J. (2020). "Garbage in, garbage out? Do machine learning application papers in social computing report where human-labeled training data comes from?," Proceedings of the 2020 conference on fairness, accountability, and transparency, pp. 325-336.

Ghanem, M., Ghaith, A. K., El-Hajj, V. G., Bhandarkar, A., De Giorgio, A., Elmi-Terander, A. and Bydon, M. (2023). "Limitations in evaluating machine learning models for imbalanced binary outcome classification in spine surgery: a systematic review," Brain Sciences, 13 (12), 1723.

Grimmer, J., Roberts, M. E. and Stewart, B. M. (2022). Text as data: A new framework for machine learning and the social sciences. Princeton University Press.

Hinojosa Lee, M. C., Braet, J. and Springael, J. (2024). "Performance metrics for multilabel emotion classification: comparing micro, macro, and weighted f1-scores," Applied Sciences, 14 (21), 9863.

Kasmani, M. F. (2020). "How did people Tweet in the 2018 Malaysian general election: Analysis of top Tweets in #PRU14," IIUM Journal of Human Sciences, 2 (1), pp. 39-54.

Kasmani, M. F., Sabran, R. and Ramle, N. (2014). "Can Twitter be an effective platform for political discourse in Malaysia? A study of #PRU13," Procedia-Social and Behavioral Sciences, 155, pp. 348-355.

Mosqueira-Rey, E., Hernández-Pereira, E., Alonso-Ríos, D., Bobes-Bascarán, J. and Fernández-Leal, Á. (2023). "Human-in-the-loop machine learning: a state of the art," Artificial Intelligence Review, 56 (4), pp. 3005-3054.

Müller-Hansen, F., Callaghan, M. W. and Minx, J. C. (2020). "Text as big data: Develop codes of practice for rigorous computational text analysis in energy social science," Energy Research & Social Science, 70, 101691.

Silva, M. O., Oliveira, G. P., Costa, L. G. and Pappa, G. L. (2024). "GovBERT-BR: A BERT-Based Language Model for Brazilian Portuguese Governmental Data," Brazilian Conference on Intelligent Systems, pp. 19-32.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... and Polosukhin, I. (2017). "Attention is all you need," Advances in neural information processing systems, 30.

Wu, X., Xiao, L., Sun, Y., Zhang, J., Ma, T., and He, L. (2022). "A survey of human-in-the-loop for machine learning," Future Generation Computer Systems, 135, pp. 364-381.

Zhang, J., Zhao, Y., Saleh, M. and Liu, P. (2020). "Pegasus: Pre-training with extracted gap-sentences for abstractive summarization," International conference on machine learning, pp. 11328-11339.

Zhao, H., Chen, H. and Yoon, H. J. (2023). "Enhancing text classification models with generative ai-aided data augmentation," 2023 IEEE International Conference On Artificial Intelligence Testing (AITest), pp. 138-145.

ダウンロード

公開済


投稿日時: 2025-10-10 07:35:08 UTC

公開日時: 2025-10-21 01:03:58 UTC

バージョン

改版理由

研究分野
法学・政治学