プレプリント / バージョン1

引用文脈分析における大規模言語モデル(LLM)の応用可能性

##article.authors##

  • 西川, 開 文部科学省科学技術・学術政策研究所
  • 小柴, 等 文部科学省科学技術・学術政策研究所

DOI:

https://doi.org/10.51094/jxiv.467

キーワード:

科学計量学、 計量書誌学、 引用文脈分析、 アノテーション、 大規模言語モデル(LLM)、 ChatGPT

抄録

従来の計量書誌的な引用分析に対して,個々の引用が持つ文脈的な情報を考慮に入れて分析を行う,引用文脈分析と呼ばれる手法が提案されている。
引用文脈分析は引用分析に対して相補的な知見をもたらすことが期待されるが,分析のためにはアノテーション作業により大規模なデータセットを作成する必要があり,そのためのコストが大きいことが課題となっている。一方で,昨今急速に普及しつつある大規模言語モデル (LLM, Large Language Model)にアノテーション作業を代行させようとする試みも見られるようになっている。ただし,こうした先行研究の多くは一般的なテキストを対象とするものであり,論文のような特殊な語彙・フォーマットをもつテキストに適用した場合にどのような性能を発揮するかは必ずしも明らかではない。本研究では,公開されている引用文脈分析のデータセットとその作成に用いたアノテーション作業のためのマニュアルを参照して,LLMの引用文脈分析への応用可能性を探ることを目的とする。より具体的には,1. 引用文脈分析におけるアノテーション作業についてLLMは人間を代替できるか、2. 引用文脈分析においてLLMをどのように活用することが有効であるかといった点について検討を行う。本研究の結果から,LLMによるアノテーションのパフォーマンスは一貫性という観点からは人間に匹敵もしくは上回るものの,精度においては高いパフォーマンスを発揮しているとはいえないことがわかった。このため,引用文脈分析に伴う人間によるアノテーション作業をただちにLLMに代行させることは現時点では適切ではない。しかし,人間のアノテーターの人数を確保することが難しい場合,LLMをアノテーターの一人として用いることは可能である。本研究は,引用文脈分析の今後の発展のために重要となる,以上のような基礎的な知見を提供するものである。

利益相反に関する開示

本論文の内容に関して宣言すべき利害関係を持たない。

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. arXiv (preprint), 2020.

Maud Borie, Mark Pelling, Gina Ziervogel, and Keith Hyams. Mapping narratives of urban resilience in the global south. Global Environmental Change, 54:203–213, jan 2019.

Center for S&T Foresight and Indicators. Science map2020, March 2023.

Rodrigo Dorantes-Gilardi,Aurora A. Ramírez-Álvarez, and Diana Terrazas-Santamaría. The role of highly intercited papers on scientific impact: the mexican case. Applied Network Science, 7(1), aug 2022.

Toyofumi Fujiwara and Yasunori Yamamoto. Colil: a database and search service for citation contexts in the life sciences domain. Journal of Biomedical Semantics, 6(1), oct 2015.

Xingwei He, Zhenghao Lin, Yeyun Gong, A-Long Jin, Hang Zhang, Chen Lin, Jian Jiao, Siu Ming Yiu, Nan Duan, and Weizhu Chen. AnnoLLM: Making large language models to be better crowdsourced annotators. arXiv (preprint), 2023.

Sehrish Iqbal, Saeed-Ul Hassan, Naif Radi Aljohani, Salem Alelyani, Raheel Nawaz, and Lutz Bornmann. A decade of in-text citation analysis based on natural language processing and machine learning techniques: an overview of empirical studies. Scientometrics, 126(8):6551–6599, jun 2021.

Chi-Shiou Lin. An analysis of citation functions in the humanities and social sciences research from the perspective of problematic citation analysis assumptions. Scientometrics, 116(2):797–813, may 2018.

M. Lupton and C. Mather. ‘the anti-politics machine’: GIS and the reconstruction of the johannesburg local state. Political Geography, 16(7):565–580, sep 1997.

Kai Nishikawa. How and why are citations between disciplines made? a citation context analysis focusing on natural sciences and social sciences and humanities. Scientometrics, 128(5):2975–2997, feb 2023.

Kai Nishikawa and Mie Monjiyama. Data on a citation context analysis focusing on natural sciences and social sciences and humanities. 2023.

Nicholas Pangakis, Samuel Wolken, and Neil Fasching. Automated annotation with generative ai requires validation. arXiv (preprint), 2023.

Michael V. Reiss. Testing the reliability of chatgpt for text annotation and classification: A cautionary remark. arXiv (preprint), 2023.

Christopher Michael Rytting, Taylor Sorensen, Lisa Argyle, Ethan Busby, Nancy Fulda, Joshua Gubler, and David Wingate. Towards coding social science datasets with language models. arXiv (preprint), 2023.

Iman Tahamtan and Lutz Bornmann. What do citation counts measure? an updated review of studies on citations in scientific documents published between 2006 and 2018. Scientometrics, 121(3):1635–1684, sep 2019.

Guo Zhang, Ying Ding, and Staša Milojević. Citation content analysis (CCA): A framework for syntactic and semantic analysis of citation content. Journal of the American Society for Information Science and Technology, 64(7):1490–1503, may 2013.

ダウンロード

公開済


投稿日時: 2023-07-31 05:20:55 UTC

公開日時: 2023-08-03 06:30:28 UTC
研究分野
学際科学