生成AIを用いた危機言語資源活用の試み
―沖永良部島における方言AIの開発と翻訳精度の初期評価―
DOI:
https://doi.org/10.51094/jxiv.3347キーワード:
危機言語、 生成AI、 方言AI、 言語資源活用、 沖永良部島、 琉球諸語抄録
本研究は,危機言語の言語資源を地域社会で活用可能な形で還元するためのインターフェースとして,生成AIを活用した方言AIの開発を試みるものである。対象とするのは奄美群島沖永良部島の言語「しまむに」であり,地域住民と研究者が共同で整備してきた辞書資料を基盤として,対話型AI構築プラットフォームmiibo(https://miibo.ai/)を用い,集落単位の方言AIを構築した。上平川集落では小学校の方言授業での利用を想定したクイズ型AIを,田皆集落では辞書検索インターフェースとしての方言AIを実装し,教育現場および地域コミュニティでの活用とフィードバックの収集を行った。さらに標準語から方言への翻訳機能について初期的な検証を行った結果,翻訳性能は単純なデータ量の多寡ではなく,搭載モデルの性質およびナレッジベースの語彙・例文の整備状況に大きく依存する可能性が示唆された。本研究は,生成AIを媒介として危機言語資源を地域で「使える」形に再構成する試みとして位置づけられ,今後の危機言語研究における資源活用の新たな可能性を示すものである。
利益相反に関する開示
本研究は,科研費研究24K00074「九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発」(代表:坂井美日)の助成、および技術提供を受けて実施された。なお,本研究で用いたデータは,科研費24K00069,24H00092,国立国語研究所の共同研究「消滅危機言語の保存研究」(代表:山田真寛)の成果を含む。企業等との共同研究および助成は受けていない。ダウンロード *前日までの集計結果を表示します
引用文献
B. Zoph, et al., “Transfer Learning for Low-Resource Neural Machine Translation,” Proc. Conference on Empirical Methods in Natural Language Processing, pp.1568–1575, 2016.
Christopher Moseley, and Alexandre Nicolas. n.d. Atlas of the World’s Languages in Danger. https://unesdoc.unesco.org/ark:/48223/pf0000187026.pdf
Himmelmann, Nikolaus P. 2006. “Language Documentation: What Is It and What Is It Good For.” Essen-tials of Language Documentation 178 (1).
Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, and Authors Info & Claims. 2002. “BLEU: A Method for Automatic Evaluation of Machine Translation.” Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 311–18.
Martínez-García, Antonio, Toni Badia, and Jeremy Barnes. 2021. “Evaluating Morphological Typology in Zero-Shot Cross-Lingual Transfer.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Pro-cessing (Volume 1: Long Papers), 3136–53.
Tokunaga, Akiko. 2013. “Geographical Distribution of Mimetics in Amami-Okinoerabu Island.” Interna-tional Journal of Okinawan Studies. 4 (1): 13–28.
World Atlas of Languages https://en.wal.unesco.org/
Yokoyama, Akiko, and Masahiro Yamada. Forthcoming. “Documenting Languages with Dialectal Varia-tion: A Community-Driven Approach.” In Shoichi Iwasaki and William O’Grady (eds.) Endangered and Marginalized Languages in East and Southeast Asia. Brill
Zoph, Barret, Deniz Yuret, Jonathan May, and Kevin Knight. 2016. “Transfer Learning for Low-Resource Neural Machine Translation.” Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 1568–75.
奥間透,真田信治(1983)「沖永良部島における口蓋化音の分布域」『琉球の方言』8: 145–66.
坂井美日(2024)「生成 AI を活用した九州・琉球の方言対話システムの開発—言語継承支援への応用—」『人工知能学会研究会資料 言語・音声理解と対話処理研究会』102: 11–15.
たんにゃむに辞書編集委員会(2025)『たんにゃむに辞書(沖永良部島田皆方言辞書) 2025年版』. 国立国語研究所.
宮川創(2026)「奄美群島与論島方言の機械翻訳へのLLM-RAGの応用 ―『与論のしまがたり』を用いた文節パラレルデータによる検証―」『信学技報』125 (366): 19–24.
「日本の消滅危機言語・方言の記録とドキュメンテーションの作成」プロジェクト(2016)「基礎語彙調査票(1174項目)」国立国語研究所. https://doi.org/10.15084/0002000609
横山晶子(2022)『0から学べる島むに読本 : 琉球沖永良部島のことば』 ひつじ書房.
横山晶子(2023)「沖永良部島民の言語意識資料 : アンケート調査を元に」『方言の研究』日本方言研究会(編)9: 161–71.
横山晶子, 籠宮隆之(2019)「言語実験に基づく言語衰退の実態の解明 : 琉球沖永良部島を事例に」『方言の研究』日本方言研究会(編)5: 353–76.
横山晶子,岩崎典子,高智子,小山多民代(2025)「危機⾔語継承に向けた Master-Apprentice⽅式の実践と検証-沖永良部島の事例ー」第285回NINJALサロン,2025年6月24日.
ダウンロード
公開済
投稿日時: 2026-03-08 01:48:15 UTC
公開日時: 2026-03-11 09:20:36 UTC
ライセンス
Copyright(c)2026
横山, 晶子
この作品は、Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International Licenseの下でライセンスされています。
