Preprint / Version 1

Automatic Detection of Sentence Final Forms of Japanese Novel Dialogues

##article.authors##

DOI:

https://doi.org/10.51094/jxiv.1401

Keywords:

sentence final form, Japanese novel, natural language processing

Abstract

小説の会話文の文末形式を自動認定するシステム\Kohaku を作成した。このシステムは、形態素解析結果に対して、文末の終助詞、接続助詞、丁寧表現、特殊表現、主要素形式の5種類の構成要素を規則に基づいて認定し、最終的に文末形式を決定する。システム開発には約915万文の会話文を用い、どのような範囲の形式を文末形式に含めるか、出現形をどこまで区別し、どこから正規化するかを具体例に基づいて決定し、構成要素の認定規則集合を定めた。このシステムを使用することにより、小説の登場人物のセリフがどのように書き分けられているかを定量的に観察することできる。

Conflicts of Interest Disclosure

The author declares no conflicts of interest associated with this manuscript.

Downloads *Displays the aggregated results up to the previous day.

Download data is not yet available.

References

益岡隆志・田窪行則(2024). 『基礎日本語文法 第3版』, くろしお出版.

上野智子・定延利之・佐藤和之・野田春美 (編) (2025). 『日本語のバラエティ』, おうふう.

小川早百合 (2006). 「話しことばの終助詞の男女差の実際と意識 ---日本語教育での活用に向けて---」, 日本語ジェンダー学会(編) 『日本語とジェンダー』, pp.39-51. ひつじ書房.

鈴木睦(2007). 「言葉の男女差と日本語教育」, 日本語教育, 134, pp.48-57.

金水敏(2003). 『ヴァーチャル日本語 役割語の謎』, 岩波書店.

金水敏(編)(2014). 『〈役割語〉小辞典』, 研究社.

遠藤織枝(1997). 「ドラマのことば ---NHK TV「レイコさんの歯医者さん」をめぐって---」, 日本語学, 16:1, pp.67--79.

下條正純(2012). 「「マリヤ様がみてる」における女性文末辞と人物描写」, コンテンツ文化史研究, 7, pp.12-24.

朽方修一(2017). 「ライトノベルにおける女性文末形式」, ヨーロッパ日本語教育(21), pp.148-153.

安井寿枝(2024). 「キャラクター言語に見るジェンダー意識---宮﨑駿作品の特徴とは---」日本語学, 43:1.

佐藤理史(2024). 「小説のセリフの書き分けに使われる文末形式」, 言語資源ワークショップ2024発表論文集, pp.464-493.

Kazuma Takaoka, Sorami Hisamoto, Noriko Kawahara, Miho Sakamoto, Yoshitaka Uchida, and Yuji Matsumoto (2018). ``Sudachi: a Japanese Tokenizer for Business'', Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).

有川浩(2011a). 『図書館戦争』, 角川文庫.

有川浩(2011b). 『図書館危機』, 角川文庫.

白川博之(2009). 『「言いさし文」の研究』, くろしお出版.

山崎誠・宮嵜由美・柏野和佳子(2022). 「小説会話文への話者情報付与」, 国立国語研究所. https://www2.ninjal.ac.jp/conversation/report/report05.pdf

川北雄大・石川和樹・夏目和子・小川浩平・佐藤理史(2024). 「口調弁別評価データセットの作成と口調エンコーダの評価」, 情報処理学会研究報告, Vol.2024-NL-259 No.16.

佐藤理史(2025). 「小説会話文の文末形式リストの作成」, 言語資源ワークショップ2025. 発表予定

Posted


Submitted: 2025-07-23 07:08:12 UTC

Published: 2025-07-28 01:26:20 UTC
Section
Information Sciences