Preprint / Version 1

Electronic Textualization of a Japanese Rendition of Kanbun Using Aozora Bunko Annotations, and Visualization of the Workload of Reading the Analects of Confucius

##article.authors##

  • Toshiaki Umemura Independent

DOI:

https://doi.org/10.51094/jxiv.1370

Keywords:

Kanbun, the Analects of Confucius, Aozora Bunko, punctuated text, permutation

Abstract

The reading of classical Chinese texts in Japanese involves adding kunten marks to classical Chinese texts, then rearranging the word order to read them in Japanese.
The Aozora Bunko annotations are simple markup, but there is a kunten notation, and many viewing software programs adopt it. We converted the readings of the Analects, consisting of 499 chapters in 20 volumes, into electronic text using the Aozora Bunko annotations. In order to see the characteristics of the reading, we introduced the number of steps in length including the return reading, the number of loops in the number of times of return reading, and the CR notation indicating the structure of the return reading. For short sentences up to 5 characters, we exhausted all permutations that correspond to reordering the word order and looked at the structure of the return reading. The results showed that the number of permutations, sentences made with parentheses and inverted signs, and sentences that can be represented by actual return marks, in that order, were less, indicating the characteristics of actual return marks. We analyzed the readings of the Analects with a unit of sentences divided by punctuation marks. There were 3,820 sentences, with a median length of 4 characters. The median of number of steps was 6, and the majority of sentences had more than one loop, indicating the workload of the reading. On the other hand, there were only about 60 main return reading structures, and the more complex structures were less common.

Conflicts of Interest Disclosure

The authors declare no conflicts of interest regarding this manuscript.

Downloads *Displays the aggregated results up to the previous day.

Download data is not yet available.

References

篠原泰彦: コンピューター上の漢文訓読表記法に関する現状と課題. 國學院中國學會報 65: 105-128, 2019.

叢艶, 高久雅生: 漢詩の構造化に関する研究——唐詩作品を中心に. 情報知識学会誌 32(1): 15-38, 2022.

崎原麗霞: データからみる『論語』. 鳥取大学教育支援・国際交流推進機構教養教育センター紀要 18: 53-60, 2022.

ウィキソース(2023)「論語」〈https://ja.wikisource.org/wiki/論語〉(参照 2025-7-6).

下村湖人(1938)『論語物語』大日本雄弁会講談社, (国立国会図書館デジタルコレクション)〈https://dl.ndl.go.jp/pid/1256322〉(参照 2025-7-6).

青空文庫(2022)「青空文庫 注記一覧」〈https://www.aozora.gr.jp/annotation/〉(参照 2025-7-6).

漢字データベースプロジェクト(2008)「青空文庫の注記文法」〈https://kanji-database.sourceforge.net/aozora/grammar.html〉(参照 2025-7-6).

佐藤和彦/えあ草紙工房(2025)「えあ草紙」〈https://www.satokazzz.com〉(参照 2025-7-6).

大久保ゆう: 日本語デジタルテキストの「正書法」を探求した青空文庫:日本語(による/のための)マークアップの誕生とルールの発展・活用、テキストの品質管理. デジタルアーカイブ学会誌 2(2): 87-90, 2018.

内海淳: 非専門家指向のデジタル・アーカイヴズに向けて ―漢文表現へのXMLの適用―. コンピュータ&エデュケーション 18: 34-39, 2005.

高田智和, 小助川貞次: 訓点資料の構造化記述 成果報告書. 国立国語研究所 共同研究報告 12-08: , 2025.

藤田眞作(1999)「漢文の訓点文の組版」〈http://xymtex.my.coocan.jp/fujitas/kanbun/kanbunex.html〉(参照 2025-7-6).

Phesoca(2025)「漢文HTML」〈https://phesoca.com/kanbun-html/〉(参照 2025-7-6).

安岡孝一: 漢文自動訓読ツールUD-Kundokuの開発. 東洋学へのコンピュータ利用 第32回研究セミナー: 3-25, 2020.

小林敏(2016)「日本語組版とつきあう その55 漢文を構成する要素」〈https://www.jagat.or.jp/archives/20288〉(参照 2025-7-6).

山口満, 三輪多恵子: 漢文テキストの縦書きWeb表示に関する検討. 豊橋創造大学紀要 21: 29-36, 2017.

下川和男: 特集 IT時代の漢字・漢文教育 電子書籍フォーマットEPUB(イーパブ)の日本語拡張. 漢文教室 197: 10-12, 2011.

島野達雄: 漢文訓読のアルゴリズムについて. 第14回数学史研究発表会, 2007.

島野達雄, 古田島洋介, 湯城吉信, 田村誠: 漢文の複雑度について. 計量国語学会第63回大会, 2019.

齊藤正高:『論語』の基礎統計. 中国21 50: 77-98, 2019

松山巌: 漢文訓読の返り点に括弧を導入して構造化する試み. 玉川大学教育学部紀要 2013: 176~188, 2014.

横山知幸: 英文和訳における語順. 中国地区英語教育学会研究紀要 35: 137-146, 2005.

合山林太郎: 近代日本漢文学研究における近年の動向. 日本近代文学 105: 110-116, 2021.

文部省: 漢文教授ニ関スル調査報告. 官報 8630号: 15-19, 1912.

喜多三佳: 古典のテキストデータ化と著作権. 四国大学 附属経営情報研究所年報 10: 113-124, 2004.

Posted


Submitted: 2025-07-12 00:16:40 UTC

Published: 2025-07-18 10:16:07 UTC
Section
Literature, Language & Linguistics and Art