whole-NWJC: the entire data set of the 'NINJAL Web Japanese Corpus'
DOI:
https://doi.org/10.51094/jxiv.836Keywords:
Web Corpus, Web CrawlerAbstract
"This paper provides an explanation of the whole-NWJC: the entire data set of the 'NINJAL Web Japanese Corpus' (NWJC). This data can be accessed by applying for a joint research project with the National Institute for Japanese Language and Linguistics."
Conflicts of Interest Disclosure
This study was conducted as part of a project by the National Institute for Japanese Language and Linguistics. It did not receive funding from corporations or other organizations.Downloads *Displays the aggregated results up to the previous day.
References
Masayuki Asahara and Kikuo Maekawa. Design of a Web-scale Japanese Corpus. In Proceedings of the Con-ference of the Pacific Association for Computational Linguistics (PACLING-2013), 2013.
浅原正幸, 今田水穂, 保田祥, 小西光, 前川喜久雄. Web を母集団とした超大規模コーパスの開発収集と組織化. 国立国語研究所論集, No. 7, 5 2014.
Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, and Hikari Konishi. Archiving and Analysing Tech-niques of the Ultra-large-scale Web-based Corpus Project of NINJAL, Japan. Alexandria, Vol. 26, No. 1-2, pp. 129–148, 2014.
Masayuki Asahara, Kazuya Kawahara, Yuya Takei, Hideto Masuoka, Yasuko Ohba, Yuki Torii, Toru Morii, Yuki Tanaka, Kikuo Maekawa, Sachi Kato, and Hikari Kon-ishi. ’BonTen’ - Corpus Concordance System for ’NIN-JAL Web Japanese Corpus’. In Proceedings of COLING-2016 Demo Session, 2016.
浅原正幸, 河原一哉, 大場寧子, 前川喜久雄. 『国語研日本語ウェブコーパス』とその検索系『梵天』. 情報処理学会論文誌, Vol. 59, No. 2, pp. 299–306, 2018.
Masayuki Asahara. NWJC2Vec: Word embedding dataset from ’NINJAL Web Japanese Corpus’. Terminology: International Journal of Theoretical and Applied Is-sues in Specialized Communication, Vol. 24, No. 2, pp. 7–25, 2018.
新納浩幸, 浅原正幸, 古宮嘉那子, 佐々木稔. nwjc2vec:国語研日本語ウェブコーパスから構築した単語の分散表現データ. 自然言語処理, Vol. 24, No. 5, pp. 705–720, 2017.
真鍋陽俊, 岡照晃, 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸. 複数粒度の分割結果に基づく日本語単語分散表現. 言語処理学会第25 回年次大会(NLP2019), pp. NLP2019–P8–5. 言語処理学会, 2019.
河村宗一郎, 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝, 岡照晃, 浅原正幸. chive 2.0: Sudachi とnwjc を用いた実用的な日本語単語ベクトルの実現へ向けて. 言語処理学会第26 回年次大会(NLP2020), pp. NLP2020–P6–16. 言語処理学会, 2020.
久本空海, 山村崇, 勝田哲弘, 竹林佑斗, 髙岡一馬,内田佳孝, 岡照晃, 浅原正幸. chive: 製品利用可能な日本語単語ベクトル資源の実現へ向けて. 第16 回テキストアナリティクス・シンポジウム, pp. IEICE–NLC2020–9. 電子情報通信学会, 2020.
浅原正幸, 西内沙恵, 加藤祥. Nwjc-bert: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析. 言語処理学会第26 回年次大会発表論文集, pp. 961–964, 2020.
勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸. 単語正規化による表記ゆれに頑健なbert モデルの構築. 言語処理学会第28 回年次大会(NLP2022). 言語処理学会, 2022.
Downloads
Posted
Submitted: 2024-08-01 05:38:36 UTC
Published: 2024-08-05 04:01:37 UTC
License
Copyright (c) 2024
Masayuki Asahara
This work is licensed under a Creative Commons Attribution 4.0 International License.