プレプリント / バージョン1

whole-NWJC:『国語研日本語ウェブコーパス』全データ

##article.authors##

DOI:

https://doi.org/10.51094/jxiv.836

キーワード:

ウェブコーパス、 ウェブクローラ

抄録

本稿では、whole-NWJC:『国語研日本語ウェブコーパス』(NINJAL Web Japanese Corpus: NWJC)の全データについて解説する。
同データは国立国語研究所と共同研究を申請することで利用できる。

利益相反に関する開示

本研究は、国立国語研究所プロジェクト「日本語記述の精密化を目指した超大規模コーパスの構築」(2011-2015)において実施したものである。企業などからの助成は受けていない。

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

Masayuki Asahara and Kikuo Maekawa. Design of a Web-scale Japanese Corpus. In Proceedings of the Con-ference of the Pacific Association for Computational Linguistics (PACLING-2013), 2013.

浅原正幸, 今田水穂, 保田祥, 小西光, 前川喜久雄. Web を母集団とした超大規模コーパスの開発収集と組織化. 国立国語研究所論集, No. 7, 5 2014.

Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, and Hikari Konishi. Archiving and Analysing Tech-niques of the Ultra-large-scale Web-based Corpus Project of NINJAL, Japan. Alexandria, Vol. 26, No. 1-2, pp. 129–148, 2014.

Masayuki Asahara, Kazuya Kawahara, Yuya Takei, Hideto Masuoka, Yasuko Ohba, Yuki Torii, Toru Morii, Yuki Tanaka, Kikuo Maekawa, Sachi Kato, and Hikari Kon-ishi. ’BonTen’ - Corpus Concordance System for ’NIN-JAL Web Japanese Corpus’. In Proceedings of COLING-2016 Demo Session, 2016.

浅原正幸, 河原一哉, 大場寧子, 前川喜久雄. 『国語研日本語ウェブコーパス』とその検索系『梵天』. 情報処理学会論文誌, Vol. 59, No. 2, pp. 299–306, 2018.

Masayuki Asahara. NWJC2Vec: Word embedding dataset from ’NINJAL Web Japanese Corpus’. Terminology: International Journal of Theoretical and Applied Is-sues in Specialized Communication, Vol. 24, No. 2, pp. 7–25, 2018.

新納浩幸, 浅原正幸, 古宮嘉那子, 佐々木稔. nwjc2vec:国語研日本語ウェブコーパスから構築した単語の分散表現データ. 自然言語処理, Vol. 24, No. 5, pp. 705–720, 2017.

真鍋陽俊, 岡照晃, 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸. 複数粒度の分割結果に基づく日本語単語分散表現. 言語処理学会第25 回年次大会(NLP2019), pp. NLP2019–P8–5. 言語処理学会, 2019.

河村宗一郎, 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝, 岡照晃, 浅原正幸. chive 2.0: Sudachi とnwjc を用いた実用的な日本語単語ベクトルの実現へ向けて. 言語処理学会第26 回年次大会(NLP2020), pp. NLP2020–P6–16. 言語処理学会, 2020.

久本空海, 山村崇, 勝田哲弘, 竹林佑斗, 髙岡一馬,内田佳孝, 岡照晃, 浅原正幸. chive: 製品利用可能な日本語単語ベクトル資源の実現へ向けて. 第16 回テキストアナリティクス・シンポジウム, pp. IEICE–NLC2020–9. 電子情報通信学会, 2020.

浅原正幸, 西内沙恵, 加藤祥. Nwjc-bert: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析. 言語処理学会第26 回年次大会発表論文集, pp. 961–964, 2020.

勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸. 単語正規化による表記ゆれに頑健なbert モデルの構築. 言語処理学会第28 回年次大会(NLP2022). 言語処理学会, 2022.

ダウンロード

公開済


投稿日時: 2024-08-01 05:38:36 UTC

公開日時: 2024-08-05 04:01:37 UTC
研究分野
文学・言語学・芸術学