プレプリント / バージョン1

Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法

##article.authors##

  • 坂地, 泰紀 北海道大学大学院情報科学研究院 https://researchmap.jp/hiroki_sakaji
  • 野中, 尋史 愛知工業大学経営学部経営学科経営情報システム専攻
  • 酒井, 浩之 成蹊大学理工学部理工学科
  • 増山, 繁 豊橋技術科学大学

DOI:

https://doi.org/10.51094/jxiv.838

キーワード:

パテントマイニング、 情報抽出、 テキストマイニング、 ブートストラップ手法

抄録

特許文書から直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現を自動的に抽出するアルゴリズム「Cross-Bootstrapping」を提案する.特許出願件数は年間 40 万件にものぼり,1 文書当りの文章量も膨大であるため,出願動向調査に有用なパテントマップ(特許出願動向を可視化したもの)を手作業で作成するには多大な時間とコストを要するため,その作成に役立つ情報を自動的に抽出する技術が求められている.そこで,本研究ではパテントマップの作成に役立つ「直接的なユーザの便益に相当する表現」と「技術上の解決課題を示す表現」を自動的に抽出する.本手法は,二つの手がかりと統計情報を用いて,ブートストラップ的に表現対を抽出する.また,辞書や人手により作成したパターンを用いず,自動的に表現を抽出することができる.最後に本手法の評価実験を行い,F 値 0.89 と高い性能を達成したことを確認した.

利益相反に関する開示

本論文に公表すべきCOIはありません.

ダウンロード *前日までの集計結果を表示します

ダウンロード実績データは、公開の翌日以降に作成されます。

引用文献

石川大介,石塚英弘,宇陀則彦,藤原譲,“特許文献における因果関係の抽出と統合,” 情報知識学会誌,vol.14, no.4, pp.105–118, 2004.

工藤拓,松本裕治,“チャンキングの段階適用による日本語係り受け解析,” 情処学論,vol.43, no.6, pp.1834–1842, 2002.

P. Pantel and M. Pennacchiotti, “Espresso: Leveraging generic patterns for automatically harvesting semantic relations,” Proc. 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL, pp.113–120, 2006.

A. Fujii, M. Iwayama, and N. Kando, “Test collections for patent-to-patent retrieval and patent map generation in ntcir-4 workshop,” Working Notes of NTICR-4, 2004.

H. Nanba, A. Fujii, M. Iwayama, and T. Hashimoto, “Overview of the patent mining task at the ntcir-7 workshop,” Proc. NTCIR-7 Workshop Meeting, 2008.

H. Uchida and A. Mano, “Patent map generation using concept-based vector space model,” Working Notes of NTICR-4, 2004.

谷川英和,新森昭宏,“言語処理に基づく特許価値評価支援システムと特許読解支援システム,” 日本知財学会第 4回年次学術研究発表会,pp.444–449, 2006.

新森昭宏,奥村学,丸川雄三,岩山真,“手がかり句を用いた特許請求項の構造解析,” 情処学論,vol.45, no.3, pp.891–905, 2004.

安彦元,“格文法を利用した特許請求の範囲の限定度合解析とその戦略的応用,” 日本知財学会第 7 回年次学術研究発表会,2009.

難波英嗣,奥村学,新森昭宏,谷川英和,鈴木泰山,“特許データベースからのシソーラスの自動構築,” 言語処理学会第 13 回年次大会,pp.1113–1116, 2007.

酒井浩之,野中尋史,増山繁,“特許明細書からの技術課題情報の抽出,” 人工知能誌,vol.24, no.6, pp.531–540, 2009.

M. Thelen and E. Riloff, “A bootstrapping method for learning semantic lexicons using extraction pattern contexts,” Proc. Conference on Empirical Methods in Natural Language Processing, pp.214–221, 2022.

A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” COLT: Proc. Workshop on Computational Learning Theory, pp.92–100, 1998.

ダウンロード

公開済


投稿日時: 2024-08-03 09:03:27 UTC

公開日時: 2024-08-21 01:36:38 UTC
研究分野
情報科学