Preprint / Version 1

Cross-Bootstrapping: An Automatic Extraction Method of Solution-Effect Expressions from Patent Documents

##article.authors##

  • Hiroki Sakaji Research Faculty of Information Science and Technology, Hokkaido University https://researchmap.jp/hiroki_sakaji
  • Hirofumi Nonaka Department of Business Administration,Faculty of Business Administration,AICHI INSTITUTE OF TECHNOLOGY
  • Hiroyuki Sakai Faculty of Science and Technology, Department of Science and Technology, SEIKEI University
  • Shigeru Masuyama Toyohashi University of Technology

DOI:

https://doi.org/10.51094/jxiv.838

Keywords:

Patent Mining, Information Extraction, Text Mining, Bootstrapping

Abstract

特許文書から直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現を自動的に抽出するアルゴリズム「Cross-Bootstrapping」を提案する.特許出願件数は年間 40 万件にものぼり,1 文書当りの文章量も膨大であるため,出願動向調査に有用なパテントマップ(特許出願動向を可視化したもの)を手作業で作成するには多大な時間とコストを要するため,その作成に役立つ情報を自動的に抽出する技術が求められている.そこで,本研究ではパテントマップの作成に役立つ「直接的なユーザの便益に相当する表現」と「技術上の解決課題を示す表現」を自動的に抽出する.本手法は,二つの手がかりと統計情報を用いて,ブートストラップ的に表現対を抽出する.また,辞書や人手により作成したパターンを用いず,自動的に表現を抽出することができる.最後に本手法の評価実験を行い,F 値 0.89 と高い性能を達成したことを確認した.

Conflicts of Interest Disclosure

There is no COI to disclose in this paper.

Downloads *Displays the aggregated results up to the previous day.

Download data is not yet available.

References

石川大介,石塚英弘,宇陀則彦,藤原譲,“特許文献における因果関係の抽出と統合,” 情報知識学会誌,vol.14, no.4, pp.105–118, 2004.

工藤拓,松本裕治,“チャンキングの段階適用による日本語係り受け解析,” 情処学論,vol.43, no.6, pp.1834–1842, 2002.

P. Pantel and M. Pennacchiotti, “Espresso: Leveraging generic patterns for automatically harvesting semantic relations,” Proc. 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL, pp.113–120, 2006.

A. Fujii, M. Iwayama, and N. Kando, “Test collections for patent-to-patent retrieval and patent map generation in ntcir-4 workshop,” Working Notes of NTICR-4, 2004.

H. Nanba, A. Fujii, M. Iwayama, and T. Hashimoto, “Overview of the patent mining task at the ntcir-7 workshop,” Proc. NTCIR-7 Workshop Meeting, 2008.

H. Uchida and A. Mano, “Patent map generation using concept-based vector space model,” Working Notes of NTICR-4, 2004.

谷川英和,新森昭宏,“言語処理に基づく特許価値評価支援システムと特許読解支援システム,” 日本知財学会第 4回年次学術研究発表会,pp.444–449, 2006.

新森昭宏,奥村学,丸川雄三,岩山真,“手がかり句を用いた特許請求項の構造解析,” 情処学論,vol.45, no.3, pp.891–905, 2004.

安彦元,“格文法を利用した特許請求の範囲の限定度合解析とその戦略的応用,” 日本知財学会第 7 回年次学術研究発表会,2009.

難波英嗣,奥村学,新森昭宏,谷川英和,鈴木泰山,“特許データベースからのシソーラスの自動構築,” 言語処理学会第 13 回年次大会,pp.1113–1116, 2007.

酒井浩之,野中尋史,増山繁,“特許明細書からの技術課題情報の抽出,” 人工知能誌,vol.24, no.6, pp.531–540, 2009.

M. Thelen and E. Riloff, “A bootstrapping method for learning semantic lexicons using extraction pattern contexts,” Proc. Conference on Empirical Methods in Natural Language Processing, pp.214–221, 2022.

A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” COLT: Proc. Workshop on Computational Learning Theory, pp.92–100, 1998.

Posted


Submitted: 2024-08-03 09:03:27 UTC

Published: 2024-08-21 01:36:38 UTC
Section
Information Sciences