xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

TokyoR#25で発表しました(特許文献の可視化)

第25回Tokyo Rで「Rで特許文献の可視化」というタイトルでLT発表させていただきました。

http://www.slideshare.net/xiangze/patentmap-r-xinagze-13910550

かんたん特許検索の検索結果を“発明協会特許マップソフト方式”のCSV
をもちいて、

  1. ggplot2を用いた上位出願者、IPCのマトリクス分析での可視化
  2. RMecabによる形態素解析での概要に出現する語句の対応分析
  3. 形態素解析で得られた品詞の頻度分析による特許文書とそれ以外の文書(青空文庫)の判別の試行

を行いました。
使用したRのコードは
https://github.com/xiangze/PatentVisualizeR
にあります。

制限とそれに起因する問題点として

  • かんたん特許検索の制限で3000件以上の検索結果がCSVで取得できないことからある程度結果を絞り込める検索語を用いる必要があり、網羅的な可視化、分析ができないこと
  • 処理時間の問題で青空文庫の新字体小説の一部のさらに一部分のみを比較に用いていること
  • 特許文書と青空文庫の新字体小説の間での品詞単位での出現頻度の差が大きく、N-gramを持ち出すまでもなく分類できてしまっていること

などがあります。

今後の課題として

  1. マトリクス分析でのIPCを日本語の説明で表示する
  2. 特許文書と類似した文書間での判別の試行(特許概要 vs 請求項, 特許文書 vs 学術論文など)
  3. 青空文庫の小説をRMeCabに入力する際の整形処理(記号の削除、変換)部分のモジュール化

がありますが、
IPCの説明一覧は特許庁で公開されている
http://www.jpo.go.jp/shiryou/s_sonota/themecode.htm
が使えそうです(xls,pdf形式)。
Excelファイル内に出てくるFI記号は日本特許庁が独自に定めたIPCの下位分類だそうです。
http://www.patentcity.jp/muguruma/fisusume.htm
http://www.e-patentsearch.net/patent_classification/file_index.html
青空文庫テキストファイルの整形のうち本文以外の情報の削除は下記で紹介されているスクリプトが使えそうです。
http://members.jcom.home.ne.jp/xhp/aozora_pl.html