Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

Like this? Share it with your network

Share

patent analysis(LDA) and spotfire

on

  • 3,740 views

http://d.hatena.ne.jp/repose/

http://d.hatena.ne.jp/repose/
http://twitter.com/y_benjo

Statistics

Views

Total Views
3,740
Views on SlideShare
2,932
Embed Views
808

Actions

Likes
4
Downloads
29
Comments
0

7 Embeds 808

http://d.hatena.ne.jp 400
http://blog.kzfmix.com 380
https://www.facebook.com 15
http://webcache.googleusercontent.com 7
http://localhost 4
http://static.slidesharecdn.com 1
http://benjo.g.hatena.ne.jp 1
More...

Accessibility

Upload Details

Uploaded via as Apple Keynote

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n

patent analysis(LDA) and spotfire Presentation Transcript

  • 1. 特許公報を用いた自然言語処理による業界分析、及びSpotfi reによる可視化Database Center for Life Science@y_benjo
  • 2. 量が多すぎる 注意
  • 3. 6 51
  • 4. TS 6 Not TS 51
  • 5. 量が多すぎる申し訳ありませんが
  • 6. http://www.photoxpress.com/stock-photos/man/blank/card/2694628
  • 7. GEあなたの生産性を100倍向上させる A I M TIBCO Spotfire術 NO
  • 8. GE もし高校野球の女子マネージャーが A I MTIBCOの「Spotfire」を導入したら N O
  • 9. 量が多すぎる以上の内容を含みません
  • 10. 自己紹介http://www.photoxpress.com/stock-photos/man/blank/card/2694628
  • 11. 自己紹介•便所糞虫•twitter : @y_benjo•blog : http://d.hatena.ne.jp/repose/•2009年5月∼:DBCLS RA•コンテンツ推薦 / 論文 遺伝子アノテーション分析 など
  • 12. 本題 http://www.photoxpress.com/stock-photos/man/blank/card/2694628
  • 13. 特許•公共データ•他社の技術開発の結晶
  • 14. 量が多すぎる wtf-am-i-supposed-to-do-wit / kk+
  • 15. 読みにくい All Greek To Me / Kaptain Kobold
  • 16. white flag bandiera bianca / portobeseno
  • 17. そこで
  • 18. Patent aRCHiver
  • 19. PRCH
  • 20. Puerchahttp://www.photoxpress.com/stock-photos/man/blank/card/2694628
  • 21. プーアル茶•特許マイニング•特許に含まれる技術のテーマ(トピック)を分類、時系列で可視化•全特許だけでなく、特許のジャンル別・業界別でも分析
  • 22. 作り方
  • 23. 3ステップ (1/3) 1.特許から情報抽出
  • 24. 3ステップ (2/3) 2.分析
  • 25. 3ステップ (3/3)3.TIBCO Spotfireで可視化
  • 26. 1.情報抽出 Tea leaf / jetalone
  • 27. 1. 情報抽出(下ごしらえ)•まずは特許公報を買ってくる•DVDで3,860円/枚•xml/pdf
  • 28. DBCLSではH16∼H20の特許を取り揃えております
  • 29. •xmlファイルから分析に必要な情報を抽出•特許名•IPCコード(特許のジャンル)•特許の権利者名( => 会社名)•出願日•請求項(保護を受けたい発明を記載した部分)•本文(請求項の詳細な説明)
  • 30. 1. 情報抽出(本番)•形態素解析•言葉で意味を持つ最小単位に区切る•例)今日(名詞)/は(助詞)/とても(副詞)/寒い(形容詞)•形態素解析にはMeCabを用いる•オープンソース形態素解析ソフト
  • 31. MeCab•例)これから特許を切り刻みます• echo "これから特許を切り刻みます" ¦ mecab これから 副詞,助詞類接続,*,*,*,*,これから,コレカラ,コレカラ 特許 名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 切り刻み 動詞,自立,*,*,五段・マ行,連用形,切り刻む,キリキザミ,キリキザミ ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス EOS
  • 32. •ここから名詞、動詞を取り出す•文:「プロスタグランジンEに作動および/または拮抗する」結果:プロスタグランジン(名詞)、作動(名詞) 、拮抗(名詞)、する(動詞)•文章を単語の集合で表す
  • 33. 泥臭い話•簡単に表現しましたが、実際はもっと泥臭い•専門用語への対応•ハロゲン化アルキル => ハロゲン/化/アルキル•Wikipedia見出し語、ライフサイエンス辞書などを 導入し対応
  • 34. •化合物の文章表現が解析できない•例)7-[3-(2-フェニルビニルスルホニルアミノ)-6,6- ジメチルビシクロ[ 3.1.1]ヘプタン-2-イル]-5Z-ヘプ テン酸メチルエステル • そこには細切れになった大量の記号が•正規表現を用いて記号などをフィルタリング
  • 35. 2.分析 http://morguefile.com/archive/display/105605
  • 36. 分析•特許 自然言語処理•共起語によるマッピング [1]•請求項の可読性向上 [2]•検索精度向上 [3]•特許の課題・効果の抽出[4]•今回はトピックモデルを用いる
  • 37. トピックモデル•LDA(Latent Dirichlet Allocation)[5]•「文書に含まれる単語は、何らかのトピックから生み出される」 •「銀行」→「経済」「事件」などのトピックから生 まれやすい •「核」→「国際関係」「科学」などのトピックから 生まれやすい
  • 38. 定式化[6] Wang, X., & McCallum, A. (2006).
  • 39. 定式化 Skip![6] Wang, X., & McCallum, A. (2006).
  • 40. 何ができるか?•入力:単語集合(特許)、想定するトピック数K (複雑怪奇なLDAのアルゴリズム)•出力:K個のピックごとに現れやすい単語、及び現れやすい特許一覧
  • 41. 具体例•全特許に対して想定するトピック数K=20•トピック1:炉、コンクリート、加熱、撹拌•トピック2:クロック、パケット、アドレス、レジスタ•トピック7:弁、管、燃料、シリンダ、内燃機関•トピック9:化合物、アルキル、置換、フェニル•それぞれのトピックに対する解釈は人手で行う
  • 42. 検証•H16∼H20に発行された特許43万件•その中から、権利者名が以下のいずれかにマッチする特許のみ使用 •薬, 第一三共, キョーリン,ツムラ,日医工,栄研化学, シミック, 日本ケミファ, 養命酒製造, ケミカル リサーチ, カイゲン, 森下仁丹, アールテック, 興和株式会社, 医学生物学研究所, ゼファーマ, 味の素, 麒麟麦酒, ニプロ, 資生堂, 日本たばこ産業•1990年∼2007年、3207件
  • 43. 結果(抜粋)(1/2)トピック0 トピック1 トピック2 トピック3 抽出物 光 アルキル基 カルバモイ 塩酸塩 回転 置換基 ル基トランス キャップ ハロゲン メチル基 培養 回路 アルコキシ 酸素原子 リン酸 フィルム 基 ピリジン 酵素 信号 カルボニル ニトロ基 植物 フィルター 基 カルボキシカルシウム 駆動 複素環 ル基 スライド アルケニル
  • 44. 結果(抜粋)(2/2)トピック4 トピック5 トピック6 トピック7ナフチル マグネシウ 環状, 鎖, 再構成樹脂 ム, ピラジン アミノ酸配 固定化エチレン 重合, 蓋, 抗体 イソロイシ界面活性剤 収納, 材, 細胞, 遺伝子 ン, 促進剤グリコール 針, 器,孔 ポリペプチ 化粧ナトリウム 充填, 内部 ド, ヌクレ アミノ基セルロース シール オチド, タン メチル基水溶性 チューブ パク質 水酸基脂肪酸 塩基配列 シリコーンアルコール ペプチド 皮膚外用剤
  • 45. 正直分かり難い scream and shout / mdanys
  • 46. 3.可視化 http://www.photoxpress.com/stock-photos/macro/fashion/person/2134644/
  • 47. •というわけで可視化•TIBCO Spotfireを使ってそれぞれのトピックの出現数に関する時系列変化を見る•「出願日」を基準に時系列変化を見ていることに注意
  • 48. •全特許の時系列特許出願数 •02年に1度ピーク
  • 49. •製薬関連企業の時系列特許出願数 •96年と02年に2度ピーク
  • 50. •時系列別頻度 •ピークは年度ごとの申請数と連動?
  • 51. •時系列別頻度+年次ごとの総和 •これじゃわかりにくい
  • 52. •総和ではなく年度別のトピック比率 •トピック0が特徴的(外れ値)
  • 53. •年度別のトピック比率(トピック0を除外)
  • 54. 正直なところ•ケミカル・バイオ分野の人間では無いためトピックの解釈ができない•ですので皆様に見て解釈していただきたい
  • 55. 分析結果の公開•サイトにアップロード•http://g86.dbcls.jp/ y_benjo/PatentLDA.zip•製薬関連企業による特許に対する分析結果•IPC分類C(化学分野)に絞った分析結果は後日追加で アップロードします
  • 56. まとめ http://www.imageafter.com/image.php?image=b3_landscapes008.jpg
  • 57. •特許を自然言語処理によって分析•その結果をSpotfireで可視化することによりトピックの流行を把握•「全部Spotfireで解析したのかと思った」•分析から可視化までの環境を統一するメリットよ り、異なる環境の長所を組み合わせる方が今回は効 果的と判断
  • 58. 可視化は通訳 iraq / soldiersmediacenter
  • 59. ?
  • 60. !
  • 61. Let’s Analyze and Visualize!
  • 62. 参考文献• [1] NRIサイバーパテント http://www.patent.ne.jp/• [2] 特許請求項可読性向上のための言語処理手法に関する研究(自然言語, <特集>「人 工知能分野における博士論文」)• [3] Wenhui Liao and Sriharsha Veeramachaneni. Unsupervised Learning for Reranking-based Patent Retrieval. PaIR 2010.• [4] Risa Nishiyama, Yuta Tsuboi, Yuya Unno, Hironori Takeuchi. Feature-Rich Information Extraction for the Technical Trend-Map Creation. NTCIR-8. pp. 318-324. June 2010.• [5] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993‒1022, 2003.• [6] Wang, X., & McCallum, A. (2006).Topics over time: A non-markov continuous-time model of topical trends. In Proceedings of the 12th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining, pp. 424‒433.