SlideShare a Scribd company logo
Rで特許文献の可視化


       2012/8/4
     Tokyo.R #25
     @xiangze750
Agenda

   特許の可視化
   特許検索サイト
   パテントマップ
       – マトリックス分析
   対応分析
   “特許語”
   まとめと課題
   Reference
注意
   今回の発表内容は個人的な見解であり、紹介され
    た企業、団体、私の所属企業のそれとは関係あり
    ません。
特許の可視化(patent visualization)

   問題
         –   膨大で独特の文体で書かれた特許文献の概要をどのように理
             解するか
         –   日本で年間出願される特許申請は約35万件
         –   専門外の技術調査が必要になる場合も多い。
   可視化
      –      出願者(企業)、出願日時、分野ごとの傾向 特に出願数量を
             可視化したい。
         –   出願内容の概要を把握したい
         –   テキストマイニングの手法が使われる場合が多い
特許文書の構造

   要約(出願のみ)
       – 課題
         –   解決手段
   特許請求の範囲(請求項)
   発明の開示(解決しようとする課題、解決手段、発明の効果、発明を実
    施するための最良の形態)
   図面
   出願者(企業)
   発明者
   出願日時
   分野分類(Fターム、IPC)
請求項の一例
   請求項1
表示体と、この表示体に駆動信号を供給する駆動回路と、この駆動回路を制御する
  制御手段と、を備え、前記表示体に所定の表示情報を表示させるようになって
  いる電子機器において、前記表示体は、液晶表示体と、この液晶表示体の表示
  面上に重ねられて配置された光透過性を有する有機EL表示体と、を備え、前
  記駆動回路は、前記液晶表示体に駆動信号を供給する液晶用駆動回路と、前記
  有機EL表示体に駆動信号を供給する有機EL用駆動回路と、を備え、前記制
  御手段は、前記表示情報を記憶する情報記憶部と、供給される表示情報に基づ
  いて前記液晶用駆動回路を動作させる液晶用制御回路と、供給される表示情報
  に基づいて前記有機EL用駆動回路を動作させる有機EL用制御回路と、前記
  情報記憶部に記憶されている表示情報を前記液晶用制御回路及び前記有機EL
  用制御回路のいずれかに選択して供給可能な表示情報切替回路と、を備え、前
  記液晶用駆動回路と前記有機EL駆動回路とは、同一の基板に形成されており
  、前記表示情報切替回路は、有機EL表示体が表示された状態で未操作状態が
  所定時間続いた場合、前記有機EL用制御回路から前記液晶用制御回路に選択
  を切り替えることを特徴とする電子機器。
(特許4479140 電子機器
http://patent.astamuse.com/ja/granted/JP/No/4479140/%E6%A6%82%E8%A6%81)
特許検索サービスの一例

   日本特許
      –  特許電子図書館(無償)
   かんたん特許検索(無償) http://kantan.nexp.jp/
   アスタミューゼ(無償)
   NRIサイバーパテントデスク2(有償) https://www.nri-cyberpatent.co.jp/
   PATOLIS(無償/有償) https://patolis.com/service/index.html
   米国特許
      –  米国特許商標庁(無償)
      –  Google patent(無償)
   WIPO(世界知的所有権機
    関)http://patentscope.wipo.int/search/en/structuredSearch.jsf
特許出願概要の取得

かんたん特許検索
   検索結果をCSVダウンロード “発明協会特許マップソフト方式”でダウ
    ンロードする。
   検索結果が3000件以下の場合のみダウンロード可能
分析手法・マトリックス分析
   出願者(企業) v. 分野分類(Fターム、IPC)




   検索語 “液晶 補償回路|補正回路”
分析手法・マトリックス分析
   出願者(企業) v. 分野分類(IPC)




   検索語 “PDP 補償回路|補正回路”
分析手法・マトリックス分析
   出願者(企業) v. 分野分類(IPC)




   検索語 “有機EL 補償回路|補正回路”
分析手法・マトリックス分析

    ggplot2のstat_sumを使用

    library(ggplot2)

    #pdata<-read.csv("data/液晶_補償回路_補正回路.csv")

    pdata<-read.csv(filename)
    #dim(pdata)

    pdata_sm <- pdata[1:100,]
    pdata_sm$IPCs<-gsub("|(.*)","",pdata_sm$IPC.コード)

    出願人s<-table(pdata_sm$出願人)
    出願人tops<-tail(sort(出願人s))
    出願人tops<-apply(出願人tops,function(s){gsub("株式会社","",names(s))})

    pdata_tops <- data.frame()
    for (i in rownames(出願人tops)){ pdata_tops<-rbind(subset(pdata_sm,subset= 出願人==i),pdata_tops) }

    d<-ggplot(pdata_tops,aes(x=出願人 ,y=IPCs))
    png(paste(filename,".png"))
    d+stat_sum(aes(group=1))
    dev.off()
分析手法・対応分析

   各出願者の分野傾向を見る
   出願の概要をRMeCabで形態素解析し語を抽出
   ポイント
      –  Stop wordsの選定
            • 品詞の選別(名詞のみを抽出)
         –   多く出現した単語のみを厳選
              • 本来は分野の異なる文献に現れる単語は取り除くべき

   制限
         –   「かんたん特許検索」の仕様では3000件以上の検索結果は
             CSVダウンロードできない。
対応分析

   検索語  “液晶 補償回路|補正回路”
   上位6者を表示
対応分析

   検索語 “PDP 補償回路|補正回路”




                          エプソン系企業が集中
                          している。
                          類似した内容の特許出
                          願をしていると考えら
                          れる。
“特許語”

   “特許語”の特徴
       –  一文が長い
         –    特に修飾語が重なることが多い。
   解析方法
    語の分布
    Ngram(N=1:4)
       語そのものではなく、品詞ラベルを用いる
    SVM(kernlab, rbf kernel), Cross validation
    比較データ
      –  青空文庫 に収録された小説のうち題名に新字新仮名となっ
         ているものの一部27タイトル
      –  本文前の表記に関する注意書き、本文後の底本二関する記述
         を取り除いたもの 
“特許語”・解析結果
   N=1
          nonpatent   111      14
          patent      0        113
   N=2               1        2
          nonpatent   239      30
          patent      2        138
   N=3               1        2
          nonpatent   116      9
          patent      2        111
   N=4
          nonpatent   137      23
          patent      1        112

                      判別はできたがN-gramによって特徴づけられる文
                      の構造によるものとは言いがたい。
まとめと課題

   特許文書の可視化手法を紹介した。
      – 定量的なものとして出願数、分野のマトリックス分析
         – 文章の内容の可視化として対応分析
   RMeCabを用いたテキストマイニングで文章の種類を判定する試みを紹
    介した。

   課題
         – 対応分析の前処理 (ex. Tf-idfを用いる。RMeCabにも実装され
            ている。)
         – 特許文書を分類する特徴の探求
Reference

   Rによるテキストマイニング入門

More Related Content

Viewers also liked

R勉強会@東京 - Tokyo.Rの紹介
R勉強会@東京 - Tokyo.Rの紹介R勉強会@東京 - Tokyo.Rの紹介
R勉強会@東京 - Tokyo.Rの紹介Yohei Sato
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた. .
 
ggplot2できれいなグラフ
ggplot2できれいなグラフggplot2できれいなグラフ
ggplot2できれいなグラフDaisuke Ichikawa
 
ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)
yutannihilation
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
 
English presentation
English presentationEnglish presentation
English presentation
juanignaciosafa
 
Digital Jungle(한글본)
Digital Jungle(한글본)Digital Jungle(한글본)
Digital Jungle(한글본)
Reach China Holdings Limited
 
testConvertPPsxTomov
testConvertPPsxTomovtestConvertPPsxTomov
testConvertPPsxTomovtstein0
 
God’s direction for my life
God’s direction for my lifeGod’s direction for my life
God’s direction for my life
Ken White
 
Castelos trabalhos alunos
Castelos trabalhos alunosCastelos trabalhos alunos
Castelos trabalhos alunoslopescarla
 
Presentation 4
Presentation 4Presentation 4
Presentation 4TELICIA
 
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...Collaborative Solutions
 
K&k bildspel, långt, fixat
K&k bildspel, långt, fixatK&k bildspel, långt, fixat
K&k bildspel, långt, fixat
Anna Kettner
 

Viewers also liked (19)

R勉強会@東京 - Tokyo.Rの紹介
R勉強会@東京 - Tokyo.Rの紹介R勉強会@東京 - Tokyo.Rの紹介
R勉強会@東京 - Tokyo.Rの紹介
 
StanTutorial
StanTutorialStanTutorial
StanTutorial
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
 
ggplot2できれいなグラフ
ggplot2できれいなグラフggplot2できれいなグラフ
ggplot2できれいなグラフ
 
ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
English presentation
English presentationEnglish presentation
English presentation
 
Digital Jungle(한글본)
Digital Jungle(한글본)Digital Jungle(한글본)
Digital Jungle(한글본)
 
Evaluation
EvaluationEvaluation
Evaluation
 
testConvertPPsxTomov
testConvertPPsxTomovtestConvertPPsxTomov
testConvertPPsxTomov
 
1 spain
1 spain1 spain
1 spain
 
God’s direction for my life
God’s direction for my lifeGod’s direction for my life
God’s direction for my life
 
Castelos trabalhos alunos
Castelos trabalhos alunosCastelos trabalhos alunos
Castelos trabalhos alunos
 
Presentation 4
Presentation 4Presentation 4
Presentation 4
 
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...
Collaborative Solutions eHealth Event -- University of Newcastle - Nutrition ...
 
K&k bildspel, långt, fixat
K&k bildspel, långt, fixatK&k bildspel, långt, fixat
K&k bildspel, långt, fixat
 
Moral issue of euthanasia
Moral issue of euthanasiaMoral issue of euthanasia
Moral issue of euthanasia
 
7 spain
7 spain7 spain
7 spain
 
Question1 evaluation
Question1 evaluationQuestion1 evaluation
Question1 evaluation
 

Similar to Patentmap r xinagze

NLP2012
NLP2012NLP2012
NLP2012
Yuki Nakayama
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
Uptime Technologies LLC (JP)
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworksLinux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworkstripodworks
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Kodaira Tomonori
 
Elasticsearch入門 pyfes 201207
Elasticsearch入門 pyfes 201207Elasticsearch入門 pyfes 201207
Elasticsearch入門 pyfes 201207
Jun Ohtani
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
Masayoshi Kondo
 
スニペットとウェブカウントを用いたウェブ検索クエリの分類
スニペットとウェブカウントを用いたウェブ検索クエリの分類スニペットとウェブカウントを用いたウェブ検索クエリの分類
スニペットとウェブカウントを用いたウェブ検索クエリの分類Yahoo!デベロッパーネットワーク
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Recruit Technologies
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
 
第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編
ksimoji
 
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
 
Racc でおてがる構文解析
Racc でおてがる構文解析Racc でおてがる構文解析
Racc でおてがる構文解析
morphine57
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
Shumpei Shiraishi
 
2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...n-yuki
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
Shintaro Takemura
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 

Similar to Patentmap r xinagze (20)

NLP2012
NLP2012NLP2012
NLP2012
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
BigDataを迎え撃つ! PostgreSQL並列分散ミドルウェア「Stado」の紹介と検証報告
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworksLinux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworks
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
LDA入門
LDA入門LDA入門
LDA入門
 
Elasticsearch入門 pyfes 201207
Elasticsearch入門 pyfes 201207Elasticsearch入門 pyfes 201207
Elasticsearch入門 pyfes 201207
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
スニペットとウェブカウントを用いたウェブ検索クエリの分類
スニペットとウェブカウントを用いたウェブ検索クエリの分類スニペットとウェブカウントを用いたウェブ検索クエリの分類
スニペットとウェブカウントを用いたウェブ検索クエリの分類
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編
 
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
 
Racc でおてがる構文解析
Racc でおてがる構文解析Racc でおてがる構文解析
Racc でおてがる構文解析
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
 
2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 

Patentmap r xinagze

  • 1. Rで特許文献の可視化 2012/8/4 Tokyo.R #25 @xiangze750
  • 2. Agenda  特許の可視化  特許検索サイト  パテントマップ – マトリックス分析  対応分析  “特許語”  まとめと課題  Reference
  • 3. 注意  今回の発表内容は個人的な見解であり、紹介され た企業、団体、私の所属企業のそれとは関係あり ません。
  • 4. 特許の可視化(patent visualization)  問題 – 膨大で独特の文体で書かれた特許文献の概要をどのように理 解するか – 日本で年間出願される特許申請は約35万件 – 専門外の技術調査が必要になる場合も多い。  可視化 – 出願者(企業)、出願日時、分野ごとの傾向 特に出願数量を 可視化したい。 – 出願内容の概要を把握したい – テキストマイニングの手法が使われる場合が多い
  • 5. 特許文書の構造  要約(出願のみ) – 課題 – 解決手段  特許請求の範囲(請求項)  発明の開示(解決しようとする課題、解決手段、発明の効果、発明を実 施するための最良の形態)  図面  出願者(企業)  発明者  出願日時  分野分類(Fターム、IPC)
  • 6. 請求項の一例  請求項1 表示体と、この表示体に駆動信号を供給する駆動回路と、この駆動回路を制御する 制御手段と、を備え、前記表示体に所定の表示情報を表示させるようになって いる電子機器において、前記表示体は、液晶表示体と、この液晶表示体の表示 面上に重ねられて配置された光透過性を有する有機EL表示体と、を備え、前 記駆動回路は、前記液晶表示体に駆動信号を供給する液晶用駆動回路と、前記 有機EL表示体に駆動信号を供給する有機EL用駆動回路と、を備え、前記制 御手段は、前記表示情報を記憶する情報記憶部と、供給される表示情報に基づ いて前記液晶用駆動回路を動作させる液晶用制御回路と、供給される表示情報 に基づいて前記有機EL用駆動回路を動作させる有機EL用制御回路と、前記 情報記憶部に記憶されている表示情報を前記液晶用制御回路及び前記有機EL 用制御回路のいずれかに選択して供給可能な表示情報切替回路と、を備え、前 記液晶用駆動回路と前記有機EL駆動回路とは、同一の基板に形成されており 、前記表示情報切替回路は、有機EL表示体が表示された状態で未操作状態が 所定時間続いた場合、前記有機EL用制御回路から前記液晶用制御回路に選択 を切り替えることを特徴とする電子機器。 (特許4479140 電子機器 http://patent.astamuse.com/ja/granted/JP/No/4479140/%E6%A6%82%E8%A6%81)
  • 7. 特許検索サービスの一例  日本特許 – 特許電子図書館(無償)  かんたん特許検索(無償) http://kantan.nexp.jp/  アスタミューゼ(無償)  NRIサイバーパテントデスク2(有償) https://www.nri-cyberpatent.co.jp/  PATOLIS(無償/有償) https://patolis.com/service/index.html  米国特許 – 米国特許商標庁(無償) – Google patent(無償)  WIPO(世界知的所有権機 関)http://patentscope.wipo.int/search/en/structuredSearch.jsf
  • 8. 特許出願概要の取得 かんたん特許検索  検索結果をCSVダウンロード “発明協会特許マップソフト方式”でダウ ンロードする。  検索結果が3000件以下の場合のみダウンロード可能
  • 9. 分析手法・マトリックス分析  出願者(企業) v. 分野分類(Fターム、IPC)  検索語 “液晶 補償回路|補正回路”
  • 10. 分析手法・マトリックス分析  出願者(企業) v. 分野分類(IPC)  検索語 “PDP 補償回路|補正回路”
  • 11. 分析手法・マトリックス分析  出願者(企業) v. 分野分類(IPC)  検索語 “有機EL 補償回路|補正回路”
  • 12. 分析手法・マトリックス分析  ggplot2のstat_sumを使用 library(ggplot2) #pdata<-read.csv("data/液晶_補償回路_補正回路.csv") pdata<-read.csv(filename) #dim(pdata) pdata_sm <- pdata[1:100,] pdata_sm$IPCs<-gsub("|(.*)","",pdata_sm$IPC.コード) 出願人s<-table(pdata_sm$出願人) 出願人tops<-tail(sort(出願人s)) 出願人tops<-apply(出願人tops,function(s){gsub("株式会社","",names(s))}) pdata_tops <- data.frame() for (i in rownames(出願人tops)){ pdata_tops<-rbind(subset(pdata_sm,subset= 出願人==i),pdata_tops) } d<-ggplot(pdata_tops,aes(x=出願人 ,y=IPCs)) png(paste(filename,".png")) d+stat_sum(aes(group=1)) dev.off()
  • 13. 分析手法・対応分析  各出願者の分野傾向を見る  出願の概要をRMeCabで形態素解析し語を抽出  ポイント – Stop wordsの選定 • 品詞の選別(名詞のみを抽出) – 多く出現した単語のみを厳選 • 本来は分野の異なる文献に現れる単語は取り除くべき  制限 – 「かんたん特許検索」の仕様では3000件以上の検索結果は CSVダウンロードできない。
  • 14. 対応分析  検索語  “液晶 補償回路|補正回路”  上位6者を表示
  • 15. 対応分析  検索語 “PDP 補償回路|補正回路” エプソン系企業が集中 している。 類似した内容の特許出 願をしていると考えら れる。
  • 16. “特許語”  “特許語”の特徴 – 一文が長い – 特に修飾語が重なることが多い。  解析方法 語の分布 Ngram(N=1:4) 語そのものではなく、品詞ラベルを用いる SVM(kernlab, rbf kernel), Cross validation 比較データ – 青空文庫 に収録された小説のうち題名に新字新仮名となっ ているものの一部27タイトル – 本文前の表記に関する注意書き、本文後の底本二関する記述 を取り除いたもの 
  • 17. “特許語”・解析結果  N=1 nonpatent 111 14 patent 0 113  N=2 1 2 nonpatent 239 30 patent 2 138  N=3 1 2 nonpatent 116 9 patent 2 111  N=4 nonpatent 137 23 patent 1 112 判別はできたがN-gramによって特徴づけられる文 の構造によるものとは言いがたい。
  • 18. まとめと課題  特許文書の可視化手法を紹介した。 – 定量的なものとして出願数、分野のマトリックス分析 – 文章の内容の可視化として対応分析  RMeCabを用いたテキストマイニングで文章の種類を判定する試みを紹 介した。  課題 – 対応分析の前処理 (ex. Tf-idfを用いる。RMeCabにも実装され ている。) – 特許文書を分類する特徴の探求
  • 19. Reference  Rによるテキストマイニング入門