SlideShare a Scribd company logo
1 of 25
Download to read offline
テキストマイニング
⽂文字として表されたデータ(テキスト)
  を対象としたデータマイニングを
                テキストマイニングという。
ここでは、テキストマイニングの例として、
        通常の⽂文書をその要素(形態素)に分け、
      ⽂文書の分類を⾏行う。
˙
ƪ
ˑ
ɪ
ʨ
ʍ
ઢ
߳
ౙ
‫ٵ‬
˙
ƪ
ˑ
ɪ
ʨ
ʍ
ઢ
߳
ౙ
‫ٵ‬
d
[テーマ]  講義の構成
Rでの形態素解析
形態素解析
R を⽤用いた⽂文書の分類
まとめ
  形態素解析

  
 











F@
F@
⎕⏔⎏⎥⎮
⎕⏔⎏⎥⎮
ಞ
λ൵⎯೯஝
λ൵⎯೯஝
ᏐᏒ
ᏐᏒ ߡ⎫⎘ൠλ
ߡ⎫⎘ൠλ
๚१෾
๚१෾
␄␩⏿⏯
␄␩⏿⏯
⾃自然⾔言語処理
形態素解析 構⽂文解析
⾃自然⾔言語 プログラミング⾔言語
⽂文の構成要素である
語と語の関係を分析
(例)
本/を/読ん/だ。
⽂文をその構成要素
である語に分解する
(例)
本/を/読ん/だ/
⾃自然⾔言語処理
形態素解析 構⽂文解析
⾃自然⾔言語 プログラミング⾔言語
⽂文の構成要素である
語と語の関係を分析
(例)
本/を/読ん/だ。
⽂文をその構成要素
である語に分解する
(例)
本/を/読ん/だ/
⾃自然⾔言語処理
形態素解析 構⽂文解析
⾃自然⾔言語 プログラミング⾔言語
⽂文の構成要素である
語と語の関係を分析
(例)
本/を/読ん/だ。
⽂文をその構成要素
である語に分解する
(例)
本/を/読ん/だ/
形態素解析
7	
⽂文を語(形態素)に分解 (分かち書き)
形態素解析
(例)「横浜に⾏行った」
  横浜  名詞  固有名詞
  に     助詞  格助詞
  ⾏行っ 動詞 五段活⽤用「⾏行く」の連⽤用形(促⾳音便)
  た   助動詞
絶対値,印刷教材,超伝導|超電導などのような例も
形態素解析ソフトウェア
8	
・ Chasen(茶筌)
・ MeCab (和布蕪)
・ Juman       
など
形態素解析ソフト
主なソフトウェア(フリーで⼊入⼿手できるもの)
辞書や⽂文のルールなどをもとに単語を区切る
  Rでの形態素解析

  
 











F@
F@
⎕⏔⎏⎥⎮
⎕⏔⎏⎥⎮
ಞ
λ൵⎯೯஝
λ൵⎯೯஝
ᏐᏒ
ᏐᏒ ߡ⎫⎘ൠλ
ߡ⎫⎘ൠλ
๚१෾
๚१෾
␄␩⏿⏯
␄␩⏿⏯
RMeCabによる形態素解析
10	
・形態素解析ソフト
  MeCab(⼯工藤拓⽒氏)
・Rで和布蕪を⽤用いる
  インターフェース
  RMeCab(⽯石⽥田基広⽒氏)
形態素解析ソフト 計算
両⽅方をインストールする
・⽂文の解析:
    ⽂文を形態素に分解  
   RMeCabC()    
・⽂文章の解析:
    ⽂文章ごとに
      語の頻度を計算
    docMatrix()
RMeCabによる形態素解析
11	
・形態素解析ソフト
  MeCab(⼯工藤拓⽒氏)
・Rで和布蕪を⽤用いる
  インターフェース
  RMeCab(⽯石⽥田基広⽒氏)
形態素解析ソフト 計算
・⽂文の解析:
    ⽂文を形態素に分解  
   RMeCabC()    
・⽂文章の解析:
    ⽂文章ごとに
      語の頻度を計算
    docMatrix()
両⽅方をインストールする
⻘青空⽂文庫
12	
芥川⿓龍之介 トロッコ
芥川⿓龍之介 ⿐鼻
芥川⿓龍之介 羅⽣生⾨門
有島武郎 ⼀一房の葡萄
梶井基次郎 檸檬
⼩小泉⼋八雲 ⽿耳なし芳⼀一
新美南吉 ごんぎつね
⻘青空⽂文庫
著作権の保護期間
が切れたものを
ボランティアの⼿手で
校正・公開されたもの
右の7つの短編
  を題材にする
RMeCabを⽤用いた形態素解析
 library( RMeCab )
 a1 - docMatrix( C14 , pos=c( 連体詞 , 副詞 ) )
 a2 - docMatrix( C14 , pos=c( 連体詞 , 副詞 ), 2)
 a3 - a1[ row.names(a1) != [[LESS-THAN-1]] ,]
 a4 - a3[ row.names(a3) != [[TOTAL-TOKENS]] ,]
 write.table( a4, hindo.txt ) R
RMeCabを⽤用いた形態素解析
 library( RMeCab )
 a1 - docMatrix( C14 , pos=c( 連体詞 , 副詞 ) )
 a2 - docMatrix( C14 , pos=c( 連体詞 , 副詞 ), 2)
 a3 - a1[ row.names(a1) != [[LESS-THAN-1]] ,]
 a4 - a3[ row.names(a3) != [[TOTAL-TOKENS]] ,]
 write.table( a4, hindo.txt ) R
  R を⽤用いた⽂文書の分類

  
 











F@
F@
⎕⏔⎏⎥⎮
⎕⏔⎏⎥⎮
ಞ
λ൵⎯೯஝
λ൵⎯೯஝
ᏐᏒ
ᏐᏒ ߡ⎫⎘ൠλ
ߡ⎫⎘ൠλ
๚१෾
๚१෾
␄␩⏿⏯
␄␩⏿⏯
講義で扱った⼿手法
主成分分析
回帰分析
多次元尺度法
階層的クラスター分析
k-means 法
アソシエーション分析
決定⽊木
ニューラルネットワーク
バックプロパゲーション
⾃自⼰己組織化マップ
講義で扱った⼿手法
主成分分析
回帰分析
多次元尺度法
階層的クラスター分析
k-means 法
アソシエーション分析
決定⽊木
ニューラルネットワーク
バックプロパゲーション
⾃自⼰己組織化マップ
講義で扱った⼿手法
主成分分析
回帰分析
多次元尺度法
階層的クラスター分析
k-means 法
アソシエーション分析
決定⽊木
ニューラルネットワーク
バックプロパゲーション
⾃自⼰己組織化マップ
多次元尺度法
× Ø Ù Ĩ Ĩ Ĩ ×Ø ×Ù ×Ú
×Ôೇঝ Ö Ý ×Ø Ĩ Ĩ Ĩ ×Ú ×Ö Ý
ØÔෳ‫ܒ‬ Ý Ö Û Ĩ Ĩ Ĩ Ø× ×Ý ×Ú
ÙÔࡗੴ ×Ø Û Ö Ĩ Ĩ Ĩ ØÜ ØØ ×ß
ÚÔ‫࡞ٵ‬ ×Ú Ý Ø Ĩ Ĩ Ĩ ØÞ ØÚ Ø×
Ĩ Ĩ Ĩ Ĩ Ĩ Ĩ
×ØÔ࠾๊‫ٵ‬ ×Ú Ø× ØÜ Ĩ Ĩ Ĩ Ö Ú Ý
×ÙÔୱ֣ ×Ö ×Ý ØØ Ĩ Ĩ Ĩ Ú Ö Ù
×ÚÔईֹ Ý ×Ú ×ß Ĩ Ĩ Ĩ Ý Ù Ö
所要時間データ
    





 [

೒ন
෾‫ܝ‬
ࡢ੿
‫ࡩڀ‬
ओࡩ
‫୔܊‬ఛ࣪
ધ੔
৻ӯ ୔ઐ
௪൑ຂ
ࣣฐ
ࡉ๕‫ڀ‬
୼֮
ओׄ
k-means法
× Ø Ù Ĩ Ĩ Ĩ ×Ø ×Ù ×Ú
×Ôೇঝ Ö Ý ×Ø Ĩ Ĩ Ĩ ×Ú ×Ö Ý
ØÔෳ‫ܒ‬ Ý Ö Û Ĩ Ĩ Ĩ Ø× ×Ý ×Ú
ÙÔࡗੴ ×Ø Û Ö Ĩ Ĩ Ĩ ØÜ ØØ ×ß
ÚÔ‫࡞ٵ‬ ×Ú Ý Ø Ĩ Ĩ Ĩ ØÞ ØÚ Ø×
Ĩ Ĩ Ĩ Ĩ Ĩ Ĩ
×ØÔ࠾๊‫ٵ‬ ×Ú Ø× ØÜ Ĩ Ĩ Ĩ Ö Ú Ý
×ÙÔୱ֣ ×Ö ×Ý ØØ Ĩ Ĩ Ĩ Ú Ö Ù
×ÚÔईֹ Ý ×Ú ×ß Ĩ Ĩ Ĩ Ý Ù Ö
    





 [

೒ন
෾‫ܝ‬
ࡢ੿
‫ࡩڀ‬
ओࡩ
‫୔܊‬ఛ࣪
ધ੔
৻ӯ ୔ઐ
௪൑ຂ
ࣣฐ
ࡉ๕‫ڀ‬
୼֮
ओׄ
所要時間データ
RMeCabを⽤用いた形態素解析
 plot(c4,xlim=c(-25,30) ,ylim=c(-12,16) )
 text(c4,rownames(c4),font=c6,pos=1) R
 c3 - cmdscale(c2,eig=T); c4 - c3$points
 c5 - kmeans(c1,2); c6 - c5$cluster
 c1 - t(a4)
 c2 - dist(c1)
RMeCabを⽤用いた形態素解析
 plot(c4,xlim=c(-25,30) ,ylim=c(-12,16) )
 text(c4,rownames(c4),font=c6,pos=1) R
 c3 - cmdscale(c2,eig=T); c4 - c3$points
 c5 - kmeans(c1,2); c6 - c5$cluster
 c1 - t(a3)
 c2 - dist(c1)
RMeCabを⽤用いた形態素解析
 plot(c4,xlim=c(-25,30) ,ylim=c(-12,16) )
 text(c4,rownames(c4),font=c6,pos=1)
 c3 - cmdscale(c2,eig=T); c4 - c3$points
 c5 - kmeans(c1,2); c6 - c5$cluster
 c1 - t(a3)
 c2 - dist(c1)
R
まとめ

  
 











F@
F@
⎕⏔⎏⎥⎮
⎕⏔⎏⎥⎮
ಞ
λ൵⎯೯஝
λ൵⎯೯஝
ᏐᏒ
ᏐᏒ ߡ⎫⎘ൠλ
ߡ⎫⎘ൠλ
๚१෾
๚१෾
␄␩⏿⏯
␄␩⏿⏯
まとめ
形態素解析
頻度データを⽤用いた⽂文書分類
形態素,分かち書き,和布蕪,	
  茶筌
多次元尺度法(第7章),k-means法(第8章)

More Related Content

More from anonymousouj (6)

C06
C06C06
C06
 
C02
C02C02
C02
 
C03
C03C03
C03
 
C04
C04C04
C04
 
C05
C05C05
C05
 
1554522_C01
1554522_C011554522_C01
1554522_C01
 

Recently uploaded

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラムKochi Eng Camp
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~Kochi Eng Camp
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料Tokyo Institute of Technology
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 

Recently uploaded (8)

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 

C14