SlideShare a Scribd company logo
TF‑IDFで文書カテゴリ分類
Author : Yuf
自己紹介
Twitter:
@yukky33142405
Blog:
http://newtral.blog.jp/
アジェンダ
各文書における単語のTF‑IDF値を調べる
作成したベクトルで文書のクラス分け
アジェンダ
各文書における単語のTF‑IDF値を調べる
作成したベクトルで文書のクラス分け
TF‑IDF
TF ⋅ IDF = ⋅ log
n : 単語t の文書d における出現回数
n : 文書d におけるすべての単語の出現回数の和
∣D∣ : 総文書数
∣{d : d ∋ t }∣単語t を含む文書数
参考: tf‑idf ‑ Wikipedia
n∑k k,j
ni,j
∣{d : d ∋ t }∣i
∣D∣
i,j i j
k
∑ k,j j
i i
各文書における単語のTF‑IDF値を調べる(1)
TF‑IDFの計算にはPythonライブラリのscikit‑learnを用いた
TF‑IDFを計算する前処理としてステミングを行っている
形態素解析にはMeCabを使用し, 辞書はmecab‑ipadic‑Neologdを
用いた(mecab‑ipadicの利用も可)
各文書における単語のTF‑IDF値を調べる(2)
三十三観音のひとつに数えられる魚藍観音は、手に魚籠を持つ姿で
表される。唐時代、魚商をしていた美女が、実は観音の化身であっ
たという説話が起源である。ゆるやかな曲線で彫り出された優麗な
姿に、雲海の技量の高さがうかがえる。
各文書における単語のTF‑IDF値を調べる(3)
三十三観音のひとつに数えられる魚藍観音は、手に魚籠を持つ姿で
表される。唐時代、魚商をしていた美女が、実は観音の化身であっ
たという説話が起源である。ゆるやかな曲線で彫り出された優麗な
姿に、雲海の技量の高さがうかがえる。
各文書における単語のTF‑IDF値を調べる(4)
MeCabの辞書に登録されていない単語が存在するため, 正確な値が求め
られない
魚藍観音
魚籠
魚商
各文書における単語のTF‑IDF値を調べる(5)
整形していない文書を処理しているため, «のような記号が特徴語に
選出されてしまう場合がある
各文書における単語のTF‑IDF値を調べる(6)
文書中に現れた単語にIDを付けている
アジェンダ
各文書における単語のTF‑IDF値を調べる
作成したベクトルで文書のクラス分け
作成したベクトルで文書のクラス分け(1)
作成したベクトルで文書のクラス分け(2)
SVMによる多クラス分類を行った
カーネルはRBFを用いている
作成したベクトルで文書のクラス分け(3)
/ precision recall f1‑score support
日本美術 0.71 1.00 0.83 12
西洋美術 1.00 0.88 0.93 8
陶芸 1.00 0.50 0.67 2
童画 0.00 0.00 0.00 1
彫刻 0.00 0.00 0.00 1
東洋 0.00 0.00 0.00 1
avg/total 0.74 0.80 0.75 25
童画, 彫刻, 東洋のデータが圧倒的に足りない
作成したベクトルで文書のクラス分け(4)
一応未知のデータを分類してみる
作成したベクトルで文書のクラス分け(5)
日本美術
北斎が勝川春朗と号していた習作時代の作品です。西洋の透視画法
を用いた「浮絵」の手法で、広大な隅田川を描いています。空に上
がった花火や、それを眺める橋上の人々など、ゆったりとした夕涼
みの風景が描かれています。
結果
‑>日本美術
作成したベクトルで文書のクラス分け(6)
東洋
大原總一郎は、京都大学教授水野清一氏(故人)の協力により、イ
ラン先史時代の作品を収集しました。この「彩文土器の壷」は、イ
ラン高原東北のセキサバードで出土しました。幾何文様と動物が描
かれています。
結果
‑>日本美術
作成したベクトルで文書のクラス分け(7)
東洋
ファラオ時代の末期のサイス期には、エジプトのデルタ地方のサイ
スに首都が移動し、女神バステトの神殿が栄え…(中略)…エジプト古
美術を収集しました。
結果
‑>東洋
作成したベクトルで文書のクラス分け(8)
彫刻
エーゲ海東北のサモトラケ島でフランス領事、シャルル・シャンポ
ワーゾが、まずパロス島の大理石で作られた女性像トルソを…(中
略)…共にルーブル至宝の双璧である。
結果
‑>日本美術
作成したベクトルで文書のクラス分け(9)
西洋
この三連祭壇画はクレーヴ後期の作品と推定される。中央部にフラ
ンドル絵画特有の精妙な風景描写を…(中略)…装飾的傾向がよく表わ
れている。
結果
‑> 西洋美術
作成したベクトルで文書のクラス分け(10)
今後
Word2VecにあるCBoW, Skip‑gramを用いて文書を学習させる
文法の学習(複雑なものは難しい)
文書を木構造にしてみる?

More Related Content

Viewers also liked

How to make keynote like presentation with markdown
How to make keynote like presentation with markdownHow to make keynote like presentation with markdown
How to make keynote like presentation with markdown
Hiroaki NAKADA
 
スッとGoを取り入れる
スッとGoを取り入れるスッとGoを取り入れる
スッとGoを取り入れる
Yusuke Wada
 
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & StrategicPPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
CBIZ, Inc.
 
Get to Inbox Zero
Get to Inbox ZeroGet to Inbox Zero
Get to Inbox Zero
Purple Dog
 
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Francis Wade
 
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Informa TI GOV
 
Guia do Desenvolvimento de Brindes
Guia do Desenvolvimento de BrindesGuia do Desenvolvimento de Brindes
Guia do Desenvolvimento de Brindes
Memory Promotional Enterprise
 
Aja wooldridge - Press Kit
Aja wooldridge - Press KitAja wooldridge - Press Kit
Aja wooldridge - Press Kit
Thomas Wooldridge
 
Museo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadaviaMuseo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadaviaMUSEO ETNOLOXICO
 
118原住民傳統領域完ev
118原住民傳統領域完ev118原住民傳統領域完ev
118原住民傳統領域完evMark Wu
 
Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017
Delegación Miguel Hidalgo
 
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
Brainsy, Inc.
 
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Dr. Oliver Massmann
 
زيرو أخطاء محاسبية
  زيرو أخطاء محاسبية  زيرو أخطاء محاسبية
زيرو أخطاء محاسبية
Howaida Arram
 
Boletín 14/03/2017
Boletín 14/03/2017Boletín 14/03/2017
Boletín 14/03/2017
Openbank
 
Data Selfie Presentation @ LSE
Data Selfie Presentation @ LSEData Selfie Presentation @ LSE
Data Selfie Presentation @ LSE
David Tofan
 

Viewers also liked (16)

How to make keynote like presentation with markdown
How to make keynote like presentation with markdownHow to make keynote like presentation with markdown
How to make keynote like presentation with markdown
 
スッとGoを取り入れる
スッとGoを取り入れるスッとGoを取り入れる
スッとGoを取り入れる
 
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & StrategicPPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
 
Get to Inbox Zero
Get to Inbox ZeroGet to Inbox Zero
Get to Inbox Zero
 
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
 
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
 
Guia do Desenvolvimento de Brindes
Guia do Desenvolvimento de BrindesGuia do Desenvolvimento de Brindes
Guia do Desenvolvimento de Brindes
 
Aja wooldridge - Press Kit
Aja wooldridge - Press KitAja wooldridge - Press Kit
Aja wooldridge - Press Kit
 
Museo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadaviaMuseo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadavia
 
118原住民傳統領域完ev
118原住民傳統領域完ev118原住民傳統領域完ev
118原住民傳統領域完ev
 
Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017
 
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
 
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
 
زيرو أخطاء محاسبية
  زيرو أخطاء محاسبية  زيرو أخطاء محاسبية
زيرو أخطاء محاسبية
 
Boletín 14/03/2017
Boletín 14/03/2017Boletín 14/03/2017
Boletín 14/03/2017
 
Data Selfie Presentation @ LSE
Data Selfie Presentation @ LSEData Selfie Presentation @ LSE
Data Selfie Presentation @ LSE
 

Recently uploaded

ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
Hideo Kashioka
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
Osaka University
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
sugiuralab
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
iPride Co., Ltd.
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
kitamisetagayaxxx
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
Shinichi Hirauchi
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
ssuserfcafd1
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
Yuki Miyazaki
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
Osaka University
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
ARISE analytics
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
Seiya Shimabukuro
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Hirotaka Kawata
 

Recently uploaded (13)

ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
 

TF-IDFで文書カテゴリ分類