Submit Search
Upload
TF-IDFで文書カテゴリ分類
•
0 likes
•
1,718 views
yuf yufkky
Follow
Marpで書いてみました TF-IDF, カテゴリ分類については深く触れていません ご了承を...
Read less
Read more
Technology
Report
Share
Report
Share
1 of 23
Download now
Download to read offline
Recommended
L-1グランプリ "D言語"
L-1グランプリ "D言語"
det coder
D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)
tom-tan
C#勉強会
C#勉強会
hakugakucafe
[FUNAI輪講] BERT
[FUNAI輪講] BERT
Takanori Ebihara
NLTK Book Chapter 2
NLTK Book Chapter 2
torithetorick
定理証明言語によるハードウェア検証
定理証明言語によるハードウェア検証
Shunji Nishimura
Boost.python
Boost.python
fate_fox
2011年10月21日
2011年10月21日
nukaemon
Recommended
L-1グランプリ "D言語"
L-1グランプリ "D言語"
det coder
D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)
tom-tan
C#勉強会
C#勉強会
hakugakucafe
[FUNAI輪講] BERT
[FUNAI輪講] BERT
Takanori Ebihara
NLTK Book Chapter 2
NLTK Book Chapter 2
torithetorick
定理証明言語によるハードウェア検証
定理証明言語によるハードウェア検証
Shunji Nishimura
Boost.python
Boost.python
fate_fox
2011年10月21日
2011年10月21日
nukaemon
How to make keynote like presentation with markdown
How to make keynote like presentation with markdown
Hiroaki NAKADA
スッとGoを取り入れる
スッとGoを取り入れる
Yusuke Wada
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
CBIZ, Inc.
Get to Inbox Zero
Get to Inbox Zero
Purple Dog
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Francis Wade
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Informa TI GOV
Guia do Desenvolvimento de Brindes
Guia do Desenvolvimento de Brindes
Memory Promotional Enterprise
Aja wooldridge - Press Kit
Aja wooldridge - Press Kit
Thomas Wooldridge
Museo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadavia
MUSEO ETNOLOXICO
118原住民傳統領域完ev
118原住民傳統領域完ev
Mark Wu
Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017
Delegación Miguel Hidalgo
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
Brainsy, Inc.
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Dr. Oliver Massmann
زيرو أخطاء محاسبية
زيرو أخطاء محاسبية
Howaida Arram
Boletín 14/03/2017
Boletín 14/03/2017
Openbank
Data Selfie Presentation @ LSE
Data Selfie Presentation @ LSE
David Tofan
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
More Related Content
Viewers also liked
How to make keynote like presentation with markdown
How to make keynote like presentation with markdown
Hiroaki NAKADA
スッとGoを取り入れる
スッとGoを取り入れる
Yusuke Wada
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
CBIZ, Inc.
Get to Inbox Zero
Get to Inbox Zero
Purple Dog
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Francis Wade
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Informa TI GOV
Guia do Desenvolvimento de Brindes
Guia do Desenvolvimento de Brindes
Memory Promotional Enterprise
Aja wooldridge - Press Kit
Aja wooldridge - Press Kit
Thomas Wooldridge
Museo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadavia
MUSEO ETNOLOXICO
118原住民傳統領域完ev
118原住民傳統領域完ev
Mark Wu
Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017
Delegación Miguel Hidalgo
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
Brainsy, Inc.
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Dr. Oliver Massmann
زيرو أخطاء محاسبية
زيرو أخطاء محاسبية
Howaida Arram
Boletín 14/03/2017
Boletín 14/03/2017
Openbank
Data Selfie Presentation @ LSE
Data Selfie Presentation @ LSE
David Tofan
Viewers also liked
(16)
How to make keynote like presentation with markdown
How to make keynote like presentation with markdown
スッとGoを取り入れる
スッとGoを取り入れる
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
Get to Inbox Zero
Get to Inbox Zero
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Guia do Desenvolvimento de Brindes
Guia do Desenvolvimento de Brindes
Aja wooldridge - Press Kit
Aja wooldridge - Press Kit
Museo aberto 2010 museo etnoloxico ribadavia
Museo aberto 2010 museo etnoloxico ribadavia
118原住民傳統領域完ev
118原住民傳統領域完ev
Vud del 06 al 10 de marzo de 2017
Vud del 06 al 10 de marzo de 2017
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
7 Reasons Why Your Association Needs an Expert Calling Network (ECN)
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
Lawyer in Myanmar Oliver Massmann The Most Important Clause in Any Commercial...
زيرو أخطاء محاسبية
زيرو أخطاء محاسبية
Boletín 14/03/2017
Boletín 14/03/2017
Data Selfie Presentation @ LSE
Data Selfie Presentation @ LSE
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
Recently uploaded
(8)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
TF-IDFで文書カテゴリ分類
1.
TF‑IDFで文書カテゴリ分類 Author : Yuf
2.
自己紹介 Twitter: @yukky33142405 Blog: http://newtral.blog.jp/
3.
アジェンダ 各文書における単語のTF‑IDF値を調べる 作成したベクトルで文書のクラス分け
4.
アジェンダ 各文書における単語のTF‑IDF値を調べる 作成したベクトルで文書のクラス分け
5.
TF‑IDF TF ⋅ IDF
= ⋅ log n : 単語t の文書d における出現回数 n : 文書d におけるすべての単語の出現回数の和 ∣D∣ : 総文書数 ∣{d : d ∋ t }∣単語t を含む文書数 参考: tf‑idf ‑ Wikipedia n∑k k,j ni,j ∣{d : d ∋ t }∣i ∣D∣ i,j i j k ∑ k,j j i i
6.
各文書における単語のTF‑IDF値を調べる(1) TF‑IDFの計算にはPythonライブラリのscikit‑learnを用いた TF‑IDFを計算する前処理としてステミングを行っている 形態素解析にはMeCabを使用し, 辞書はmecab‑ipadic‑Neologdを 用いた(mecab‑ipadicの利用も可)
7.
各文書における単語のTF‑IDF値を調べる(2) 三十三観音のひとつに数えられる魚藍観音は、手に魚籠を持つ姿で 表される。唐時代、魚商をしていた美女が、実は観音の化身であっ たという説話が起源である。ゆるやかな曲線で彫り出された優麗な 姿に、雲海の技量の高さがうかがえる。
8.
各文書における単語のTF‑IDF値を調べる(3) 三十三観音のひとつに数えられる魚藍観音は、手に魚籠を持つ姿で 表される。唐時代、魚商をしていた美女が、実は観音の化身であっ たという説話が起源である。ゆるやかな曲線で彫り出された優麗な 姿に、雲海の技量の高さがうかがえる。
9.
各文書における単語のTF‑IDF値を調べる(4) MeCabの辞書に登録されていない単語が存在するため, 正確な値が求め られない 魚藍観音 魚籠 魚商
10.
各文書における単語のTF‑IDF値を調べる(5) 整形していない文書を処理しているため, «のような記号が特徴語に 選出されてしまう場合がある
11.
各文書における単語のTF‑IDF値を調べる(6) 文書中に現れた単語にIDを付けている
12.
アジェンダ 各文書における単語のTF‑IDF値を調べる 作成したベクトルで文書のクラス分け
13.
作成したベクトルで文書のクラス分け(1)
14.
作成したベクトルで文書のクラス分け(2) SVMによる多クラス分類を行った カーネルはRBFを用いている
15.
作成したベクトルで文書のクラス分け(3) / precision recall
f1‑score support 日本美術 0.71 1.00 0.83 12 西洋美術 1.00 0.88 0.93 8 陶芸 1.00 0.50 0.67 2 童画 0.00 0.00 0.00 1 彫刻 0.00 0.00 0.00 1 東洋 0.00 0.00 0.00 1 avg/total 0.74 0.80 0.75 25 童画, 彫刻, 東洋のデータが圧倒的に足りない
16.
作成したベクトルで文書のクラス分け(4) 一応未知のデータを分類してみる
17.
作成したベクトルで文書のクラス分け(5) 日本美術 北斎が勝川春朗と号していた習作時代の作品です。西洋の透視画法 を用いた「浮絵」の手法で、広大な隅田川を描いています。空に上 がった花火や、それを眺める橋上の人々など、ゆったりとした夕涼 みの風景が描かれています。 結果 ‑>日本美術
18.
作成したベクトルで文書のクラス分け(6) 東洋 大原總一郎は、京都大学教授水野清一氏(故人)の協力により、イ ラン先史時代の作品を収集しました。この「彩文土器の壷」は、イ ラン高原東北のセキサバードで出土しました。幾何文様と動物が描 かれています。 結果 ‑>日本美術
19.
作成したベクトルで文書のクラス分け(7) 東洋 ファラオ時代の末期のサイス期には、エジプトのデルタ地方のサイ スに首都が移動し、女神バステトの神殿が栄え…(中略)…エジプト古 美術を収集しました。 結果 ‑>東洋
20.
作成したベクトルで文書のクラス分け(8) 彫刻 エーゲ海東北のサモトラケ島でフランス領事、シャルル・シャンポ ワーゾが、まずパロス島の大理石で作られた女性像トルソを…(中 略)…共にルーブル至宝の双璧である。 結果 ‑>日本美術
21.
作成したベクトルで文書のクラス分け(9) 西洋 この三連祭壇画はクレーヴ後期の作品と推定される。中央部にフラ ンドル絵画特有の精妙な風景描写を…(中略)…装飾的傾向がよく表わ れている。 結果 ‑> 西洋美術
22.
作成したベクトルで文書のクラス分け(10)
23.
今後 Word2VecにあるCBoW, Skip‑gramを用いて文書を学習させる 文法の学習(複雑なものは難しい) 文書を木構造にしてみる?
Download now