Jaccard係数の計算式と特徴(1)

khcoder
Jaccard係数の計算式(1)
KH CoderではJaccard係数を多用しています。たと
えば語Aと語Bの共起の程度をJaccard係数で測る計
算式は以下のようになります。
「語Aを含み」なおかつ「語Bを含む」文書の数
「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると?
語Cを含む文書
• 単純に共起する数をかぞえると、語Aの有無に関係
なくどこにでも多く出現する語Cが上位に。
• Jaccard係数では割合を見るので、語Cは下位になり、
語Aがある時に特によく出てくる共起語が上位に
語Aを含む文書
それでも、ある程度は数も必要
語Dを含む文書
• 語Dはほぼすべて語Aと共起しているが、数が少ない
ので「語Aが出てくるときには語Dもよく出てくる」
とは言えない
• Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視
• 一部の係数は、(c) 語Aも語Bも含まない文書がたく
さんあると、語Aと語Bの類似度が高いと見なす
• 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
語Aを含む文書 語Bを含む文書
すべての文書
(c) 語Aも語Bも含まない文書
ところで「文書」ってなに?
• 設定を変えなければ(デフォルトでは)
– Excel・CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
• 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
• KH CoderではH1からH5による見出しを加えることで、
節・章・部など様々な単位での分析が可能
1 of 9

Recommended

Jaccard係数の計算式と特徴(2) by
Jaccard係数の計算式と特徴(2)Jaccard係数の計算式と特徴(2)
Jaccard係数の計算式と特徴(2)khcoder
8.8K views9 slides
論文に関する基礎知識2016 by
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
56.9K views40 slides
ナレッジグラフ入門 by
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
6.5K views93 slides
SHAP値の考え方を理解する(木構造編) by
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
12.7K views12 slides
MICの解説 by
MICの解説MICの解説
MICの解説logics-of-blue
51.8K views49 slides
差分プライバシーとは何か? (定義 & 解釈編) by
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)Kentaro Minami
91.9K views80 slides

More Related Content

What's hot

「いい検索」を考える by
「いい検索」を考える「いい検索」を考える
「いい検索」を考えるShuryo Uchida
13.3K views78 slides
15分でわかる(範囲の)ベイズ統計学 by
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学Ken'ichi Matsui
55K views47 slides
深層学習の不確実性 - Uncertainty in Deep Neural Networks - by
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
11.7K views137 slides
Word2vecの並列実行時の学習速度の改善 by
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
19.4K views21 slides
ナレッジグラフ推論チャレンジの紹介 by
ナレッジグラフ推論チャレンジの紹介ナレッジグラフ推論チャレンジの紹介
ナレッジグラフ推論チャレンジの紹介KnowledgeGraph
3K views10 slides
Active Learning 入門 by
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
51.8K views60 slides

What's hot(20)

「いい検索」を考える by Shuryo Uchida
「いい検索」を考える「いい検索」を考える
「いい検索」を考える
Shuryo Uchida13.3K views
15分でわかる(範囲の)ベイズ統計学 by Ken'ichi Matsui
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui55K views
深層学習の不確実性 - Uncertainty in Deep Neural Networks - by tmtm otm
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm11.7K views
Word2vecの並列実行時の学習速度の改善 by Naoaki Okazaki
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki19.4K views
ナレッジグラフ推論チャレンジの紹介 by KnowledgeGraph
ナレッジグラフ推論チャレンジの紹介ナレッジグラフ推論チャレンジの紹介
ナレッジグラフ推論チャレンジの紹介
KnowledgeGraph3K views
Active Learning 入門 by Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K views
ベイズ統計学の概論的紹介 by Naoki Hayashi
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi78.9K views
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用― by khcoder
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
khcoder123K views
機械学習を用いた異常検知入門 by michiaki ito
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito38.4K views
全力解説!Transformer by Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.6K views
相関と因果について考える:統計的因果推論、その(不)可能性の中心 by takehikoihayashi
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi55.4K views
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング by mlm_kansai
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai67.6K views
NLPにおけるAttention~Seq2Seq から BERTまで~ by Takuya Ono
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono1.2K views
研究分野をサーベイする by Takayuki Itoh
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh123.4K views
情報推薦システム入門:講義スライド by Kenta Oku
情報推薦システム入門:講義スライド情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド
Kenta Oku19.2K views
12. Diffusion Model の数学的基礎.pdf by 幸太朗 岩澤
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤799 views
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話) by Yoshitake Takebayashi
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi49.9K views
単語の分散表現と構成性の計算モデルの発展 by Naoaki Okazaki
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki35.5K views

Viewers also liked

KH Coder 2 チュートリアル(スライド版) by
KH Coder 2 チュートリアル(スライド版)KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)khcoder
265.7K views30 slides
النص الكامل لمدونة الشغل by
النص الكامل لمدونة الشغلالنص الكامل لمدونة الشغل
النص الكامل لمدونة الشغلabdellatif AJHIR
44.3K views101 slides
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京) by
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)Koichi Hamada
27.8K views87 slides
GraphX Advent Calendar Day17 by
GraphX Advent Calendar Day17GraphX Advent Calendar Day17
GraphX Advent Calendar Day17鉄平 土佐
9.2K views7 slides
おそ松さんとラブライブ!の2ちゃんねるスレ分析 by
おそ松さんとラブライブ!の2ちゃんねるスレ分析おそ松さんとラブライブ!の2ちゃんねるスレ分析
おそ松さんとラブライブ!の2ちゃんねるスレ分析Shibaura Institute of Technology
2.5K views27 slides
ライトノベル市場の現状分析 by
ライトノベル市場の現状分析ライトノベル市場の現状分析
ライトノベル市場の現状分析Shibaura Institute of Technology
34.1K views20 slides

Viewers also liked(20)

KH Coder 2 チュートリアル(スライド版) by khcoder
KH Coder 2 チュートリアル(スライド版)KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)
khcoder265.7K views
النص الكامل لمدونة الشغل by abdellatif AJHIR
النص الكامل لمدونة الشغلالنص الكامل لمدونة الشغل
النص الكامل لمدونة الشغل
abdellatif AJHIR44.3K views
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京) by Koichi Hamada
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
Koichi Hamada27.8K views
GraphX Advent Calendar Day17 by 鉄平 土佐
GraphX Advent Calendar Day17GraphX Advent Calendar Day17
GraphX Advent Calendar Day17
鉄平 土佐9.2K views
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st by khcoder
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41stフリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
khcoder45K views
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス by Kosetsu Tsukuda
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Kosetsu Tsukuda1.8K views
Jap2017 ss65 優しいベイズ統計への導入法 by 考司 小杉
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
考司 小杉3.3K views
広告プラットフォーム立ち上げ百鬼夜行 by Takahiro Ogoshi
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
Takahiro Ogoshi24.4K views
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" by Shinnosuke Takamichi
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
マッチングサービスにおけるKPIの話 by cyberagent
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent71K views
アドテクスタジオのデータ分析基盤について by kazuhiro ito
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
kazuhiro ito6.9K views
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0 by Michitaka Yumoto
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
Michitaka Yumoto31.9K views
エクセルでテキストマイニング TTM2HADの使い方 by Hiroshi Shimizu
エクセルでテキストマイニング TTM2HADの使い方エクセルでテキストマイニング TTM2HADの使い方
エクセルでテキストマイニング TTM2HADの使い方
Hiroshi Shimizu45.9K views
Apache Kuduを使った分析システムの裏側 by Cloudera Japan
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan8.5K views

More from khcoder

KH Coder 3 チュートリアル(スライド版) by
KH Coder 3 チュートリアル(スライド版)KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)khcoder
90.2K views32 slides
【旧版】KH Coder 3 チュートリアル(スライド版) by
【旧版】KH Coder 3 チュートリアル(スライド版)【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)khcoder
7.4K views31 slides
Quick Start Tutorial of KH Coder 3 by
Quick Start Tutorial of KH Coder 3Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3khcoder
96.6K views35 slides
[OUTDATED] Quick Start Tutorial of KH Coder 3 by
[OUTDATED] Quick Start Tutorial of KH Coder 3[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3khcoder
4.5K views35 slides
Executing SQL Queries and Making Plugins by
Executing SQL Queries and Making PluginsExecuting SQL Queries and Making Plugins
Executing SQL Queries and Making Pluginskhcoder
5.7K views8 slides
Example of Using R #1: Exporting the Result of Correspondence Analysis by
Example of Using R #1: Exporting the Result of Correspondence AnalysisExample of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence Analysiskhcoder
5.4K views9 slides

More from khcoder(7)

KH Coder 3 チュートリアル(スライド版) by khcoder
KH Coder 3 チュートリアル(スライド版)KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)
khcoder90.2K views
【旧版】KH Coder 3 チュートリアル(スライド版) by khcoder
【旧版】KH Coder 3 チュートリアル(スライド版)【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)
khcoder7.4K views
Quick Start Tutorial of KH Coder 3 by khcoder
Quick Start Tutorial of KH Coder 3Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3
khcoder96.6K views
[OUTDATED] Quick Start Tutorial of KH Coder 3 by khcoder
[OUTDATED] Quick Start Tutorial of KH Coder 3[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3
khcoder4.5K views
Executing SQL Queries and Making Plugins by khcoder
Executing SQL Queries and Making PluginsExecuting SQL Queries and Making Plugins
Executing SQL Queries and Making Plugins
khcoder5.7K views
Example of Using R #1: Exporting the Result of Correspondence Analysis by khcoder
Example of Using R #1: Exporting the Result of Correspondence AnalysisExample of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence Analysis
khcoder5.4K views
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min... by khcoder
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
khcoder87K views

Jaccard係数の計算式と特徴(1)