Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Jaccard係数の計算式と特徴(1)

43,724 views

Published on

計量テキスト分析のためのフリーソフトウェア「KH Coder」ではJaccard係数を多用しています。たとえば共起ネットワークの機能でも、語と語の共起の程度を測るためにJaccard係数を試用しています。このJaccard係数の計算式と特徴を、図解で説明しています。

Published in: Science
  • Be the first to comment

Jaccard係数の計算式と特徴(1)

  1. 1. Jaccard係数の計算式(1) KH CoderではJaccard係数を多用しています。たと えば語Aと語Bの共起の程度をJaccard係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく→
  2. 2. 語Aを含む文書 語Bを含む文書
  3. 3. (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
  4. 4. (b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
  5. 5. (b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書 (b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
  6. 6. もし単純に数をかぞえると? 語Cを含む文書 • 単純に共起する数をかぞえると、語Aの有無に関係 なくどこにでも多く出現する語Cが上位に。 • Jaccard係数では割合を見るので、語Cは下位になり、 語Aがある時に特によく出てくる共起語が上位に 語Aを含む文書
  7. 7. それでも、ある程度は数も必要 語Dを含む文書 • 語Dはほぼすべて語Aと共起しているが、数が少ない ので「語Aが出てくるときには語Dもよく出てくる」 とは言えない • Jaccard係数では割合を見るので語Dも下位に → 語CやDを取り除きつつ共起語を探すのがJaccard係数 語Aを含む文書
  8. 8. どちらも含まない文書は無視 • 一部の係数は、(c) 語Aも語Bも含まない文書がたく さんあると、語Aと語Bの類似度が高いと見なす • 計量テキスト分析では、(c)の文書は常に大量に存在 するので、(c)を無視するJaccard係数を採用 語Aを含む文書 語Bを含む文書 すべての文書 (c) 語Aも語Bも含まない文書
  9. 9. ところで「文書」ってなに? • 設定を変えなければ(デフォルトでは) – Excel・CSVデータの場合は、1つのセルが1つの「文書」 – テキストデータの場合は、1つの段落(改行で区切れられ た部分)が1つの「文書」 • 分析時に「集計単位」の設定を「文」に変更すれば、 1つの文を1つの「文書」と見なせる • KH CoderではH1からH5による見出しを加えることで、 節・章・部など様々な単位での分析が可能

×