KH Coder チュートリアル(スライド版)

177,576 views

Published on

KH Coderを用いて計量テキスト分析を行う方法を、簡易なスライド形式で解説。

Published in: Self Improvement
0 Comments
36 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
177,576
On SlideShare
0
From Embeds
0
Number of Embeds
122,143
Actions
Shares
0
Downloads
266
Comments
0
Likes
36
Embeds 0
No embeds

No notes for slide

KH Coder チュートリアル(スライド版)

  1. 1. KH Coder チュートリアル 漱石「こころ」を題材に 【スライド版】 1
  2. 2. 本チュートリアルの内容 1. 2. 3. 4. 5. 2 KH Coderの準備 プロジェクト作成と前処理 頻出語と共起 それぞれの部(上・中・下)に特徴的な語 コーディングによるコンセプトの抽出
  3. 3. 1. KH Coderの準備 3
  4. 4. 1.1 Windows版パッケージをダウンロード ① http://khc.sourceforge.net/ か ら 「 Windows 版 パ ッ ケージ」をダウンロード ② 「khcoder‐2b30‐f.exe」 のようなファイル名をク リックすると、このペー ジに飛ぶ ④ 5秒ほど待つと、自動 的にダウンロードが開始 (セキュリティの警告が 出る場合は「許可」や 「保存」をクリック) 4 ③ この部分は 広告なので無視
  5. 5. 1.2 インストール(解凍) ② Unzip をクリック ① ダウンロードしたファ イルをダブルクリック ③ 「unzipped successfully」 の表示が出れば完了なので、す べての画面を閉じる KH Coderは解凍(Unzip)するだけで利用可 5
  6. 6. 1.3 KH Coderの起動方法(Windows 7) ② 「C:¥khcoder」と入力 してEnter キー ① スタートボタン をクリック ③ 「kh_coder.exe」 Windows 8の場合は スタート画面で直接 「C:¥khcoder」と入力 6 をダブルクリック
  7. 7. 2. プロジェクト作成と 前処理 7
  8. 8. 2.1 プロジェクト作成(分析するファイルを指定) ① メニューから「プロジェクト」「新規」を選択 ② 「参照」をクリックして 「tutorial_jp」フォルダ内の 「kokoro2.txt」を開く ③ 自由にメモを入力 ④ 「OK」をクリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト」「開く」を選択して、既存のプロジェクトを開く 8
  9. 9. 【解説】漱石「こころ」ファイルの内容 このチュートリアルでは漱 石「こころ」(kokoro2.txt)を 分析 物語最後の「先生」の自殺 は突然で不自然という批判 はもっともか? 「こころ」は上・中・下の 3部構成 「上_先生と私」のような 部の見出しをH1タグで括っ ている 部の内部がさらに一・二・ 三などの章に分かれている 9 「一」のような章の見出し をH2タグで括っている
  10. 10. 2.2 前処理(テキストから自動的に語を取り出す) ① KH Coderのメニューから「前処理」「語の取捨選択」 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ② 全角で「K」と入力 ③ クリック ④ メニューから「前処理」「前処理の実行」 10 →「OK」 KH Coderはアルファ ベット1文字を無視す るが、「K」は「ここ ろ」の重要な人物 そこで「K」を強制抽 出するよう指定して から、前処理を実行
  11. 11. 3. 頻出語と共起 11
  12. 12. 3.1 多く出現していた語 ① メニューから「ツール」「抽出語」「抽出語リスト」 ② 「頻出150語」を選択 ③ クリック 小説なので主要人物が上位に 「死ぬ」が89回と多く出現? 12 活用のある語は基本形に直し て抽出&カウント ex.「死ねば」→「死ぬ」
  13. 13. 3.2 共起ネットワークの作成 ① メニューから「ツール」「抽出語」「共起ネットワーク」 ② 「集計単位」として「段落」を選んで「OK」 同じ段落によく一緒に出現する (共起する)語同士を、線(edge) で結んだネットワーク ③ 「調整」をクリックして、 「描画数」を120にして「OK」 ④ 「調整」をクリックして、「出 現数の多い語ほど大きい円…」を チェックして「OK」 ⑤ 「カラー:」の箇所を「サブグ ラフ検出(modularity)」に変更 13 色々お試しください
  14. 14. 【解説】語の共起を探索する手法 階層的クラスター分析、MDS、自己組織化マップ等も利用可 MDS 共起ネットワーク 自己組織化マップ 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの多変量解析の実行には内部でRを使用 14 クラスター分析
  15. 15. 3.3 KWICコンコーダンス 1/2 ① メニューから「ツール」「抽出語」「KWICコンコーダンス」 ② 検索したい語を 入力してEnterキー ダブルクリックで、さら に広い範囲の文脈を表示 集計や解析の結果だ けを見るのでは不十 分(多くの場合) もとのテキスト中で 語がどのように使わ れていたかを確認! ③ 「集計」をクリックすると 15 コロケーション統計が開く
  16. 16. 3.3 KWICコンコーダンス 2/2 ① 前のページ手順でコロケーション統計が開く 「左1」は、左側の1つ目、すなわち 直前に出現していた回数のこと。 「意味」は「解る」の3つ前に5回出現 ② 表示する語を、 16 品詞をもとに選択可
  17. 17. 4. それぞれの部 (上・中・下) に特徴的な語 17
  18. 18. 4.1 それぞれの部の特徴語一覧 ① メニューから「ツール」「外部変数と見出し」「リスト」 ② クリック ③ 「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 18 上・中・下の特徴語が 上 位 10 語 ず つ リ ス ト アップされる。数値は どの程度「特徴的」か を示すJaccard係数。
  19. 19. 【解説】特徴語からみる物語の流れ 下 は「先生」が主人公 に送った長い遺書。親 友「K」と「お嬢さん」 との三角関係などを通 じて、上では主人公に も読者にも「解ら」な かった事柄が明らかに。 上 では主人公と「先生」 中では主人公が実家に戻 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 19 Ex. 「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
  20. 20. 4.2 対応分析による視覚的な探索 ① メニューから「ツール」「抽出語」「対応分析」 ② 「H1」になって いることを確認 ③ クリック 20 上・中・下の特徴を グラフィカルに探索
  21. 21. 【解説】対応分析の見方 ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! 原点(0, 0) ※特徴語の一覧から読み 取れた上・中・下の特徴 と、おおむね同じ特徴を 対応分析からも読み取れ る。 21 ① 原点(0, 0)付近に はこれといって特徴 のない語が集まる
  22. 22. 5. コーディングによる コンセプトの抽出 22
  23. 23. 【解説】 コーディングとは 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール コード(コンセプト)の名前 *人の死 死ぬ or 殺す or 亡くなる コードを付与する条件。「死ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 23 チュートリアルで使用 する「theme.txt」
  24. 24. 5.1 コーディングルールによる検索 ① メニューから「ツール」「文書」「文書検索」 ② 「参照」をクリック して「theme.txt」を開く ④ ダブルクリック ③「段落」を選択 ⑤ ダブルクリックで段落全体を表示 24 コーディングルール作成時には、どのような文書にコード が付与されているかを検索・確認することが大切
  25. 25. 5.2 コードのクロス集計(部ごと) ① メニューから「ツール」「コーディング」「クロス集計」 ② 「参照」をクリック して「theme.txt」を開く 人の死 恋愛 ③「段落」を選択 ④「集計」をクリック 友情 信用・不信 ⑤「バブル」をクリック してプロットを作成 25 下_先生と遺書 中_両親と私 上_先生と私 病気 コードが多く出現して いたかどうかを、部ご とに集計したプロット
  26. 26. 【解説】部ごとの集計から見る物語の流れ ③ 中・下のよ うな人物の死は 描かれていない のに、上でも 「人の死」が一 定数出現。 ① 下では3角関係のいき 人の死 さつから親友が自殺。そ のため「恋愛」「友情」 「信用・不信」が多い。 恋愛 Per cent : 友情 5 10 信用・不信 15 ② 中では病気で死に する 26 「父」の様子が描かれる。 下_先生と遺書 中_両親と私 なぜ? 次の分析で確認! 上_先生と私 病気
  27. 27. 5.3 コードのクロス集計(章ごと) ① 5.2に続けて以下の操作を行う ②「文」を選択 ③「見出し2」を選択 ④「集計」をクリック ⑤「選択」「人の死」を クリックしてグラフを作成 27 「人の死」が多く出現 していたかどうかを、 章ごとに細かく見る折 れ線グラフ
  28. 28. 【解説】「人の死」の推移から 1/2 ① 自殺の直前だけを見 ② しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) ると、「先生」はかな り急激に決意を固めて いるようにも見える。 上二四 上三五 ③ 自殺の理由の一部には、お 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 28 Ex. 「…自分もあの叔父と同じ人間だと意識した時…。他に愛想を尽か した私は、自分にも愛想を尽かして動けなくなったのです」 (下五二)
  29. 29. 【解説】「人の死」の推移から 2/2 ④ 自殺が突然で 不自然という批判 は必ずしもあたら ないのでは? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる 29 上二四 上三五
  30. 30. おわりに さらに詳しくは 『社会調査のための計量テキスト分析』 (樋口耕一著,ナカニシヤ出版,2014) 第3章の文章版チュートリアルや、 KH Coder同梱のリファレンスマニュアル、 掲示板(ユーザーフォーラム) などをご利用ください。 謝辞 30 本チュートリアルの作成と改善にあたって は、立命館大学産業社会学部ならびに大学 院社会学研究科の学生諸氏にご協力いただ きました。

×