Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KH Coder 2 チュートリアル(スライド版)

246,860 views

Published on

KH Coderを用いて計量テキスト分析を行う方法を、簡易なスライド形式で解説。

Published in: Self Improvement
  • Be the first to comment

KH Coder 2 チュートリアル(スライド版)

  1. 1. KH Coder チュートリアル 漱石「こころ」を題材に 【スライド版】 1
  2. 2. 本チュートリアルの内容 1. 2. 3. 4. 5. 2 KH Coderの準備 プロジェクト作成と前処理 頻出語と共起 それぞれの部(上・中・下)に特徴的な語 コーディングによるコンセプトの抽出
  3. 3. 1. KH Coderの準備 3
  4. 4. 1.1 Windows版パッケージをダウンロード ① http://khc.sourceforge.net/ か ら 「 Windows 版 パ ッ ケージ」をダウンロード ② 「khcoder‐2b30‐f.exe」 のようなファイル名をク リックすると、このペー ジに飛ぶ ④ 5秒ほど待つと、自動 的にダウンロードが開始 (セキュリティの警告が 出る場合は「許可」や 「保存」をクリック) 4 ③ この部分は 広告なので無視
  5. 5. 1.2 インストール(解凍) ② Unzip をクリック ① ダウンロードしたファ イルをダブルクリック ③ 「unzipped successfully」 の表示が出れば完了なので、す べての画面を閉じる KH Coderは解凍(Unzip)するだけで利用可 5
  6. 6. 1.3 KH Coderの起動方法(Windows 7) ② 「C:¥khcoder」と入力 してEnter キー ① スタートボタン をクリック ③ 「kh_coder.exe」 Windows 8の場合は スタート画面で直接 「C:¥khcoder」と入力 6 をダブルクリック
  7. 7. 2. プロジェクト作成と 前処理 7
  8. 8. 2.1 プロジェクト作成(分析するファイルを指定) ① メニューから「プロジェクト」「新規」を選択 ② 「参照」をクリックして 「tutorial_jp」フォルダ内の 「kokoro2.txt」を開く ③ 自由にメモを入力 ④ 「OK」をクリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト」「開く」を選択して、既存のプロジェクトを開く 8
  9. 9. 【解説】漱石「こころ」ファイルの内容 このチュートリアルでは漱 石「こころ」(kokoro2.txt)を 分析 物語最後の「先生」の自殺 は突然で不自然という批判 はもっともか? 「こころ」は上・中・下の 3部構成 「上_先生と私」のような 部の見出しをH1タグで括っ ている 部の内部がさらに一・二・ 三などの章に分かれている 9 「一」のような章の見出し をH2タグで括っている
  10. 10. 2.2 前処理(テキストから自動的に語を取り出す) ① KH Coderのメニューから「前処理」「語の取捨選択」 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ② 全角で「K」と入力 ③ クリック ④ メニューから「前処理」「前処理の実行」 10 →「OK」 KH Coderはアルファ ベット1文字を無視す るが、「K」は「ここ ろ」の重要な人物 そこで「K」を強制抽 出するよう指定して から、前処理を実行
  11. 11. 3. 頻出語と共起 11
  12. 12. 3.1 多く出現していた語 ① メニューから「ツール」「抽出語」「抽出語リスト」 ② 「頻出150語」を選択 ③ クリック 小説なので主要人物が上位に 「死ぬ」が89回と多く出現? 12 活用のある語は基本形に直し て抽出&カウント ex.「死ねば」→「死ぬ」
  13. 13. 3.2 共起ネットワークの作成 ① メニューから「ツール」「抽出語」「共起ネットワーク」 ② 「集計単位」として「段落」を選んで「OK」 同じ段落によく一緒に出現する (共起する)語同士を、線(edge) で結んだネットワーク ③ 「調整」をクリックして、 「描画数」を120にして「OK」 ④ 「調整」をクリックして、「出 現数の多い語ほど大きい円…」を チェックして「OK」 ⑤ 「カラー:」の箇所を「サブグ ラフ検出(modularity)」に変更 13 色々お試しください
  14. 14. 【解説】語の共起を探索する手法 階層的クラスター分析、MDS、自己組織化マップ等も利用可 MDS 共起ネットワーク 自己組織化マップ 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの多変量解析の実行には内部でRを使用 14 クラスター分析
  15. 15. 3.3 KWICコンコーダンス 1/2 ① メニューから「ツール」「抽出語」「KWICコンコーダンス」 ② 検索したい語を 入力してEnterキー ダブルクリックで、さら に広い範囲の文脈を表示 集計や解析の結果だ けを見るのでは不十 分(多くの場合) もとのテキスト中で 語がどのように使わ れていたかを確認! ③ 「集計」をクリックすると 15 コロケーション統計が開く
  16. 16. 3.3 KWICコンコーダンス 2/2 ① 前のページ手順でコロケーション統計が開く 「左1」は、左側の1つ目、すなわち 直前に出現していた回数のこと。 「意味」は「解る」の3つ前に5回出現 ② 表示する語を、 16 品詞をもとに選択可
  17. 17. 4. それぞれの部 (上・中・下) に特徴的な語 17
  18. 18. 4.1 それぞれの部の特徴語一覧 ① メニューから「ツール」「外部変数と見出し」「リスト」 ② クリック ③ 「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 18 上・中・下の特徴語が 上 位 10 語 ず つ リ ス ト アップされる。数値は どの程度「特徴的」か を示すJaccard係数。
  19. 19. 【解説】特徴語からみる物語の流れ 下 は「先生」が主人公 に送った長い遺書。親 友「K」と「お嬢さん」 との三角関係などを通 じて、上では主人公に も読者にも「解ら」な かった事柄が明らかに。 上 では主人公と「先生」 中では主人公が実家に戻 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 19 Ex. 「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
  20. 20. 4.2 対応分析による視覚的な探索 ① メニューから「ツール」「抽出語」「対応分析」 ② 「H1」になって いることを確認 ③ クリック 20 上・中・下の特徴を グラフィカルに探索
  21. 21. 【解説】対応分析の見方 ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! 原点(0, 0) ※特徴語の一覧から読み 取れた上・中・下の特徴 と、おおむね同じ特徴を 対応分析からも読み取れ る。 21 ① 原点(0, 0)付近に はこれといって特徴 のない語が集まる
  22. 22. 5. コーディングによる コンセプトの抽出 22
  23. 23. 【解説】 コーディングとは 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール コード(コンセプト)の名前 *人の死 死ぬ or 殺す or 亡くなる コードを付与する条件。「死ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 23 チュートリアルで使用 する「theme.txt」
  24. 24. 5.1 コーディングルールによる検索 ① メニューから「ツール」「文書」「文書検索」 ② 「参照」をクリック して「theme.txt」を開く ④ ダブルクリック ③「段落」を選択 ⑤ ダブルクリックで段落全体を表示 24 コーディングルール作成時には、どのような文書にコード が付与されているかを検索・確認することが大切
  25. 25. 5.2 コードのクロス集計(部ごと) ① メニューから「ツール」「コーディング」「クロス集計」 ② 「参照」をクリック して「theme.txt」を開く 人の死 恋愛 ③「段落」を選択 ④「集計」をクリック 友情 信用・不信 ⑤「バブル」をクリック してプロットを作成 25 下_先生と遺書 中_両親と私 上_先生と私 病気 コードが多く出現して いたかどうかを、部ご とに集計したプロット
  26. 26. 【解説】部ごとの集計から見る物語の流れ ③ 中・下のよ うな人物の死は 描かれていない のに、上でも 「人の死」が一 定数出現。 ① 下では3角関係のいき 人の死 さつから親友が自殺。そ のため「恋愛」「友情」 「信用・不信」が多い。 恋愛 Per cent : 友情 5 10 信用・不信 15 ② 中では病気で死に する 26 「父」の様子が描かれる。 下_先生と遺書 中_両親と私 なぜ? 次の分析で確認! 上_先生と私 病気
  27. 27. 5.3 コードのクロス集計(章ごと) ① 5.2に続けて以下の操作を行う ②「文」を選択 ③「見出し2」を選択 ④「集計」をクリック ⑤「選択」「人の死」を クリックしてグラフを作成 27 「人の死」が多く出現 していたかどうかを、 章ごとに細かく見る折 れ線グラフ
  28. 28. 【解説】「人の死」の推移から 1/2 ① 自殺の直前だけを見 ② しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) ると、「先生」はかな り急激に決意を固めて いるようにも見える。 上二四 上三五 ③ 自殺の理由の一部には、お 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 28 Ex. 「…自分もあの叔父と同じ人間だと意識した時…。他に愛想を尽か した私は、自分にも愛想を尽かして動けなくなったのです」 (下五二)
  29. 29. 【解説】「人の死」の推移から 2/2 ④ 自殺が突然で 不自然という批判 は必ずしもあたら ないのでは? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる 29 上二四 上三五
  30. 30. おわりに さらに詳しくは 『社会調査のための計量テキスト分析』 (樋口耕一著,ナカニシヤ出版,2014) 第3章の文章版チュートリアルや、 KH Coder同梱のリファレンスマニュアル、 掲示板(ユーザーフォーラム) などをご利用ください。 謝辞 30 本チュートリアルの作成と改善にあたって は、立命館大学産業社会学部ならびに大学 院社会学研究科の学生諸氏にご協力いただ きました。

×