Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
【解説】 一般逆行列
Kenjiro Sugimoto
ベイズファクターとモデル選択
kazutantan
論文のいろは
Shu Sakamoto
競プロでGo!
鈴木 セシル
言語資源と付き合う
Yuya Unno
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
メタスタディ (Vision and Language)
Shintaro Yamamoto
1
of
30
Top clipped slide
KH Coder 2 チュートリアル(スライド版)
Dec. 1, 2013
•
0 likes
56 likes
×
Be the first to like this
Show More
•
264,908 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Self Improvement
KH Coderを用いて計量テキスト分析を行う方法を、簡易なスライド形式で解説。
khcoder
Follow
Advertisement
Advertisement
Advertisement
Recommended
Jaccard係数の計算式と特徴(1)
khcoder
104.1K views
•
9 slides
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Hitomi Yanaka
3.8K views
•
69 slides
Jaccard係数の計算式と特徴(2)
khcoder
8.1K views
•
9 slides
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
khcoder
44.9K views
•
28 slides
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Makoto Takenaka
1.5K views
•
19 slides
Attentionの基礎からTransformerの入門まで
AGIRobots
24.7K views
•
38 slides
More Related Content
Slideshows for you
(20)
【解説】 一般逆行列
Kenjiro Sugimoto
•
78.8K views
ベイズファクターとモデル選択
kazutantan
•
18.2K views
論文のいろは
Shu Sakamoto
•
2.1K views
競プロでGo!
鈴木 セシル
•
1.9K views
言語資源と付き合う
Yuya Unno
•
10.4K views
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
•
17.3K views
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
•
16.1K views
メタスタディ (Vision and Language)
Shintaro Yamamoto
•
1.4K views
第1回 配信講義 計算科学技術特論A (2021)
RCCSRENKEI
•
2.9K views
大規模データ時代に求められる自然言語処理
Preferred Networks
•
27.1K views
Graph convolution (スペクトルアプローチ)
yukihiro domae
•
2K views
Gephi Tutorial Visualization (Japanese)
あしたのオープンソース研究所
•
12.4K views
数理最適化とPython
Yosuke Onoue
•
22.3K views
最適輸送の解き方
joisino
•
19K views
ベイズ統計学の概論的紹介
Naoki Hayashi
•
76.5K views
グラフィカルモデル入門
Kawamoto_Kazuhiko
•
114.6K views
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
•
32.5K views
大規模グラフアルゴリズムの最先端
Takuya Akiba
•
54.1K views
協調フィルタリング入門
hoxo_m
•
44.7K views
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue
•
23K views
Similar to KH Coder 2 チュートリアル(スライド版)
(14)
KH Coder 3 チュートリアル(スライド版)
khcoder
•
90.1K views
【旧版】KH Coder 3 チュートリアル(スライド版)
khcoder
•
7.4K views
Code igniterでテスト駆動開発 資料作成中
Takako Miyagawa
•
4K views
さわってみよう Firefox OS in 福岡
Honma Masashi
•
812 views
Cocos2d xでの開発の準備
Tomoaki Shimizu
•
15.4K views
FreeCAD OpenFOAM Workbenchセットアップ方法と課題
murai1972
•
7.5K views
さわってみよう Firefox OS in 大阪
Honma Masashi
•
1.1K views
KEONとPEAKが無くてもFirefox OS開発出来る
android sola
•
12.3K views
Ide env
Shuichi Jinushi
•
80 views
Composer による依存管理 と Packagist によるライブラリの公開
Shogo Kawahara
•
18.8K views
100626 ec cube勉強会初心者向けスライド
kuroki
•
535 views
Verilog-HDL Tutorial (15) software
Hiroki Nakahara
•
1.3K views
Step-Oriented Programming による任意コード実行の可能性
kozossakai
•
737 views
Step-Oriented Programming による任意コード実行の可能性 by 坂井 弘亮
CODE BLUE
•
658 views
Advertisement
More from khcoder
(6)
Quick Start Tutorial of KH Coder 3
khcoder
•
83.2K views
[OUTDATED] Quick Start Tutorial of KH Coder 3
khcoder
•
4.5K views
Executing SQL Queries and Making Plugins
khcoder
•
5.7K views
Example of Using R #1: Exporting the Result of Correspondence Analysis
khcoder
•
5.4K views
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
khcoder
•
87K views
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
khcoder
•
122.9K views
Recently uploaded
(20)
《南达科他大学毕业证|学位证书校内仿真版本》
123shab123
•
4 views
留学学分不够办理《美国塔夫茨大学假文凭毕业证》
250dsacd
•
3 views
留信网认证可查【戴尔豪斯大学文凭证书毕业证购买】
12da12
•
2 views
☀️【利兹大学毕业证成绩单留学生首选】
25mjhd12
•
2 views
在哪里可以做《天普大学文凭证书|毕业证》
20das12
•
2 views
在哪里可以做《密德萨斯大学文凭证书|毕业证》
1232hdjk
•
3 views
☀️《UNUK毕业证仿真》
fggg13
•
0 views
本科/硕士《新西兰奥克兰大学毕业证成绩单》
21dadasda
•
3 views
①【高贵林学院毕业证文凭学位证书|工艺完美复刻】
vgh215w
•
2 views
☀️《Bournemouth毕业证仿真》
DAS54SA
•
2 views
国外学历【俄亥俄大学研究生文凭毕业证留学生首选】
21dsasa
•
2 views
在哪里可以做《奥克兰大学文凭证书|毕业证》
kjds1245
•
2 views
国外学历【南十字星大学研究生文凭毕业证留学生首选】
f45pmsa
•
2 views
国外学历【布克大学研究生文凭毕业证留学生首选】
ewq15a
•
2 views
★可查可存档〖制作麦考瑞大学文凭证书毕业证〗
tujjj
•
2 views
国外学历【伊利诺伊理工学院研究生文凭毕业证留学生首选】
21dsasa
•
2 views
国外学历【泰普迪尼理工学院研究生文凭毕业证留学生首选】
jsad789
•
2 views
留学生案例《凯斯西储大学学位毕业证书和学士文凭》
15sdasd
•
3 views
☀️《UEDIN毕业证仿真》
DAS54SA
•
11 views
《伯恩茅斯大学毕业证|学位证书校内仿真版本》
w124dsa
•
2 views
Advertisement
KH Coder 2 チュートリアル(スライド版)
KH Coder チュートリアル 漱石「こころ」を題材に 【スライド版】 1
本チュートリアルの内容 1. 2. 3. 4. 5. 2 KH Coderの準備 プロジェクト作成と前処理 頻出語と共起 それぞれの部(上・中・下)に特徴的な語 コーディングによるコンセプトの抽出
1. KH Coderの準備 3
1.1 Windows版パッケージをダウンロード ① http://khc.sourceforge.net/ か ら
「 Windows 版 パ ッ ケージ」をダウンロード ② 「khcoder‐2b30‐f.exe」 のようなファイル名をク リックすると、このペー ジに飛ぶ ④ 5秒ほど待つと、自動 的にダウンロードが開始 (セキュリティの警告が 出る場合は「許可」や 「保存」をクリック) 4 ③ この部分は 広告なので無視
1.2 インストール(解凍) ② Unzip をクリック ①
ダウンロードしたファ イルをダブルクリック ③ 「unzipped successfully」 の表示が出れば完了なので、す べての画面を閉じる KH Coderは解凍(Unzip)するだけで利用可 5
1.3 KH Coderの起動方法(Windows
7) ② 「C:¥khcoder」と入力 してEnter キー ① スタートボタン をクリック ③ 「kh_coder.exe」 Windows 8の場合は スタート画面で直接 「C:¥khcoder」と入力 6 をダブルクリック
2. プロジェクト作成と 前処理 7
2.1 プロジェクト作成(分析するファイルを指定) ① メニューから「プロジェクト」「新規」を選択 ②
「参照」をクリックして 「tutorial_jp」フォルダ内の 「kokoro2.txt」を開く ③ 自由にメモを入力 ④ 「OK」をクリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト」「開く」を選択して、既存のプロジェクトを開く 8
【解説】漱石「こころ」ファイルの内容 このチュートリアルでは漱 石「こころ」(kokoro2.txt)を 分析 物語最後の「先生」の自殺 は突然で不自然という批判 はもっともか? 「こころ」は上・中・下の 3部構成 「上_先生と私」のような 部の見出しをH1タグで括っ ている 部の内部がさらに一・二・ 三などの章に分かれている 9 「一」のような章の見出し をH2タグで括っている
2.2 前処理(テキストから自動的に語を取り出す) ① KH
Coderのメニューから「前処理」「語の取捨選択」 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ② 全角で「K」と入力 ③ クリック ④ メニューから「前処理」「前処理の実行」 10 →「OK」 KH Coderはアルファ ベット1文字を無視す るが、「K」は「ここ ろ」の重要な人物 そこで「K」を強制抽 出するよう指定して から、前処理を実行
3. 頻出語と共起 11
3.1 多く出現していた語 ① メニューから「ツール」「抽出語」「抽出語リスト」 ②
「頻出150語」を選択 ③ クリック 小説なので主要人物が上位に 「死ぬ」が89回と多く出現? 12 活用のある語は基本形に直し て抽出&カウント ex.「死ねば」→「死ぬ」
3.2 共起ネットワークの作成 ① メニューから「ツール」「抽出語」「共起ネットワーク」 ②
「集計単位」として「段落」を選んで「OK」 同じ段落によく一緒に出現する (共起する)語同士を、線(edge) で結んだネットワーク ③ 「調整」をクリックして、 「描画数」を120にして「OK」 ④ 「調整」をクリックして、「出 現数の多い語ほど大きい円…」を チェックして「OK」 ⑤ 「カラー:」の箇所を「サブグ ラフ検出(modularity)」に変更 13 色々お試しください
【解説】語の共起を探索する手法 階層的クラスター分析、MDS、自己組織化マップ等も利用可 MDS 共起ネットワーク 自己組織化マップ 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの多変量解析の実行には内部でRを使用 14 クラスター分析
3.3 KWICコンコーダンス 1/2 ①
メニューから「ツール」「抽出語」「KWICコンコーダンス」 ② 検索したい語を 入力してEnterキー ダブルクリックで、さら に広い範囲の文脈を表示 集計や解析の結果だ けを見るのでは不十 分(多くの場合) もとのテキスト中で 語がどのように使わ れていたかを確認! ③ 「集計」をクリックすると 15 コロケーション統計が開く
3.3 KWICコンコーダンス 2/2 ①
前のページ手順でコロケーション統計が開く 「左1」は、左側の1つ目、すなわち 直前に出現していた回数のこと。 「意味」は「解る」の3つ前に5回出現 ② 表示する語を、 16 品詞をもとに選択可
4. それぞれの部 (上・中・下) に特徴的な語 17
4.1 それぞれの部の特徴語一覧 ① メニューから「ツール」「外部変数と見出し」「リスト」 ②
クリック ③ 「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 18 上・中・下の特徴語が 上 位 10 語 ず つ リ ス ト アップされる。数値は どの程度「特徴的」か を示すJaccard係数。
【解説】特徴語からみる物語の流れ 下 は「先生」が主人公 に送った長い遺書。親 友「K」と「お嬢さん」 との三角関係などを通 じて、上では主人公に も読者にも「解ら」な かった事柄が明らかに。 上 では主人公と「先生」 中では主人公が実家に戻 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 19 Ex.
「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
4.2 対応分析による視覚的な探索 ① メニューから「ツール」「抽出語」「対応分析」 ②
「H1」になって いることを確認 ③ クリック 20 上・中・下の特徴を グラフィカルに探索
【解説】対応分析の見方 ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! 原点(0,
0) ※特徴語の一覧から読み 取れた上・中・下の特徴 と、おおむね同じ特徴を 対応分析からも読み取れ る。 21 ① 原点(0, 0)付近に はこれといって特徴 のない語が集まる
5. コーディングによる コンセプトの抽出 22
【解説】 コーディングとは 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール コード(コンセプト)の名前 *人の死 死ぬ or
殺す or 亡くなる コードを付与する条件。「死ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 23 チュートリアルで使用 する「theme.txt」
5.1 コーディングルールによる検索 ① メニューから「ツール」「文書」「文書検索」 ②
「参照」をクリック して「theme.txt」を開く ④ ダブルクリック ③「段落」を選択 ⑤ ダブルクリックで段落全体を表示 24 コーディングルール作成時には、どのような文書にコード が付与されているかを検索・確認することが大切
5.2 コードのクロス集計(部ごと) ① メニューから「ツール」「コーディング」「クロス集計」 ②
「参照」をクリック して「theme.txt」を開く 人の死 恋愛 ③「段落」を選択 ④「集計」をクリック 友情 信用・不信 ⑤「バブル」をクリック してプロットを作成 25 下_先生と遺書 中_両親と私 上_先生と私 病気 コードが多く出現して いたかどうかを、部ご とに集計したプロット
【解説】部ごとの集計から見る物語の流れ ③ 中・下のよ うな人物の死は 描かれていない のに、上でも 「人の死」が一 定数出現。 ① 下では3角関係のいき 人の死 さつから親友が自殺。そ のため「恋愛」「友情」 「信用・不信」が多い。 恋愛 Per
cent : 友情 5 10 信用・不信 15 ② 中では病気で死に する 26 「父」の様子が描かれる。 下_先生と遺書 中_両親と私 なぜ? 次の分析で確認! 上_先生と私 病気
5.3 コードのクロス集計(章ごと) ① 5.2に続けて以下の操作を行う ②「文」を選択 ③「見出し2」を選択 ④「集計」をクリック ⑤「選択」「人の死」を クリックしてグラフを作成 27 「人の死」が多く出現 していたかどうかを、 章ごとに細かく見る折 れ線グラフ
【解説】「人の死」の推移から 1/2 ① 自殺の直前だけを見 ②
しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) ると、「先生」はかな り急激に決意を固めて いるようにも見える。 上二四 上三五 ③ 自殺の理由の一部には、お 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 28 Ex. 「…自分もあの叔父と同じ人間だと意識した時…。他に愛想を尽か した私は、自分にも愛想を尽かして動けなくなったのです」 (下五二)
【解説】「人の死」の推移から 2/2 ④ 自殺が突然で 不自然という批判 は必ずしもあたら ないのでは? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる 29 上二四 上三五
おわりに さらに詳しくは 『社会調査のための計量テキスト分析』 (樋口耕一著,ナカニシヤ出版,2014) 第3章の文章版チュートリアルや、 KH Coder同梱のリファレンスマニュアル、 掲示板(ユーザーフォーラム) などをご利用ください。 謝辞 30 本チュートリアルの作成と改善にあたって は、立命館大学産業社会学部ならびに大学 院社会学研究科の学生諸氏にご協力いただ きました。
Advertisement