Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KH Coder 2による英文データのKWIC検索と分析

6,993 views

Published on

英語コーパス学会東支部ワークショップ「フリーソフトウェア『KH Coder』による英文テキストの統計的分析とコンコーダンス作成」配付資料の抜粋版です。

Published in: Education
  • Be the first to comment

KH Coder 2による英文データのKWIC検索と分析

  1. 1. 1 KH Coderによる英文データのKWIC検索と分析 2015 3/7 英語コーパス学会東支部ワークショップ資料より一部抜粋 樋口耕一
  2. 2. 2 英文データの検索と分析: LemmaとPOSの利用
  3. 3. 3 英語データへの対応 平テキストを段落に分割 改行でデータを区切る 段落を文に分割 省略をあらわすピリオド等に留意しつつ分割 Lingua::Sentence(Perlモジュール)を利用 文を語に分割 「aren’t」→「are」と「n’t」 Stanford POS Taggerを利用 語のLemmatize & POS Tagging 「knows」「knew」「known」 →「know」 Stanford POS Taggerを利用 英語データ (Toutanova et al. 2003)
  4. 4. 4 Stanford POS Tagger出力例 英語データ Word Lemma POS I I PRP do do VBP n't not RB even even RB trust trust VB myself myself PRP . . . Word Lemma POS And and CC not not RB trusting trust VBG myself myself PRP , , , I I PRP can can MD hardly hardly RB trust trust VB Mr. Mr. NNP Smith Smith NNP . . . “I don‘t even trust myself. And not trusting myself, I can hardly trust Mr. Smith.” (平テキスト)を入力すると: この結果をKH Coderに読み込んで いるので、平テキストを対象に、 LemmaやPOSを使った検索・集計 が可能!
  5. 5. 5 Penn Treebank Part of Speech tag set 1 Tag Description Tag Description CC Coordinating conjunction MD Modal CD Cardinal number NN Noun, singular or mass DT Determiner NNS Noun, plural EX Existential there NNP Proper noun, singular FW Foreign word NNPS Proper noun, plural IN Preposition or subordinating conjunction PDT Predeterminer JJ Adjective POS Possessive ending JJR Adjective, comparative PRP Personal pronoun JJS Adjective, superlative PRP$ Possessive pronoun LS List item marker RB Adverb これらのタグがそれぞれの語に自動的に与えられる 英語データ
  6. 6. 6 Penn Treebank Part of Speech tag set 2 Tag Description Tag Description RBR Adverb, comparative VBP Verb, non-3rd person singular present RBS Adverb, superlative VBZ Verb, 3rd person singular present RP Particle WDT Wh-determiner SYM Symbol WP Wh-pronoun TO to WP$ Possessive wh- pronoun UH Interjection WRB Wh-adverb VB Verb, base form VBD Verb, past tense VBG Verb, gerund or present participle VBN Verb, past participle KH Coder上の「品詞」ではまと めて「Verb」と認識。 「VB」 「VBD」といった個々のタグは 「活用形」として読み込み。 英語データ
  7. 7. 7 英語データを分析するための設定 1 ① 「設定」をクリック 英語データを分析する際には、 前処理の前に以下の設定を: A) 語の取り出し方法を「茶 筌 」 か ら 「 Stanford POS Tagger」に変更 B) Stop wordsを指定 英語データ
  8. 8. 8 英語データを分析するための設定 2 ② 「Lemmatization」をクリック ④ 「tutorial_en」フォルダにある 「stopwords_sample_en.txt」とい うファイルをここにドラッグ&ド ロップ。 ※あるいは中身をコピー& ペーストしてもOK。 ③ 「config」をクリック ⑤ 「OK」をクリック⑥ 「OK」をクリック 英語データ
  9. 9. 9 Stop Wordsについて Stop Wordsとして指定した語は 「OTHER」品詞に分類され、分析の 対象から外れる Be動詞のような一般的な語をStop Wordsに指定して、分析から省くこ とができる 分析の目的や方針に応じて、Stop Wordsとして指定する語は変わりう るので注意が必要 英語データ
  10. 10. 10 抽出語リスト(基本形/lemmaでカウント) 「 know 」 252 回 の 中 に は 、 「 know (VB)」93回や「knew (VBD)」64回な どが含まれる。 英語データ
  11. 11. 11 KWICで語の前後の文脈を見る 1 抽出語「know」だけを指定すると、基 本形だけでなく「known」「knew」など も検索。活用形として「VBN」を指定 すると、「known (VBN)」だけに。 英語データ
  12. 12. 12 KWICで語の前後の文脈を見る 2 前後(左右)に続く語でソート。 「右1」は1つ後ろ(直後)の語、 「右2」は2つ後ろの語。 英語データ
  13. 13. 13 コロケーション統計 1 WordSmith Tools(Scott 2001)に倣っ た計算法。他にもMI・MI3・T Score・Z Score・Jaccard・Diceなどの共起指標。 英語データ knowの前後(左5-右5)に頻出する語 (共起する語)をリストアップ。
  14. 14. 14 コロケーション統計 2 英語データ knowの直後に出現することが多い名詞 (Noun, ProperNoun)をリストアップ。
  15. 15. 15 対応分析(上・中・下の特徴) おおむね翻訳前の「こころ」と同 様の分析結果に。 I knew , more or less , what Sensei meant , of course . But I wanted Sensei to talk more about the matter . 英語データ
  16. 16. 16 コーディング(「人の死」の推移) 上・二十四 上・三十五 おおむね翻訳前の「こころ」と同 様の分析結果に。 英語データ
  17. 17. 17 機能語を含めての分析
  18. 18. 18 機能語を含める設定 Stop Wordsを空にする 「OTHER」品詞を分析に含める ① メニューから「前処理」→「語の取捨選択」 ② 「OTHER」にチェックを入れて「OK」 ③ 再び前処理を実行 機能語を含めて
  19. 19. 19 抽出語リスト(機能語を含む) KH Coder上では機能語に は「OTHER」という品詞名 が与えられがち。しかし 「品詞」は単に無視して、 「活用」(POS tag)を使え ばよい場合が多い。 機能語を含めて
  20. 20. 20 ※KH Coderの「品詞」体系 hinshi_id kh_hinshi condition1 condition2 2 ProperNoun NNP 1 Noun NN 3 Foreign FW 20 PRP PRP 25 Adj JJ 30 Adv RB 35 Verb VB 40 W W 99999 HTML_TAG TAG HTML 11 TAG TAG  「config¥hinshi_stanford_en」で 設定。  POS tagが「condition1」列の 内 容 で 始 ま っ て い れ ば 、 「kh_hinshi」列の品詞となる。  上の行から順にチェックしてい き、あてはまったら品詞決定。  いずれにもあてはまらなけれ ば「OTHER」品詞に カスタマイズ可能だが、必要な場合はおそらく少ない 機能語を含めて
  21. 21. 21 検索例:have + be動詞 + ~ing (VBG) 1 Be動詞の直前(左1) に抽出語 「have」、直後(右1)に動詞の現在 分詞(VBG)があることを指定。 機能語を含めて
  22. 22. 22  抽出語を入力しなくても、 「活用形」(POS tag)だけ を入力して検索できる。  アイデア次第で様々な検 索が可能に!? 機能語を含めて 検索例:have + be動詞 + ~ing (VBG) 2
  23. 23. 23 検索例:最上級 (JJS) +名詞 (NN) 機能語を含めて
  24. 24. 24 機能語を含めた対応分析 機能語を含めて 機能語にも部(Part)ごとの特徴が あらわれている

×