Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

テキストマイニングによる「詩を評する言葉」の傾向分析

2,402 views

Published on

・KHcoderを使用したテキストマイニング
・自由詩、俳句、短歌の三詩型の時評を分析

⇒続き&完成版:「わかる」から探る詩観
http://blog.goo.ne.jp/sikyakuesse5/e/acfd0a68329a1fa278bb3e17d12c5a1d

Published in: Technology
  • Be the first to comment

テキストマイニングによる「詩を評する言葉」の傾向分析

  1. 1. テキストマイニングによる 「詩を評する言葉」 の傾向分析 久真 八志 2015年5月1日
  2. 2. 目次 1.はじめに 2.テキストマイニングとは? 3.使用ツールとデータ 4.結果と考察 5.まとめ
  3. 3. はじめに ○自己紹介 久真 八志(くま やつし) 1983年生まれ。2011年から歌人集団「かばんの会」所属 2013年 第31回「相聞の社会性」で現代短歌評論賞 統計手法について初歩的な知識はあるが、テキストマイニングは今回初挑 戦 Twitter:@okirakunakuma FacebookID:okirakunakuma
  4. 4. はじめに ○目的 詩を批評する目的の一つは、その作品群に共通する法則を明らかにす ることです。 批評の多くは個別具体的に作品の内容を分析し、論証によって法則を 明らかにしようとする質的なアプローチです。その論拠として「自分 が作品をどう享受したか」を用いるのが主流です。 詩に対する質的アプローチには膨大な集積があります。 この集積を分析することは「多くの評者は作品をどう享受したか」を 明らかにし、共通法則を見つける足掛かりになることが期待できます。 そのためには、量的なアプローチ、つまり統計的手法による文章デー タの分析(テキストマイニング)が利用できそうです。
  5. 5. はじめに 評 詩作品群 評者がどう享受したか (質的アプローチ) 評 評 評 評 テキスト マイニング 多くの評者がどう享受したか (量的アプローチ) 今回のアプローチの概念図
  6. 6. テキストマイニングとは? テキストマイニング(text mining)は、文字列を対象としたデー タマイニングのことである。通常の文章からなるデータを単語や文節で区切り、 それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで 有用な情報を取り出す、テキストデータの分析方法である。 (Wikipedia「テキストマイニング」より引用) 要約 ①文字列(文章)をデータとして扱う ②データを単語に分解する ③各単語を集計する ④ある単語の出現頻度、一緒に出現しやすい「単語」の組み合わせを求める
  7. 7. テキストマイニングとは? 形態素解析とは(...)対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語 リスト)を情報源として用い、(...)文を形態素(...言語で意味を持つ最小単位)の列に分割し、それぞ れの品詞を判別する作業を指す。 例:「お待ちしております」を形態素解析すると... お待ち/し/て/おり/ます 名詞(サ変接続)/動詞「する」の連用形/接続助詞/動詞(非自立)「おる」の連用形/助動詞 (Wikipedia「形態素解析」より引用) Q:データを単語に分解するってどうやるの? A:「形態素解析」という手法を用いる
  8. 8. 使用ツールとデータ ○使用ツール 「KHcoder」 ・テキストマイニングのためのソフトウェア(無料) ・形態素解析から計量、統計まで処理可能 詳細はWebサイト(http://khc.sourceforge.net/)を
  9. 9. 使用ツールとデータ ○データの参照先 「詩客」 ・自由詩、俳句、短歌の三詩型の交流を目指して設立 されたWebサイト(http://shiika.sakura.ne.jp/) ・2010年から現在まで運営 ・三詩型それぞれの作品および評論を掲載 ・現役の代表的詩人、俳人、歌人が寄稿
  10. 10. 使用ツールとデータ ○今回使用するデータ 「詩客」内の「時評」カテゴリー全記事 (自由詩時評、俳句時評、短歌時評) ※時評は前頁の本サイトの他に、現在は各時評ブログで運営中(これも含める) 自由詩時評 http://blog.goo.ne.jp/siikaryouzannpaku 俳句時評 http://blog.goo.ne.jp/sikyakuhaiku 短歌時評 http://blog.goo.ne.jp/sikyakutammka
  11. 11. 使用ツールとデータ ○選定の理由 ・Webサイトなのでテキストデータが入手しやすい ・自由詩、俳句、短歌の三詩型への各批評データがある (詩型による評の言葉の違いがわかる?) ・執筆者の人数が多い(批評者による偏りが出にくい?) ・最近年(2011年4月~現在)に書かれたものである ・詩人が短歌を評するなど、詩型を越境した批評が多い (ジャンル特有の批評用語に依存しにくい?)
  12. 12. 結果 ○データの概要 自由詩時評 俳句時評 短歌時評 合計 記事数 160本 110本 136本 406本 字数 453,496字 375,947字 424,597字 1,254,040字 執筆者数 28名 19名 31名 67名※ ※重複は1名として数えた
  13. 13. 結果 ○頻出語(名詞) 名詞の出現頻度から言え そうなこと ⇒評のキーワード ・「現代」「時代」など 時代に関連するワードが 多いのは、収集データが 時評だからと推定 ・「震災」つまり東日本 大震災は一つの主要なト ピックである。震災を題 材にした作品が増えたこ とも要因か ・評者は「作者」をどう 語るのだろうか?
  14. 14. 「作者」の共起分析 共起分析 ある単語が出現したとき、その前後 で出現しやすい単語を集計 共起ネットワーク図(右) ・○が大きいほど「作者」とともに高頻度で 出現する単語 →「体験」「意識」「所属」など作者に関す る情報がトピックとなることが多そう ・傍線は各単語のうち同時かつ近くで出現し やすい単語を表す 「新人」⇔「世代」 「歌集」⇔「タイトル」 ここで「読者」に 注目してみる
  15. 15. 登場した文 評者 カテゴリ ー タイトル 詩集という形あるものが作られたからには、そこには作者と読者が存在するわ けだが、これまでの詩集の読者は作者から送られてきた詩集を読むという受け 身の存在であることが多かった。 瀬崎祐 自由詩 時評 第89回 詩集を出版すると いうこと 瀬崎祐 詩の裏側にはユーゴ内戦の悲劇を感じないわけにはいかないが、作者はその怒 りを読者に向けて連鎖させようとはせず、「見知らぬ力に救われていた」と書 くにとどめる 田中庸介 自由詩 時評 第54回 光のあらわれ そのまなざしは、作者と読者との位相を異にしていて、なおかつ面倒なことに、 ひとりの作家の内部にこうした「作者」と「読者」とが同居しているのである。 山田耕司 俳句 時評 第9回 「世代」論への疑問 など。 太田ユリは短歌、俳句の作者と読者の数がイコールであり、純粋読者がほとん どいないという認識を語ったが、実際には読者の数は作者よりもはるかに少な い。他人の作品を積極的に読もうとする作者のいかに少ないことか。 中村安伸 俳句 時評 第65回 さよならの向こう 側の「読者」たち 作者読者双方とも、事実やそこに基づく体験や実感を錦の御旗にしてはならな いのは当然だが、ではその前に現実に立たされたとき、誰もが立ち尽くさざる を得ない厳粛さが確実に存在する。 生沼義朗 短歌 時評 第7回 声の柱をたてる さらに、河野が晩年に多く作った境涯詠の場合は、読者は作者と作品とを重ね て読んでしまうので、この「弱さの強さ」が巨大な力を発揮する。 花鳥佰 短歌 時評 第29回 「河野裕子現象」 と「多様性」、そして「文 化」 評者は「作者」と「読者」をどう語ったか?(代表例)
  16. 16. 評者は「作者」と「読者」をどう語ったか? ○要約(ものすごく大ざっぱに) 評者の想定するそのジャンルの一般読者像は…… 自由詩では「読者は作者に対して受け身だ」 俳句では「作品のメイン読者は作者本人?」 短歌では「読者は作者と作品を重ねて読む」 【仮定】評者の言う「読者」には評者自身も含むとすると…… 「読者はこう作品を享受するだろう」 ⇒「私(評者)はこう作品を享受しているところがある」 ※この仮説が正しいか、もっと詳しい検討が必要ですが今回はここまで
  17. 17. 結果 対応分析 三詩型別に特に出現しやすい単語 (特徴語)を二次元平面で表した ・右図は形容詞、形容動詞、動詞、 サ変動詞での分析例 ・原点(右図の点線の交点)に近い ほど詩型ごとに偏りがない ・特定の詩型に近いほど偏りあり 短歌…「強い」 俳句…「新しい」 短歌、自由詩…「感じる」
  18. 18. 短歌時評には「強い」という単語がよく登場するらしい…… クロス集計マップ ある単語と「強い」が一文 中に登場するケースを、カ テゴリーごとに集計 □が大きいほど高頻度 ・短歌時評では、「主体」 「気持ち」「感じる」など と「強い」との組み合わせ が、他ジャンル時評よりも 頻出しやすい
  19. 19. 短歌時評には「強い」という単語がよく登場するらしい…… 登場した文 評者 タイトル 守中章子さんの第一歌集『一花衣』(思潮社)は、一筋縄ではいかない 作者の芯の強さを感じさせる衝撃的な歌集だ。 田中庸介 ~守中章子歌集『一花衣』を読 む~ 大森は性差を受容し、フラットな状態にならしたうえで、性を歌に詠 みこんでいる感じがある。例えば、このような歌に、それを強く感じ る。 山崎聡子 第104回 「女性性」という視 点が取りこぼすもの 身体感覚の再現は、この歌の最終目的地ではない。身体感覚の再現が、 気持ちの強さを再現するのだ。 服部真里 子 第112回 言葉の燃費──新鋭 短歌シリーズ第二期を読む 作者の存在によって生み出されながら、作者像と作中主体を強く結び つけることのない興味深い作品といえるだろう。 オカザキ なを 第94回 短歌から作者像を読 み解かせない、ふたつの試み 【使用例】 作品の発話主体が、作品のなかに居るという手ごたえの確かさ=「強さ」? ※もっと検討が必要ですが今回はここまで
  20. 20. おまけ:こんなこともできます(評者別「強い」クロス集計) 評者によって「強い」+「○○」の使用頻度には大きく差がある
  21. 21. まとめ ・KHcoderを用いて「詩を評する言葉」のテキストマイニングを行った ・自由詩、俳句、短歌の時評では、出現する言葉や出現の傾向に違いがあった ○今回わかったかもしれないこと ・「読者は作品をこう享受する」という前提が三詩型で異なっている ・短歌評では作品の発話主体の確かさ=「強さ」が重要視される傾向にある (もっと裏付けが欲しいところですが、今回はテキストマイニングの練習ですのでご容赦ください) ○今後の課題 ・評者が「詩人」「俳人」「歌人」のいずれに分類されるかでも傾向に違いがあり そうだが重複がある(例:短歌も俳句も作る人がいる)ので厳密な分析は難しそう ・作品本体についても解析したいが、短歌は文語と口語が混ざっているので形態素 解析の段階で検討が必要 ・私(久真)のテキストマイニングの勉強 以上

×