• Save
TokyoR_21: テキストマイニングで見る『機動戦士ガンダム』
Upcoming SlideShare
Loading in...5
×
 

TokyoR_21: テキストマイニングで見る『機動戦士ガンダム』

on

  • 9,851 views

 

Statistics

Views

Total Views
9,851
Views on SlideShare
8,061
Embed Views
1,790

Actions

Likes
35
Downloads
0
Comments
2

8 Embeds 1,790

http://d.hatena.ne.jp 1538
https://twitter.com 119
http://asklife.info 103
http://us-w1.rockmelt.com 13
http://suzu.la.coocan.jp 8
http://webcache.googleusercontent.com 7
https://si0.twimg.com 1
http://localhost 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

TokyoR_21: テキストマイニングで見る『機動戦士ガンダム』 TokyoR_21: テキストマイニングで見る『機動戦士ガンダム』 Presentation Transcript

  • テキストマイニングで見る 『機動戦士ガンダム』 @langstat Tokyo.R #21 2012年3月10日(土)、ニフティ 1
  • 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 言語学と言語処理と言語教育の挟間をふらふら – 最近の研究テーマは、「パターン認識と自然言語処理の 技術を用いた習熟度判定」など 2
  • • slideshare ( http://www.slideshare.net/langstat/ ) で、 R関連、テキストマイニング関連の資料を公開中 3
  • • 著作権に関する注記 – 『機動戦士ガンダム』は、矢立肇氏・富野喜幸氏の原 作に基づいて、名古屋テレビ・創通エージェンシー・日 本サンライズによって制作されました – 本発表では、学術的な目的により、『機動戦士ガンダ ム』のいくつかのシーンを引用させて頂いています – また、分析結果に関する著作権は、全て発表者に属し ますので、無断転載は禁止します 4
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 5
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 6
  • 1. 『機動戦士ガンダム』とは?• 『機動戦士ガンダム』(きどうせんしガンダム、MOBILE SUIT GUNDAM)は、 日本サンライズ(現・サンライズ)制作の日本のロボットアニメ。テレビシリ ーズアニメとして1979年から名古屋テレビ(現・メ~テレ)ほかで放映された 。• 「ガンダムシリーズ」の第1作である。• 舞台は、スペースコロニーへの宇宙移民が始まって半世紀あまりが過ぎた 未来世界、宇宙世紀0079年。地球から最も遠いコロニー群サイド3はジオ ン公国を名乗り、地球連邦からの独立を求め、独立戦争を挑んできた。圧 倒的な連邦軍の戦力数に対して、ジオン軍は人型機動兵器「モビルスーツ (MS)」を実戦投入し、戦争は膠着状態に陥る。• サイド7に住む少年アムロ・レイは、コロニーに侵入したジオン軍MS ザクの 攻撃に巻き込まれ、偶然が重なって連邦軍の新型MS ガンダムのパイロッ トになってしまう。ガンダムの母艦であるホワイトベースは正規乗組員のほ とんどを失い、アムロをはじめこれに避難した少年少女たちは、生き残った 乗組員達と協力しながらサイド7を脱出する。しかし宇宙には、「赤い彗星」 と呼ばれるジオン軍のエースパイロット、シャア・アズナブルが待ち構えて いた。• 本作は、宇宙や地球の激戦地帯を転戦しながら、宿敵シャアをはじめ様々 な人々との出会いや戦い、そして別れを経て数々の困難を乗り越え、閉鎖 的な極限状態に悩み傷つきながらも一歩ずつ成長していく、アムロたち少 年少女の姿を描いた物語である。 (Wikipedia) 7
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 8
  • 2. 分析データ• ファースト・ガンダム(全43話)のセリフ <デニム>スレンダー、お前はここに残れ。</デニム> <スレンダー>はっ、曹長。</スレンダー> <ジーン>曹長、軍の施設は右上のブロックのようです。出勤時間のはずですが、車が 一台行っただけです、人影はありません。 …いました、子供のようです。</ジーン> <フラウ>アムロ。アムロ? まあ、まだ食べてない。アムロ?</フラウ> < <フラウ>こんなことだと思ったわ。ちゃんと朝食を取らないと、体の為に良くないのよ。 > </フラウ> <ハロ>ハロ、アムロ、ハロ、アムロ。</ハロ> <アムロ>ハロ、今日も元気だね。</アムロ> <ハロ>サンキュ、アムロ。</ハロ> <フラウ>何を着ていくつもり? アムロ、アムロ。</フラウ> <アムロ>このコンピューター組んだら食べるよ。</アムロ> <フラウ>避難命令聞いてなかったの?</フラウ> <アムロ>避難命令? あのサイレン、そうなの?</アムロ> <フラウ>あきれた。軍の放送聞かなかったの? 軍艦が入港するから避難するんだって さ。</フラウ> <アムロ>なんで?</アムロ> <フラウ>知らないわよ。アムロ、時間がないのよ。</フラウ> <アムロ>わかったよ。</アムロ> 9
  • • 分析データの概要 – 総語数: 115126 – 異語数: 5674 – 発話数: 8859 – 文数: 12869 :• 形態素解析 – ChaSen – IPAdic – 解析誤りは、手作業で修正 10
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 11
  • 3. 時系列変化• 物語(全43話)が進むにつれて、使用語彙にどのよう な変化が見られるのか?• 主成分分析 – データ: 全43話のテキスト – 変数: 観測頻度20回以上の単語(270語) (100語あたりの相対頻度に変換) – 相関行列を使用 – 分析の結果として得られる43の主成分のうち、第1主成分 (5.74%)と第2主成分(5.16%)を用いて視覚化 12
  • テキストの布置図 (主成分得点) 13
  • 30~43話 前半 → 後半 1~29話外れ値 14
  • 270語の布置図(主成分負荷量) 15
  • 後半に特徴的な語 間投詞 前半に特徴的な語第5話「大気圏突入」 話「大気圏突入」 16
  • • 主成分分析の結果 – 第2主成分(縦軸)を見ると、下方に前半のテキストが布置 され、情報に後半のテキストが布置されている – 前半のテキストに顕著な語には「準備」「避難」「連絡」「性 能」などがあり、後半のテキストに顕著な語には「ニュータ イプ」「システム」「艦隊」などがある – 第1主成分(横軸)が何を表しているかは曖昧だが、右側に 間投詞が多く布置されていることが確認される – 第5話「大気圏突入」は、「大気圏」「突入」「カプセル」など の影響で外れ値になっている 17
  • • 系統樹ネットワーク 1~22話 vs. 23~43話 前半と後半を分ける要因は何 か? 『機動戦士ガンダム』は、初回 放送時の視聴率が低く、全52 話の予定が全43話に短縮され る形の打ち切りとなったため、 後半部分の物語は当初の予定 とは異なっている また、スポンサーの意向やファ ンの要望によって、物語の展開 が変更された 18
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 19
  • 4. キャラクター間ネットワーク• 変数として、発話内の人名を抽出 – (例)了解、セイラさん。しかし。シャア、これが最後だ。• 自分の名前への言及は除外 – (例)ガンダムのパイロットのアムロ・レイです。• 代名詞やエレガント・バリエーションは対象外 – (例)前の市長のエッシェンバッハだ。彼はジオンを憎んで いるが、市民の保護の為にここに留まった。 – (例)シャ、シャアだ、あ、赤い彗星だ。 20
  • 21
  • シャア ジオン軍 vs. 連邦軍ブライト アムロ 22
  • ザビ家(妾腹) ザビ家 シャア ホワイトベース ブライト アムロ 23
  • シャア ララァセイラ 両軍の間に 二人の女性ブライト アムロ 24
  • シャア ララァセイラブライト アムロ ラル ランバ・ラルは連邦軍の側に 25
  • • キャラクター間ネットワークの結果 – アムロ(主人公)、シャア(好敵手)、ブライト(連邦軍ホワイ トベース艦長)の3人がハブノードとして、中心的な位置を 占めている – 概ね、連邦軍とジオン軍の2つのグループを形成 – 両軍の間に、セイラ(連邦軍、ただしシャアの実妹)とララァ (アムロとシャアに強い影響を与える女性) – ジオン軍のラルが連邦軍の側に位置しているのは、戦闘シ ーンでの登場が多く、敵軍(連邦軍)、特にアムロとのやり 取りの影響(第19話「ランバ・ラル特攻!」など) 26
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 27
  • 5. 共起ネットワーク• 主要キャラクターの使用語彙における共起関係を視 覚化• 共起ネットワーク – 観測頻度5以上の語を対象 – 同一発話(ターン)内での共起を対象 – 中心性(媒介) 28
  • シャアへの言及• アムロ 29
  • • シャア アムロへの言及 30
  • • お互いに意識しあうアムロとシャア – いえ、赤いモビルスーツしか見ていませんが、あれは赤い 彗星のシャアです。(アムロ) – 厄介なことになりそうだ。ガンダムのパイロットもニュータイ プだとはな。もう一度試してみるか。(シャア) 31
  • Agenda• 1) 『機動戦士ガンダム』とは?• 2) 分析データ• 3) 時系列変化• 4) キャラクター間ネットワーク分析• 5) 共起ネットワーク分析• 6) 特徴語分析 32
  • 6. 特徴語分析• アムロとシャアの特徴語を抽出 – 対数尤度比検定を使用 33
  • • アムロとシャアの特徴語 – 「さん」 「あなた」(アムロ)vs. 「お前」「貴様」(シャア) – (例)カイさん、僕はあなたの全部が好きという訳じゃありま せん。でも、今日まで一緒にやってきた仲間じゃないです か。(アムロ) – (例)ドレン、貴様も言うようになったな。あれだけの装備を 誇っているルナ2だ、並の軍略家ならばこのムサイごときが しかけてくるとはよもや思うまい。(シャア) – (例)スレンダー、お前は撮れるだけの写真を撮って、危険 になったら引き上げろ。 (シャア) 34
  • – 「です」「ます」「ください」(アムロ) vs. 「しろ」「など」(シャア)– (例)この辺りにあるモビルスーツのパーツを処分するんで す。 (アムロ)– (例)ブライトさん、カタパルトの手直しをお願いします。 (ア ムロ)– (例)はい、至急ガンダムを発射してください。 (アムロ)– (例)ガデム、運んできたザクを放出しろ。 (シャア)– (例)だから戦闘服だのノーマルスーツなどは着ないのだよ 。(シャア)– その他、アムロは、「あっ」「ん」「あ」「うっ」「あー」「うわ」など 、間投詞(呻き声?)が多い 35
  • ご清聴ありがとうございました 小林 雄一郎 kobayashi0721@gmail.comhttp://www.geocities.jp/langstat/ twitter id: @langstat 36