Your SlideShare is downloading. ×
0
多変量解析と時系列解析
演習用資料
(東京大学 数理科学研究科)
2014-07-11 下野寿之 (株)ウフル
自己紹介
• 修士まで京大で数学→博士は東大・情報理工で量子情報
• その後、レコメンドエンジン・検索エンジン・グロースハッキ
ングなど、データ分析とそれに基づいたアルゴリズム作り
• 統計学は統計数理研究所の公開講座などで学ぶ。
• 現在 “...
話す内容
1. ランダムウォークの相関(10兆個の乱数で調査)
2. 大量件数のデータ分析で分かること(ツイッター)
3. 重回帰は楕円の作図で理解できる話(プロ野球)
4. 対応分析とバブルチャートを組み合わせる
作業環境(ソフト,ハード,サービス)
• Windows と Cygwin
• Perl (特にデバッグモード) と SQLite3
• EmEditor (多目的エディタ)
▶ 数ギガバイトでも余裕
▶ CSVも見やすい(区切り文字は自由)
...
1.ランダムウォークの相関
“ランダムウォーク同士の相関係数” の
分布についてのヒストグラム
• ±0.67の外側に20%が分布し、±0.83の外側に5%が分布する。
±0.41の外側に50%が分布し、±0.72の外側に15%が分布する。
• 2個の時系列のグラフの 同...
100万対をおよそ10億対に増やした
時刻とランダムウォークの相関
2.大量件数のデータを
ビジュアル化して
初めて分かること
集計対象のツイッター発言データ :
1. 収集期間 ・・・・・・・・・・・・・・・・・・・・・・・・・・ 2013年12月10日から32日間
2. 収集した発言の数 ・・・・・・・・・・・・・・・・・・ ・・ ・・・・・・・・・・・・・・・・ ...
30万アカウントに対するフォロー数とフォロワー数。
色と抽出数を段階的に変えて重ねた。
楕円的形状よりも細かな細部構造を知るには
おそらく数千から数万件のデータが必要
12
N = 300 N = 3000
N = 3万
N = 132万5580
1万アカウントのデータを使うか、100万にするかで、
“影響力” の検討に使うグラフの滑らかさが違う
N = 1万N = 100万
フォロー数(x)とフォロワー数(y)と
ツイート数(z) 関して
▲ ユーザー1.3万人を抽出してScilabで3次元プロット。
Snagitで30秒の動画にした。
▲ ツイート約4000を抽出して、RTと被RTの分布を見ようとした。
3次元で...
この節のまとめ
▶数万件・数十万件のデータがあって、
初めて気が付くようなことがある。
▶2次元では分からず3次元に図示して、
初めて気が付くことがある。
▶数十万件以上のデータを有意義な可視化には、
おそらく未知のノウハウが必要。
(色彩も重...
3.重回帰係数は
楕円で考えることが出来る
参照したデータ :
「日本プロ野球記録大百科2004」
1954年-61年, 69年-89年, 94年, 96年の
31カ年は、プロ野球のセントラルリーグで
6球団が年間に130試合行っている。
これらの年の6球団の、以下の変数に着目した。
1...
年間総得点と年間順位の関係
相関係数は -0.419..
年間の得点が多いほど
順位は上がり優勝に近づく
年間総失点と年間順位の関係
相関係数は +0.471..
年間の失点が少ないほど
順位は上がり優勝に近づく
総得点(x)と総失点(y)の関係
相関係数は +0.423..
(得点と失点は正に相関する)
順位を総得点と総失点で重回帰
重相関係数は 0.828..
◎目的変数(順位)は2個の説明変数を用いることで
予測精度が上がった。
◎ これらの数量の関係をどう理解したら良いだろうか??
数量の関係をどう理解したら
良いだろうか??
• 実は、難しい数式を経由しなくても、重相関係数などは作図で
求めることができる。
• 楕円を描く方法と、球面三角形を描く方法がある。
• 重回帰の幾何的な表現により、把握が容易になる。
(この後で...
重相関係数は楕円の作図で求まる
説明変数間(総得点と総失点)の相関係数ρに応じて、x=±1,y=±1に囲まれた正方形に4点(±ρ, ±1), (±1, ±ρ) で内
接する楕円を描く。そして、説明変数たちに対する目的変数(年間順位)への相関係数...
重相関係数は球面三角形の作図で
考えることもできる
便宜上ここでは得点を-1倍する。3変数(順位、得点、失点)の間の相関係数が、球面三角形X1X2Yの辺の長さ
(65°,62°,(59+55)°)のcos(余弦)に一致するようにする。球面三角形...
この節のまとめ
• プロ野球の年間順位、総得点、総失点の数量的な関係を幾何
的に捉えることが可能となった。
• 同様に野球やスポーツのさまざまな数量の関係を幾何的な作図
の概念で、把握して予測精度の考察も可能。
• スポーツに限らない。
[数理...
補足-1
• 相関係数それ自体も、楕円と対応させて考えることが可能。
(相関係数ρに応じて、x=±1,y=±1に囲まれた正方形に4点(±ρ, ±1), (±1, ±ρ) で内接する
楕円)
• 理論的考察を加えることで、単純だが未知の知見を数多...
補足-2
• 相関係数はかなり大きな変換(ただし単調関数による)を加えても、ほとんど値を変
化させない(はずれ値含まない場合)。
• サンプリングサイズの有限性による誤差の方がはるかに大きい。
• データの数量の関係について考える際に、我々は何...
4.対応分析
29
対応分析とは
• 「対応分析(correspondence analysis)は、フランスのベンゼクリ
(Benzécri)によって 1960 年代に提唱され、1970 年代から普及し始
めたカテゴリカルデータの解析方法で、コレスポンデン...
Upcoming SlideShare
Loading in...5
×

多変量解析の授業(駒場キャンパス)の演習で話すために作った資料

757

Published on

いろんな研究科の大学院生が聴きに来ている授業にて、
多変量解析についての話題提供のために30分の時間を使って
4個の話題を提供する資料。

Published in: Education
0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
757
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
5
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide
  • 30万人のデータを抽出したもの
    (1) 切れ方
    (2) 平行四辺形の構造

    R言語で不透明度のアルファを最小の0.01にして
    点の色を紫、黄、赤、黄 と変えながら、点の数を段階的に減らしながらプロット。
  • フォローして良い数が約2000の壁があるのだが (それ以上、フォローを増やすにはねフォロワーを増やさないといけない) それに気付くには、数千は必要だし、明確化するには、数万が必要になる。
    しかし、数十万以上あっても、ビジュアル化の高度な習練が必要。
  • メモ重要(忘れるので)
    メモ無しでも”感覚”が身につく

    色づけなどのアート的センスは重要となる。
  • Transcript of "多変量解析の授業(駒場キャンパス)の演習で話すために作った資料"

    1. 1. 多変量解析と時系列解析 演習用資料 (東京大学 数理科学研究科) 2014-07-11 下野寿之 (株)ウフル
    2. 2. 自己紹介 • 修士まで京大で数学→博士は東大・情報理工で量子情報 • その後、レコメンドエンジン・検索エンジン・グロースハッキ ングなど、データ分析とそれに基づいたアルゴリズム作り • 統計学は統計数理研究所の公開講座などで学ぶ。 • 現在 “医学統計学研究センター” に通っている。 • 後5年でデータ分析に対する迷いを消したい。
    3. 3. 話す内容 1. ランダムウォークの相関(10兆個の乱数で調査) 2. 大量件数のデータ分析で分かること(ツイッター) 3. 重回帰は楕円の作図で理解できる話(プロ野球) 4. 対応分析とバブルチャートを組み合わせる
    4. 4. 作業環境(ソフト,ハード,サービス) • Windows と Cygwin • Perl (特にデバッグモード) と SQLite3 • EmEditor (多目的エディタ) ▶ 数ギガバイトでも余裕 ▶ CSVも見やすい(区切り文字は自由) ▶ 指定した文字列を10通りのマーカーで着色できて便利 • Amazon AWS ▶ メモリ32GBのEC2インスタンスを 1 ドル弱/時間 で利用できる • R言語とScilabでグラフの描画 • 同じ大きさのディスプレイ2枚を横に並べる 4
    5. 5. 1.ランダムウォークの相関
    6. 6. “ランダムウォーク同士の相関係数” の 分布についてのヒストグラム • ±0.67の外側に20%が分布し、±0.83の外側に5%が分布する。 ±0.41の外側に50%が分布し、±0.72の外側に15%が分布する。 • 2個の時系列のグラフの 同じ時刻ごとの値のペアについて 相関係数が高くても、 単にそれだけでは 将来の動き方が連動するとは、とても言いがたい。
    7. 7. 100万対をおよそ10億対に増やした
    8. 8. 時刻とランダムウォークの相関
    9. 9. 2.大量件数のデータを ビジュアル化して 初めて分かること
    10. 10. 集計対象のツイッター発言データ : 1. 収集期間 ・・・・・・・・・・・・・・・・・・・・・・・・・・ 2013年12月10日から32日間 2. 収集した発言の数 ・・・・・・・・・・・・・・・・・・ ・・ ・・・・・・・・・・・・・・・・ 約320万件 3. 含まれていたアカウント数・・・・・・・・・・・・・・・・ ・・・ 約130万アカウント 4. ツイート発言で収集した範囲 ・・・・・・・・・・・下記の単語を含む発言 ▼ ヒットしたツイート発言の多いアカウント 上位9個 “おせち イオン ジャスコ ヨーカドー 西友 ルミネ パルコ ラゾーナ ららぽーと 伊勢丹 三越 高島屋 丸井 初売り 初商 福袋 東急 東急本店 東横店 フードショー ヒカリエ シンクス ShinQs 百貨店 デパート ショッピングセンター クリアランス バーゲンセール バレンタイン ホワイトデー” 10
    11. 11. 30万アカウントに対するフォロー数とフォロワー数。 色と抽出数を段階的に変えて重ねた。
    12. 12. 楕円的形状よりも細かな細部構造を知るには おそらく数千から数万件のデータが必要 12 N = 300 N = 3000 N = 3万 N = 132万5580
    13. 13. 1万アカウントのデータを使うか、100万にするかで、 “影響力” の検討に使うグラフの滑らかさが違う N = 1万N = 100万
    14. 14. フォロー数(x)とフォロワー数(y)と ツイート数(z) 関して ▲ ユーザー1.3万人を抽出してScilabで3次元プロット。 Snagitで30秒の動画にした。 ▲ ツイート約4000を抽出して、RTと被RTの分布を見ようとした。 3次元で手に取るように回転・移動をして眺めることが出来て分析当事者にとって発見が多い。 ▶ x, y, z の値の広がりと相関 ▶ 注目したセグメントの形状▶ 注目している各発言の位置づけ → 2次元では分からない形状が分かる。 → 値の大小の感覚や、異常なのかなど
    15. 15. この節のまとめ ▶数万件・数十万件のデータがあって、 初めて気が付くようなことがある。 ▶2次元では分からず3次元に図示して、 初めて気が付くことがある。 ▶数十万件以上のデータを有意義な可視化には、 おそらく未知のノウハウが必要。 (色彩も重要になる。) ▶グラフから数値を読めるようにするには、 格子を線ではなく十字にすると良い(2次元の場合)。 (従来の方眼紙は使わない。)
    16. 16. 3.重回帰係数は 楕円で考えることが出来る
    17. 17. 参照したデータ : 「日本プロ野球記録大百科2004」 1954年-61年, 69年-89年, 94年, 96年の 31カ年は、プロ野球のセントラルリーグで 6球団が年間に130試合行っている。 これらの年の6球団の、以下の変数に着目した。 1. 年間順位 2. 年間の総得点(各戦いの自チームの得点の総和) 3. 年間の総失点(各戦いで対戦相手の得点の総和) [観点] ◎ 優勝する球団は得点は大きく失点は小さいはず ◎ そういう関係は “数量” の観点でどう理解できるか?
    18. 18. 年間総得点と年間順位の関係 相関係数は -0.419.. 年間の得点が多いほど 順位は上がり優勝に近づく
    19. 19. 年間総失点と年間順位の関係 相関係数は +0.471.. 年間の失点が少ないほど 順位は上がり優勝に近づく
    20. 20. 総得点(x)と総失点(y)の関係 相関係数は +0.423.. (得点と失点は正に相関する)
    21. 21. 順位を総得点と総失点で重回帰 重相関係数は 0.828.. ◎目的変数(順位)は2個の説明変数を用いることで 予測精度が上がった。 ◎ これらの数量の関係をどう理解したら良いだろうか??
    22. 22. 数量の関係をどう理解したら 良いだろうか?? • 実は、難しい数式を経由しなくても、重相関係数などは作図で 求めることができる。 • 楕円を描く方法と、球面三角形を描く方法がある。 • 重回帰の幾何的な表現により、把握が容易になる。 (この後で述べる方法を広く普及させたい!) • 重回帰に関係するいろいろな現象の理解を俯瞰的に与えるこ とが出来る。 • 既にある多変量に関係する理論を分かりやすく再構築する可 能性がある。 • 新たな理論を導く可能性もある。
    23. 23. 重相関係数は楕円の作図で求まる 説明変数間(総得点と総失点)の相関係数ρに応じて、x=±1,y=±1に囲まれた正方形に4点(±ρ, ±1), (±1, ±ρ) で内 接する楕円を描く。そして、説明変数たちに対する目的変数(年間順位)への相関係数の組(ρ1,ρ2)に対応する点 に打点する。図において2個の楕円の相似比が、重相関係数に等しい。(原点から補助線を図のように引くか、同 心・同方向・相似な楕円を打点を通るように描く。) 決定係数は楕円の面積比となる。なお、高次元への拡張は容易。さらにある工夫をすることで偏相関係数を求めることも可能。
    24. 24. 重相関係数は球面三角形の作図で 考えることもできる 便宜上ここでは得点を-1倍する。3変数(順位、得点、失点)の間の相関係数が、球面三角形X1X2Yの辺の長さ (65°,62°,(59+55)°)のcos(余弦)に一致するようにする。球面三角形の頂点がそれぞれの変数に対応している。 目的変数に対応する頂点から、対辺へ垂線を伸ばしたときの、垂線の長さ(34°)のcos が重相関係数に等しい。 (なお、球面三角形の内角の cos は (3個考えられる) 偏相関係数と一致する。) ちなみに 全体像はこうなる
    25. 25. この節のまとめ • プロ野球の年間順位、総得点、総失点の数量的な関係を幾何 的に捉えることが可能となった。 • 同様に野球やスポーツのさまざまな数量の関係を幾何的な作図 の概念で、把握して予測精度の考察も可能。 • スポーツに限らない。 [数理的なこと] • 重相関係数などの重回帰の結果は、楕円か球面三角形の作図で求まる。 (偏回帰係数も標準化偏回帰係数もこの方法をさらに少し工夫すると求まる。) • 説明変数3個以上への拡張も容易。 • 重回帰に関係するいろいろな現象の理解を俯瞰的に与えると考えられる。 • (共分散構造分析でどんな時に標準化偏回帰係数の絶対値が1を超える時が あるのか、欠測などで相関行列の正定値値がどのように崩れるか俯瞰でき る。)
    26. 26. 補足-1 • 相関係数それ自体も、楕円と対応させて考えることが可能。 (相関係数ρに応じて、x=±1,y=±1に囲まれた正方形に4点(±ρ, ±1), (±1, ±ρ) で内接する 楕円) • 理論的考察を加えることで、単純だが未知の知見を数多く得られる可能 性を大いに秘めている。 ▲ 重相関係数 ▲ 偏相関係数 ▲ 標準化偏回帰係数 ◀ 高次元化する場合 (相関行列から容易に形状を指定できる)
    27. 27. 補足-2 • 相関係数はかなり大きな変換(ただし単調関数による)を加えても、ほとんど値を変 化させない(はずれ値含まない場合)。 • サンプリングサイズの有限性による誤差の方がはるかに大きい。 • データの数量の関係について考える際に、我々は何か認識を改めた方が良さそう。 ρ[X:Y]=0.557 ρ[X2:Y]=0.519 Xを2乗 ρ[X:Y2]=0.536 Yを2乗 ρ[Xrank:Yrank]=0.537 X,Yを順位化 ρ[X:log(Y)]=0.539 Yを対数化 ρ[X(5):Y(5)]=0.507 X,Yを5値 ρ[X(7):Y(7)]=0.524 X,Yを7値
    28. 28. 4.対応分析
    29. 29. 29 対応分析とは • 「対応分析(correspondence analysis)は、フランスのベンゼクリ (Benzécri)によって 1960 年代に提唱され、1970 年代から普及し始 めたカテゴリカルデータの解析方法で、コレスポンデンス分析とも 呼ばれている。類似の方法としては、1950 年代に林知己夫氏に よって提案された数量化Ⅲ類、1980 年代に西里静彦氏によって 提案された双対尺度法(dual scaling)などがある。それぞれの方法 が提案された背景は異なるが、基本的なアプローチおよびアルゴ リズムの中核は同じである。」 (金明哲, フリーソフトによるデータ解析・マイニング 第26回) • データ数1万程度未満では安定では無いようだが、 今回はさらに大量のデータがある(オペレーション・リ サーチ2004年3月号「コレスポンデンス分析における布 置の精度」 )。
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×