「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙
Upcoming SlideShare
Loading in...5
×
 

「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

on

  • 1,846 views

外国語教育メディア学会中部支部外国語教育基礎研究部会第一回(2013年度)年次例会@名古屋大学におけるワークショップ ...

外国語教育メディア学会中部支部外国語教育基礎研究部会第一回(2013年度)年次例会@名古屋大学におけるワークショップ

「有益な情報を捨ててしまわないデータの可視化」

講師:草薙邦広(名古屋大学大学院)
https://sites.google.com/site/kusanagikuni/home/cv

Statistics

Views

Total Views
1,846
Views on SlideShare
1,644
Embed Views
202

Actions

Likes
8
Downloads
17
Comments
0

5 Embeds 202

https://twitter.com 99
http://so-ichi.com 65
https://mj89sp3sau2k7lj1eg3k40hkeppguj6j-a-sites-opensocial.googleusercontent.com 35
http://www.slideee.com 2
https://jp.mg5.mail.yahoo.co.jp 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙 Presentation Transcript

  • 有益 な データ を 捨 ててしまわない データの可視化 1
  • アウトライン • なぜ今可視化か • きれいなグラフを描こう • 様々なグラフ – – – – – – – エラーバー 箱ひげ図 蜂群図 ヒストグラム 確率密度プロット 散布図(⾏列) おまけ • まとめ 2
  • なぜ 今可視化か 3
  • なぜ今可視化か • 外国語教育研究の成熟 – データの再現性の問題 – 分析の正確さの問題 – 知⾒の移り変わりのスピード – 電子化による浸透の早さ – 簡便なツールの普及 – 必要な情報量の変化 • 一方で決して満足いくものではない 4
  • なぜ今可視化か • 現状 – ツールは沢山あるけど… – 学習機会の少なさ – テキストやウェブサイト,WSは増えている けど… – 初学者に厳しい側面も… 5
  • なぜ今可視化か • Loewen et al (2013) – “Statistical literacy among applied linguists and second language acquisition researchers” in TESOLQ – 世界各国から331の研究者に質問紙 – 基本的な統計についての知識を調査 6
  • なぜ今可視化か • Loewen et al (2013, p.13) – 統計処理に使うソフトウェア(重複回答) • • • • • • SPSS Excel By hand R SAS AMOS 69% 56% 17% 15% 8% 6% 7
  • なぜ今可視化か • Loewen et al (2013, p.13) – 統計処理に使うソフトウェア(重複回答) • • • • • • SPSS Excel By hand R SAS AMOS 69% 56% 17% 15% 8% 6% 8
  • なぜ今可視化か • Loewen et al (2013, p.12) – 統計の知識についての補助(上から) 1. 2. 3. 4. 5. 6. 7. インターネット 同僚 統計のテキスト プロフェッショナルな相談員 大学の統計補助センター ワークショップ セミナー 9
  • なぜ今可視化か • Loewen et al (2013)から – ツールは自体は普及している – でも使い方を学ぶ機会が少ない – 必然的にSPSSやExcelといったツールのデ フォルト仕様に左右されやすい 10
  • きれいな グラフを描こう 11
  • きれいなグラフを描こう • 系列機関誌(2012年度)のある論⽂風 12
  • きれいなグラフを描こう • エクセルのデフォルトがこうであるから という以外特に意味はない • これだけ紙面を取って9つの平均値のみ可 視化している • もったいない 13
  • Excel 2007 デフォルト 某論⽂風 14
  • きれいなグラフを描こう • 視認性も低い(色など) • 第一,APAなどの基準を満たしていない 15
  • きれいなグラフを描こう • ⽇本⼼理学会(2005)「執筆・投稿の手引き」 – 外国語教育の分野ではあまり明確なガイドラインは示されてい ない(APA準拠) p. 31より 16
  • きれいなグラフを描こう • 実際に細かいところを⾒てみましょう – エクセル(2007)のデフォルトから望ましい グラフまで」 17
  • きれいなグラフを描こう 1. 3Dである意味が ない 2. 配色に気をつける 3. 枠線はいらない 4. 補助線はいらない 5. 凡例のスペースが もったいない 6. 縦軸の幅がおかし い 7. 軸のラベルがない 18
  • きれいなグラフを描こう 8. 解像度が低い(拡張メ タファイルまたはオフィス サブジェクトで) 9. ⽂字の大きさ 10.線の太さ統一 11.フォント(ゴチ) 12.軸の色を⿊にする 13.目盛は「内側」 14.情報量が足りない 19
  • きれいなグラフを描こう 70 60 成績 じゃん!! 50 40 30 20 10 0 A test B test テストの種類 20
  • きれいなグラフを描こう • でも情報量が足りない – テストA: M = 50, テストB: M = 60という ことしか分からない – それだけの価値がこの紙面にあるか? • もっとたくさん議論したほうがまし? – 様々な可視化の方法によって情報量の多い可 視化を! 21
  • 様々なグラフ 22
  • 様々なグラフ • エラーバー – 棒グラフ,折れ線グラフに対してつけるあるデー タの範囲 • 「標本の」散布度についての範囲 – 第一・第三四分位点 – 標準偏差(SD) – 予測区間 » 95% » 99% • 「⺟平均推定値の」誤差の範囲 – 標準誤差(SE) – 信頼区間 » 95% » 99% – データが正規分布に従う場合,全てn(N), M, SD 23 の報告があれば分かる
  • 様々なグラフ • エラーバーあれこれ – どんな範囲か明示する – どの範囲をつけるかは目的による • 標本のばらつきか • ⺟平均の確からしさか 70 60 50 成績 – 信頼区間の報告が 推奨される(APA) 80 40 30 20 10 0 A test B test テストの種類 24
  • 様々なグラフ • 折れ線にもエラーバー – 折れ線グラフでも同様にエラーバーをつけら れる – 積極的に⽂字を入れて情報を補ってもよい 120 A B t(59) = 4.81 p < . 01 d = 1.42 100 Score 80 60 t(59) = 0.61 p = .67 d = 0.11 40 t(59) = 5.61 p < . 01 d = 1.76 20 0 Pre Post Delayed 25
  • 様々なグラフ • 情報量が多くなった! – 同じ紙面で情報量が多い – 使わない積極的な理由は少ない 普通の棒グラフ/ 折れ線グラフ エラーバー 表せる値の数 1 2, 3 代表値 ○ ○ 標本のばらつき ☓ △ ⺟数の推定区間 ☓ ○ 26
  • 様々なグラフ • Don’ts – あまり変数が多いと… – ダイナマイトプロット 80 50 70 45 60 35 50 30 A 25 B 20 成績 40 40 30 C 15 20 10 5 10 0 0 1 2 3 4 5 6 A test B test テストの種類 27
  • 様々なグラフ • 箱ひげ図(boxplot) – 標本のばらつきを表せる 最大値 第一四分位点 中央値 第三四分位点 最小値 Reading Test • • • • • 0 10 20 30 Score 40 50 60 70 28
  • 様々なグラフ • 箱ひげ図あれこれ – 描き方が沢山あるので注意すること • 5%-95%分位点を髭の端とし外れ値を個別にプ ロットする • 2SDを髭の端とする • 紹介したのは「チューキーの方法」 Reading Test – 多変数の場合,横の方が⾒やすく紙面を取ら ない 0 20 40 60 Score 80 100 29
  • 様々なグラフ • 実はエクセルでもできる – 「エクセルで箱ひげ図作図シート」 • 草薙が作成 • 無料でダウンロード可 • エクセルのシート(.xls) 30
  • 様々なグラフ 1. データをそのまま貼り付けて必要な値(最大値・四分 位点・中央値・最小値)を得る 2. 必要な値を貼り付ける 31
  • 様々なグラフ 1. 変数の名前,ラベルなどを書く 2. コピーしてwordファイルなどに貼り付け 3. 完成! 140 120 Axis Title 100 80 60 40 20 0 data 1 Axis Title data 2 32
  • 様々なグラフ • 箱ひげ図の目的 – 基本は「標本の分布」について可視化すると – この図を解釈することによってその性質をそ のまま⺟集団に当てはめるのはおかしい • ⺟平均の差の検定を⾏ったときに⼆変数の箱ひげ 図を出すと整合性がなくなる場合もある • その場合は,⺟平均値推定値や,(不偏)標準偏 差推定値,または標準誤差や信頼区間も重ねて描 くとよいかもしれない 33
  • 様々なグラフ • 箱ひげ図の実際 – 現状で最も便利なツール「langtest.jp」 (水本篤先生作成) • Comparing Paired Samples (http://langtest.jp:3838/paired/) 34
  • 様々なグラフ • 情報量がまた多くなった! 普通の棒グラフ 折れ線グラフ エラーバー 箱ひげ図 表せる値の数 1 2, 3 5- 代表値 ○ ○ ○ 標本のばらつき ☓ △ ○ ⺟数の推定区間 ☓ ○ △ 標本の偏り ☓ ☓ ○ 35
  • 様々なグラフ 60 50 40 30 – 個別の標本の値を全てプロット – データの損失がない →要約していない 70 • 蜂群図 テテテ1 テテテ2 36
  • 様々なグラフ • 蜂群図のあれこれ 30 30 40 40 50 50 60 60 70 70 – でも箱ひげ図などを重ね描きできる テテテ1 テテテ2 テテテ1 テテテ2 37
  • 様々なグラフ • 蜂群図の目的 – 「標本における」ひとつひとつの値を⾒るた め – 箱ひげ図などと並列できる – 要約+個別のデータがベター 38
  • 様々なグラフ • 情報量がまた多くなった! 棒/ 折れ線 エラーバー 箱ひげ図 蜂群図 表せる値の数 1 2, 3 5- ∞ 代表値 ○ ○ ○ △ 標本のばらつき ☓ △ ○ △ ⺟数の推定区間 ☓ ○ △ △ 標本の偏り ☓ ☓ ○ △ 外れ値 ☓ ☓ △ △ 個別のデータ ☓ ☓ ☓ ○ 39
  • 様々なグラフ • ヒストグラム 100 50 0 Frequency 150 – 度数分布 – 特定の範囲にいくつかのデータがあるか計算 して棒グラフにしたもの – 分布の形状が分かる -3 -2 -1 0 1 2 3 40
  • 様々なグラフ • ヒストグラムあれこれ – 各棒は近接していなければならない – 階級数の決め方にも複数ある。根拠を持つこ と • Rのhist関数におけるデフォルトは「スタージェスの公式」 • エクセル分析ツールのヒストグラムは「平方根選択」 41
  • 様々なグラフ • 分布の形状を⾒る 5 10 15 20 0 0 0 5 10 Frequency 3000 2000 1000 Frequency 1500 1000 500 0 Frequency 30 2000 – 正規性が満たされない場合もある – 外れ値を⾒つける – 混合分布かもしれない 0 50 100 80 100 120 140 160 180 42
  • 様々なグラフ • 二変数(標本)以上を比べる – ⼆つ並べて出す – 通過色で重ね合わせる 100 150 50 0 50 Frequency 100 150 Post 0 Frequency Pre 0 10 20 Score 30 0 10 20 30 Score 43
  • 様々なグラフ • ヒストグラムの実際 – langtest.jpだと重ねあわせヒストグラムもで きる! 44
  • 様々なグラフ 棒/ 折れ線 エラーバー 箱ひげ図 蜂群図 ヒストグラム 表せる値の数 1 2, 3 5- N N 代表値 ○ ○ ○ △ △ 標本のばらつき ☓ △ ○ △ ○ ⺟数の推定区間 ☓ ○ △ △ ☓ 標本の偏り ☓ ☓ ○ △ ○ 外れ値 ☓ ☓ △ △ ○ 個別のデータ ☓ ☓ ☓ ○ ☓ 分布の形状 ☓ ☓ △ △ ○ 45
  • 様々なグラフ • 応用 – 確率密度による様々なプロット – 確率密度プロット(曲線) – そら豆図Beanplot – ヴァイオリンプロットViolinplot 46
  • 様々なグラフ • 確率密度プロット Reading time Reading time 200 400 600 800 Reading time 0.010 0.000 0.002 0.004 Density 0.006 0.008 0.010 0.006 0.000 0.002 0.004 Density 0.002 0.000 200 400 600 800 Region B+2 0.008 0.010 Region B+1 0.008 0.006 Density 0.002 0.000 200 400 600 800 0.004 0.008 0.006 Density 0.004 0.008 0.006 0.004 0.002 0.000 Density Region B 0.010 Region A 0.010 Region A-1 200 400 600 800 Reading time 200 400 600 800 Reading time 47
  • 様々なグラフ • 累積でも! 1.0 – 効果量のブートストラップ信頼区間 Point estimate 95% C I 0.0 -0.5 Effect size 0.5 95% C I 0 20 40 60 80 100 48 Probability (%)
  • 様々なグラフ 2 • そら豆図とヴァイオリンプロット 1 100 Test2 -1 60 -2 20 0 40 20 0 40 60 0 80 80 100 Test1 49
  • 様々なグラフ • 散布図 – 複数の対応のあるデータの場合 50 テスト テスト2 40 M = 29.56 30 20 M = 30.10 10 10 20 30 テスト1 40 50 50
  • 様々なグラフ • 散布図あれこれ – 対角線や平均値補助線を入れるとよい – 回帰直線などをいれてもよい 50 y = 0.14x + 25.50 R² = 0.03 テスト テスト2 40 M = 29.56 30 20 M = 30.10 10 10 20 30 テスト1 40 50 51
  • 様々なグラフ • 散布図⾏列 – 3以上の変数の散布図 50 70 30 50 70 60 30 50 70 40 テテテ1 50 30 テテテ2 30 50 70 30 テテテ3 30 テテテ5 50 70 テテテ4 40 60 30 50 30 50 70 52
  • 様々なグラフ • 様々な散布図⾏列の仲間 70 70 0.13 -0.17 テテテ2 0.03 50 70 -0.30 0.10 -0.04 0.16 -0.07 -0.32 30 テテテ3 50 30 50 30 60 テテテ1 50 40 30 30 50 70 テテテ4 30 50 テテテ5 70 -0.21 40 60 30 50 30 50 70 53
  • 様々なグラフ • さまざまなグラフの組み合わせ 54
  • まとめ 55
  • まとめ • 重要なのは合目的性の明確化 – 何のための図示か • 標本の分布か • ⺟平均についての仮説の検証か – 読み⼿と共有すべき情報の意識 • 要約または捨象すべきか,そうでないか – 仮説や議論と一貫しているか • 標本の話か⺟集団の話か • 一般化の範囲 • 常に測定誤差に配慮を 56
  • まとめ • ツールにとらわれないこと – APAなどが規範 – 特定のツールの「デフォルト」に拘泥しては いけない – ツール自体はめまぐるしく変化する – 大事なことはツールの使い方を覚えることで はなくて,一般化したレベルでの理解 – 研究者における統計リテラシーの世代間 ギャップ 57
  • アウトライン • なぜ今可視化か • きれいなグラフを描こう • 様々なグラフ – – – – – – – エラーバー 箱ひげ図 蜂群図 ヒストグラム 確率密度プロット 散布図(⾏列) おまけ • まとめ 58