Successfully reported this slideshow.
Your SlideShare is downloading. ×

がんセミナー「医療系のための統計の基礎」

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
計算機
計算機
Loading in …3
×

Check these out next

1 of 76 Ad

がんセミナー「医療系のための統計の基礎」

Download to read offline

がんセミナー
■テーマ 「医療系のための統計の基礎」
■講 師: 石井一夫先生(東京農工大学特任教授)
■日 時:2017年2月12日(日)14:30~16:30、受付開始14:15~
■場 所:SO! SHINJUKU 8F 会議室
■住 所:東京都新宿区新宿2-15-22 S2ビル8F

がんセミナー
■テーマ 「医療系のための統計の基礎」
■講 師: 石井一夫先生(東京農工大学特任教授)
■日 時:2017年2月12日(日)14:30~16:30、受付開始14:15~
■場 所:SO! SHINJUKU 8F 会議室
■住 所:東京都新宿区新宿2-15-22 S2ビル8F

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Similar to がんセミナー「医療系のための統計の基礎」 (20)

Advertisement

Recently uploaded (20)

がんセミナー「医療系のための統計の基礎」

  1. 1. がんセミナー 医療系のための統計の基礎 東京農工大学 石井一夫 2017年2月12日 1 12 23 34 45 56 0.00.51.01.52.02.5
  2. 2. 今日の内容 1.  自己紹介 2.  統計って何? 3.  確率論 4.  診断と治療意志決定 5.  大規模データ解析と個別化医療
  3. 3. 今日の内容 1.  自己紹介 2.  統計って何? 3.  確率論 4.  診断と治療意志決定 5.  大規模データ解析と個別化医療
  4. 4. 自己紹介 •  東京農工大学特任教授 •  1988年静岡薬科大学薬学部卒 •  1990年静岡薬科大学大学院修士課程修了 •  1995年徳島大学大学院医学研究科修了 •  東大医科研、理研、フランス国立遺伝子多型研 究所、米ノースウエスタン大学 Feinberg医学部などで、ゲノム大規模データ解 析。 •  専門;計算機統計学、データマイニング、機械学 習、人工知能。
  5. 5. 自己紹介 •  臨床データとか、農作物のデータとかそういう大 量データをスパコンやクラウドのような計算機を 使って分析する仕事をしています。 •  統計学、機械学習、人工知能なんかをコン ピュータ使って、病気の判定や予後予測、農作 物の生育予測なんかを行います。 •  最近、データサイエンティストという言葉もできて きました。
  6. 6. 自己紹介 •  趣味 散歩です。 •  特に、街歩きと美術館巡り。 •  パリのルーブルとか、オルセーとか、 •  ロンドンの大英博物館とか、 •  他に、シカゴ、ブリュッセル、アムステルダム など。 •  近場だと、府中の美術館はよく行きます。
  7. 7. 統計って何? 1 12 23 34 45 56 0.00.51.01.52.02.5
  8. 8. 統計って何? •  何かを集計すること? •  平均と標準偏差 •  国勢調査。 •  グラフ、、。 こんなイメージ。 1 12 23 34 45 56 0.00.51.01.52.02.5
  9. 9. 統計って何? •  現時点の集計を行う統計を「記述統計学」と 言います。 •  データの全数を数えたり、集計したり、平均を 取ったり、標準偏差を求めてばらつきを求め たりします。 1 12 23 34 45 56 0.00.51.01.52.02.5
  10. 10. 統計って何? •  多分、統計で一番イメージしやすいものが 平均と標準偏差 「平均」とは、全体の数値の合計を標本の数で割っ たもの 平均体重とか、平均身長とか、テストの平均点とか いくつかのデータがあるときの全体の量を把握す るのによく使われる。 1 12 23 34 45 56 0.00.51.01.52.02.5
  11. 11. 統計って何? •  多分、統計で一番イメージしやすいものが 「平均」と「標準偏差」 標準偏差とは、標本のばらつきを表すもの。 各値を平均から引いた値を二乗して足し合わせる。 → これが「分散」 分散を標本数で割って平方根を取ったものが 「標準偏差」
  12. 12. 標準偏差 •  これが大きいとデータはばらついているという ことになります。 •  平均±(標準偏差X2)の範囲にデータの95% が収まることがわかっています。  →従ってこの範囲を「95%信頼区間」と  呼びます。
  13. 13. 統計といえばグラフ 棒グラフ
 1 12 23 34 45 56 0.00.51.01.52.02.5
  14. 14. 統計といえばグラフ ヒストグラム

  15. 15. 統計といえばグラフ 円グラフ

  16. 16. 統計といえばグラフ 散布図
 h7p://;-plaza.jp/SoluDon/solu_qc7_4.htmより引用
  17. 17. 統計って何? •  集計だけが統計か? •  「検定」などという考え方もある。 •  データを集計して2つの集団の平均に差があ るかを判定する。 → 検定 •  データの傾向を、数式に落とし込み、数式か らデータを予測する。 → 回帰
  18. 18. 薬剤の効果判定 •  患者さんにある薬剤を投与して、その効果が あったかどうかの判定。 •  血糖降下剤を投与して、血糖値が下がったか どうかで、血糖降下剤の効果があったかどう かを知りたい。 •  制がん剤を投与して制がん剤が効いたかを 腫瘍マーカーの血中濃度で知りたい。
  19. 19. 薬剤の効果判定 •  これって、記述統計学なの? •  そもそも、全部の患者さんの血糖値を全部 測って、効果判定なんて無理、、、。 •  なので一部の患者さんの血糖値を測って、効 果があったかを判定します。
  20. 20. 薬剤の効果判定 •  一部の患者さんの血糖値を測って、全部の患 者さんの効果があったかを推定します。 •  一部を測って、残り全部を推定するので「推 定統計学」とか「推計統計学」って呼んでいま す。 1 12 23 34 45 56 0.00.51.01.52.02.5
  21. 21. 薬剤の効果判定 •  一部の患者さんの血糖値を測って、全部の患 者さんの効果があったかを推定します。 •  一部を測って、残り全部を推定するので「推 定統計学」とか「推計統計学」って呼んでいま す。 1 12 23 34 45 56 0.00.51.01.52.02.5
  22. 22. 記述統計学と推測統計学 •  統計学は、全数調査により得られたデータを そのまま集計、記述する「記述統計学」と •  標本調査により得られたデータから抽出した 元の集団全体の内容を推定する「推測統計 学」に分けられます。 1 12 23 34 45 56 0.00.51.01.52.02.5
  23. 23. 統計学 標本 •  調査対象全体の中から一部のデータを取り 出す行為を「抽出」といい、その取り出した データを「標本」といいます。 母集団 •  標本調査により得られたデータから抽出した 元の集団全体の内容全体を「母集団」といい ます。
  24. 24. 推測統計学 h7p://physnotes.jp/stat/pop_and_sample/
  25. 25. 基本統計量 •  基本統計量 統計処理によって1つの数値に計算された値を 「統計量」といい、その中で最も基本的な指標と なるのが基本統計量です。 「記述統計量」、「要約統計量」ともよばれます。 例えば、「平均」、「分散」、「標準偏差」などです。
  26. 26. 標本統計量 •  標本統計量 標本から計算された統計量のことを、「標本統 計量」といいます。 例えば、「標本平均」、「標本分散」、「標本標準 偏差」などがあります。
  27. 27. 母数 母数(パラメータ) •  母集団のもつ値のことを「母数」といい、「パラ メータ」とも呼ばれます。 •  母数には母集団の平均(母平均)、分散(母 分散)、標準偏差(母標準偏差)などが含まれ ます。 •  母数は、直接はわかりません。「神のみぞ知 る」数値ということになります。   
  28. 28. 不偏推定量 (不偏統計量) •  現実に測定された標本データをもとに、確率分 布の母数(パラメータ、現実には測定できない)と して推定した数量、もしくはそれをデータの関数 として表す推定関数のことをいいいます。(関数 については後で、説明します。) •  例えば、「不偏分散」、「不偏標準偏差」などがあ ります。標本平均は、母集団の不偏推定量であ るとわかっていますので、不偏平均という言葉は ありません。
  29. 29. 今日の内容 1.  自己紹介 2.  統計って何? 3.  確率論 4.  診断と治療意志決定 5.  大規模データ解析と個別化医療
  30. 30. アインシュタインは偉大だった 神はサイコロを振らない 「天才アインシュタインはサイコロばくちが お嫌いです。」
  31. 31. 石井一夫は凡人だった 私は「神様」でも「アインシュタイン」で もないので、サイコロで「予測」します。 石井一夫は サイコロばくちで 勝負する 賭博師です。 残念ながら 石井一夫は 天才ではありません。
  32. 32. 石井一夫の研究テーマ例 •  モンテカルロ法を用いた進化分岐図作成法 (2013年統計関連学会連合大会) •  シェルスクリプトを用いたパラレルモンテカル ロ法の構築と生物工学への応用(2016年日 本生物工学会) モンテカルロ法といってコンピュータと乱数を用 いて確率論的に推計する手法をよくとります。
  33. 33. モンテカルロ法とは •  賭博のメッカである南仏のモンテカルロにち なんで命名。 •  コンピュータで乱数を用いて確率論的に予測 する手法をよくとります。
  34. 34. 確率論 •  推計統計学は、確率論が基本になります。 •  さっそく、サイコロ遊びをやってみましょう。 偏りのないサイコロを投げたとき、1から6まで の値が出ます。それぞれの「事象」の起こる確 率は、1/6です。
  35. 35. サイコロ •  つまり、偏りのないサイコロを投げたとき、 •  1が出る確率は1/6 •  2が出る確率は1/6 •  3が出る確率は1/6 •  4が出る確率は1/6 •  5が出る確率は1/6 •  6が出る確率は1/6 •  合計は1になります。
  36. 36. もっと簡単に、コイン投げ •  つまり、偏りのないコインを投げたとき、 •  表が出る確率は1/2 •  裏が出る確率は1/2 •  合計は1になります。
  37. 37. 確率変数 •  つまり、データには、サイコロの1とか2とかの数 値とその出現する確率1/6がついてまわります。 •  コインだと、「表」と「裏」という属性の結果と、そ れぞれの出現する確率1/2がついてまわります。 •  このような、数値や属性のデータとその出現確 率がついているような数値を「確率変数」と言い ます。
  38. 38. 確率変数 •  ちなみに、「確率変数」は英語で          random variableといいます。 無作為変数とか、ランダム変数とか言わないよ うにしましょう。「確率変数」と言ってください。
  39. 39. 確率分布 •  確率は、数値によって異なるので、その異な る状況によって分布します。これを「確率分 布」と言います。 •  言い換えると、確率変数(変数)は、確率論的 に変動した分布をします。これを確率分布と いいます。
  40. 40. 確率分布 •  確率変数には、サイコロの目の数、コインの 表裏のように飛び飛びの値をとる「離散型 データ(離散型変数)」と、血糖値や血圧のよ うに連続した数値をとる「連続型データ(連続 型変数)」があります。
  41. 41. サイコロ •  つまり、偏りのないサイコロを投げたとき、 •  1が出る確率は1/6 •  2が出る確率は1/6 •  3が出る確率は1/6 •  4が出る確率は1/6 •  5が出る確率は1/6 •  6が出る確率は1/6 •  合計は1になります。
  42. 42. サイコロ •  また、偏りのないサイコロを投げたとき、 •  1以下の数字が出る確率は1/6 •  2以下の数字が出る確率は2/6 •  3以下の数字が出る確率は3/6 •  4以下の数字が出る確率は4/6 •  5以下の数字が出る確率は5/6 •  6以下の数字が出る確率は6/6 •  合計は1になります。 •  これを「累積確率」と呼びます。
  43. 43. これをグラフに描くと以下のようになり ます。 確率(質量)分布 累積確率分布
  44. 44. ちなみに、このようにどこで測っても同じ 確率を示す分布を「一様分布」と言います 確率(質量)分布 累積確率分布
  45. 45. 離散型確率分布 •  離散型確率分布には、一様分布の他に、ベ ルヌーイ分布、二項分布、ポアソン分布、幾 何分布などが知られています。 •  詳細は省略します。
  46. 46. 連続型確率分布 •  それでは、血糖値や血圧のような連続型変数 の確率分布を考えてみましょう。 •  一般に、血糖値や、血圧のような連続型の数 値は平均値あたりの値が最も高頻度に出現 し、平均値から離れるにしたがって、出現頻 度が下がることが知られています。
  47. 47. 連続型確率分布 •  血糖値や血圧のような連続型変数の数値は 一般に測定回数を増やしていくとその変数は、 平均値あたりの値が最も高頻度に出現し、平 均値から離れるにしたがって、出現頻度が下 がることが知られています。この分布のことを 「正規分布」と呼んでいます。
  48. 48. 正規分布
  49. 49. 中心極限定理 •  血糖値や血圧のような連続型変数の数値は 一般に測定回数を増やしていくとその変数は、 平均値あたりの値が最も高頻度に出現し、平 均値から離れるにしたがって、出現頻度が下 がることが知られています。この分布のことを 「正規分布」と呼んでいます。 •  測定回数を増やしていくとその分布は正規分 布に近づくという性質が知られています。これ を「中心極限定理」と呼ばれます。
  50. 50. 今日の内容 1.  自己紹介 2.  統計って何? 3.  確率論 4.  診断と治療意志決定 5.  大規模データ解析と個別化医療
  51. 51. 統計の目的 •  統計学はデータを集計して、全体を眺める、 傾向を知るという集計統計学と、集団の一部 のデータをとって全体を推定する推測統計学 に分かれます。 •  医療分野では、後者の推測統計学がもっぱ ら用いられます。
  52. 52. 統計の目的 •  例えば、がん患者の薬剤効果を調べる場合、 標本として抽出した患者の効果を知りたいの ではなく、がん患者全体で効果があるかを知 りたいわけです。 •  このために、患者を無作為に選択して臨床 データを取ります。無作為な割り付けでかつ 医師の主観的判断を排除するために二重盲 検法などの割り付けがなされます。
  53. 53. 二重盲検法 •  例えば、がん患者の薬剤効果を調べる場合、標 本として抽出した患者の効果を知りたいのでは なく、がん患者全体で効果があるかを知りたい わけです。 •  このために、患者を無作為に選択して臨床デー タを取ります。無作為な割り付けでかつ医師の 主観的判断を排除するために二重盲検法など の割り付けがなされます。 (Wikipedia)
  54. 54. 検定 •  検定にはいろいろな種類がありますが、平均 値の差の検定についてここでは説明します。 •  2つの母集団の平均値 1、 2に差があるか を検定する方法を説明します。 X X
  55. 55. 検定 •  検定にはいろいろな種類がありますが、平均 値の差の検定についてここでは説明します。 •  2つの母集団の平均値 1、 2に差があるか を検定する方法を説明します。 X X
  56. 56. 検定 •  2つの集団の平均値の差を示す統計量tを計 算します。  分母は、2つの集団の平均値の標本数n1およ びn2で補正した標準偏差です。
  57. 57. 検定 •  t値は、両集団の差を標準偏差で補正したも のと考えることができます。 •  このときt値は、自由度dfがn1+n2-2のt分布 に従います。
  58. 58. t分布
  59. 59. 仮説検定 •  前提となる仮説は、 1、 2に差がないという仮説 です。これを帰無仮説といいます。 •  t分布を見ると、ゼロ付近の確率が一番高く、裾 に行くに従って低くなることがわかります。 •  そして、t値が裾の方に行けば行くほど、すなわ ちt値の絶対値が大きくなるほど、両者に差があ ると言えます。 X X
  60. 60. 仮説検定 •  ここで、両側検定(どちらが大きい場合も考慮す る検定)を考えると、t値の外側の面積(p値と呼 びます)が全体の0.05以下であった場合は、t値 がゼロになる確率が5%以下になることがわかり ます。この0.05の値を有意水準αといいます。 •  この場合に、p値が0.05となった時(有意水準α= 0.05における)のtの値を棄却限界値といいます。
  61. 61. 仮説検定(p値=0.05の場合)
  62. 62. 仮説検定
  63. 63. 仮説検定 •  そして、p値が0.05以下になった時に、「帰無仮 説」が棄却され、わかりやすく言えば、 1、        2に差がないという仮説が否定されます。 •  この場合に、両方の平均値に有意水準αが0.05 で有意に差がありと判定されます。 •  この意味するところは、両方の平均値が同じで ある確率が5%以下だということです。 X X
  64. 64. 仮説検定 •  この場合に、両方の平均値に有意水準αが0.05 で有意に差がありと判定されます。 •  両方の平均値に差があるという「対立仮説が採 択される」という言い方もされます。 •  この意味するところは、両方の平均値が同じで ある確率が5%以下だということです。
  65. 65. 確率論による意思決定 •  このようにして、統計では、確率論により意思 決定がなされます。 •  これって、結局天気予報で言うところの降水 確率5%以下というのと意味的には同じにな ります。
  66. 66. ここまでのまとめ 1.  統計には、記述統計学と推測統計学があり ます。 2.  医療分野で使われるのは主に、推測統計学 です。 3.  推測統計学は確率論に基づいて実施され、 医療での意思決定を支援します。
  67. 67. 今日の内容 1.  自己紹介 2.  統計って何? 3.  確率論 4.  診断と治療意志決定 5.  大規模データ解析と個別化医療
  68. 68. 大規模データ解析 •  近年、大規模計測装置により、人体から多く の情報が抽出されるようになりました。 •  次世代シーケンサーなどは有名な例です。 •  これで、多くの情報に基づいた診断が可能に なりました。
  69. 69. 大規模データ解析と個別化医療 h7p://www.kudanclinic-dicDonary.com/about/about09.html
  70. 70. 大規模データ解析と個別化医療 h7p://equitystory.jp/interview/chugai-pharm2_interview.html
  71. 71. 大規模データ解析と個別化医療 h7p://www.sysmex.co.jp/rd/vision_direcDons/personalized-medicine.html
  72. 72. 大規模データ解析と個別化医療 がんゲノムアトラス:がんの遺伝学的基礎/米国国立がん研究所(NCI) h7ps://www.youtube.com/watch?v=CpcrPieUcZk がんゲノムアトラス:がんの分子機構を解明する/米国国立がん研究所(NCI) h7ps://www.youtube.com/watch?v=Ii1U-h2YHHg がんゲノムアトラス:個別化治療との関連/米国国立がん研究所(NCI) h7ps://www.youtube.com/watch?v=N6livBjq8IQ がんゲノムアトラス: TCGAデータのパワー/米国国立がん研究所(NCI) h7ps://www.youtube.com/watch?v=FJ3qkHMQknc
  73. 73. 参考資料 初心者レベル(新刊) 『Rとグラフで実感する生命科学のための統計 入門』 著者 :石井一夫(東京農工大学) 定価 :本体3,900円+税 発行日:2017/3/10 発行元:羊土社 ◆手を動かして覚える、モヤモヤが消える! すぐに使えるRのサンプルコード付き
  74. 74. 参考資料 初心者レベル あたらしい人工知能の教科書 プロダクト/サービス開発に必要な基礎知識 2016/12/17 多田 智史 (著), 石井 一夫 (監修) ¥ 2,808 翔泳社 2冊プレゼント
  75. 75. 参考資料 中上級者レベル 科学技術計算のためのPython―確率・統 計・機械学習 単行本 – 2016/12 Jose Unpingco (著), 石井 一夫 (翻訳), 加藤 公一 (翻訳), 小川 史恵 (翻訳) ¥ 6,480 エヌティーエス 1冊を5000円で提供
  76. 76. Thank you for your a7enDon.

×