Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

それっぽく、適当に

1,136 views

Published on

やっぱこう、具体例とかそれで何ができるとかは目に見えてないと

Published in: Technology
  • Be the first to comment

それっぽく、適当に

  1. 1. 適当なので注意
  2. 2. こんなデータが得られたとします • 7元で表せるデータ列が20個あるとして p[0] p[1] p[2] p[3] p[4] p[5] p[6] 8.029544 4.70289 10.27533 8.711522 11.68023 8.750018 9.819413 10.04115 4.765279 11.22785 9.832745 11.16592 10.20638 13.7156 6.406679 3.805438 8.771842 5.474612 8.185449 6.138685 12.46101 5.432359 5.053703 10.32298 5.672578 11.97298 6.003217 10.38876 2.230535 2.849621 5.447993 2.808569 7.085742 2.827723 4.059833 2.3872 1.559526 3.780177 1.233252 2.686427 1.839447 7.355391 2.881693 3.108613 6.588471 1.906075 6.386903 2.598389 9.603268 3.633426 3.013722 6.595095 2.758911 6.294552 3.378788 9.531652 10.34498 4.515416 10.98205 9.794939 10.32228 10.27807 14.51649 9.698213 3.792461 9.30297 9.846679 9.238954 9.967777 10.84519 5.447365 4.74843 10.11748 4.67707 10.4203 5.40246 13.00408 5.011852 4.880006 9.735676 5.761372 11.9897 5.86653 8.31746 11.07462 5.169767 12.38226 10.38225 11.72644 10.98124 16.40871 9.395423 5.431209 12.30943 8.924104 12.42515 9.50054 15.27551 8.412666 4.929053 11.35146 7.334146 10.71749 8.136719 15.80442 4.582786 3.439149 7.756845 3.244081 6.915304 4.085366 12.15409 5.887355 6.111301 12.70313 4.924477 13.37913 5.874038 16.05897 6.269419 5.411706 11.10949 6.739355 13.02455 6.991714 10.70806 5.205309 2.650874 6.276174 4.674391 5.839725 5.068122 8.706165 9.02106 4.580345 10.42586 9.414251 11.20555 9.536907 11.02731 0 5 10 15 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Chart Title Series1 Series2 Series3 Series4 Series5 Series6 Series7 なんとなく、 相関ありそう に見える
  3. 3. 実のところ、これ… • 表現するのに7次元も要らない a b c 0.75897 0.038496 0.79501 0.538869 0.373638 0.931263 0.39608 0.664073 0.446487 0.901498 0.33064 0.393216 0.616343 0.019155 0.17297 0.058441 0.606194 0.056686 0.40901 0.692314 0.043971 0.365239 0.619877 0.156506 0.416213 0.483128 0.942154 0.390663 0.121099 0.993806 0.680484 0.72539 0.287857 0.959837 0.105159 0.415171 0.505611 0.598991 0.97467 0.681553 0.576436 0.776062 0.526626 0.802573 0.608702 0.343863 0.841284 0.190563 0.936243 0.949561 0.233603 0.974653 0.252358 0.504188 0.256544 0.393731 0.418619 0.638503 0.122656 0.89051 x = { 1, 4, 7, 2, 10, 2, 4 ) y = { 3, 2, 5, 1, 3, 2, 11) z = { 9, 2, 6, 9, 5, 9, 8) として、前ページのデータ列は、本ページのデータa, b, cを使って a x + b y + c z で表せたりする。
  4. 4. 主成分分析 • 元の7元データから、真に意味のある3元データを抜き出す手法 p[0] p[1] p[2] p[3] p[4] p[5] p[6] 8.029544 4.70289 10.27533 8.711522 11.68023 8.750018 9.819413 10.04115 4.765279 11.22785 9.832745 11.16592 10.20638 13.7156 6.406679 3.805438 8.771842 5.474612 8.185449 6.138685 12.46101 5.432359 5.053703 10.32298 5.672578 11.97298 6.003217 10.38876 2.230535 2.849621 5.447993 2.808569 7.085742 2.827723 4.059833 2.3872 1.559526 3.780177 1.233252 2.686427 1.839447 7.355391 2.881693 3.108613 6.588471 1.906075 6.386903 2.598389 9.603268 3.633426 3.013722 6.595095 2.758911 6.294552 3.378788 9.531652 10.34498 4.515416 10.98205 9.794939 10.32228 10.27807 14.51649 9.698213 3.792461 9.30297 9.846679 9.238954 9.967777 10.84519 5.447365 4.74843 10.11748 4.67707 10.4203 5.40246 13.00408 5.011852 4.880006 9.735676 5.761372 11.9897 5.86653 8.31746 11.07462 5.169767 12.38226 10.38225 11.72644 10.98124 16.40871 9.395423 5.431209 12.30943 8.924104 12.42515 9.50054 15.27551 8.412666 4.929053 11.35146 7.334146 10.71749 8.136719 15.80442 4.582786 3.439149 7.756845 3.244081 6.915304 4.085366 12.15409 5.887355 6.111301 12.70313 4.924477 13.37913 5.874038 16.05897 6.269419 5.411706 11.10949 6.739355 13.02455 6.991714 10.70806 5.205309 2.650874 6.276174 4.674391 5.839725 5.068122 8.706165 9.02106 4.580345 10.42586 9.414251 11.20555 9.536907 11.02731 a b c 0.75897 0.038496 0.79501 0.538869 0.373638 0.931263 0.39608 0.664073 0.446487 0.901498 0.33064 0.393216 0.616343 0.019155 0.17297 0.058441 0.606194 0.056686 0.40901 0.692314 0.043971 0.365239 0.619877 0.156506 0.416213 0.483128 0.942154 0.390663 0.121099 0.993806 0.680484 0.72539 0.287857 0.959837 0.105159 0.415171 0.505611 0.598991 0.97467 0.681553 0.576436 0.776062 0.526626 0.802573 0.608702 0.343863 0.841284 0.190563 0.936243 0.949561 0.233603 0.974653 0.252358 0.504188 0.256544 0.393731 0.418619 0.638503 0.122656 0.89051 主成分分析 (特異値分解) ※ この例はわざとこういうデータ作ってるから事前に「意味があるのは3次元だった」ってわかってるけども、 実際には、この「何次元か」とか「何次元くらいだけ残せば残りは誤差程度とみなせるか」とかを調べるのが主成分分析。
  5. 5. それで何がうれしいか • 相関があるのかどうか(ただのランダム列じゃないか)調べれる • 計算量が削減できる • 機械学習にしろ何にしろ、計算量は単純にデータ量に比例したり • というか、2乗とか3乗とかに比例することが多いので、データ量増えるとやばい • 明日の天気の予測に2日かかったら意味がない • 予測や学習、案外、計算量縮めるの大事
  6. 6. こういうのには数学が必要です • さっきの主成分分析ってのは、線形代数(ベクトルとか行列と か)の応用です • how to 機械学習 • 学習させたいものをまずベクトルで表します • プログラミング的に言うと、とりあえず数値の配列で表現できるように考えます • 数学的手法を使って、そのベクトルの特徴量みたいなのを抽出します • …
  7. 7. • 抽出するコード書いてみましょう…

×