テキストマイニングのイメージと実際

3,600 views

Published on

Published in: Investor Relations
0 Comments
6 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,600
On SlideShare
0
From Embeds
0
Number of Embeds
97
Actions
Shares
0
Downloads
28
Comments
0
Likes
6
Embeds 0
No embeds

No notes for slide

テキストマイニングのイメージと実際

  1. 1. テキストマイニングの イメージと実際
  2. 2. 自己紹介● ID:AntiBayes● あんちべ● さくテキ運営● つい2週間前転職しました● テキストマイニング、自然言語処理楽しい● 現在はソーシャルゲームなベンチャーでデータマイ ニングをすることに● 発表枠に穴開いたので急遽LTします!!
  3. 3. 今何してるの?● (話題の)Hadoopを利用して、● (ビッグデータ)毎日数百GB〜数TB入ってくるデー タを用いて、● (かっこいい!)データマイニングしてる!
  4. 4. かっこいい!!時代の最先端!!● っていうイメージと実態とのギャップについて● ここ2週間の感想● Hadoop● ビッグデータ● データマイニング
  5. 5. Hadoop イメージ● 「利用するのめちゃくちゃ難しいのでは?」 実際● Hive/HiveQLを利用すると、MySQLやOracleと何ら変 わらない● HiveQL例 :: select count(*) from table limit 10● SQL使えるなら何ら問題なく使える● チューニングや負荷分散は勿論難しいが、それは RDBMSも同じ
  6. 6. ビッグデータ(BD) イメージ● BDがあれば新たな知見が得られるのでは? 実際● BDを用いようが、どのような指標を作ったり解析し たりするかを誤れば何も得ることは出来ない● 結局統計的素養が無いと、BDがあっても有効活用 は出来ない
  7. 7. BDのクレンジング● アンケート調査やマーケティング調査で、データにゴ ミや欠損が生じるのは日常茶飯事● 「BDのクレンジングするか!」→出来ない● 数百GBのデータ、一括置換や検索するだけで時間 がかかりすぎる● クレンジングしたいなら、生のデータをExcelやスク リプトで加工するのではなく、根底のログ出力部分 から設計修正する必要がある
  8. 8. 統計解析の基礎の基礎● 操作変数、説明変数、統制変数● 「給料の増加がパフォーマンスの向上に繋がるか」 を知りたければ、給料増加以外の変数を出来る限 り固定しなければ、それ以外の効果がパフォーマン スに影響与えるため、正確に計測することは出来な い
  9. 9. データマイニングの現場● ゲーム制作側:新規要素入れるのが仕事● データマイニング側:要素を統制するのが仕事● 本質的に対立してる● データマイニングは業務改善のためにやる →「データマイニングし辛いからもっと綺麗なデータ 吐くように事前に十分なリソース割いてゲーム設計 しろ!でもゲーム開発はスピード勝負だからさっさと 作れ」 →開発者負担増大→ゲームの質が低下→あわわ
  10. 10. データ構造の変化(1)● ゲーム内のテキストからトレンドを知りたい!● ワードカウントしよう!● ある時から「釣り」関連のワードが頻出→釣りブー ム来てる!?● 実際の理由:釣りゲームリリースしたから● 他にも「ログ収集こけました」「1時間単位でログ 取ってたのを15分単位に変更しました」等々…● 外的要因が多すぎて、データだけ眺めても何もわか らない
  11. 11. データ構造の変化(2)● アクセス端末を調べよう● 昔:={PC, 携帯電話}● 最近:={PC, 携帯電話, スマートフォン}● 現在:={PC, ガラケー, iPhone, Android}● 今後:=タブレットも入れるべきでは?● →いつのまにかパターンが増えている
  12. 12. データ構造の変化(3)● 「課金アイテムα、βの効果測定をしてくれ」● 「あれ、3月前はαのデータがないよ?」● 「そういやαは途中から追加したアイテムだった」● 「βは2ヶ月前に売れ行き跳ね上がってるね!」● 「そういや効果被ってたγを無くしてβに統一した、 そのとき単位もついでに変えた」● →もうどうしていいかわからない
  13. 13. 現時点での感想● やっぱり銀の弾丸/魔法の帽子なんて無かった● 基礎的な統計学の重要性を痛感● 目的に適したデータを取る● 目的に適した指標を作る● BDだろうがHadoopだろうがそこは関係ない、無視できな い● 統計学をきっちり勉強しよう!!

×