Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習CROSS 前半資料

17,315 views

Published on

エンジニアサポートCROSS2014 機械学習CROSSセッション前半資料です

Published in: Technology
  • Be the first to comment

機械学習CROSS 前半資料

  1. 1. 機械学習CROSS ー前編ー エンジニアサポートCROSS 2013/01/17
  2. 2. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  3. 3. 機械学習CROSSの⽬目的、の前に… NGワード データサイエンティスト 3
  4. 4. なんで? l  もう、いいよね l  l  l  昨年年のデータサイエンティストCROSSの素晴らしさ 飽和したデータサイエンティスト論論 「まずは、ヒトと組織でしょう」 l  l  それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事 l  l  データサイエンティストに必要なスキルやリテラシー 最終的にデータ活⽤用するための組織と意思決定プロセスがあるか 「分析技術の話は、そのあとでしょう」 l  l  それを意思決定にどう役⽴立立てられるかが最優先課題 l  l  仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩 分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪 → 「だから、機械学習とかまだいいでしょう」 4
  5. 5. 本当に? l  l  l  NIPS2013:機械学習で最⾼高峰の国際学会 今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft FacebookはCEOマーク・ザッカーバーグまで来場 5
  6. 6. 2013年年:機械学習、特に ディープラーニングを巡る動き 6
  7. 7. 機械学習は(Web業界でも)さらに応⽤用が広がる! l  l  l  l  データ活⽤用の技術/組織インフラはどんどん整っていく そこが各社横並びになった世界で差別化になるものは何か? 伝説のデータサイエンティスト? それとも⾼高度度に進化した機械学習アルゴリズム? 7 今のうちに押さえましょう!
  8. 8. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  9. 9. ⾃自⼰己紹介 l  l  l  l  ⽐比⼾戸将平(HIDO Shohei) Twitter: @sla 専⾨門:データマイニング、機械学習 経歴: l  2002: IPA未踏ユース第⼀一期 l  2006: 京都⼤大学情報学研究科修⼠士修了了 l  l  2006-2012: IBM東京基礎研究所データ解析グループ 2012-: 株式会社プリファードインフラストラクチャー l  l  Jubatusチーム共同リーダー 2013-: PFIアメリカ取締役 & Chief Research Officer 9
  10. 10. Yahoo!JAPAN研究所 田島  玲(あきら) 研究員・コンサルタントと動きつつ、データをいかに現 場で実際に役立てていくか、をテーマとしてます 現在は、研究所としてヤフーの様々なサービスでの データ活用を部門横断で支援中 2011年-   ヤフー(株)。膨大なデータの利活用をミッションとしている 2012年7月より  Yahoo!  JAPAN研究所  所長 2005年-2010年 日本アイ・ビー・エム(株)東京基礎研究所  数理科学チームのリード 2002-2005年  A.T.カーニー(戦略系コンサルティングファーム)  コンサルタント 1992-2002年 日本アイ・ビー・エム(株)東京基礎研究所  研究員 2000年3月  東京大学大学院理学系研究科情報科学専攻   博士(理学) P10
  11. 11. 平手 勇宇(ひらて ゆう) •  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム •  専門分野:データマイニング,Webマイニング 50以上の様々なサービスを提供 11
  12. 12. 平手 勇宇(ひらて ゆう) •  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム •  専門分野:データマイニング,Webマイニング 海外展開を推進 12
  13. 13. 株式会社  ALBERT - ⼩小宮  篤史 @komiya_atsushi 分析⼒力力をコアとする マーケティングソリューションカンパニー エンジニア(Web / AWS / 機械学習) サービス・ソリューションの開発と運⽤用
  14. 14. FFRI,Inc. 村上純一 (@junichi_m) •  株式会社FFRI –  執行役員 事業推進本部長(兼新技開発部長) •  専門領域 –  マルウェア解析、脆弱性分析、セキュリティ脅威分析 •  機械学習は2013年4月から –  マルウェア検知(分類)・クラスタリング等 14
  15. 15. 自己紹介 –  油井誠 @myui •  奈良先端科学技術大学院大学(NAIST) 情報科学研究科   博士課程修了、博士(工学) 2009年3月   •  産業技術総合研究所 情報技術研究部門 研究員   2010月4月~現在   •  専門はデータ工学、データベース学   大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data  Geek)   •  XMLデータベースの研究開発   •  Many-­‐core(64コア)プロセッサを利用したノンブロッキング(Lock-­‐free)アルゴリズ ムの研究開発   •  データベースの並列処理の研究開発   •  オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構 を開発   •  大規模機械学習の研究開発   •  Apache  Hive上で動くオープンソース機械学習ライブラリを開発   hFps://github.com/myui/hivemall   •  企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、 テラバイト級のデータの機械学習にHivemallを利用   •  平成14年度 IPA未踏ユーススーパークリエイタ   •  未踏ユースの第一期生で比戸さん(PFI)と同期  
  16. 16. Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス   自己紹介   名前:  福島良典 年齢:25歳 役職:CEO   仕事:  社長業(意思決定とリクルーティング)  /  アドサーバーの開発 を半々くらい   今の興味  -­‐>  新しいアルゴリズムをどう試すかのテストに関して   機械学習の応用事例   ほぼ全てに   具体的には、推薦部分やアドに   (ex)   記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す   ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc   ©Gunosy  Inc.
  17. 17. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  18. 18. 機械学習ってぶっちゃけ何? 問1. 機械学習の説明で最も適切切なものを選んでください。 a) ⼈人間のような知能をもったロボッ トを実現するための計算機システム c) どんな未来も100%予測可能な ルールベースシステム及び その構築⼿手法 b) 与えられたデータから傾向や法則 を導き予測や分析に活⽤用できる アルゴリズム群 d) 質問⽂文を⼊入⼒力力すると求める回答が 瞬時に得られる質問応答を 可能にする技術 18
  19. 19. 機械学習とは l  経験(データ)によって賢くなるアルゴリズムの集合 l  l  l  l  データから知識識・ルールを⾃自動獲得する データの適切切な表現⽅方法も獲得する ⼈人⼯工知能の中で、⼈人が知識識やルールを 明⽰示的に与える⽅方法の限界から⽣生まれてきた タスクはいろいろある 学習データ 19 分類モデル
  20. 20. 機械学習タスク1:レコメンド l  ヒト x アイテムの関係の中でオススメを探す l  l  l  ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム アイテム←アイテム:似たヒト集団が⾒見見たアイテム Web業界でのアプリケーション l  l  各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示 l  例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド 各商品(記事)に関連する商品(記事)を表⽰示 l  例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド ヒト←アイテム ヒトの閲覧ログ 推薦アイテム アイテム←アイテム 現在のアイテム 関連アイテム 20
  21. 21. 機械学習タスク2:クラス分類 l  ⼊入⼒力力データxに対するクラスyを予測するモデルを構築 l  l  l  Web業界でのアプリケーション l  l  l  訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入 予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算 スパムメール分類:x=メール本⽂文、y={普通, スパム} 不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正} yが連続値なら回帰になる、クラスタリングとは異異なる 予測 訓練 データx データx 正解y 予測y’ 21 21
  22. 22. 機械学習タスク3:異異常検知 l  ⼤大多数のデータとは異異なる性質を持ったものを検出 l  l  l  訓練時:正常時の挙動についてモデル化 予測時:現在の挙動に対して異異常スコアを計算 Web業界でのアプリケーション l  l  サーバー故障予兆検知 l  クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い 不不正アクセス・ネットワーク攻撃検知 l  ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知 予測 訓練 直近ログx 正常時ログx 22 異異常スコアy’ 22
  23. 23. 様々な分野に適⽤用可能 l  l  l  データから有⽤用な規則、ルール、知識識、判断基準を抽出 データがあるところならば、どこでも使える 様々な分野の問題に利利⽤用可能 Web業界での適用分野 レコメン デーション 分類、識識別 ユーザー ⾏行行動予測 ユーザー 属性推定 情報抽出 評判分析 ⾃自動応答 負荷予測 画像認識識 検索索ランク 攻撃検知 故障診断 23
  24. 24. あれ、けど機械学習じゃなくてもできるんじゃ? たとえば⼈人⼿手とかルールとか l  l  l  はい、そうです、タスク⾃自体抽象化してるので 極端に⾔言えば機械学習にしかできないタスクは無い ⼈人⼿手と⽐比べたメリット l  l  l  l  ルールに⽐比べたメリット l  l  l  l  l  ⼤大規模データ・⾼高次元データ・可視化できないデータが扱える 応答速度度が早い 作業コストが低い 変化する状況への対応が得意 更更新やチューニングが容易易 複雑な条件を扱うのが得意 (⼀一般に)精度度が⾼高い これらが決定的な差別化になる勝負を選ぶ必要性はある 24
  25. 25. タスク毎のざっくりとした短所・⻑⾧長所       ⼈人⼿手 ⻑⾧長所 ルールベース 短所 ⻑⾧長所 短所 機械学習 ⻑⾧長所 短所 どんなユーザー 経験と勘を 数多く存在す 履履歴に基づいて チューニン レコ システム化で がどういうもの 抽象化して るマイナーな マイナーなケー グが悪いと メン きずスケール を好むか、経験 スケールさ ケースに対応 スも対応できる、 意味不不明な ド しない と勘を活かせる せられる できない スケールする 結果が出る ⽂文章分類は読め 全て⼈人間がや クラ ば分かる(主⼈人 るのはコスト ス分 がオオアリクイ が掛かり過ぎ 類 に…=スパム) る 正解付き ⼈人間の感覚 例例外ケースが 正解付きデータ データ集め を単純化し 無数に存在す を集められれば は⼈人⼿手や てスケール ると精度度が上 精度度の⾼高い予測 ルールに依 させられる がらない が可能 存する 数万種類の計 閾値を超え 測値を24時間 複雑な異異常、 検知はでき たらアラー おおよその異異常 複雑・未知な異異 365⽇日モニター 未知の異異常を ても原因が 異異常 ト、などは は何らかの計測 常も捉えられる を監視するわ ルール化する 解釈不不能な 検知 ⾃自動化でき 値に現れている 可能性がある けにもいかな のは困難 場合がある る い 25
  26. 26. 「機械にやらせるなら、ルールを書けばいいんじゃ ないの?」 「ゴルフ」 à スポーツ 「インテル」 à コンピュータ 「選挙」  à 政治 l  l  俗にルールベースと呼ばれる⽅方法 最初は精度度が悪いが頑張れば意外とどこまでも良良くなる 26
  27. 27. ルールに基づく判断の限界 「ゴルフ」and「VW」  à  ⾞車車 「インテル」and「⻑⾧長友」 à サッカー 「選挙」and「AKB」 à 芸能 l  ⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる l  l  l  l  1万⾏行行のperlスクリプト どこを変えたらいいかわからない 条件を追加したら何が起こるか・・・ 複雑化したルールは引き継げなくなる 27
  28. 28. 機械学習が失敗するパターン l  できない精度度を求める l  l  l  ⼈人にとって簡単なタスクをやろうとする l  l  l  サイコロの次の⽬目を当てることはできない 同じように、精度度の限界がある 少ない情報から推論論するのは⼈人間が得意 逆に⼤大量量の情報から判断する必要がある時は機械が得意 ボトルネックが別にある l  l  アクションを取るのが⼈人だったり、⼈人が途中に介在する 量量と速度度のメリットをいかに活かすか 28
  29. 29. 機械学習をどう実装・システム導⼊入するか 専⽤用スクリプト⾔言語/ツール R, Weka, Matlab, SPSS 汎⽤用⾔言語⽤用ライブラリ SciPy, Shogun クラウドベース機械学習ツール bigML, Bazil ビッグデータ向けプラットホーム Mahout, Jubatus, Oryx, hivemall 29
  30. 30. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  31. 31. P31
  32. 32. 事例:コンテンツ連動型広告(YDN) P32
  33. 33. パフォーマンス制約を満たすため、2段階の 構成が一般的です 課題 • 膨大なユーザー数、リクエスト数 • 様々なコンテンツ、広告 • レイテンシー制約 • 引き当てロジックの複雑化  ページリクエスト  ユーザー情報 広告DB   マッチング(情報検索アプローチ) Query 転置   インデックス   リランキング(機械学習アプローチ) Short List Long List 機械学習   モデル   Short List P33
  34. 34. CTR(Click-Through-Rate)を予測 →  分類ではなく、回帰です P34 •  4本の候補から2本を選んで配信する場合の例 •  入札額×CTR=期待収益 広告 入札額 CTR 期待収益 A 20 0.25 5.0 B 15 0.20 3.0 C 30 0.15 4.5 D 100 0.01 1.0 期待収益の高いAとCを 配信すれば良さそう!
  35. 35. 素性と予測モデル P35 ユーザーと広告の 類似度 広告自身の 情報 ユーザー 広告 ページ (環境) ページと広告の 過去の 関連度 配信実績情報 ページp、ユーザーu、広告aが 与えられた時のCTR データから学習される モデルのパラメータ 素性ベクトル
  36. 36. (参考)学会発表もしてます hFp://dl.acm.org/cita]on.cfm?id=2501978 P36
  37. 37. 37
  38. 38. 商品情報整備のための機械学習の活用 1億 膨大な数の商品数 多くが非構造データ 1.  商品情報に特化した形態素解析器の構築 2.  商品情報の構造化 3.  よい画像の自動選択 38
  39. 39. 1.商品情報に特化した形態素解析器の構築 サードパーティ製 解析器 シャ ンパンドゥヴィノージュ (未知語) うっ とろ りん と する ) by RIT シャンパン | ドゥ
 | ヴィノージュ うっとろりん | と | する 検索 (新語) 蕾丝百搭吊带背心 (中国語) 蕾丝 | 百搭 | 吊带 | 背心 楽天商品データに対する 単語分割精度 情報抽出 テキストマイニング etc. 39
  40. 40. 2.商品データの構造化 •  構造化されていないテキストから商品情報を自動抽 出するシステムの開発 テキスト (非構造化データ) 構造化データ 属性 属性値 色 赤 生産地 イタリア, トスカーナ ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン 年代 2010 容量 750ml 40
  41. 41. 2.商品データの構造化 1.  HTMLのテーブルを参照し,属性値DBを生成 2.  属性値DBを利用して,属性値抽出ルールを自動生成 (2) Table data Generation Chateau d’Issan 1994 Database : <Region, Margaux> <Color, White> : This is a wine from Margaux. ... Annotation Rule wine from x => x is a Region This is a wine from Lafite Rothschild New Region! (1) 41
  42. 42. 3.よい商品画像の選択 •  店舗様がアップロードした画像セットから, 商品カタログへの掲載に適切な画像を選択 店舗様名が含まれている画像 「準備中」の画像 42
  43. 43. 3.よい商品画像の選択 •  テキストが含まれている領域か否かを判定 送料無料 text non-text Classify text/non-text 43
  44. 44. About ALBERT 分析⼒力力をコアとする マーケティングソリューションカンパニー ※エンジニアなど募集中です!  http://bit.ly/alb_recruit © 2013 ALBERT Inc.
  45. 45. 引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
  46. 46. Display  Adver:sing Data  Management  PlaAorm CRM&Marke:ng  Automa:on 引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
  47. 47. マーケティング分野における機械学習の活⽤用状況 •  機械学習の活⽤用・⼆二つの観点 –  マーケティング・オートメーションを実現する⼿手段としての 「機械学習」 –  オーディエンスデータ・蓄積データをアドホックに分析する ⼿手段としての「機械学習」 •  主な活⽤用シーン(例例) –  レコメンデーション •  アソシエーション・ルール・マイニング •  協調フィルタリング –  顧客のクラスタリング/分類 •  ⾮非階層クラスタリング(k-means) •  クラス分類(k-近傍探索索) –  クリエイティブ最適化 •  重回帰分析
  48. 48. ALBERT のマーケティングソリューション © 2013 ALBERT Inc.
  49. 49. 事例例:顧客のクラスタリング/分類 購買ログやアクセス履履歴を元に、顧客をクラスタリングします ファッションは⼩小物重視派 ファッション⼩小物、雑貨などを中⼼心に購⼊入 オフィスカジュアル派 主に仕事⽤用の服としてサイトを活⽤用。 ビジネス向けアイテムを中⼼心に購⼊入 ⽉月1回配信:ファッション⼩小物特集メルマガ ⽉月2回配信:オフィスで使えるアイテム特集 クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します © 2013 ALBERT Inc.
  50. 50. 事例例:クリエイティブ最適化 バナー広告などで使われているクリエイティブ画像を、構成要素に分解します 重回帰分析を⽤用いて、実  CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ ごとの予測  CTR や、最適なクリエイティブの推定を実現します © 2013 ALBERT Inc.
  51. 51. 機械学習の利用事例@産総研 広告データのコンバージョン率推定 [共同研究]   •  ユーザ属性群、広告属性群からなるセッションに対して最 CVR(Conversion  Rate)が良い広告をユーザに提示する   •  CVR  =  #CV  /  #CLICKS   •  CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実 際に商品が購入した)等のイベント   •  Terabytes以上の訓練データセット、月60-­‐100GB程度で増加中   •  1000クライアント以上の広告主   •  RDB→TSV形式にして定期的にデータをHDFSに投入   •  翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC で予測できている   •  1年以上前からのデータを訓練に利用   •  訓練事例の蓄積が不十分なカテゴリのAUCは低い   •  Hivemallにより32ノードで5-­‐10分程度で学習   •  最大1000程度のmapタスクが立ち上がる (#map  slotに応じた学習時間)   •  学習というよりも特徴エンジニアリングに一番時間を要する   •  複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成   •  Hive+UDFが最も有難く感じる瞬間   •  Columnar  (ORC)  フォーマットによる圧縮がよく効く   •  テラバイトデータの特徴エンジニアリング ((('A`)))   広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す ると500倍のストレージ要件
  52. 52. 大規模データの特徴エンジニアリング(前処理) Hadoop/Hiveを利用したELT(Extract-­‐Load-­‐Transform)処理が特徴エンジニア   リングに有用   •  HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが   勝ちパターン(?)   •  結合処理はHiveで並列ハッシュ結合により行う   •  共同研究で行っているCVR推定では3つのview定義と3つの一時table、   数個のUDFを訓練例の作成に利用している   Label 1 2 3 練 例 Web   service 7 1 transform Hadoop /Hive 訓 9 -1 Logs B 1 Join A extract load OLTP   DBs 8 データソース   の結合処理 ユーザID等の質的変数を   二値素性に変換 Transform  script Label A:2 A:3 B:7 B:8 B:9 1 1 0 0 0 1 0 -1 KDDCup  2012のデータセット   A:1 0 1 0 0 0 1 1 0 0 1 1 0 0 •  特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要   •  大規模データになるとプログラミングするのは大変(外部マージソートが必須)   •  ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要   •  予め用意されている関数などでは不十分なことが多い  
  53. 53. 運用上得られた課題(1)  –  学習アルゴリズム データ量が増えても難なく動作する学習アルゴリズム   •  学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,  確率的勾配降 下法(SGD))   •  SGDの学習率の自動設定手法はまだ研究段階   •  モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/ SCW)は収束は早いが…   •  データ量が増すと単純なPassive  Aggressiveに劣ることもある   •  急激な変化(concept  drip)への対処   •  訓練例とテストデータの乖離した場合にどうするか •  過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある   アベノミクスによる   レジームシフト   •  多用な切り口で学習モデルを作って   多椀バンディット等でモデルを選択する?   •  学習器への予測結果のLazyなフィード バック機構?   去年の10月ごろから金融業の広告の   コンバージョン率が跳ね上がる
  54. 54. 運用上得られた課題(2)  – 学習フレームワーク •  リアルタイムの学習は実際に必要だけど…逐次学 習/ストリーム学習の設定は現実的(?)   •  データの入力順に学習モデルが左右される   •  ストリーム設定だと学習器への入力のshuffleができない   •  CW/AROWに最初に負の事例ばかり学習させたら..?   •  訓練例を複数回数(イテレーション)、順不同に学習器に与える必 要がある   •  CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い   バッチ学習と逐次学習のハイブリッドに向かうのではないか Hadoop cluster Postgres Training data OLTP transactions node Incremental learning ・・・ Prediction model Cloudera  Oryx node node DB-­‐Hadoop  Hybrid   machine  learning Batch learning
  55. 55. FFRI,Inc. 57
  56. 56. FFRI,Inc. 情報セキュリティ業界の現状 環境の変化 マルウェア・各種データの増加 ネットワークの高速化、etc. 古き良き時代 ブラックリスト ホワイトリスト データ増大 未知データ 「外部脅威」の出現  ハッカー、マルウェア、  脆弱性攻撃、etc. レピュテーション ヒューリスティッ ク サンドボックス 機械学習 58
  57. 57. FFRI,Inc. (一例)マルウェアの急増 2006 2013 出典:http://www.av-test.org/en/statistics/malware/ 59
  58. 58. FFRI,Inc. マルウェア検知(分類) •  近年のマルウェアの多くは亜種 or ツールによる 自動生成 → コード面、機能面での差分は比較的少ない •  正常ソフトとマルウェアを線形分離できないか? –  実行時に呼び出されたAPIのn-gramを特徴に利用 NtCreateFile_NtWriteFile_NtCloseHandle •  パラメーター次第だが、TPR:90%超、FPR:1∼5% → FPR:1%以上はNG(セキュリティ業界の悩み) 60
  59. 59. FFRI,Inc. マルウェアクラスタリング •  モチベーション –  目的に沿った意味のあるデータを選択したい •  取り組み例 –  社内のマルウェアDBから1000件無作為抽出 –  APIのn-gramを特徴としてウォード法を適用 –  大きく3系統に分離 (部分的に手動検証) 61
  60. 60. ©Gunosy  Inc.
  61. 61. Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス   自己紹介   名前:  福島良典 年齢:25歳 役職:CEO   仕事:  社長業(意思決定とリクルーティング)  /  アドサーバーの開発 を半々くらい   今の興味  -­‐>  新しいアルゴリズムをどう試すかのテストに関して   機械学習の応用事例   ほぼ全てに   具体的には、推薦部分やアドに   (ex)   記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す   ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc   ©Gunosy  Inc.
  62. 62. 64
  63. 63. Preferred Infrastructure (PFI)   最先端の技術を最短路路で実⽤用化 l  l  l  東⼤大発ソフトウェア開発ベンチャー 創業:2006年年3⽉月 主な製品 l  Sedue: 検索索&レコメンドエンジン l  Bazil: 使いやすい機械学習解析サービス l  Jubatus: ⼤大規模オンライン分散機械学習 代表取締役 ⻄西川徹 情報検索索(IR) 分散システム ⾃自然⾔言語処理理 機械学習 65 取締役副社⻑⾧長 岡野原⼤大輔
  64. 64. Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤 l  従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段 l  l  HadoopやCEP(Complex Event Processing)が中⼼心的役割 これからの⼤大規模データ解析:リアルタイム性や深い解析も重要 l  Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤 l  NTT SICと共同開発&オープンソース公開  → http://jubat.us/ 1. ⼤大規模化 2. リアルタイム/オンライン 3. 深い解析 l  分散オンライン化したアルゴリズムを実装済みの処理理機能 l  分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング 66
  65. 65. Bazil: クラウドベース機械学習分析向けツール l  テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測 l  l  機械学習モデルによる予測の要因を⾒見見える化 l  l  扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用 「なぜその予測になったか?」を知ることでPDCAサイクルを加速 ブラウザから使えるASPサービスとしてクラウドで提供 l  インストール不不要でOSやマシンを選ばずに利利⽤用可能 テキスト ログ           数値 分析者 Web GUI 要因分析 精度度評価 クラウド
  66. 66. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  67. 67. セッション後半の流流れ l  前半振り返り l  機械学習導⼊入の展望:どこから導⼊入が進むのか   l  機械学習は精度度で⼈人間に勝てるのか   l  役⽴立立つケースとそうでないケースの違うは何か   l  それを⽀支える技術やツールとしては何が有望か   l  どのように導⼊入を進めていけば良良いのか   l  まとめ 69

×