Your SlideShare is downloading. ×
機械学習CROSS 前半資料
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

機械学習CROSS 前半資料

12,677
views

Published on

エンジニアサポートCROSS2014 機械学習CROSSセッション前半資料です

エンジニアサポートCROSS2014 機械学習CROSSセッション前半資料です

Published in: Technology

0 Comments
52 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
12,677
On Slideshare
0
From Embeds
0
Number of Embeds
47
Actions
Shares
0
Downloads
186
Comments
0
Likes
52
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 機械学習CROSS ー前編ー エンジニアサポートCROSS 2013/01/17
  • 2. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  • 3. 機械学習CROSSの⽬目的、の前に… NGワード データサイエンティスト 3
  • 4. なんで? l  もう、いいよね l  l  l  昨年年のデータサイエンティストCROSSの素晴らしさ 飽和したデータサイエンティスト論論 「まずは、ヒトと組織でしょう」 l  l  それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事 l  l  データサイエンティストに必要なスキルやリテラシー 最終的にデータ活⽤用するための組織と意思決定プロセスがあるか 「分析技術の話は、そのあとでしょう」 l  l  それを意思決定にどう役⽴立立てられるかが最優先課題 l  l  仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩 分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪 → 「だから、機械学習とかまだいいでしょう」 4
  • 5. 本当に? l  l  l  NIPS2013:機械学習で最⾼高峰の国際学会 今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft FacebookはCEOマーク・ザッカーバーグまで来場 5
  • 6. 2013年年:機械学習、特に ディープラーニングを巡る動き 6
  • 7. 機械学習は(Web業界でも)さらに応⽤用が広がる! l  l  l  l  データ活⽤用の技術/組織インフラはどんどん整っていく そこが各社横並びになった世界で差別化になるものは何か? 伝説のデータサイエンティスト? それとも⾼高度度に進化した機械学習アルゴリズム? 7 今のうちに押さえましょう!
  • 8. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  • 9. ⾃自⼰己紹介 l  l  l  l  ⽐比⼾戸将平(HIDO Shohei) Twitter: @sla 専⾨門:データマイニング、機械学習 経歴: l  2002: IPA未踏ユース第⼀一期 l  2006: 京都⼤大学情報学研究科修⼠士修了了 l  l  2006-2012: IBM東京基礎研究所データ解析グループ 2012-: 株式会社プリファードインフラストラクチャー l  l  Jubatusチーム共同リーダー 2013-: PFIアメリカ取締役 & Chief Research Officer 9
  • 10. Yahoo!JAPAN研究所 田島  玲(あきら) 研究員・コンサルタントと動きつつ、データをいかに現 場で実際に役立てていくか、をテーマとしてます 現在は、研究所としてヤフーの様々なサービスでの データ活用を部門横断で支援中 2011年-   ヤフー(株)。膨大なデータの利活用をミッションとしている 2012年7月より  Yahoo!  JAPAN研究所  所長 2005年-2010年 日本アイ・ビー・エム(株)東京基礎研究所  数理科学チームのリード 2002-2005年  A.T.カーニー(戦略系コンサルティングファーム)  コンサルタント 1992-2002年 日本アイ・ビー・エム(株)東京基礎研究所  研究員 2000年3月  東京大学大学院理学系研究科情報科学専攻   博士(理学) P10
  • 11. 平手 勇宇(ひらて ゆう) •  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム •  専門分野:データマイニング,Webマイニング 50以上の様々なサービスを提供 11
  • 12. 平手 勇宇(ひらて ゆう) •  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム •  専門分野:データマイニング,Webマイニング 海外展開を推進 12
  • 13. 株式会社  ALBERT - ⼩小宮  篤史 @komiya_atsushi 分析⼒力力をコアとする マーケティングソリューションカンパニー エンジニア(Web / AWS / 機械学習) サービス・ソリューションの開発と運⽤用
  • 14. FFRI,Inc. 村上純一 (@junichi_m) •  株式会社FFRI –  執行役員 事業推進本部長(兼新技開発部長) •  専門領域 –  マルウェア解析、脆弱性分析、セキュリティ脅威分析 •  機械学習は2013年4月から –  マルウェア検知(分類)・クラスタリング等 14
  • 15. 自己紹介 –  油井誠 @myui •  奈良先端科学技術大学院大学(NAIST) 情報科学研究科   博士課程修了、博士(工学) 2009年3月   •  産業技術総合研究所 情報技術研究部門 研究員   2010月4月~現在   •  専門はデータ工学、データベース学   大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data  Geek)   •  XMLデータベースの研究開発   •  Many-­‐core(64コア)プロセッサを利用したノンブロッキング(Lock-­‐free)アルゴリズ ムの研究開発   •  データベースの並列処理の研究開発   •  オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構 を開発   •  大規模機械学習の研究開発   •  Apache  Hive上で動くオープンソース機械学習ライブラリを開発   hFps://github.com/myui/hivemall   •  企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、 テラバイト級のデータの機械学習にHivemallを利用   •  平成14年度 IPA未踏ユーススーパークリエイタ   •  未踏ユースの第一期生で比戸さん(PFI)と同期  
  • 16. Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス   自己紹介   名前:  福島良典 年齢:25歳 役職:CEO   仕事:  社長業(意思決定とリクルーティング)  /  アドサーバーの開発 を半々くらい   今の興味  -­‐>  新しいアルゴリズムをどう試すかのテストに関して   機械学習の応用事例   ほぼ全てに   具体的には、推薦部分やアドに   (ex)   記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す   ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc   ©Gunosy  Inc.
  • 17. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  • 18. 機械学習ってぶっちゃけ何? 問1. 機械学習の説明で最も適切切なものを選んでください。 a) ⼈人間のような知能をもったロボッ トを実現するための計算機システム c) どんな未来も100%予測可能な ルールベースシステム及び その構築⼿手法 b) 与えられたデータから傾向や法則 を導き予測や分析に活⽤用できる アルゴリズム群 d) 質問⽂文を⼊入⼒力力すると求める回答が 瞬時に得られる質問応答を 可能にする技術 18
  • 19. 機械学習とは l  経験(データ)によって賢くなるアルゴリズムの集合 l  l  l  l  データから知識識・ルールを⾃自動獲得する データの適切切な表現⽅方法も獲得する ⼈人⼯工知能の中で、⼈人が知識識やルールを 明⽰示的に与える⽅方法の限界から⽣生まれてきた タスクはいろいろある 学習データ 19 分類モデル
  • 20. 機械学習タスク1:レコメンド l  ヒト x アイテムの関係の中でオススメを探す l  l  l  ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム アイテム←アイテム:似たヒト集団が⾒見見たアイテム Web業界でのアプリケーション l  l  各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示 l  例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド 各商品(記事)に関連する商品(記事)を表⽰示 l  例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド ヒト←アイテム ヒトの閲覧ログ 推薦アイテム アイテム←アイテム 現在のアイテム 関連アイテム 20
  • 21. 機械学習タスク2:クラス分類 l  ⼊入⼒力力データxに対するクラスyを予測するモデルを構築 l  l  l  Web業界でのアプリケーション l  l  l  訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入 予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算 スパムメール分類:x=メール本⽂文、y={普通, スパム} 不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正} yが連続値なら回帰になる、クラスタリングとは異異なる 予測 訓練 データx データx 正解y 予測y’ 21 21
  • 22. 機械学習タスク3:異異常検知 l  ⼤大多数のデータとは異異なる性質を持ったものを検出 l  l  l  訓練時:正常時の挙動についてモデル化 予測時:現在の挙動に対して異異常スコアを計算 Web業界でのアプリケーション l  l  サーバー故障予兆検知 l  クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い 不不正アクセス・ネットワーク攻撃検知 l  ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知 予測 訓練 直近ログx 正常時ログx 22 異異常スコアy’ 22
  • 23. 様々な分野に適⽤用可能 l  l  l  データから有⽤用な規則、ルール、知識識、判断基準を抽出 データがあるところならば、どこでも使える 様々な分野の問題に利利⽤用可能 Web業界での適用分野 レコメン デーション 分類、識識別 ユーザー ⾏行行動予測 ユーザー 属性推定 情報抽出 評判分析 ⾃自動応答 負荷予測 画像認識識 検索索ランク 攻撃検知 故障診断 23
  • 24. あれ、けど機械学習じゃなくてもできるんじゃ? たとえば⼈人⼿手とかルールとか l  l  l  はい、そうです、タスク⾃自体抽象化してるので 極端に⾔言えば機械学習にしかできないタスクは無い ⼈人⼿手と⽐比べたメリット l  l  l  l  ルールに⽐比べたメリット l  l  l  l  l  ⼤大規模データ・⾼高次元データ・可視化できないデータが扱える 応答速度度が早い 作業コストが低い 変化する状況への対応が得意 更更新やチューニングが容易易 複雑な条件を扱うのが得意 (⼀一般に)精度度が⾼高い これらが決定的な差別化になる勝負を選ぶ必要性はある 24
  • 25. タスク毎のざっくりとした短所・⻑⾧長所       ⼈人⼿手 ⻑⾧長所 ルールベース 短所 ⻑⾧長所 短所 機械学習 ⻑⾧長所 短所 どんなユーザー 経験と勘を 数多く存在す 履履歴に基づいて チューニン レコ システム化で がどういうもの 抽象化して るマイナーな マイナーなケー グが悪いと メン きずスケール を好むか、経験 スケールさ ケースに対応 スも対応できる、 意味不不明な ド しない と勘を活かせる せられる できない スケールする 結果が出る ⽂文章分類は読め 全て⼈人間がや クラ ば分かる(主⼈人 るのはコスト ス分 がオオアリクイ が掛かり過ぎ 類 に…=スパム) る 正解付き ⼈人間の感覚 例例外ケースが 正解付きデータ データ集め を単純化し 無数に存在す を集められれば は⼈人⼿手や てスケール ると精度度が上 精度度の⾼高い予測 ルールに依 させられる がらない が可能 存する 数万種類の計 閾値を超え 測値を24時間 複雑な異異常、 検知はでき たらアラー おおよその異異常 複雑・未知な異異 365⽇日モニター 未知の異異常を ても原因が 異異常 ト、などは は何らかの計測 常も捉えられる を監視するわ ルール化する 解釈不不能な 検知 ⾃自動化でき 値に現れている 可能性がある けにもいかな のは困難 場合がある る い 25
  • 26. 「機械にやらせるなら、ルールを書けばいいんじゃ ないの?」 「ゴルフ」 à スポーツ 「インテル」 à コンピュータ 「選挙」  à 政治 l  l  俗にルールベースと呼ばれる⽅方法 最初は精度度が悪いが頑張れば意外とどこまでも良良くなる 26
  • 27. ルールに基づく判断の限界 「ゴルフ」and「VW」  à  ⾞車車 「インテル」and「⻑⾧長友」 à サッカー 「選挙」and「AKB」 à 芸能 l  ⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる l  l  l  l  1万⾏行行のperlスクリプト どこを変えたらいいかわからない 条件を追加したら何が起こるか・・・ 複雑化したルールは引き継げなくなる 27
  • 28. 機械学習が失敗するパターン l  できない精度度を求める l  l  l  ⼈人にとって簡単なタスクをやろうとする l  l  l  サイコロの次の⽬目を当てることはできない 同じように、精度度の限界がある 少ない情報から推論論するのは⼈人間が得意 逆に⼤大量量の情報から判断する必要がある時は機械が得意 ボトルネックが別にある l  l  アクションを取るのが⼈人だったり、⼈人が途中に介在する 量量と速度度のメリットをいかに活かすか 28
  • 29. 機械学習をどう実装・システム導⼊入するか 専⽤用スクリプト⾔言語/ツール R, Weka, Matlab, SPSS 汎⽤用⾔言語⽤用ライブラリ SciPy, Shogun クラウドベース機械学習ツール bigML, Bazil ビッグデータ向けプラットホーム Mahout, Jubatus, Oryx, hivemall 29
  • 30. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  • 31. P31
  • 32. 事例:コンテンツ連動型広告(YDN) P32
  • 33. パフォーマンス制約を満たすため、2段階の 構成が一般的です 課題 • 膨大なユーザー数、リクエスト数 • 様々なコンテンツ、広告 • レイテンシー制約 • 引き当てロジックの複雑化  ページリクエスト  ユーザー情報 広告DB   マッチング(情報検索アプローチ) Query 転置   インデックス   リランキング(機械学習アプローチ) Short List Long List 機械学習   モデル   Short List P33
  • 34. CTR(Click-Through-Rate)を予測 →  分類ではなく、回帰です P34 •  4本の候補から2本を選んで配信する場合の例 •  入札額×CTR=期待収益 広告 入札額 CTR 期待収益 A 20 0.25 5.0 B 15 0.20 3.0 C 30 0.15 4.5 D 100 0.01 1.0 期待収益の高いAとCを 配信すれば良さそう!
  • 35. 素性と予測モデル P35 ユーザーと広告の 類似度 広告自身の 情報 ユーザー 広告 ページ (環境) ページと広告の 過去の 関連度 配信実績情報 ページp、ユーザーu、広告aが 与えられた時のCTR データから学習される モデルのパラメータ 素性ベクトル
  • 36. (参考)学会発表もしてます hFp://dl.acm.org/cita]on.cfm?id=2501978 P36
  • 37. 37
  • 38. 商品情報整備のための機械学習の活用 1億 膨大な数の商品数 多くが非構造データ 1.  商品情報に特化した形態素解析器の構築 2.  商品情報の構造化 3.  よい画像の自動選択 38
  • 39. 1.商品情報に特化した形態素解析器の構築 サードパーティ製 解析器 シャ ンパンドゥヴィノージュ (未知語) うっ とろ りん と する ) by RIT シャンパン | ドゥ
 | ヴィノージュ うっとろりん | と | する 検索 (新語) 蕾丝百搭吊带背心 (中国語) 蕾丝 | 百搭 | 吊带 | 背心 楽天商品データに対する 単語分割精度 情報抽出 テキストマイニング etc. 39
  • 40. 2.商品データの構造化 •  構造化されていないテキストから商品情報を自動抽 出するシステムの開発 テキスト (非構造化データ) 構造化データ 属性 属性値 色 赤 生産地 イタリア, トスカーナ ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン 年代 2010 容量 750ml 40
  • 41. 2.商品データの構造化 1.  HTMLのテーブルを参照し,属性値DBを生成 2.  属性値DBを利用して,属性値抽出ルールを自動生成 (2) Table data Generation Chateau d’Issan 1994 Database : <Region, Margaux> <Color, White> : This is a wine from Margaux. ... Annotation Rule wine from x => x is a Region This is a wine from Lafite Rothschild New Region! (1) 41
  • 42. 3.よい商品画像の選択 •  店舗様がアップロードした画像セットから, 商品カタログへの掲載に適切な画像を選択 店舗様名が含まれている画像 「準備中」の画像 42
  • 43. 3.よい商品画像の選択 •  テキストが含まれている領域か否かを判定 送料無料 text non-text Classify text/non-text 43
  • 44. About ALBERT 分析⼒力力をコアとする マーケティングソリューションカンパニー ※エンジニアなど募集中です!  http://bit.ly/alb_recruit © 2013 ALBERT Inc.
  • 45. 引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
  • 46. Display  Adver:sing Data  Management  PlaAorm CRM&Marke:ng  Automa:on 引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
  • 47. マーケティング分野における機械学習の活⽤用状況 •  機械学習の活⽤用・⼆二つの観点 –  マーケティング・オートメーションを実現する⼿手段としての 「機械学習」 –  オーディエンスデータ・蓄積データをアドホックに分析する ⼿手段としての「機械学習」 •  主な活⽤用シーン(例例) –  レコメンデーション •  アソシエーション・ルール・マイニング •  協調フィルタリング –  顧客のクラスタリング/分類 •  ⾮非階層クラスタリング(k-means) •  クラス分類(k-近傍探索索) –  クリエイティブ最適化 •  重回帰分析
  • 48. ALBERT のマーケティングソリューション © 2013 ALBERT Inc.
  • 49. 事例例:顧客のクラスタリング/分類 購買ログやアクセス履履歴を元に、顧客をクラスタリングします ファッションは⼩小物重視派 ファッション⼩小物、雑貨などを中⼼心に購⼊入 オフィスカジュアル派 主に仕事⽤用の服としてサイトを活⽤用。 ビジネス向けアイテムを中⼼心に購⼊入 ⽉月1回配信:ファッション⼩小物特集メルマガ ⽉月2回配信:オフィスで使えるアイテム特集 クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します © 2013 ALBERT Inc.
  • 50. 事例例:クリエイティブ最適化 バナー広告などで使われているクリエイティブ画像を、構成要素に分解します 重回帰分析を⽤用いて、実  CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ ごとの予測  CTR や、最適なクリエイティブの推定を実現します © 2013 ALBERT Inc.
  • 51. 機械学習の利用事例@産総研 広告データのコンバージョン率推定 [共同研究]   •  ユーザ属性群、広告属性群からなるセッションに対して最 CVR(Conversion  Rate)が良い広告をユーザに提示する   •  CVR  =  #CV  /  #CLICKS   •  CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実 際に商品が購入した)等のイベント   •  Terabytes以上の訓練データセット、月60-­‐100GB程度で増加中   •  1000クライアント以上の広告主   •  RDB→TSV形式にして定期的にデータをHDFSに投入   •  翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC で予測できている   •  1年以上前からのデータを訓練に利用   •  訓練事例の蓄積が不十分なカテゴリのAUCは低い   •  Hivemallにより32ノードで5-­‐10分程度で学習   •  最大1000程度のmapタスクが立ち上がる (#map  slotに応じた学習時間)   •  学習というよりも特徴エンジニアリングに一番時間を要する   •  複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成   •  Hive+UDFが最も有難く感じる瞬間   •  Columnar  (ORC)  フォーマットによる圧縮がよく効く   •  テラバイトデータの特徴エンジニアリング ((('A`)))   広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す ると500倍のストレージ要件
  • 52. 大規模データの特徴エンジニアリング(前処理) Hadoop/Hiveを利用したELT(Extract-­‐Load-­‐Transform)処理が特徴エンジニア   リングに有用   •  HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが   勝ちパターン(?)   •  結合処理はHiveで並列ハッシュ結合により行う   •  共同研究で行っているCVR推定では3つのview定義と3つの一時table、   数個のUDFを訓練例の作成に利用している   Label 1 2 3 練 例 Web   service 7 1 transform Hadoop /Hive 訓 9 -1 Logs B 1 Join A extract load OLTP   DBs 8 データソース   の結合処理 ユーザID等の質的変数を   二値素性に変換 Transform  script Label A:2 A:3 B:7 B:8 B:9 1 1 0 0 0 1 0 -1 KDDCup  2012のデータセット   A:1 0 1 0 0 0 1 1 0 0 1 1 0 0 •  特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要   •  大規模データになるとプログラミングするのは大変(外部マージソートが必須)   •  ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要   •  予め用意されている関数などでは不十分なことが多い  
  • 53. 運用上得られた課題(1)  –  学習アルゴリズム データ量が増えても難なく動作する学習アルゴリズム   •  学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,  確率的勾配降 下法(SGD))   •  SGDの学習率の自動設定手法はまだ研究段階   •  モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/ SCW)は収束は早いが…   •  データ量が増すと単純なPassive  Aggressiveに劣ることもある   •  急激な変化(concept  drip)への対処   •  訓練例とテストデータの乖離した場合にどうするか •  過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある   アベノミクスによる   レジームシフト   •  多用な切り口で学習モデルを作って   多椀バンディット等でモデルを選択する?   •  学習器への予測結果のLazyなフィード バック機構?   去年の10月ごろから金融業の広告の   コンバージョン率が跳ね上がる
  • 54. 運用上得られた課題(2)  – 学習フレームワーク •  リアルタイムの学習は実際に必要だけど…逐次学 習/ストリーム学習の設定は現実的(?)   •  データの入力順に学習モデルが左右される   •  ストリーム設定だと学習器への入力のshuffleができない   •  CW/AROWに最初に負の事例ばかり学習させたら..?   •  訓練例を複数回数(イテレーション)、順不同に学習器に与える必 要がある   •  CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い   バッチ学習と逐次学習のハイブリッドに向かうのではないか Hadoop cluster Postgres Training data OLTP transactions node Incremental learning ・・・ Prediction model Cloudera  Oryx node node DB-­‐Hadoop  Hybrid   machine  learning Batch learning
  • 55. FFRI,Inc. 57
  • 56. FFRI,Inc. 情報セキュリティ業界の現状 環境の変化 マルウェア・各種データの増加 ネットワークの高速化、etc. 古き良き時代 ブラックリスト ホワイトリスト データ増大 未知データ 「外部脅威」の出現  ハッカー、マルウェア、  脆弱性攻撃、etc. レピュテーション ヒューリスティッ ク サンドボックス 機械学習 58
  • 57. FFRI,Inc. (一例)マルウェアの急増 2006 2013 出典:http://www.av-test.org/en/statistics/malware/ 59
  • 58. FFRI,Inc. マルウェア検知(分類) •  近年のマルウェアの多くは亜種 or ツールによる 自動生成 → コード面、機能面での差分は比較的少ない •  正常ソフトとマルウェアを線形分離できないか? –  実行時に呼び出されたAPIのn-gramを特徴に利用 NtCreateFile_NtWriteFile_NtCloseHandle •  パラメーター次第だが、TPR:90%超、FPR:1∼5% → FPR:1%以上はNG(セキュリティ業界の悩み) 60
  • 59. FFRI,Inc. マルウェアクラスタリング •  モチベーション –  目的に沿った意味のあるデータを選択したい •  取り組み例 –  社内のマルウェアDBから1000件無作為抽出 –  APIのn-gramを特徴としてウォード法を適用 –  大きく3系統に分離 (部分的に手動検証) 61
  • 60. ©Gunosy  Inc.
  • 61. Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス   自己紹介   名前:  福島良典 年齢:25歳 役職:CEO   仕事:  社長業(意思決定とリクルーティング)  /  アドサーバーの開発 を半々くらい   今の興味  -­‐>  新しいアルゴリズムをどう試すかのテストに関して   機械学習の応用事例   ほぼ全てに   具体的には、推薦部分やアドに   (ex)   記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す   ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc   ©Gunosy  Inc.
  • 62. 64
  • 63. Preferred Infrastructure (PFI)   最先端の技術を最短路路で実⽤用化 l  l  l  東⼤大発ソフトウェア開発ベンチャー 創業:2006年年3⽉月 主な製品 l  Sedue: 検索索&レコメンドエンジン l  Bazil: 使いやすい機械学習解析サービス l  Jubatus: ⼤大規模オンライン分散機械学習 代表取締役 ⻄西川徹 情報検索索(IR) 分散システム ⾃自然⾔言語処理理 機械学習 65 取締役副社⻑⾧長 岡野原⼤大輔
  • 64. Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤 l  従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段 l  l  HadoopやCEP(Complex Event Processing)が中⼼心的役割 これからの⼤大規模データ解析:リアルタイム性や深い解析も重要 l  Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤 l  NTT SICと共同開発&オープンソース公開  → http://jubat.us/ 1. ⼤大規模化 2. リアルタイム/オンライン 3. 深い解析 l  分散オンライン化したアルゴリズムを実装済みの処理理機能 l  分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング 66
  • 65. Bazil: クラウドベース機械学習分析向けツール l  テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測 l  l  機械学習モデルによる予測の要因を⾒見見える化 l  l  扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用 「なぜその予測になったか?」を知ることでPDCAサイクルを加速 ブラウザから使えるASPサービスとしてクラウドで提供 l  インストール不不要でOSやマシンを選ばずに利利⽤用可能 テキスト ログ           数値 分析者 Web GUI 要因分析 精度度評価 クラウド
  • 66. Agenda l  機械学習セッション概要 l  パネリスト⾃自⼰己紹介 l  機械学習「超」⼊入⾨門 l  パネリスト活⽤用事例例紹介 l  後半に向けて
  • 67. セッション後半の流流れ l  前半振り返り l  機械学習導⼊入の展望:どこから導⼊入が進むのか   l  機械学習は精度度で⼈人間に勝てるのか   l  役⽴立立つケースとそうでないケースの違うは何か   l  それを⽀支える技術やツールとしては何が有望か   l  どのように導⼊入を進めていけば良良いのか   l  まとめ 69

×