SlideShare a Scribd company logo
1 of 69
Download to read offline
機械学習CROSS
ー前編ー
エンジニアサポートCROSS
2013/01/17
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
機械学習CROSSの⽬目的、の前に…

NGワード
データサイエンティスト

3
なんで?
l 

もう、いいよね
l 
l 

l 

昨年年のデータサイエンティストCROSSの素晴らしさ
飽和したデータサイエンティスト論論

「まずは、ヒトと組織でしょう」
l 
l 

それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事

l 

l 

データサイエンティストに必要なスキルやリテラシー
最終的にデータ活⽤用するための組織と意思決定プロセスがあるか

「分析技術の話は、そのあとでしょう」
l 
l 

それを意思決定にどう役⽴立立てられるかが最優先課題

l 

l 

仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩
分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪

→

「だから、機械学習とかまだいいでしょう」
4
本当に?
l 
l 
l 

NIPS2013:機械学習で最⾼高峰の国際学会
今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft
FacebookはCEOマーク・ザッカーバーグまで来場

5
2013年年:機械学習、特に
ディープラーニングを巡る動き

6
機械学習は(Web業界でも)さらに応⽤用が広がる!
l 
l 
l 
l 

データ活⽤用の技術/組織インフラはどんどん整っていく
そこが各社横並びになった世界で差別化になるものは何か?
伝説のデータサイエンティスト?
それとも⾼高度度に進化した機械学習アルゴリズム?

7	
今のうちに押さえましょう!
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
⾃自⼰己紹介
l 
l 
l 
l 

⽐比⼾戸将平(HIDO Shohei)
Twitter: @sla
専⾨門:データマイニング、機械学習
経歴:
l 

2002: IPA未踏ユース第⼀一期

l 

2006: 京都⼤大学情報学研究科修⼠士修了了

l 
l 

2006-2012: IBM東京基礎研究所データ解析グループ
2012-: 株式会社プリファードインフラストラクチャー
l 

l 

Jubatusチーム共同リーダー

2013-: PFIアメリカ取締役 & Chief Research Officer

9
Yahoo!JAPAN研究所

田島  玲(あきら)

研究員・コンサルタントと動きつつ、データをいかに現
場で実際に役立てていくか、をテーマとしてます
現在は、研究所としてヤフーの様々なサービスでの
データ活用を部門横断で支援中
2011年-  
ヤフー(株)。膨大なデータの利活用をミッションとしている
2012年7月より  Yahoo!  JAPAN研究所  所長
2005年-2010年
日本アイ・ビー・エム(株)東京基礎研究所  数理科学チームのリード
2002-2005年
  A.T.カーニー(戦略系コンサルティングファーム)  コンサルタント
1992-2002年
日本アイ・ビー・エム(株)東京基礎研究所  研究員
2000年3月  東京大学大学院理学系研究科情報科学専攻  
博士(理学)

P10
平手 勇宇(ひらて ゆう)	
•  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
•  専門分野:データマイニング,Webマイニング

50以上の様々なサービスを提供	

11
平手 勇宇(ひらて ゆう)	
•  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
•  専門分野:データマイニング,Webマイニング

海外展開を推進	

12
株式会社  ALBERT - ⼩小宮  篤史

@komiya_atsushi
分析⼒力力をコアとする
マーケティングソリューションカンパニー

エンジニア(Web / AWS / 機械学習)
サービス・ソリューションの開発と運⽤用
FFRI,Inc.

村上純一 (@junichi_m)
•  株式会社FFRI
–  執行役員 事業推進本部長(兼新技開発部長)

•  専門領域
–  マルウェア解析、脆弱性分析、セキュリティ脅威分析

•  機械学習は2013年4月から
–  マルウェア検知(分類)・クラスタリング等

14
自己紹介 –  油井誠 @myui	
•  奈良先端科学技術大学院大学(NAIST) 情報科学研究科	
  
博士課程修了、博士(工学) 2009年3月	
  
•  産業技術総合研究所 情報技術研究部門 研究員	
  
2010月4月~現在	
  
•  専門はデータ工学、データベース学	
  

大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data	
  Geek)	
  
•  XMLデータベースの研究開発	
  
•  Many-­‐core(64コア)プロセッサを利用したノンブロッキング(Lock-­‐free)アルゴリズ
ムの研究開発	
  
•  データベースの並列処理の研究開発	
  
•  オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構
を開発	
  
•  大規模機械学習の研究開発	
  
•  Apache	
  Hive上で動くオープンソース機械学習ライブラリを開発	
  
hFps://github.com/myui/hivemall	
  
•  企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、
テラバイト級のデータの機械学習にHivemallを利用	
  

•  平成14年度 IPA未踏ユーススーパークリエイタ	
  
•  未踏ユースの第一期生で比戸さん(PFI)と同期	
  
Gunosy紹介	
Gunosyとは	
ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事
を推薦するサービス	
  
自己紹介	
  
名前:	
  福島良典 年齢:25歳 役職:CEO	
  
仕事:	
  社長業(意思決定とリクルーティング)	
  /	
  アドサーバーの開発 を半々くらい	
  
今の興味	
  -­‐>	
  新しいアルゴリズムをどう試すかのテストに関して	
  

機械学習の応用事例	
  
ほぼ全てに	
  
具体的には、推薦部分やアドに	
  
(ex)	
  
記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す	
  
ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する
かetc	
  
©Gunosy	
  Inc.
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
機械学習ってぶっちゃけ何?

問1. 機械学習の説明で最も適切切なものを選んでください。

a) ⼈人間のような知能をもったロボッ
トを実現するための計算機システム

c) どんな未来も100%予測可能な
ルールベースシステム及び
その構築⼿手法

b) 与えられたデータから傾向や法則
を導き予測や分析に活⽤用できる
アルゴリズム群

d) 質問⽂文を⼊入⼒力力すると求める回答が
瞬時に得られる質問応答を
可能にする技術
18
機械学習とは
l 

経験(データ)によって賢くなるアルゴリズムの集合
l 
l 
l 

l 

データから知識識・ルールを⾃自動獲得する
データの適切切な表現⽅方法も獲得する
⼈人⼯工知能の中で、⼈人が知識識やルールを
明⽰示的に与える⽅方法の限界から⽣生まれてきた
タスクはいろいろある

学習データ
19

分類モデル
機械学習タスク1:レコメンド
l 

ヒト x アイテムの関係の中でオススメを探す
l 
l 

l 

ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム
アイテム←アイテム:似たヒト集団が⾒見見たアイテム

Web業界でのアプリケーション
l 

l 

各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示
l  例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド
各商品(記事)に関連する商品(記事)を表⽰示
l  例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド

ヒト←アイテム
ヒトの閲覧ログ
推薦アイテム

アイテム←アイテム
現在のアイテム
関連アイテム
20
機械学習タスク2:クラス分類
l 

⼊入⼒力力データxに対するクラスyを予測するモデルを構築
l 
l 

l 

Web業界でのアプリケーション
l 
l 

l 

訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入
予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算

スパムメール分類:x=メール本⽂文、y={普通, スパム}
不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正}

yが連続値なら回帰になる、クラスタリングとは異異なる
予測

訓練
データx

データx

正解y

予測y’

21	
21
機械学習タスク3:異異常検知
l 

⼤大多数のデータとは異異なる性質を持ったものを検出
l 
l 

l 

訓練時:正常時の挙動についてモデル化
予測時:現在の挙動に対して異異常スコアを計算

Web業界でのアプリケーション
l 

l 

サーバー故障予兆検知
l  クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い
不不正アクセス・ネットワーク攻撃検知
l  ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知
予測

訓練

直近ログx

正常時ログx
22	

異異常スコアy’
22
様々な分野に適⽤用可能
l 
l 
l 

データから有⽤用な規則、ルール、知識識、判断基準を抽出
データがあるところならば、どこでも使える
様々な分野の問題に利利⽤用可能
Web業界での適用分野	

レコメン
デーション

分類、識識別

ユーザー
⾏行行動予測

ユーザー
属性推定

情報抽出

評判分析

⾃自動応答

負荷予測

画像認識識

検索索ランク

攻撃検知

故障診断

23
あれ、けど機械学習じゃなくてもできるんじゃ?
たとえば⼈人⼿手とかルールとか
l 
l 
l 

はい、そうです、タスク⾃自体抽象化してるので
極端に⾔言えば機械学習にしかできないタスクは無い
⼈人⼿手と⽐比べたメリット
l 
l 
l 

l 

ルールに⽐比べたメリット
l 
l 
l 
l 

l 

⼤大規模データ・⾼高次元データ・可視化できないデータが扱える
応答速度度が早い
作業コストが低い
変化する状況への対応が得意
更更新やチューニングが容易易
複雑な条件を扱うのが得意
(⼀一般に)精度度が⾼高い

これらが決定的な差別化になる勝負を選ぶ必要性はある
24
タスク毎のざっくりとした短所・⻑⾧長所
  
  

⼈人⼿手
⻑⾧長所

ルールベース
短所

⻑⾧長所

短所

機械学習
⻑⾧長所

短所

どんなユーザー
経験と勘を 数多く存在す 履履歴に基づいて チューニン
レコ
システム化で
がどういうもの
抽象化して るマイナーな マイナーなケー グが悪いと
メン
きずスケール
を好むか、経験
スケールさ ケースに対応 スも対応できる、
意味不不明な
ド
しない
と勘を活かせる
せられる できない
スケールする 結果が出る
⽂文章分類は読め 全て⼈人間がや
クラ
ば分かる(主⼈人 るのはコスト
ス分
がオオアリクイ が掛かり過ぎ
類
に…=スパム) る

正解付き
⼈人間の感覚 例例外ケースが 正解付きデータ
データ集め
を単純化し 無数に存在す を集められれば
は⼈人⼿手や
てスケール ると精度度が上 精度度の⾼高い予測
ルールに依
させられる がらない
が可能
存する

数万種類の計
閾値を超え
測値を24時間
複雑な異異常、
検知はでき
たらアラー
おおよその異異常
複雑・未知な異異
365⽇日モニター
未知の異異常を
ても原因が
異異常
ト、などは
は何らかの計測
常も捉えられる
を監視するわ
ルール化する
解釈不不能な
検知
⾃自動化でき
値に現れている
可能性がある
けにもいかな
のは困難
場合がある
る
い
25
「機械にやらせるなら、ルールを書けばいいんじゃ
ないの?」
「ゴルフ」 à スポーツ
「インテル」 à コンピュータ
「選挙」  à 政治

l 
l 

俗にルールベースと呼ばれる⽅方法
最初は精度度が悪いが頑張れば意外とどこまでも良良くなる

26
ルールに基づく判断の限界

「ゴルフ」and「VW」  à  ⾞車車
「インテル」and「⻑⾧長友」 à サッカー
「選挙」and「AKB」 à 芸能
l 

⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる
l 
l 
l 

l 

1万⾏行行のperlスクリプト
どこを変えたらいいかわからない
条件を追加したら何が起こるか・・・

複雑化したルールは引き継げなくなる
27
機械学習が失敗するパターン
l 

できない精度度を求める
l 
l 

l 

⼈人にとって簡単なタスクをやろうとする
l 
l 

l 

サイコロの次の⽬目を当てることはできない
同じように、精度度の限界がある

少ない情報から推論論するのは⼈人間が得意
逆に⼤大量量の情報から判断する必要がある時は機械が得意

ボトルネックが別にある
l 
l 

アクションを取るのが⼈人だったり、⼈人が途中に介在する
量量と速度度のメリットをいかに活かすか
28
機械学習をどう実装・システム導⼊入するか

専⽤用スクリプト⾔言語/ツール
R, Weka, Matlab, SPSS

汎⽤用⾔言語⽤用ライブラリ
SciPy, Shogun

クラウドベース機械学習ツール
bigML, Bazil

ビッグデータ向けプラットホーム
Mahout, Jubatus, Oryx, hivemall

29
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
P31
事例:コンテンツ連動型広告(YDN)

P32
パフォーマンス制約を満たすため、2段階の
構成が一般的です
課題
• 膨大なユーザー数、リクエスト数
• 様々なコンテンツ、広告
• レイテンシー制約
• 引き当てロジックの複雑化

  ページリクエスト
  ユーザー情報

広告DB	
  

マッチング(情報検索アプローチ)	

Query

転置	
  
インデックス	
  

リランキング(機械学習アプローチ)	

Short
List
Long
List

機械学習	
  
モデル	
  

Short
List

P33
CTR(Click-Through-Rate)を予測
→  分類ではなく、回帰です

P34

•  4本の候補から2本を選んで配信する場合の例
•  入札額×CTR=期待収益
広告	

入札額	

CTR	

期待収益	

A	

20	

0.25	

5.0	

B	

15	

0.20	

3.0	

C	

30	

0.15	

4.5	

D	

100	

0.01	

1.0	

期待収益の高いAとCを
配信すれば良さそう!
素性と予測モデル

P35

ユーザーと広告の
類似度

広告自身の
情報

ユーザー
広告

ページ
(環境)

ページと広告の
過去の
関連度
配信実績情報

ページp、ユーザーu、広告aが
与えられた時のCTR

データから学習される
モデルのパラメータ

素性ベクトル
(参考)学会発表もしてます

hFp://dl.acm.org/cita]on.cfm?id=2501978

P36
37
商品情報整備のための機械学習の活用	

1億	

膨大な数の商品数	

多くが非構造データ	

1.  商品情報に特化した形態素解析器の構築
2.  商品情報の構造化
3.  よい画像の自動選択	
38
1.商品情報に特化した形態素解析器の構築	
サードパーティ製
解析器
シャ ンパンドゥヴィノージュ	
(未知語)	

うっ とろ りん と する

)

by RIT	

シャンパン | ドゥ

| ヴィノージュ	
うっとろりん | と | する	

検索	

(新語)	

蕾丝百搭吊带背心
(中国語)	

蕾丝 | 百搭
| 吊带 | 背心
楽天商品データに対する
単語分割精度	
情報抽出
テキストマイニング
etc.

39
2.商品データの構造化	
•  構造化されていないテキストから商品情報を自動抽
出するシステムの開発
テキスト
(非構造化データ)	

構造化データ	
属性	

属性値	

色	

赤	

生産地	

イタリア,
トスカーナ	

ブドウ品種	
 メルロー,
カベルネソービニヨン,
プティヴェルド,
カベルネブラン
年代	

2010	

容量	

750ml	
40
2.商品データの構造化	
1.  HTMLのテーブルを参照し,属性値DBを生成
2.  属性値DBを利用して,属性値抽出ルールを自動生成

(2)	

Table data	

Generation	
Chateau d’Issan
1994

Database	
:
<Region, Margaux>
<Color, White>
:	

This is a
wine from
Margaux.
...

Annotation	

Rule
wine from x
=> x is a Region	

This is a wine from
Lafite Rothschild
New Region!	

(1)	
41
3.よい商品画像の選択	
•  店舗様がアップロードした画像セットから,
商品カタログへの掲載に適切な画像を選択

店舗様名が含まれている画像	

「準備中」の画像	
42
3.よい商品画像の選択	
•  テキストが含まれている領域か否かを判定

送料無料  
text

non-text

Classify text/non-text

43
About ALBERT

分析⼒力力をコアとする
マーケティングソリューションカンパニー

※エンジニアなど募集中です!  http://bit.ly/alb_recruit
© 2013 ALBERT Inc.
引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
Display	
  Adver:sing

Data	
  Management	
  PlaAorm

CRM&Marke:ng	
  Automa:on

引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
マーケティング分野における機械学習の活⽤用状況

•  機械学習の活⽤用・⼆二つの観点

–  マーケティング・オートメーションを実現する⼿手段としての
「機械学習」
–  オーディエンスデータ・蓄積データをアドホックに分析する
⼿手段としての「機械学習」

•  主な活⽤用シーン(例例)
–  レコメンデーション

•  アソシエーション・ルール・マイニング
•  協調フィルタリング

–  顧客のクラスタリング/分類

•  ⾮非階層クラスタリング(k-means)
•  クラス分類(k-近傍探索索)

–  クリエイティブ最適化
•  重回帰分析
ALBERT のマーケティングソリューション

© 2013 ALBERT Inc.
事例例:顧客のクラスタリング/分類
購買ログやアクセス履履歴を元に、顧客をクラスタリングします
ファッションは⼩小物重視派
ファッション⼩小物、雑貨などを中⼼心に購⼊入

オフィスカジュアル派
主に仕事⽤用の服としてサイトを活⽤用。
ビジネス向けアイテムを中⼼心に購⼊入

⽉月1回配信:ファッション⼩小物特集メルマガ

⽉月2回配信:オフィスで使えるアイテム特集

クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します
© 2013 ALBERT Inc.
事例例:クリエイティブ最適化
バナー広告などで使われているクリエイティブ画像を、構成要素に分解します

重回帰分析を⽤用いて、実  CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ
ごとの予測  CTR や、最適なクリエイティブの推定を実現します

© 2013 ALBERT Inc.
機械学習の利用事例@産総研	
広告データのコンバージョン率推定 [共同研究]	
  

•  ユーザ属性群、広告属性群からなるセッションに対して最
CVR(Conversion	
  Rate)が良い広告をユーザに提示する	
  

•  CVR	
  =	
  #CV	
  /	
  #CLICKS	
  
•  CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実
際に商品が購入した)等のイベント	
  

•  Terabytes以上の訓練データセット、月60-­‐100GB程度で増加中	
  
•  1000クライアント以上の広告主	
  
•  RDB→TSV形式にして定期的にデータをHDFSに投入	
  

•  翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC
で予測できている	
  
•  1年以上前からのデータを訓練に利用	
  
•  訓練事例の蓄積が不十分なカテゴリのAUCは低い	
  

•  Hivemallにより32ノードで5-­‐10分程度で学習	
  

•  最大1000程度のmapタスクが立ち上がる (#map	
  slotに応じた学習時間)	
  
•  学習というよりも特徴エンジニアリングに一番時間を要する	
  
•  複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成	
  
•  Hive+UDFが最も有難く感じる瞬間	
  
•  Columnar	
  (ORC)	
  フォーマットによる圧縮がよく効く	
  
•  テラバイトデータの特徴エンジニアリング ((('A`)))	
  

広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す
ると500倍のストレージ要件
大規模データの特徴エンジニアリング(前処理)	
Hadoop/Hiveを利用したELT(Extract-­‐Load-­‐Transform)処理が特徴エンジニア	
  
リングに有用	
  
•  HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが	
  
勝ちパターン(?)	
  
•  結合処理はHiveで並列ハッシュ結合により行う	
  
•  共同研究で行っているCVR推定では3つのview定義と3つの一時table、	
  
数個のUDFを訓練例の作成に利用している	
  
Label

1
2
3

練
例	

Web	
  
service	

7

1

transform	
Hadoop
/Hive	
 訓

9

-1

Logs	

B

1

Join	

A

extract	
load	

OLTP	
  
DBs	

8

データソース	
  
の結合処理	

ユーザID等の質的変数を	
  
二値素性に変換	

Transform	
  script	
Label

A:2

A:3

B:7

B:8

B:9

1

1

0

0

0

1

0

-1

KDDCup	
  2012のデータセット	
  

A:1

0

1

0

0

0

1

1

0

0

1

1

0

0

•  特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要	
  
• 

大規模データになるとプログラミングするのは大変(外部マージソートが必須)	
  

•  ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要	
  
• 

予め用意されている関数などでは不十分なことが多い	
  
運用上得られた課題(1)  –  学習アルゴリズム	
データ量が増えても難なく動作する学習アルゴリズム	
  
•  学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,	
  確率的勾配降
下法(SGD))	
  
•  SGDの学習率の自動設定手法はまだ研究段階	
  

•  モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/
SCW)は収束は早いが…	
  
•  データ量が増すと単純なPassive	
  Aggressiveに劣ることもある	
  

•  急激な変化(concept	
  drip)への対処	
  
•  訓練例とテストデータの乖離した場合にどうするか	
•  過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある	
  

アベノミクスによる	
  
レジームシフト	
  

•  多用な切り口で学習モデルを作って	
  
多椀バンディット等でモデルを選択する?	
  
•  学習器への予測結果のLazyなフィード
バック機構?	
  

去年の10月ごろから金融業の広告の	
  
コンバージョン率が跳ね上がる
運用上得られた課題(2)  – 学習フレームワーク	
•  リアルタイムの学習は実際に必要だけど…逐次学
習/ストリーム学習の設定は現実的(?)	
  
•  データの入力順に学習モデルが左右される	
  
•  ストリーム設定だと学習器への入力のshuffleができない	
  
•  CW/AROWに最初に負の事例ばかり学習させたら..?	
  

•  訓練例を複数回数(イテレーション)、順不同に学習器に与える必
要がある	
  
•  CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い	
  

バッチ学習と逐次学習のハイブリッドに向かうのではないか	
Hadoop cluster	

Postgres	

Training data	

OLTP
transactions	

node	

Incremental
learning	

・・・	

Prediction model	

Cloudera	
  Oryx	

node	

node	

DB-­‐Hadoop	
  Hybrid	
  
machine	
  learning	

Batch
learning
FFRI,Inc.

57
FFRI,Inc.

情報セキュリティ業界の現状
環境の変化
マルウェア・各種データの増加
ネットワークの高速化、etc.

古き良き時代

ブラックリスト

ホワイトリスト

データ増大
未知データ

「外部脅威」の出現
 ハッカー、マルウェア、
 脆弱性攻撃、etc.

レピュテーション
ヒューリスティッ
ク
サンドボックス
機械学習

58
FFRI,Inc.

(一例)マルウェアの急増

2006	

2013	

出典:http://www.av-test.org/en/statistics/malware/	

59
FFRI,Inc.

マルウェア検知(分類)
•  近年のマルウェアの多くは亜種 or ツールによる
自動生成
→ コード面、機能面での差分は比較的少ない

•  正常ソフトとマルウェアを線形分離できないか?
–  実行時に呼び出されたAPIのn-gramを特徴に利用
NtCreateFile_NtWriteFile_NtCloseHandle	

•  パラメーター次第だが、TPR:90%超、FPR:1∼5%
→ FPR:1%以上はNG(セキュリティ業界の悩み)
60
FFRI,Inc.

マルウェアクラスタリング
•  モチベーション
–  目的に沿った意味のあるデータを選択したい

•  取り組み例
–  社内のマルウェアDBから1000件無作為抽出
–  APIのn-gramを特徴としてウォード法を適用
–  大きく3系統に分離
(部分的に手動検証)

61
©Gunosy	
  Inc.
Gunosy紹介	
Gunosyとは	
ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事
を推薦するサービス	
  
自己紹介	
  
名前:	
  福島良典 年齢:25歳 役職:CEO	
  
仕事:	
  社長業(意思決定とリクルーティング)	
  /	
  アドサーバーの開発 を半々くらい	
  
今の興味	
  -­‐>	
  新しいアルゴリズムをどう試すかのテストに関して	
  

機械学習の応用事例	
  
ほぼ全てに	
  
具体的には、推薦部分やアドに	
  
(ex)	
  
記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す	
  
ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する
かetc	
  
©Gunosy	
  Inc.
64
Preferred Infrastructure (PFI)
  最先端の技術を最短路路で実⽤用化
l 
l 
l 

東⼤大発ソフトウェア開発ベンチャー
創業:2006年年3⽉月
主な製品
l 

Sedue: 検索索&レコメンドエンジン

l 

Bazil: 使いやすい機械学習解析サービス

l 

Jubatus: ⼤大規模オンライン分散機械学習

代表取締役
⻄西川徹

情報検索索(IR)

分散システム

⾃自然⾔言語処理理

機械学習

65

取締役副社⻑⾧長
岡野原⼤大輔
Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤
l 

従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段
l 

l 

HadoopやCEP(Complex Event Processing)が中⼼心的役割

これからの⼤大規模データ解析:リアルタイム性や深い解析も重要
l 

Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤

l 

NTT SICと共同開発&オープンソース公開  → http://jubat.us/

1. ⼤大規模化
2. リアルタイム/オンライン
3. 深い解析
l 

分散オンライン化したアルゴリズムを実装済みの処理理機能
l 

分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング
66
Bazil: クラウドベース機械学習分析向けツール
l 

テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測
l 

l 

機械学習モデルによる予測の要因を⾒見見える化
l 

l 

扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用
「なぜその予測になったか?」を知ることでPDCAサイクルを加速

ブラウザから使えるASPサービスとしてクラウドで提供
l 

インストール不不要でOSやマシンを選ばずに利利⽤用可能

テキスト

ログ          

数値

分析者

Web GUI
要因分析

精度度評価

クラウド
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
セッション後半の流流れ
l 

前半振り返り

l 

機械学習導⼊入の展望:どこから導⼊入が進むのか  

l 

機械学習は精度度で⼈人間に勝てるのか  

l 

役⽴立立つケースとそうでないケースの違うは何か  

l 

それを⽀支える技術やツールとしては何が有望か  

l 

どのように導⼊入を進めていけば良良いのか  

l 

まとめ
69

More Related Content

What's hot

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~Hisao Soyama
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Shohei Hido
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方Shohei Hido
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた卓也 安東
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2Hidehisa Arai
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Hisao Soyama
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴Yuya Unno
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTYuya Unno
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティストShohei Hido
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmYuya Unno
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 

What's hot (20)

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
機械学習
機械学習機械学習
機械学習
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCT
 
rcast_20140411
rcast_20140411rcast_20140411
rcast_20140411
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティスト
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 

Viewers also liked

機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFAShohei Hido
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントShohei Hido
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話Ryota Kamoshida
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Shohei Hido
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoShohei Hido
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料Shohei Hido
 
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?Shohei Hido
 
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事プロダクトマネージャのお仕事
プロダクトマネージャのお仕事Shohei Hido
 
Chainer GTC 2016
Chainer GTC 2016Chainer GTC 2016
Chainer GTC 2016Shohei Hido
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料Shohei Hido
 
素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみたToru Imai
 
How AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industriesHow AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industriesShohei Hido
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」Shohei Hido
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門toilet_lunch
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレストTeppei Baba
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33horihorio
 

Viewers also liked (20)

機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料
 
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
 
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
 
Chainer GTC 2016
Chainer GTC 2016Chainer GTC 2016
Chainer GTC 2016
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた
 
How AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industriesHow AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industries
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
決定木学習
決定木学習決定木学習
決定木学習
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 

Similar to 機械学習CROSS 前半資料

確率統計-機械学習その前に
確率統計-機械学習その前に確率統計-機械学習その前に
確率統計-機械学習その前にHidekatsu Izuno
 
深層学習よもやま話
深層学習よもやま話深層学習よもやま話
深層学習よもやま話Hiroshi Maruyama
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysistetsuro ito
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」Masaru Nagaku
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理Koichi Hamada
 
FastAPIを使って 機械学習モデルをapi化してみた
FastAPIを使って 機械学習モデルをapi化してみたFastAPIを使って 機械学習モデルをapi化してみた
FastAPIを使って 機械学習モデルをapi化してみたSho Tanaka
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用__john_smith__
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作りHajime Fujita
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料The Japan DataScientist Society
 
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方Shunsuke Nakamura
 
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~aslead
 
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
NeurIPS2021読み会 Fairness in Ranking under UncertaintyNeurIPS2021読み会 Fairness in Ranking under Uncertainty
NeurIPS2021読み会 Fairness in Ranking under UncertaintyTatsuya Shirakawa
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 

Similar to 機械学習CROSS 前半資料 (20)

mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
確率統計-機械学習その前に
確率統計-機械学習その前に確率統計-機械学習その前に
確率統計-機械学習その前に
 
深層学習よもやま話
深層学習よもやま話深層学習よもやま話
深層学習よもやま話
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
 
FastAPIを使って 機械学習モデルをapi化してみた
FastAPIを使って 機械学習モデルをapi化してみたFastAPIを使って 機械学習モデルをapi化してみた
FastAPIを使って 機械学習モデルをapi化してみた
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
 
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
 
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
NeurIPS2021読み会 Fairness in Ranking under UncertaintyNeurIPS2021読み会 Fairness in Ranking under Uncertainty
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
mi-4. 機械学習
mi-4. 機械学習mi-4. 機械学習
mi-4. 機械学習
 

More from Shohei Hido

CuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPUCuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPUShohei Hido
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"Shohei Hido
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッションShohei Hido
 
111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandasShohei Hido
 
111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_pythonShohei Hido
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_distShohei Hido
 
110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果Shohei Hido
 

More from Shohei Hido (10)

CuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPUCuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPU
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
NIPS2017概要
NIPS2017概要NIPS2017概要
NIPS2017概要
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_additionaldemo_pandas
 
111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python111015 tokyo scipy2_discussionquestionaire_i_python
111015 tokyo scipy2_discussionquestionaire_i_python
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist
 
110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果110901 tokyo scipy1_アンケート結果
110901 tokyo scipy1_アンケート結果
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

機械学習CROSS 前半資料