Google Cloud Next ’18 Recap/報告会
機械学習関連
2018/8/1
渡部徹太郎
{"ID" :"fetaro"
"名前":"渡部 徹太郎"
"所属":["リクルート",
"リクルートライフスタイル",
"リクルートテクノロジーズ"]
"研究":"東京工業大学でデータベースと情報検索の研究
(@日本データベース学会)"
"仕事":{前職:["証券会社のオンライントレードシステムのWeb基盤",
"オープンソースなら何でも。主にMongoDB,NoSQL"],
現職:["リクルートの分析基盤,Exadata,BigQuery,EMR"]
副業:["コンサルタント", "非常勤講師" ]}
"エディタ":"emacs派",
"趣味": ["自宅サーバ","麻雀"]
}
自己紹介
リクルートでの仕事
• 複数のWebサイトからデータを収集し、リクルートIDで結合し、分析する基盤
アジェンダ
• 新発表の紹介
• セッション紹介「ocadoのリアルタイム詐欺検出」
新発表の全体像
問題 入力 出力 MLソリューション カスタムモデル
MLサービス
プラット
フォーム
教
師
あ
り
機
械
学
習
回帰
問題
数字の組 数字 BigQuery ML Cloud ML Engine,
Tensorflow,
Tensorflow
Lite
TPUv1,
TPUv2,
TPUv3,
Edge TPU
分類
問題
数字の組 ラベル BigQuery ML
画像 ラベル Vision API AutoML Vision
動画 ラベル Video Intelligence API
テキスト ラベル Natural Language API AutoML Natural
Language
音声
認識
発話音声 テキスト Speech API
翻訳 テキスト テキスト Translation API AutoML Translation
トータル Jobs API
Contact Center AI
GSuite でのAI活用
赤字:Google Cloud Next 18で発表
カスタマイズ性 高低
プラットフォーム
プラットフォーム(サーバサイド)
• Tensorflow
• 機械学習のフレームワーク
• プロセッサとの関係
• CPU:
• 汎用命令用
• Intel製, AMD製
• GPU:
• グラフィックスの計算につよいため、行列計
算が早い
• nVidia製
• TPU:
• Tensor Processing Unit
• google製
• Tensorflowの計算に特化
• eBayでは学習時間を数ヶ月から数日に
• 第2世代TPUは誰でも入手可能
• 第3世代クラウドTPUを発表
OS
Python
Tensorflow
H/W
CPU GPU TPU
機械学習アルゴリズム
プラットフォーム(IoT Edge)
• IoT特化のプラットフォーム
• Edge TPUの発表
• コインの1/4のサイズ
• 低消費電力 2W
• 高精細ビデオを30フレーム/秒で
処理できるとしている。
• Cloud IoT Edgeの発表
• Edge IoT Core
• ゲートウェイ
• デバイス接続
• Edge ML
• Tensorflow Liteベースのランタイム
• CPU,GPU,Edge TPU上で動作
https://www.youtube.com/watch?v=XiGBWpxc6Lc
Edge TPU
Edge TPU開発ボード
Edge TPUで画像認識しているデモ
Client
Cloud ML Engine (2017/3)
Tensorflowの
ソースコード
モデル
Cloud ML
学習
GCS
予測API
(オンライン)
デプロイ
Training環境
(CPU,GPU,分散GPU,TPU(Beta))データ
GCS
予測API
(バッチ)
モデルリソース
モデル
予測結果
GCS
1.学習
2.デプロイ
3.予測
3.予測
カスタムモデルMLサービス
AutoML Vision
Cloud AutoML Vision (2018/1 alpha→beta)
• 画像をGCSに格納し、画像とラベルのCSVを入力
• カスタムモデルを作ってくれて、予測APIを作ってくれる
• カスタムモデルは持ち出せない
• 値段
• 学習:計算時間1時間無料、以降は$20/毎時
• 予測:1000枚画像は無料、以降500万枚まで$3/1000枚
• 人間によるラベル付:評価者一人なら、$35/1000枚
Client
学習
API
GCS
予測
API
画像ファイル
画像のパスと
ラベル
CSV
カスタム
モデル
画像
Train
"tulips"
gs://cloud-ml-data/img/aaa.jpg , roses
gs://cloud-ml-data/img/bbb.jpg , sunflowers
gs://cloud-ml-data/img/ccc.jpg , tulips
入力例
AutoML
Natural
Language
Cloud AutoML Natural Language
• テキストとラベルを書いたCSVを入力
• 日本語は未対応
• 値段
• 学習:計算時間 2時間は無料で、以降$3 /毎時
• 予測:3万行まで無料で、以降500万行まで $5/1000行
Client
学習
API
GCS
予測
API
テキストとラ
ベル
CSV
カスタム
モデル
"I watched a
Blackhawks game
last night."
カテゴリ「leisure」
Train
I went shopping , leisure
I bought a new TV , achievement
I meditated last night. , leisure
入力例
AutoML
Natural
Language
Cloud AutoML Translation
• 2つの言語の文章をTMX/Mosesという形式で記載したファ
イルを入力
• スラングや専門用語の文章を覚えさせることにより
Googleの翻訳機能を強化
• 値段
• 学習: 2時間は無料で、以降$76/毎時
• 予測:50万文字は無料で、500万文字 まで$80/100万文字
Client
学習
API
GCS
予測
API
TMX/Moses
ファイル
カスタム
モデル
Train
"ほんまでっか"
入力例 TMX/Mosesファイル
"本当ですか"
BigQuery ML
• BigQueryのデータを動かさずに、そのまま機
械学習のモデル作成に使える
• 学習と予測の全てがSQLで記述できる
• できるアルゴリズム
• 線形回帰(数字を当てる)
• バイナリロジスティック回帰
(1つまたは2つのカテゴリに分類する)
• 料金
• モデルのデータサイズ
• モデル構築時にどれくらいのデータにアクセス
するか
BigQueryClient
予測
API
内部ストレージ
数値の
テーブル
学習
API学習用SQL
"CREATE MODEL ..."
予測用SQL
"ML.PREDICT..."
モデル
モデル
計算
予測結果
MLソリューション
Cloud Vision APIClient
Cloud ML APIs (2017/3)
画像 顔検出API
{x:100, y:300
w:60, h:70 }
• Googleが用意した
学習済みのモデルを
API経由で利用できる
• 以下のAPIがある
• Vision API 画像
• Speech API 音声
• NL API 自然言語
• Translation API 翻訳
• Video Intelligence API 動画
• Jobs API 職探し
例:Vision APIの顔検出API
Googleが
用意したモデル
Contact Center AI
• Human-centered AIというコンセプト
• ebay x GENESYSの事例を通して紹介
• ユーザからの電話をLive AIが対応
• Live AIが適切な担当者につなぐ
• Live AIとユーザの会話はテキストに書き起こ
されている
• 担当者とユーザの会話もテキストに書き起こ
され、文脈に応じて必要な情報がリアルタイ
ムにレコメンドされる
ここまで
Live AI
https://youtu.be/vJ9OaAqfxo4?t=5747
ここから
人間
G SuiteでのML活用
• Gmailにて文章を書いている間に補完
おまけ:ブースにあったMLソリューション
写真から損害の推定 リアルタイムに骨格の
動きを検知するデモ
セッション紹介
セッション: ocadoのリアルタイム詐欺検出
• ユースケース:機械学習の活用
• ピッキングの速度向上と正確性向
• 需要予測
• 商品の推薦
• リアルタイム詐欺検出
• 盗んだクレジットカードで注文。配達するが支払われない
• 数%の詐欺検出で、何万ドル損失を防げる
• 顧客IDと注文を入力すると、詐欺の確率を返却するAPIを開発
• なぜGCP?
• データサイエンスなので、インフラわわからない
• GCPならスケーリングとセットアップが不要だから
• 5年前から使っている
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
セッション: ocadoのリアルタイム詐欺検出
• 処理の流れ
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
Gather
data
Explore
data
Feature
engineering
Train
model
Serve
model
セッション: ocadoのリアルタイム詐欺検出
• Gather data
• Google Dataflow上にApache Beamを動かして、Kinesisにあるデータを処
理してBigQueryにロードする
• 全てのデータを取るのではなく、「ビジネスの変化」のデータを中心
に集めてくる
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
セッション : ocadoのリアルタイム詐欺検出
• Explore data
• BigQueryにデータを格納してデータを探索する
• 深い分析をしたい場合は
• Google Datalab (jupyterノートブック)で分析結果を共有
• Google Collaborator:Google DriveにJupyter bookファイルを置くことにより、みん
なでjupyterノートブックを同時編集できる
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
セッション : ocadoのリアルタイム詐欺検出
• Feature engineering
• 簡単な特徴であれば、BigQueryのSQL
• SQLで特徴を出すのが難しいケースはApache Beamを使う
• データの正規化(標準偏差、平均の計算)
• カテゴリの整数化
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
セッション: ocadoのリアルタイム詐欺検出
• Train Model
• 各アルゴリズムを予測精度、説明しやすさ、クラウドに展開しやすさ で整理
• クラウドへの展開しやすさを優先するため、説明しやすさは犠牲にする
• ルールベースは諦める
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
予
測
精
度
説明しやすさ
Cloud MLでサポート
Dockerコンテナを使う必要
あり
なんとかできる
諦める
セッション: ocadoのリアルタイム詐欺検出
• Serve model
引用元:https://www.youtube.com/watch?v=0fIRUYzmZ0o
Cloud MLのAPI
ユーザの過去の
行動履歴を低遅延応答
詐欺の確率
カスタマID
注文
バッチで過去の行動
履歴を挿入
直近の行動履歴
まとめ
まとめ
• 新発表の紹介
• プラットフォーム
• TPU v3, Edge TPU, Tensorflow Lite
• カスタムMLモデルサービス
• BigQueryML
• Cloud AutoML Vision beta
• Cloud AutoML Natural Language
• Cloud AutoML Translation
• MLソリューション
• Contact Center AI
• Gsuite でのAI活用
• セッション紹介「ocadoのリアルタイム詐欺検出」
• Cloud ML / BigQuery / Datflow/ Datastore

Google Cloud Next '18 Recap/報告会 機械学習関連