Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
1
JSAI 2018 パネルディスカッション
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
2
⾃⼰紹介
太⽥満久
- 株式会社ブレインパッド
- TensorFlow User Group
- 明⽇(6/9) TFUG Kagoshima
キックオフ!
- 機械⼯学研究会
- ⽇本ディープラーニング協会
データ
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
4
レコメンドシステムの例
例題として、以下のようなレコメンドシステムを考えます
ウェブアプリ
⾏動履歴
DB
モデル
ユーザー
学習
アクセス
レコメンドアイテム
ロギング
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
5
現場で起こりがちなこと 1
急にアクセス数が0になった! 調べてみると、障害が起こっていた…
アクセス数
時間
障害
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
6
現場で起こりがちなこと 1
急にアクセス数が0になった! 調べてみると、障害が起こっていた…
障害の期間をのぞいて学習させないと、モデルがおかしく
なってしまう…
▶ 「異常フラグ」をデータにもたせておけばよいのかな…
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
7
現場で起こりがちなこと 2
キャンペーンをうったら、特定の商品へのアクセスが突如増加した!
アクセス数
時間
キャンペーン
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
8
現場で起こりがちなこと 2
キャンペーンをうったら、特定の商品へのアクセスが突如増加した!
キャンペーン期間を学習データから除外しないと、モデルが
おかしくなってしまうぞ…
▶ 「キャンペーンフラグ」もデータにもたせておけば…
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
9
現場で起こりがちなこと 3
キャンペーンをうっていないのに、アクセスが突如増加した! 調べてみたら、
有名⼈がTweetしてた!
アクセス数
時間
Tweetの影響
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
10
現場で起こりがちなこと 3
キャンペーンをうっていないのに、アクセスが突如増加した! 調べてみたら、
有名⼈がTweetしてた!
この影響を学習に含めるべきだろうか?除外するべきだろ
うか?除外する場合は、具体的にどの期間のデータを除
外すればよいのだろうか。その期間は⼈が決めるべきだろ
うか?統計的な性質から決めることはできるだろうか?また、
データの異常をいかに監視したらよいのだろう?
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
11
現場で起こりがちなこと 4
Tweetの影響に気づかずにモデルを学習したら、モデルの挙動が変わっ
て、⼈の⾏動も変わってしまった!
アクセス数
時間
Tweetの影響
モデルの影響
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
12
現場で起こりがちなこと 4
Tweetの影響に気づかずにモデルを学習したら、モデルの挙動が変わっ
て、⼈の⾏動も変わってしまった!
この期間のデータは学習に使ってよいのだろうか? だめだと
したらどれくらいデータを除外すべきなのだろうか? こういっ
た情報をどう管理したら良いのだろう?データと、そのデータ
に影響を与えたモデルのペアを管理すれば⼗分だろうか?
Analytics Innovation Company
©BrainPad Inc.
Strictly Confidential
13
データの管理どうしましょう?
• 普通のシステムは「コード」で挙動を定義します。機械学
習システムは「データ」によって挙動を定義します。なので
コードに加えてデータの管理もとても重要な課題です。
• 「コード」と違い、「データ」はシステムの開発時だけでなく、
運⽤時にも時々刻々と変わっていきます。
• データがシステムの挙動を決定し、システム(モデルの出
⼒)がデータに影響を及ぼすフィードバックループが存在し
ます。
• 機械学習システムにおける「データ管理」、どうしましょう?

Jsai2018

  • 1.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 1 JSAI 2018 パネルディスカッション
  • 2.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 2 ⾃⼰紹介 太⽥満久 - 株式会社ブレインパッド - TensorFlow User Group - 明⽇(6/9) TFUG Kagoshima キックオフ! - 機械⼯学研究会 - ⽇本ディープラーニング協会
  • 3.
  • 4.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 4 レコメンドシステムの例 例題として、以下のようなレコメンドシステムを考えます ウェブアプリ ⾏動履歴 DB モデル ユーザー 学習 アクセス レコメンドアイテム ロギング
  • 5.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 5 現場で起こりがちなこと 1 急にアクセス数が0になった! 調べてみると、障害が起こっていた… アクセス数 時間 障害
  • 6.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 6 現場で起こりがちなこと 1 急にアクセス数が0になった! 調べてみると、障害が起こっていた… 障害の期間をのぞいて学習させないと、モデルがおかしく なってしまう… ▶ 「異常フラグ」をデータにもたせておけばよいのかな…
  • 7.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 7 現場で起こりがちなこと 2 キャンペーンをうったら、特定の商品へのアクセスが突如増加した! アクセス数 時間 キャンペーン
  • 8.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 8 現場で起こりがちなこと 2 キャンペーンをうったら、特定の商品へのアクセスが突如増加した! キャンペーン期間を学習データから除外しないと、モデルが おかしくなってしまうぞ… ▶ 「キャンペーンフラグ」もデータにもたせておけば…
  • 9.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 9 現場で起こりがちなこと 3 キャンペーンをうっていないのに、アクセスが突如増加した! 調べてみたら、 有名⼈がTweetしてた! アクセス数 時間 Tweetの影響
  • 10.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 10 現場で起こりがちなこと 3 キャンペーンをうっていないのに、アクセスが突如増加した! 調べてみたら、 有名⼈がTweetしてた! この影響を学習に含めるべきだろうか?除外するべきだろ うか?除外する場合は、具体的にどの期間のデータを除 外すればよいのだろうか。その期間は⼈が決めるべきだろ うか?統計的な性質から決めることはできるだろうか?また、 データの異常をいかに監視したらよいのだろう?
  • 11.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 11 現場で起こりがちなこと 4 Tweetの影響に気づかずにモデルを学習したら、モデルの挙動が変わっ て、⼈の⾏動も変わってしまった! アクセス数 時間 Tweetの影響 モデルの影響
  • 12.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 12 現場で起こりがちなこと 4 Tweetの影響に気づかずにモデルを学習したら、モデルの挙動が変わっ て、⼈の⾏動も変わってしまった! この期間のデータは学習に使ってよいのだろうか? だめだと したらどれくらいデータを除外すべきなのだろうか? こういっ た情報をどう管理したら良いのだろう?データと、そのデータ に影響を与えたモデルのペアを管理すれば⼗分だろうか?
  • 13.
    Analytics Innovation Company ©BrainPadInc. Strictly Confidential 13 データの管理どうしましょう? • 普通のシステムは「コード」で挙動を定義します。機械学 習システムは「データ」によって挙動を定義します。なので コードに加えてデータの管理もとても重要な課題です。 • 「コード」と違い、「データ」はシステムの開発時だけでなく、 運⽤時にも時々刻々と変わっていきます。 • データがシステムの挙動を決定し、システム(モデルの出 ⼒)がデータに影響を及ぼすフィードバックループが存在し ます。 • 機械学習システムにおける「データ管理」、どうしましょう?