SlideShare a Scribd company logo
1 of 43
中川 裕太
@僕らの遊び場ABEJA
リピーター分析における特徴量DBって
研究課題満載でホントおもしろい!
中川 裕太
Research Engineer @ ABEJA
Agenda
特徴量DBの課題
課題に対するアプローチ
次なる研究テーマ
特徴量DBの課題
課題に対するアプローチ
次なる研究テーマ
そもそも、特徴量DBとは?
分析のワークフロー
分析のワークフロー
これ
特徴量DB の課題
検索/更新の速度 変更の容易性 トランザクションの競合
特徴量DB の課題
検索/更新の速度 変更の容易性 トランザクションの競合
導入後、約8か月間の負荷グラフ
シーズナルな巨大負荷にも耐える必要がある
GW
お盆
特徴量DB の課題
検索/更新の速度 変更の容易性 トランザクションの競合
もともとはモノリスで特徴量DBを実装
data
logic
Feature DB Feature Cache
アルゴリズムを変更してデプロイすると
再起動に1日かかるorz
特徴量DB の課題
検索/更新の速度 変更の容易性 トランザクションの競合
特徴量DBに並列で複数モデルからリクエストが来る
Feature DB
Other Models Other Models Other Models Other Models
サービスが成長してきて
並列数が増えると
write の多いリピータの設定では
データの不整合が発生し得る
Feature DB
Other Models Other Models Other Models Other Models
writeread
特徴量DBの課題
課題に対するアプローチ
次なる研究テーマ
特徴量DB の課題
検索/更新の速度 変更の容易性 トランザクションの競合
課題に対するアプローチ
検索/更新の速度 変更の容易性 トランザクションの競合
特徴量の工夫 ロジックとデータの分離 楽観的なロック
今回のテーマ
検索/更新の速度 変更の容易性 トランザクションの競合
特徴量の工夫 ロジックとデータの分離 楽観的なロック
もともとは任意の人に紐づく特徴量に対して最近傍探索
リピータでは検索精度が求められる
クエリの対象を絞る工夫が必須
特徴量を von-Mises Fisher 分布に従うよう学習
μの推定値を使うのが精度・速度の両面で妥当
これにより約9.8倍の高速化を達成
特徴量DBの課題
課題に対するアプローチ
次なる研究テーマ
構造がなさそうな空間で
どう検索をスケールさせるか
CPU でぶん殴ればスケールできることは見えている
インフラのCPU数がキャップになるし
ぶっちゃけ金もかかる
一方で
顔特徴量の構造を示唆する論文もある
X. Zhu, C. Vondrick, C. C. Fowlkes, and D. Ramanan. Do we need more training data? IJCV, 119(1):76–92, 2016.
特徴量DBは掘れば掘るほど出てくる
研究課題の宝庫

More Related Content

Similar to リピーター分析における特徴量DBって研究課題満載でホントおもしろい!

C32 DB Performance on Cloud by 安藤賀章
C32 DB Performance on Cloud by 安藤賀章C32 DB Performance on Cloud by 安藤賀章
C32 DB Performance on Cloud by 安藤賀章
Insight Technology, Inc.
 
パネルディスカッション資料(公開版)
パネルディスカッション資料(公開版)パネルディスカッション資料(公開版)
パネルディスカッション資料(公開版)
odakeiji
 
20140418 info talkセミナー資料
20140418 info talkセミナー資料20140418 info talkセミナー資料
20140418 info talkセミナー資料
Takahiro Iwase
 
[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている
Akihiro Kuwano
 

Similar to リピーター分析における特徴量DBって研究課題満載でホントおもしろい! (20)

DevOps with Database on AWS
DevOps with Database on AWSDevOps with Database on AWS
DevOps with Database on AWS
 
DB思い出話いろいろ(仮)
DB思い出話いろいろ(仮)DB思い出話いろいろ(仮)
DB思い出話いろいろ(仮)
 
C32 DB Performance on Cloud by 安藤賀章
C32 DB Performance on Cloud by 安藤賀章C32 DB Performance on Cloud by 安藤賀章
C32 DB Performance on Cloud by 安藤賀章
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
データベース勉強会 In 広島 mongodb
データベース勉強会 In 広島  mongodbデータベース勉強会 In 広島  mongodb
データベース勉強会 In 広島 mongodb
 
オンプレでもクラウドでも データベースサーバの運用
オンプレでもクラウドでも データベースサーバの運用オンプレでもクラウドでも データベースサーバの運用
オンプレでもクラウドでも データベースサーバの運用
 
パネルディスカッション資料(公開版)
パネルディスカッション資料(公開版)パネルディスカッション資料(公開版)
パネルディスカッション資料(公開版)
 
20140418 info talkセミナー資料
20140418 info talkセミナー資料20140418 info talkセミナー資料
20140418 info talkセミナー資料
 
データベースのお悩み解消!課題解決に万能な「DBMoto」
データベースのお悩み解消!課題解決に万能な「DBMoto」データベースのお悩み解消!課題解決に万能な「DBMoto」
データベースのお悩み解消!課題解決に万能な「DBMoto」
 
シンプルでシステマチックな Oracle Database, Exadata 性能分析
シンプルでシステマチックな Oracle Database, Exadata 性能分析シンプルでシステマチックな Oracle Database, Exadata 性能分析
シンプルでシステマチックな Oracle Database, Exadata 性能分析
 
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかWebアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
 
Amazon Aurora Deep Dive (db tech showcase 2016)
Amazon Aurora Deep Dive (db tech showcase 2016)Amazon Aurora Deep Dive (db tech showcase 2016)
Amazon Aurora Deep Dive (db tech showcase 2016)
 
生物データベース論(スケーラビリティと可用性)
生物データベース論(スケーラビリティと可用性)生物データベース論(スケーラビリティと可用性)
生物データベース論(スケーラビリティと可用性)
 
[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている
 
Performance Problems when migrating fromoracle pl/sql application to postgres...
Performance Problems when migrating fromoracle pl/sql application to postgres...Performance Problems when migrating fromoracle pl/sql application to postgres...
Performance Problems when migrating fromoracle pl/sql application to postgres...
 
AWSerにも知ってほしいDBの話
AWSerにも知ってほしいDBの話AWSerにも知ってほしいDBの話
AWSerにも知ってほしいDBの話
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITesting
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用
 

Recently uploaded

Recently uploaded (11)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

リピーター分析における特徴量DBって研究課題満載でホントおもしろい!

Editor's Notes

  1. アルゴリズムを変えていこうとした時に2コ目の課題が発生した
  2. しばらく順調に運用してきて発生した課題
  3. 再掲ですが
  4. 他の登壇者がシステム寄りの話をしそうな気がするので、特徴量の話をします。他のテーマはパネルディスカッション等で聞いてもらえれば。 あと、どこかのタイミングで登壇機会いただけたら全部話すのでそういった機会もお待ちしています笑
  5. アルゴリズムをどう改善していくかを考えた際、