Successfully reported this slideshow.
Your SlideShare is downloading. ×

【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ

Ad

失敗から学ぶ!@cosmeを変えるデー
タ基盤のめざしどころ

istyle Data Talk #01

© istyle Inc.
No.0
株式会社アイスタイル 柿﨑眸


Ad

アジェンダ

No.1
1. 自己紹介

2. データ基盤

3-1.現状

3-2.問題点

3-3.取り組み

3. データ基盤の目指しどころ



© istyle Inc.

Ad

自己紹介

No.2
© istyle Inc.
柿﨑 眸 Hitomi Kakizaki
@kakiblo / https://kakiblo.com
2019年6月中途入社。データ分析システム部所属。
2016年 Google パートナー会...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 25 Ad
1 of 25 Ad

【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ

Download to read offline

アイスタイルのデータ基盤のこれまでの取り組みや苦労話、今抱えている課題、そしてこれからの未来についての資料です。
・複数あるデータ基盤の経緯
・オンプレHadoopの課題やデータ品質の問題
・クラウド移行への取り組み
これらについてご紹介しています。

アイスタイルのデータ基盤のこれまでの取り組みや苦労話、今抱えている課題、そしてこれからの未来についての資料です。
・複数あるデータ基盤の経緯
・オンプレHadoopの課題やデータ品質の問題
・クラウド移行への取り組み
これらについてご紹介しています。

Advertisement
Advertisement

More Related Content

Slideshows for you (19)

Advertisement

【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ

  1. 1. 失敗から学ぶ!@cosmeを変えるデー タ基盤のめざしどころ
 istyle Data Talk #01
 © istyle Inc. No.0 株式会社アイスタイル 柿﨑眸

  2. 2. アジェンダ
 No.1 1. 自己紹介
 2. データ基盤
 3-1.現状
 3-2.問題点
 3-3.取り組み
 3. データ基盤の目指しどころ
 
 © istyle Inc.
  3. 3. 自己紹介
 No.2 © istyle Inc. 柿﨑 眸 Hitomi Kakizaki @kakiblo / https://kakiblo.com 2019年6月中途入社。データ分析システム部所属。 2016年 Google パートナー会社に新卒入社し、 Google Cloud を利用したWebシステム開発を担当。 その中でデータ分析に興味をもち、アイスタイルへ転職。 Hadoop データ基盤構築、Tableau 導入、レコメンド開発など、 データに関わる業務を担当。 2022年 千葉で梨農業(@suzukaen74)のWワークを開始。 2021年10月
 2022年1月

  4. 4. データ基盤
 No.3 © istyle Inc.
  5. 5. 現状 ~全体像~
 用途の異なるデータ基盤が5 つ存在しています
 No.4 © istyle Inc. @cosme ランキング ベスコス ブランド オフィシャル (Ph4) ブランド オフィシャル (Ph1・2) 社内データ活用 機械学習モデル 開発 各データ

  6. 6. 現状 ~@cosme ランキング・ベスコス~
 用途の異なるデータ基盤が5 つ存在しています
 No.5 © istyle Inc. @cosme ランキング ベスコス ブランド オフィシャル (Ph4) ブランド オフィシャル (Ph1・2) 社内データ活用 機械学習モデル 開発 各データ

  7. 7. 現状 ~技術別~
 No.6 @cosme ランキング & ベスコス <2000年〜> 
 SQL Server
 ● “データ基盤”という言葉もまだ浸透し ていない頃から利用
 ● クチコミなどのデータから、独自の収 集・集計方法でランキング、ベスコス を選定
 ● アプリケーションの一部として利用を 想定
 © istyle Inc.
  8. 8. 現状 ~ブランドオフィシャル(Ph1・2) / 社内データ活用~
 用途の異なるデータ基盤が5 つ存在しています
 No.7 © istyle Inc. @cosme ランキング ベスコス ブランド オフィシャル (Ph4) ブランド オフィシャル (Ph1・2) 社内データ活用 機械学習モデル 開発 各データ

  9. 9. 現状 ~技術別~
 No.8 ブランドオフィシャル(Ph1・2) / 社内データ活用 <2017年〜> 
 BigQuery / embulk / digdag
 【ブランドオフィシャル(Ph1・2)】
 ブランドオフィシャル提供当初、BigQuery を 中心としたデータ基盤を構築。
 Google Analytics と社内データを組み合わ せた分析サービスの提供が目的。
 
 【社内データ活用】
 社内データ活用のひとつである、事業部から のデータ抽出依頼に対応するため、 BigQuery に社内データを同期する。
 © istyle Inc.
  10. 10. 現状 ~技術別~
 No.9 © istyle Inc. ブランドオフィシャル(Ph1・2) / 社内データ活用のデータ基盤構成図 
 アクセスログに Google Analytics を利 用 データを取得するバッチが 別々
  11. 11. 現状 ~技術別~
 No.10 © istyle Inc. ブランドオフィシャル(Ph1・2) 画面とワークフロー図 
 SQLで集計・集約ワークフローを構築 

  12. 12. 現状 ~ブランドオフィシャル(Ph4) / 機械学習モデル開発~
 用途の異なるデータ基盤が5 つ存在しています
 No.11 © istyle Inc. @cosme ランキング ベスコス ブランド オフィシャル (Ph4) ブランド オフィシャル (Ph1・2) 社内データ活用 機械学習モデル 開発 各データ

  13. 13. 現状 ~技術別~
 No.12 機械学習モデル開発 / ブランドオフィシャル(Ph4) <2018年〜> 
 Hadoop
 【機械学習モデル開発】
 BigQuery 軸のデータ基盤と並行して、Hadoop 軸のデータ基盤構築プロジェクトが始動。 Google Analytics に依存しないサービス構築 にチャレンジ。
 このプロジェクトで構築したデータ基盤を機械 学習チームが利用。
 【ブランドオフィシャル(Ph4)】
 メジャーアップデートの際、既存の BigQuery 軸のデータ基盤では要件が満たせないと判断 し、Hadoop を選択。
 機械学習モデル開発で利用している Hadoop ではスペックが足りず、新しくサーバをたてて 構築する。
 © istyle Inc.
  14. 14. 現状 ~技術別~
 No.13 © istyle Inc. ブランドオフィシャル(Ph4) 画面と要件 
 ブランドオフィシャルPh4の機能要件 ・すべてのユーザーさんの行動履歴を保持 する ・サーバーログの利用 ・打ち消しの発生 →これらの要件を満たす場合、 Google Analytics や BigQuery を中心とし たシステムでは困難と判断。
  15. 15. 現状 ~技術別~
 No.14 © istyle Inc. 機械学習モデル開発 / ブランドオフィシャル(Ph4)の Hadoop 構成図 
 Hadoop サーバが別々 アクセスログにサーバログを利用
  16. 16. 現状 ~技術別まとめ~
 No.15 © istyle Inc. それぞれのフェーズで目的が異なったことによって、 
 同じ技術でも用途別にデータ基盤が分かれ、同じサービス内で元のデータソースが別々な状態に・・・ 
 目的 技術 利用開始年 データソース 格納先 利用用途 (=データ基盤) @cosme のデータを利用した 価値提供 SQL Server 2000年〜 各種RDBMS SQL Server ベスコス・ランキング Google Analytics と社内データ を組み合わせたデータ分析シ ステムの提供 BigQuery embulk digdag 2017年〜 各種RDBMS Google Analytics Firebase Analytics アクションイベント BigQuery ブランドオフィシャル(Ph1/2) 社内データ分析 外部サービスに依存しない、独 自のデータ収集システムの構 築 Hadoop Spark Apache Kafka fluentd 2018年〜 各種RDBMS サーバーログ Firebase Analytics アクションイベント HDFS Kudu 機械学習 2019年〜 ブランドオフィシャル(Ph4)
  17. 17. 問題点
 No.16 データ基盤が複数あることの問題と要因 
 要因
 問題
 © istyle Inc. ● コスト
 ○ 技術が異なることによるメンテナンス・リソー スコスト共に高い
 ○ それぞれの目的・要件でデータ基盤を作成し ているため、再利用ができない
 ○ Hadoop 習得の難易度が高く、運用保守に負 担がかかっている
 ● データの一貫性
 ○ 同じアプリケーションでも見ているデータが 異なる
 ○ 同じデータでも集計方法が統一されていない ことで、アウトプットが異なる ● データ基盤の全社戦略の不在
 ○ 全社データ基盤の構築ではなく、目的・要件 別のデータ基盤を作り続けることに
 ● オンプレの限界
 ○ 1ヶ月に1.5TB 増加し続けるデータに対して、 オンプレでスケーラビリティを確保するのは 困難

  18. 18. 問題点
 No.17 既存データ基盤の問題と要因
 要因
 問題
 © istyle Inc. ● データ品質問題
 ○ アプリケーションが取得する時刻までにデー タの同期が完了していない
 ○ ユニークであるはずのデータが重複してし まっている
 ○ データの量や値の異常が検知できない
 ○ 命名規則が揃っていない
 ● サービス担当者との連携不足
 ○ どんなデータを収集していて、何に使われて いるのかをお互いに把握できていない状態
 ● データのSLAを明確に決めていない

  19. 19. 取り組み
 No.18 データ基盤リニューアルプロジェクト発足 
 Google Cloud
 ブランドオフィシャルで利用している Hadoop デー タ基盤の問題
 ・インフラコスト
  複数のオンプレHadoop環境
 ・運用コスト
  障害件数月5件
 ・スケーラビリティ課題
  毎日9時間のバッチ
  フロントレスポンスに10秒以上
 
 →Google Cloud に移行することで解決をはかり、 これを皮切りにデータ基盤をひとつに統合!
 ブランドオフィシャルのレスポンス課題も同時に 解決し、UXの向上を目指す。
 
 © istyle Inc. 外部連携用クラスタ
 Cloud DataPr oc
 データ収集処理
 (scala/Spark・Sqo op)
 Webシ ステム Tablea u DWH
 BigQuer y
 汎用
 データ マート層
 目的別
 データ マート層
 収集用ストレージ領 域
 Cloud Storage
 データ一時 格納
 外部連携
 Cloud
 Dataflo w
 データ収集用
 パイプライン
 収集デー タ
 取込層
 SQL Server MySQ L データ蓄 積層
 分析 外部 GCS Rabbit MQ Fluent d A PI
 Cloud
 Pub/Su b
 ブランドオ フィシャル
  20. 20. 取り組み
 No.19 機械学習モデル開発もGoogle Cloud へ 
 Google Cloud
 機械学習で利用している Hadoop データ基盤の 問題
 ・インフラコスト
 ・必要なデータを取得するコスト
 ・運用保守コスト
 
 → すでに BigQuery に同期されているデータを 利用して、Google Cloud のサービスだけで完 結!
 © istyle Inc.
  21. 21. 取り組み
 No.20 データ品質への取り組み
 データ更新チェック
 BigQuery のメタデータを利用して同期時刻を検 知し、完了していない場合に slack 通知
 
 →どのサービスで、何のデータが、いつまでに必 要かを全社で把握できる仕組みづくり
 Datastream への移行も視野に
 © istyle Inc. サービス影響ある テーブル一覧 をまとめたシート 同期テーブル メタデータ データコネクタ連 携
  22. 22. 事業を見据えたデータ戦略を考える部署と連携 し、データの品質基準や担保方法を議論
 
 →組織の垣根を越えた仕組みづくりについては 次パートで!
 取り組み
 No.21 データガバナンスMTG
 データ品質基準
 © istyle Inc.
  23. 23. データ基盤のめざしどころ
 No.22 © istyle Inc.
  24. 24. データ基盤の将来像
 No.23 © istyle Inc. 社内 社外 システム統合による ・インフラ、メンテナンス、人的リソースコストの削減 ・データの品質保証で誰でも安心してデータを使える環境の提供 ・スケーラビリティとアジリティの確保 の実現はもちろん・・・
  25. 25. “つながる美のセカイ”の実現に向けて
 No.24 © istyle Inc. システム統合の”次に”目指すべきプラットフォームへ! ・社内外のデータを活用した、ユーザーさんとブランドをつなぐレコメンデーション ・社内外の商品連携 ・@cosme のデータを活用した商品開発 etc… NEXT ▶越境できるデータの組織・人材を目指して

×