Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

1

Share

Download to read offline

SmartNewsを支えるデータパイプラインとその運用

Download to read offline

Data Pipeline Casual Talk #2 / Tokyo
2019-04-01

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

SmartNewsを支えるデータパイプラインとその運用

  1. 1. SmartNewsを支えるデータパ イプラインとその運用 2019-04-16 Site Reliability Engineer, SmartNews Inc. @keisuke303 data pipeline casual talk #2
  2. 2. SRE at SmartNews - 2名のSRE / 3名のDE + Mgr - オペレーションを自動化・コード化 - データ分析を行うためのログ収集・分析基盤の構築と運用 - モニタリング・プロビジョニング・デプロイの整備、開発フローや環境の整備 - セキュリティの担保 - 新規サービスに対するアーキテクチャレビューの実施 - インシデント対応への参加・支援と振り返りの実施 ←今日はここの話
  3. 3. データの活用(データ分析、機械学習) 例: ニュース(記事+動画)配信 ● 記事+動画のカテゴライズ ● フィードにおけるレコメンド 例: 広告配信 ● 様々な配信最適化 例: データサイエンス ● 経営指標の計算や予測
  4. 4. おおまかな全体像 S3 Kinesis Airflow RDS WebUI report db RDS other app EC2 other app
  5. 5. ● 事業の成長とデータ活用の高まり ○ スマートニュースは2018年驚異的に成長 ○ 異なるタイムゾーンでもデータの利用がすすむ ○ データサイエンティストチームが社内に誕生 ● データが増えたことでトラブルが多発 ○ トラブル対応コスト増 ○ ETLの増加によるパフォーマンス遅延 ○ presto, airflowが火を噴く   事業の成長と共に
  6. 6. ● dmp担当 ○ かつてはSREが片手間で運用していたが限界に。 ■ 報われない ○ 主担当者の必要性→Data Engineerの採用を開始 ○ 現在はSRE1名、DE1名で運用 ■ データ基盤の仕事すべてをこの2名でまわすのは不可能 ■ 採用はすぐできるものではない 運用体制の整備
  7. 7. ● 冪等性の保証 重要 ○ どこからでも何度やりなおしても同じ結果になるように設計 ○ 簡単なトラブル対応なら誰でもできるように ● パイプラインの監視 ○ 不正データの検知 ○ 結果データのチェック(存在、件数 etc) ○ 実行環境の状態レポート ○ ジョブやクエリのパフォーマンス監視 ■ アラート類はSlackに通知。エンジニアがいつでも把握できる 少人数での運用をまわすために <1>
  8. 8. ● 検証環境の整備 ○ 開発環境/検証環境を用意し、本番同等のデータを使ってテストすることを 可能に。トラブル対応にかけていたコストを減らす ○ ソフトウェアのバージョンアップ等もこの環境で検証 ● データや処理の追加を仕組み化 ○ 関係者とpull request&reviewでやりとり ○ Data ScientistもDAGを書いたりPRを出したりする ● dmp担当者が依頼作業などだけに時間を費やさないようにする。(直近のタス クだけでなく中期的な課題解決に時間を割けるように) 少人数での運用をまわすために <2>
  9. 9. ● バージョンアップに追従する仕組みの整備 ○ 重要度が高くなる、規模が大きくなる中で慎重になちがち ● 監視・自動化の強化 ○ 問題のあるクエリの検知のさらなる強化 ○ ETL処理結果のvalidationのさらなる強化 ○ SLI/SLOの設定 ● データフォーマットや設定の最適化 ○ RCFile から ORC への移行など ● Streaming Processingの拡充 今後の課題(WIP)
  10. 10. ● 作って終わりではない。 ○ 手を止めずよりよい状態に保つ努力を続けることが必要。 ○ 事業の状況によってやるべきことも常に変わる ● もっと詳しく知りたいですか? ○ 懇親会で話しましょう!仲間募集してます! まとめ
  • AriYanase

    May. 26, 2020

Data Pipeline Casual Talk #2 / Tokyo 2019-04-01

Views

Total views

2,629

On Slideshare

0

From embeds

0

Number of embeds

1,126

Actions

Downloads

14

Shares

0

Comments

0

Likes

1

×