Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Struggle against cross-domain data complexity in Recruit group

1,105 views

Published on

2016/11/27 Hadoop Summit Tokyoでの、松﨑の講演資料になります

Published in: Technology
  • Be the first to comment

Struggle against cross-domain data complexity in Recruit group

  1. 1. Struggle against cross-domain data complexity in Recruit group リクルートテクノロジーズ 松﨑 遥(Haruka Matsuzaki)
  2. 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.リクルート運営サービスのご紹介 2.横断データと技術的負債 3.フレームワークプロジェクト 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 2
  3. 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. 話者紹介 3 職務 学歴 ~前職 所属 氏名 Recruit Technologies ITS統括部 ビッグデータ部 IDPoint領域 FrameworkTL (兼務:Holdings) 松﨑 遥 東京大学大学院広域科学研究科 複雑系科学 assembler →c++/qt →ObjC/tclTk →php/js→iOS →Java/js/css/Haskell →Lucene/Hadoop→Spark/Scala 開発:リコメンデーション ジョブ自動生成 ETL
  4. 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行 IT/トレンド 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定 を支援する情報サービスの提供 「まだ、ここにない、出会い。」を実現する リクルート運営サービスのご紹介
  5. 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートID 一人ひとりにあった最適な情報を提供し、皆様の選択や行動を支える存在となることを目指す
  6. 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDとは
  7. 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDが使えるサービス①
  8. 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDが使えるサービス②
  9. 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. 「リクルートポイント」の「Pontaポイント」へ
  10. 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 10
  11. 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. 横断データ活用:フェーズ ID基盤が整いデータが増加し、我々は成長期の真っ只中 爆発的な成長を目指すが・・・技術的負債が顕在化 11 黎明期 成長期 ・効果額 ・施策数 ・利用者数 貢献 価値
  12. 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:基本戦略 各サービスから各種データを収集、DWH/Datalakeに蓄積し活用 12 DWH 横断データ 活用施策
  13. 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:データ統合 サイト毎の仕様差異の吸収 個人情報のマスキング 重複や欠損のクリーニング… 13 DWH 0001 0002 0003 0004
  14. 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:経営戦略指標 横断データ活用への最初の要求は、経営陣からの「経営指標」の集計 14 Query DWH
  15. 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:定常化運用 有用なものは日次/月次実行する”資産”となり、加速度的に増加 15 ≒1000 Queries run everyday Query DWH
  16. 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:機械学習の開始 DMTを機械学習の学習データとして転用 16 Another Data DWH
  17. 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:機械学習の加速 17 DWH Prepared Data1 Prepared Data2 MLlib 次々と機械学習アルゴリズムを変えるため、データ間の依存度が加速
  18. 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. Sou rce DWH DMT APP 黎明期:出来上がったシステム 18 “DMT” users DWH MLlibDWH 0001 0002 0003 0004
  19. 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期〜成長期:システム運用 19 DWH MLlibDWH 0001 0002 0003 0004 Change prediction corrupt Change Change more users Bigger DMT more data source We changed log spec! bug mism atch halt mism atch rerun! more work
  20. 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. 考察 20 なぜ仕事が増えるのか? DWH DMT APP 開発業務の増加 ・クエリ複雑化 ・依存性複雑化 ・再発明 ・リカバリ ・仕様変更対応 運用業務の増加 ・Hadoop等バグ調査 ・各サイト繁忙期の データ負荷対応 ・リソース不足 ・データ転送 待ちの増加 ・機械学習用DMT開発 における低再利用性 ・DMT処理時間待ち ・アルゴリズム変更に伴 う入力仕様変更
  21. 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. 技術的負債の溜まり場 黎明期に描かれた古典モデルの破綻? 21 DWH DMT APP
  22. 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. 構造的問題への対処:シフト 合理的な判断の結果、問題が生まれている 22 DMTへの投資システム成長 DMTへの投資DMTへの投資 DMTへの投資期待・投資 ① 黎明期:急成長 ・利用者の増加 ・投資金額 etc… 技術的負債 外部要因: プレッシャー etc… ② 成長期:鈍化 ・ムダな業務の増加 ・運用負荷 etc… 歯止め
  23. 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 23
  24. 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. フレームワークプロジェクト(var/log) 技術的負債を徹底的に排除するためのコードベース(jar) 24 Integrate software resources & unlock their full potential “Absolute DRY” common process auto generated DSL for processing typically structured data of Recruit Codebase
  25. 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. 哲学=「ありものは使わない」 外部ソリューションや、オープンソースフレームワークへの導入を試すも・・・ • 視野が狭まる • 機能不足・バグ/オーバースペック • ジョブ移行コストの膨大さ • 「リクルートだけの問題」 方針 1. 長い道のりだけど、自分で作ろう。 2. 本当にあらゆる面で優れた 製品があったら、道を譲ろう。 25
  26. 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. 技術的負債のブレークダウンとソリューション: 26 • 最適なMW• 隠蔽 制約 • DI AOP • 共通化 Code生成 DRY Plugin SpeedSimple 重複コードが多い 再利用の属人化・不徹底 1つのMW上での無理な実装設計の不在・無秩序
  27. 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. DRY(Don’t repeat yourself) • コンポーネント + コード生成 27 補完前 Loading Mahout Saving xml 補完後 Recommend User (Int) Item (Int) Dictionary UserId (Int) User (String) Dictionary ItemId(Int) Item(String) Input UserId (Int) ItemId(Int) Loading Mahout Saving Indexing Format
  28. 28. (C) Recruit Technologies Co.,Ltd. All rights reserved. Simple • DASE ”MVC for Data Science” • それ以外は極力隠蔽 28 <data/> <algorithm/> <serving/> <evaluation/> xml .Jar Loading Query Query RDD +Scala Jar内部で判定 • 次のAlgorithmは何? • データ量はどのくらい? • 過去の判定結果は? MR Parallel Query Hdfs+ External
  29. 29. (C) Recruit Technologies Co.,Ltd. All rights reserved. .Jar Plugin DIコンポーネントのAutowire/AOPにより以下の機能は自動実行 • 件数カウント • メール送信 • ログ+グラフ化 • クエリ解析+ステップ補完 • クエリセッション設定・ヒント 29
  30. 30. (C) Recruit Technologies Co.,Ltd. All rights reserved. Speed • JDBC, Hive, Hbase, MapReduce, Elasticsearch… • 普通のJavaでHDFSにRead/Write • Pojoを渡せばAvro実装 • Templates & Callbacks • Spring Batch - スレッド標準実装 • Spring Boot + Maven - 既存知識の活用 30 各MWの特性を理解する + 最適なMWを利用するハードル(転送・学習)を0に HiveServer • Debugability on local machine • No Need to move jars on cluster (v.v UDFs)
  31. 31. (C) Recruit Technologies Co.,Ltd. All rights reserved. プロジェクト完了!? 半年後、var/logは完成し、最初のvar/logジョブをリリース その後、新規ジョブはvar/log上に実装 31
  32. 32. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 32
  33. 33. (C) Recruit Technologies Co.,Ltd. All rights reserved. フレームワークプロジェクト 第2章 半年後var/logは完成し、運用に乗ったが、2通りの社内顧客を発見 1. [High-end Customers] ニーズ : 速度・定常運用・生産性 2. [Early Adopters] ニーズ : 最新論文・実験・Lean 2分割開発体制への移行を決定 33 Business Engineer Scientist Engineer コードは使い捨て データがあり 動けばいい 最適化・リファクタは とりあえずあとで ・・・
  34. 34. (C) Recruit Technologies Co.,Ltd. All rights reserved. Move onto Agility 34 DWH DMT APP DWH DMT Produ ction pub sub Sandbox Business Engineer Scientist Everyone
  35. 35. (C) Recruit Technologies Co.,Ltd. All rights reserved. Early Adopter向け機能とは何か ニーズ:さあ、実験をしよう。 1. 秒単位の応答性能 2. その場の思いつきを実データに適用 • 新しいライブラリ・・・ • 新しい特徴量・・・ • 新しい数式・・・ • 新しい自作関数・・・ 3. そのままリリース → jar + xml configuration ではない 35
  36. 36. (C) Recruit Technologies Co.,Ltd. All rights reserved. import varlog.jar on Zeppelin 36 .Jar その場で作った 自作関数(動作確認後varlog.jarにコミット) データ抜きだし・加工
  37. 37. (C) Recruit Technologies Co.,Ltd. All rights reserved. back to xml .scala File <scala> xml-tag autodeploy 37 Release Notes as a Job .Jar Zeppelinで動作すれば、xmlにコピーして自動リリースも可能
  38. 38. (C) Recruit Technologies Co.,Ltd. All rights reserved. PUBSUBシステム構成 38 Pub -sub DAORDD xml DWH Another Data Hadoop elastic Job Powered by hdp2.5 Why Kafka?
  39. 39. (C) Recruit Technologies Co.,Ltd. All rights reserved. Background Data Store: Kafka Kafkaとは? • publish & subscribe方式の分散データストア 利点 1. ビッグデータシステム間のトポロジー構造の単純化 2. 高速なスループット 3. Sparkとの接続性 39
  40. 40. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 1) トポロジー構造の単純化 Jay Kreps(the original author of Kafka)によれば・・・ 40 << トポロジーが複雑=システム間のデータ転送が多い状況 ex) HBase→Hive, Hive→Oracle, Oracle→Hive, Oracle→Elastic, Prod→Sand… Before
  41. 41. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 2) 高いスループット性能 put=4000件/秒=11.0MB〜14000件/秒 get=10000件/秒=31.7MB (no OS pagecache) MessageSize=3kB, Broker=1で上記性能。チューニング・スケールアウトも可 開発環境をローカルVMに構築 41
  42. 42. (C) Recruit Technologies Co.,Ltd. All rights reserved. 狙い:最適なシステムの統合による高速化 通常ETLジョブ:全てのSQLがLoad/Join/Function/Persist処理を全部実行。役割分担無し 42 L J F PL J F P L J F P L/J処理を集約後SparkでF/P処理を実行。明確な役割分担 • DWH:Join,GroupByのみ • Kafka:Sparkのメモリへのロードのみ • Spark:ScalaFunction再利用のみ DWH EXA elastic Hadoop L L J J J F P P P L
  43. 43. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 3) Sparkとの接続 OracleやHive内のデータ加工関数のモジュラリティは低い。scalaの関数をjarからExport 43 .Jar Before: After: select case when t.name in (‘a’) then 1 SQL id num u1 1 u2 2 u3 3 DMT public functions def func implict class A(RDD) mapRow hiveUdf scala Reusablily
  44. 44. (C) Recruit Technologies Co.,Ltd. All rights reserved. “秒”レスポンスの検証 特徴量加工+データを1件覗く 1秒 44 特徴量加工+Reduce 53秒 特徴量加工+train+predict 169秒(50万件) さらに負荷 306秒(Depth = 30) ある画面の1週間のImpressionが約50万件。Task「RandomForestでクリック予測」 • overhead: spark=5sec Mllib=120sec • Spark Memory: 6G/192G • Kafka Bytes Out: 5G (Throughput: 100M/sec) Total 300 sec Kafka 50 ML min 120 ML ext 140〜 Grafana
  45. 45. (C) Recruit Technologies Co.,Ltd. All rights reserved. インタラクティブ:MobProgrammingにも最適 45 チーム全体が同じことを、同じ時に、同じ場所で、 同じコンピュータ上で作業するソフトウェア開発アプローチ Agile原則(抜粋) • フェース・トゥ・フェース ”ワイガヤ環境” • 動くコードの2週間でのリリース • 難しい判断を要する設計の自己組織的決定 • 動くコードでデモすることによる活発な議論 を促進
  46. 46. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 46
  47. 47. (C) Recruit Technologies Co.,Ltd. All rights reserved. 我々が今目指している環境について 47 Analysis Ops Engineering Study Idea try Scientist
  48. 48. (C) Recruit Technologies Co.,Ltd. All rights reserved. Workflow Change : Happy Analytics Before: After: 48 .Jar Scientist Scientist HBase Hive Oracle sqoop “accessible data” • 実験 • 生産性 • 共同作業 • 即時性/インタラクティブ性 Java ・・・
  49. 49. (C) Recruit Technologies Co.,Ltd. All rights reserved. 最後に 49 Join, facebook 是非、データサイエンティストの働きやすい環境へ!

×