SlideShare a Scribd company logo
1 of 49
Struggle against cross-domain
data complexity in Recruit group
リクルートテクノロジーズ
松﨑 遥(Haruka Matsuzaki)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
アジェンダ
1.リクルート運営サービスのご紹介
2.横断データと技術的負債
3.フレームワークプロジェクト
4.HDP2.5・Kafka・Spark
5.結論 “On Happiness”
2
(C) Recruit Technologies Co.,Ltd. All rights reserved.
話者紹介
3
職務
学歴
~前職
所属
氏名
Recruit Technologies ITS統括部 ビッグデータ部
IDPoint領域 FrameworkTL (兼務:Holdings)
松﨑 遥
東京大学大学院広域科学研究科 複雑系科学
assembler
→c++/qt
→ObjC/tclTk
→php/js→iOS
→Java/js/css/Haskell
→Lucene/Hadoop→Spark/Scala
開発:リコメンデーション ジョブ自動生成 ETL
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ライフイベント領域
進学
就職
結婚
転職
住宅購入
車購入
出産/育児
旅行
IT/トレンド
生活/地域情報
グルメ・美容
ライフスタイル領域
選択・意思決定 を支援する情報サービスの提供
「まだ、ここにない、出会い。」を実現する
リクルート運営サービスのご紹介
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートID
一人ひとりにあった最適な情報を提供し、皆様の選択や行動を支える存在となることを目指す
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートIDとは
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートIDが使えるサービス①
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートIDが使えるサービス②
(C) Recruit Technologies Co.,Ltd. All rights reserved.
「リクルートポイント」の「Pontaポイント」へ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
アジェンダ
1.弊社と運営サービスのご紹介
2.横断データと技術的負債
3.「フレームワークプロジェクト」
4.HDP2.5・Kafka・Spark
5.結論 “On Happiness”
10
(C) Recruit Technologies Co.,Ltd. All rights reserved.
横断データ活用:フェーズ
ID基盤が整いデータが増加し、我々は成長期の真っ只中
爆発的な成長を目指すが・・・技術的負債が顕在化
11
黎明期 成長期
・効果額
・施策数
・利用者数
貢献
価値
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:基本戦略
各サービスから各種データを収集、DWH/Datalakeに蓄積し活用
12
DWH
横断データ
活用施策
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:データ統合
サイト毎の仕様差異の吸収 個人情報のマスキング 重複や欠損のクリーニング…
13
DWH
0001
0002
0003
0004
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:経営戦略指標
横断データ活用への最初の要求は、経営陣からの「経営指標」の集計
14
Query
DWH
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:定常化運用
有用なものは日次/月次実行する”資産”となり、加速度的に増加
15
≒1000 Queries
run everyday
Query
DWH
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:機械学習の開始
DMTを機械学習の学習データとして転用
16
Another
Data
DWH
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期:機械学習の加速
17
DWH
Prepared
Data1
Prepared
Data2
MLli
b
次々と機械学習アルゴリズムを変えるため、データ間の依存度が加速
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Sou
rce
DWH DMT APP
黎明期:出来上がったシステム
18
“DMT”
users
DWH MLlibDWH
0001
0002
0003
0004
(C) Recruit Technologies Co.,Ltd. All rights reserved.
黎明期〜成長期:システム運用
19
DWH MLlibDWH
0001
0002
0003
0004
Change
prediction
corrupt
Change Change
more
users
Bigger
DMT
more
data
source
We
changed
log spec!
bug
mis
matc
h
halt
mis
matc
h
rerun
!
more
work
(C) Recruit Technologies Co.,Ltd. All rights reserved.
考察
20
なぜ仕事が増えるのか?
DWH DMT APP
開発業務の増加
・クエリ複雑化
・依存性複雑化
・再発明
・リカバリ
・仕様変更対応
運用業務の増加
・Hadoop等バグ調査
・各サイト繁忙期の
データ負荷対応
・リソース不足
・データ転送
待ちの増加
・機械学習用DMT開発
における低再利用性
・DMT処理時間待ち
・アルゴリズム変更に伴
う入力仕様変更
(C) Recruit Technologies Co.,Ltd. All rights reserved.
技術的負債の溜まり場
黎明期に描かれた古典モデルの破綻?
21
DWH DMT APP
(C) Recruit Technologies Co.,Ltd. All rights reserved.
構造的問題への対処:シフト
合理的な判断の結果、問題が生まれている
22
DMTへの投資システム成長
DMTへの投資DMTへの投資
DMTへの投資期待・投資
① 黎明期:急成長
・利用者の増加
・投資金額 etc…
技術的負債
外部要因:
プレッシャー
etc…
② 成長期:鈍化
・ムダな業務の増加
・運用負荷 etc…
歯止め
(C) Recruit Technologies Co.,Ltd. All rights reserved.
アジェンダ
1.弊社と運営サービスのご紹介
2.横断データと技術的負債
3.「フレームワークプロジェクト」
4.HDP2.5・Kafka・Spark
5.結論 “On Happiness”
23
(C) Recruit Technologies Co.,Ltd. All rights reserved.
フレームワークプロジェクト(var/log)
技術的負債を徹底的に排除するためのコードベース(jar)
24
Integrate software
resources & unlock
their full potential
“Absolute DRY”
common process
auto generated
DSL for processing
typically structured
data of Recruit
Codebase
(C) Recruit Technologies Co.,Ltd. All rights reserved.
哲学=「ありものは使わない」
外部ソリューションや、オープンソースフレームワークへの導入を試すも・・・
• 視野が狭まる
• 機能不足・バグ/オーバースペック
• ジョブ移行コストの膨大さ
• 「リクルートだけの問題」
方針
1. 長い道のりだけど、自分で作ろう。
2. 本当にあらゆる面で優れた
製品があったら、道を譲ろう。
25
(C) Recruit Technologies Co.,Ltd. All rights reserved.
技術的負債のブレークダウンとソリューション:
26
• 最適なMW• 隠蔽
制約
• DI
AOP
• 共通化
Code生成
DRY Plugin
SpeedSimple
重複コードが多い 再利用の属人化・不徹底
1つのMW上での無理な実装設計の不在・無秩序
(C) Recruit Technologies Co.,Ltd. All rights reserved.
DRY(Don’t repeat yourself)
• コンポーネント + コード生成
27
補完前
Loading
Mahout
Saving
xml 補完後
Recommend
User (Int)
Item (Int)
Dictionary
UserId (Int)
User (String)
Dictionary
ItemId(Int)
Item(String)
Input
UserId (Int)
ItemId(Int)
Loading
Mahout
Saving
Indexing
Format
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Simple
• DASE ”MVC for Data Science”
• それ以外は極力隠蔽
28
<data/> <algorithm/> <serving/> <evaluation/>
xml .Jar
Loading
Query
Query
RDD
+Scala
Jar内部で判定
• 次のAlgorithmは何?
• データ量はどのくらい?
• 過去の判定結果は?
MR
Parallel
Query
Hdfs+
External
(C) Recruit Technologies Co.,Ltd. All rights reserved.
.Jar
Plugin
DIコンポーネントのAutowire/AOPにより以下の機能は自動実行
• 件数カウント
• メール送信
• ログ+グラフ化
• クエリ解析+ステップ補完
• クエリセッション設定・ヒント
29
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Speed
• JDBC, Hive, Hbase, MapReduce, Elasticsearch…
• 普通のJavaでHDFSにRead/Write
• Pojoを渡せばAvro実装
• Templates & Callbacks
• Spring Batch - スレッド標準実装
• Spring Boot + Maven - 既存知識の活用
30
各MWの特性を理解する + 最適なMWを利用するハードル(転送・学習)を0に
HiveServer
• Debugability on local machine
• No Need to move jars on cluster (v.v UDFs)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
プロジェクト完了!?
半年後、var/logは完成し、最初のvar/logジョブをリリース
その後、新規ジョブはvar/log上に実装
31
(C) Recruit Technologies Co.,Ltd. All rights reserved.
アジェンダ
1.弊社と運営サービスのご紹介
2.横断データと技術的負債
3.「フレームワークプロジェクト」
4.HDP2.5・Kafka・Spark
5.結論 “On Happiness”
32
(C) Recruit Technologies Co.,Ltd. All rights reserved.
フレームワークプロジェクト 第2章
半年後var/logは完成し、運用に乗ったが、2通りの社内顧客を発見
1. [High-end Customers]
ニーズ : 速度・定常運用・生産性
2. [Early Adopters]
ニーズ : 最新論文・実験・Lean
2分割開発体制への移行を決定
33
Business Engineer
Scientist Engineer
コードは使い捨て
データがあり
動けばいい
最適化・リファクタは
とりあえずあとで
・・・
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Move onto Agility
34
DWH DMT APP
DWH DMT Produ
ction
pub
sub
Sandbox
Business
Engineer
Scientist
Everyone
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Early Adopter向け機能とは何か
ニーズ:さあ、実験をしよう。
1. 秒単位の応答性能
2. その場の思いつきを実データに適用
• 新しいライブラリ・・・
• 新しい特徴量・・・
• 新しい数式・・・
• 新しい自作関数・・・
3. そのままリリース
→ jar + xml configuration ではない
35
(C) Recruit Technologies Co.,Ltd. All rights reserved.
import varlog.jar on Zeppelin
36
.Jar
その場で作った
自作関数(動作確認後varlog.jarにコミット)
データ抜きだし・加工
(C) Recruit Technologies Co.,Ltd. All rights reserved.
back to xml
.scala
File
<scala>
xml-tag
autodeploy
37
Release Notes as a Job
.Jar
Zeppelinで動作すれば、xmlにコピーして自動リリースも可能
(C) Recruit Technologies Co.,Ltd. All rights reserved.
PUBSUBシステム構成
38
Pub
-sub
DA
ORDD
xml
DWH
Another
Data
Hadoop
elasti
c
Job
Powered by hdp2.5
Why
Kafka?
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Background Data Store: Kafka
Kafkaとは?
• publish & subscribe方式の分散データストア
利点
1. ビッグデータシステム間のトポロジー構造の単純化
2. 高速なスループット
3. Sparkとの接続性
39
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Kafka 1) トポロジー構造の単純化
Jay Kreps(the original author of Kafka)によれば・・・
40
<<
トポロジーが複雑=システム間のデータ転送が多い状況
ex) HBase→Hive, Hive→Oracle, Oracle→Hive, Oracle→Elastic, Prod→Sand…
Before
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Kafka 2) 高いスループット性能
put=4000件/秒=11.0MB〜14000件/秒
get=10000件/秒=31.7MB (no OS pagecache)
MessageSize=3kB, Broker=1で上記性能。チューニング・スケールアウトも可
開発環境をローカルVMに構築
41
(C) Recruit Technologies Co.,Ltd. All rights reserved.
狙い:最適なシステムの統合による高速化
通常ETLジョブ:全てのSQLがLoad/Join/Function/Persist処理を全部実行。役割分担無し
42
L J F PL J F P L J F P
L/J処理を集約後SparkでF/P処理を実行。明確な役割分担
• DWH:Join,GroupByのみ
• Kafka:Sparkのメモリへのロードのみ
• Spark:ScalaFunction再利用のみ
DWH
EXA
elastic
Hadoop
L
L
J J J
F
P
P
P
L
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Kafka 3) Sparkとの接続
OracleやHive内のデータ加工関数のモジュラリティは低い。scalaの関数をjarからExport
43
.Jar
Before:
After:
select
case when
t.name in
(‘a’) then 1
SQL
id num
u1 1
u2 2
u3 3
DMT
public
functions
def func
implict class A(RDD)
mapRow
hiveUdf
scala
Reusablily
(C) Recruit Technologies Co.,Ltd. All rights reserved.
“秒”レスポンスの検証
特徴量加工+データを1件覗く
1秒
44
特徴量加工+Reduce
53秒
特徴量加工+train+predict
169秒(50万件)
さらに負荷
306秒(Depth = 30)
ある画面の1週間のImpressionが約50万件。Task「RandomForestでクリック予測」
• overhead: spark=5sec Mllib=120sec
• Spark Memory: 6G/192G
• Kafka Bytes Out: 5G (Throughput: 100M/sec)
Total 300 sec
Kafka 50 ML min 120 ML ext 140〜
Graphana
(C) Recruit Technologies Co.,Ltd. All rights reserved.
インタラクティブ:MobProgrammingにも最適
45
チーム全体が同じことを、同じ時に、同じ場所で、
同じコンピュータ上で作業するソフトウェア開発アプローチ
Agile原則(抜粋)
• フェース・トゥ・フェース ”ワイガヤ環境”
• 動くコードの2週間でのリリース
• 難しい判断を要する設計の自己組織的決定
• 動くコードでデモすることによる活発な議論
を促進
(C) Recruit Technologies Co.,Ltd. All rights reserved.
アジェンダ
1.弊社と運営サービスのご紹介
2.横断データと技術的負債
3.「フレームワークプロジェクト」
4.HDP2.5・Kafka・Spark
5.結論 “On Happiness”
46
(C) Recruit Technologies Co.,Ltd. All rights reserved.
我々が今目指している環境について
47
Analysis Ops
Engineering
Study
Idea
try
Scientist
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Workflow Change : Happy Analytics
Before:
After:
48
.Jar
Scientist
Scientist
HBase Hive Oracle
sqoop
“accessible data”
• 実験
• 生産性
• 共同作業
• 即時性/インタラクティブ性
Java
・・・
(C) Recruit Technologies Co.,Ltd. All rights reserved.
最後に
49
Join,
facebook
是非、データサイエンティストの働きやすい環境へ!

More Related Content

What's hot

【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)Developers Summit
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-publicYifeng Jiang
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureDataWorks Summit
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_FdwKohei KaiGai
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Makoto Sato
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformYuta Imai
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」オラクルエンジニア通信
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on HadoopYifeng Jiang
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはKoji Shinkubo
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたものcyberagent
 

What's hot (20)

【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on Hadoop
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 

Viewers also liked

Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...DataWorks Summit/Hadoop Summit
 
Hadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the ExpertsHadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the ExpertsDataWorks Summit/Hadoop Summit
 
Case study of online machine learning for display advertising in Yahoo! JAPAN
Case study of online machine learning for display advertising in Yahoo! JAPANCase study of online machine learning for display advertising in Yahoo! JAPAN
Case study of online machine learning for display advertising in Yahoo! JAPANDataWorks Summit/Hadoop Summit
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...DataWorks Summit/Hadoop Summit
 
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...DataWorks Summit/Hadoop Summit
 
Path to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered JourneyPath to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered JourneyDataWorks Summit/Hadoop Summit
 
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataInvestment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataDataWorks Summit/Hadoop Summit
 
Evolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage SubsystemEvolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage SubsystemDataWorks Summit/Hadoop Summit
 
Major advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceMajor advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceDataWorks Summit/Hadoop Summit
 
Apache Phoenix and HBase: Past, Present and Future of SQL over HBase
Apache Phoenix and HBase: Past, Present and Future of SQL over HBaseApache Phoenix and HBase: Past, Present and Future of SQL over HBase
Apache Phoenix and HBase: Past, Present and Future of SQL over HBaseDataWorks Summit/Hadoop Summit
 
Anomaly Detection with Apache Spark
Anomaly Detection with Apache SparkAnomaly Detection with Apache Spark
Anomaly Detection with Apache SparkCloudera, Inc.
 
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANNetwork for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANDataWorks Summit/Hadoop Summit
 
Using Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataUsing Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataDataWorks Summit/Hadoop Summit
 

Viewers also liked (20)

Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
 
Comparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBaseComparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBase
 
Combined analysis of Watson and Spark
Combined analysis of Watson and SparkCombined analysis of Watson and Spark
Combined analysis of Watson and Spark
 
Hadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the ExpertsHadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the Experts
 
Case study of online machine learning for display advertising in Yahoo! JAPAN
Case study of online machine learning for display advertising in Yahoo! JAPANCase study of online machine learning for display advertising in Yahoo! JAPAN
Case study of online machine learning for display advertising in Yahoo! JAPAN
 
LLAP: Sub-Second Analytical Queries in Hive
LLAP: Sub-Second Analytical Queries in HiveLLAP: Sub-Second Analytical Queries in Hive
LLAP: Sub-Second Analytical Queries in Hive
 
Protecting Enterprise Data In Apache Hadoop
Protecting Enterprise Data In Apache HadoopProtecting Enterprise Data In Apache Hadoop
Protecting Enterprise Data In Apache Hadoop
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
 
Path to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered JourneyPath to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered Journey
 
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataInvestment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
 
Evolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage SubsystemEvolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage Subsystem
 
Apache NiFi 1.0 in Nutshell
Apache NiFi 1.0 in NutshellApache NiFi 1.0 in Nutshell
Apache NiFi 1.0 in Nutshell
 
Streamline Hadoop DevOps with Apache Ambari
Streamline Hadoop DevOps with Apache AmbariStreamline Hadoop DevOps with Apache Ambari
Streamline Hadoop DevOps with Apache Ambari
 
Major advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceMajor advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL compliance
 
To The Cloud and Back: A Look At Hybrid Analytics
To The Cloud and Back: A Look At Hybrid AnalyticsTo The Cloud and Back: A Look At Hybrid Analytics
To The Cloud and Back: A Look At Hybrid Analytics
 
Apache Phoenix and HBase: Past, Present and Future of SQL over HBase
Apache Phoenix and HBase: Past, Present and Future of SQL over HBaseApache Phoenix and HBase: Past, Present and Future of SQL over HBase
Apache Phoenix and HBase: Past, Present and Future of SQL over HBase
 
Anomaly Detection with Apache Spark
Anomaly Detection with Apache SparkAnomaly Detection with Apache Spark
Anomaly Detection with Apache Spark
 
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANNetwork for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
 
Using Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataUsing Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch data
 

Similar to Struggle against crossdomain data complexity in Recruit Group

Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019MKT-INTHEFOREST
 
Oracle code one 2018 報告会概要
Oracle code one 2018 報告会概要Oracle code one 2018 報告会概要
Oracle code one 2018 報告会概要Chihiro Ito
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Yoshiki Kouno
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングTakashi Suzuki
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...Insight Technology, Inc.
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証Recruit Technologies
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Recruit Technologies
 
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションAutonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションオラクルエンジニア通信
 
2013.06.20 oss
2013.06.20 oss2013.06.20 oss
2013.06.20 ossRyo Fujita
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
ACRi HLSチャレンジ 高速化テクニック紹介
ACRi HLSチャレンジ 高速化テクニック紹介ACRi HLSチャレンジ 高速化テクニック紹介
ACRi HLSチャレンジ 高速化テクニック紹介Jun Ando
 
マイクロサービスにおけるテスト自動化 with Karate
マイクロサービスにおけるテスト自動化 with Karateマイクロサービスにおけるテスト自動化 with Karate
マイクロサービスにおけるテスト自動化 with KarateTakanori Suzuki
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Masatomo Ito
 
ToolChainを使った次世代DevOps環境の作り方
ToolChainを使った次世代DevOps環境の作り方ToolChainを使った次世代DevOps環境の作り方
ToolChainを使った次世代DevOps環境の作り方Harada Kazuki
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 

Similar to Struggle against crossdomain data complexity in Recruit Group (20)

Spring “BigData”
Spring “BigData”Spring “BigData”
Spring “BigData”
 
Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019
 
Oracle code one 2018 報告会概要
Oracle code one 2018 報告会概要Oracle code one 2018 報告会概要
Oracle code one 2018 報告会概要
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
 
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションAutonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーション
 
2013.06.20 oss
2013.06.20 oss2013.06.20 oss
2013.06.20 oss
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
ACRi HLSチャレンジ 高速化テクニック紹介
ACRi HLSチャレンジ 高速化テクニック紹介ACRi HLSチャレンジ 高速化テクニック紹介
ACRi HLSチャレンジ 高速化テクニック紹介
 
マイクロサービスにおけるテスト自動化 with Karate
マイクロサービスにおけるテスト自動化 with Karateマイクロサービスにおけるテスト自動化 with Karate
マイクロサービスにおけるテスト自動化 with Karate
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18
 
ToolChainを使った次世代DevOps環境の作り方
ToolChainを使った次世代DevOps環境の作り方ToolChainを使った次世代DevOps環境の作り方
ToolChainを使った次世代DevOps環境の作り方
 
第9回しゃちほこオラクル倶楽部
第9回しゃちほこオラクル倶楽部第9回しゃちほこオラクル倶楽部
第9回しゃちほこオラクル倶楽部
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 

More from DataWorks Summit/Hadoop Summit

Unleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerUnleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerDataWorks Summit/Hadoop Summit
 
Enabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformEnabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformDataWorks Summit/Hadoop Summit
 
Double Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDouble Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDataWorks Summit/Hadoop Summit
 
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...DataWorks Summit/Hadoop Summit
 
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...DataWorks Summit/Hadoop Summit
 
Mool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLMool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLDataWorks Summit/Hadoop Summit
 
The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)DataWorks Summit/Hadoop Summit
 
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...DataWorks Summit/Hadoop Summit
 

More from DataWorks Summit/Hadoop Summit (20)

Running Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in ProductionRunning Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in Production
 
State of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache ZeppelinState of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache Zeppelin
 
Unleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerUnleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache Ranger
 
Enabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformEnabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science Platform
 
Revolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and ZeppelinRevolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and Zeppelin
 
Double Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDouble Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSense
 
Hadoop Crash Course
Hadoop Crash CourseHadoop Crash Course
Hadoop Crash Course
 
Data Science Crash Course
Data Science Crash CourseData Science Crash Course
Data Science Crash Course
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
 
Dataflow with Apache NiFi
Dataflow with Apache NiFiDataflow with Apache NiFi
Dataflow with Apache NiFi
 
Schema Registry - Set you Data Free
Schema Registry - Set you Data FreeSchema Registry - Set you Data Free
Schema Registry - Set you Data Free
 
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
 
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
 
Mool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLMool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and ML
 
How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient
 
HBase in Practice
HBase in Practice HBase in Practice
HBase in Practice
 
The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)
 
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS HadoopBreaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
 
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
 
Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

Struggle against crossdomain data complexity in Recruit Group

  • 1. Struggle against cross-domain data complexity in Recruit group リクルートテクノロジーズ 松﨑 遥(Haruka Matsuzaki)
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.リクルート運営サービスのご紹介 2.横断データと技術的負債 3.フレームワークプロジェクト 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 2
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. 話者紹介 3 職務 学歴 ~前職 所属 氏名 Recruit Technologies ITS統括部 ビッグデータ部 IDPoint領域 FrameworkTL (兼務:Holdings) 松﨑 遥 東京大学大学院広域科学研究科 複雑系科学 assembler →c++/qt →ObjC/tclTk →php/js→iOS →Java/js/css/Haskell →Lucene/Hadoop→Spark/Scala 開発:リコメンデーション ジョブ自動生成 ETL
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行 IT/トレンド 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定 を支援する情報サービスの提供 「まだ、ここにない、出会い。」を実現する リクルート運営サービスのご紹介
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートID 一人ひとりにあった最適な情報を提供し、皆様の選択や行動を支える存在となることを目指す
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDとは
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDが使えるサービス①
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートIDが使えるサービス②
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. 「リクルートポイント」の「Pontaポイント」へ
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 10
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. 横断データ活用:フェーズ ID基盤が整いデータが増加し、我々は成長期の真っ只中 爆発的な成長を目指すが・・・技術的負債が顕在化 11 黎明期 成長期 ・効果額 ・施策数 ・利用者数 貢献 価値
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:基本戦略 各サービスから各種データを収集、DWH/Datalakeに蓄積し活用 12 DWH 横断データ 活用施策
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:データ統合 サイト毎の仕様差異の吸収 個人情報のマスキング 重複や欠損のクリーニング… 13 DWH 0001 0002 0003 0004
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:経営戦略指標 横断データ活用への最初の要求は、経営陣からの「経営指標」の集計 14 Query DWH
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:定常化運用 有用なものは日次/月次実行する”資産”となり、加速度的に増加 15 ≒1000 Queries run everyday Query DWH
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:機械学習の開始 DMTを機械学習の学習データとして転用 16 Another Data DWH
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期:機械学習の加速 17 DWH Prepared Data1 Prepared Data2 MLli b 次々と機械学習アルゴリズムを変えるため、データ間の依存度が加速
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. Sou rce DWH DMT APP 黎明期:出来上がったシステム 18 “DMT” users DWH MLlibDWH 0001 0002 0003 0004
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. 黎明期〜成長期:システム運用 19 DWH MLlibDWH 0001 0002 0003 0004 Change prediction corrupt Change Change more users Bigger DMT more data source We changed log spec! bug mis matc h halt mis matc h rerun ! more work
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. 考察 20 なぜ仕事が増えるのか? DWH DMT APP 開発業務の増加 ・クエリ複雑化 ・依存性複雑化 ・再発明 ・リカバリ ・仕様変更対応 運用業務の増加 ・Hadoop等バグ調査 ・各サイト繁忙期の データ負荷対応 ・リソース不足 ・データ転送 待ちの増加 ・機械学習用DMT開発 における低再利用性 ・DMT処理時間待ち ・アルゴリズム変更に伴 う入力仕様変更
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. 技術的負債の溜まり場 黎明期に描かれた古典モデルの破綻? 21 DWH DMT APP
  • 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. 構造的問題への対処:シフト 合理的な判断の結果、問題が生まれている 22 DMTへの投資システム成長 DMTへの投資DMTへの投資 DMTへの投資期待・投資 ① 黎明期:急成長 ・利用者の増加 ・投資金額 etc… 技術的負債 外部要因: プレッシャー etc… ② 成長期:鈍化 ・ムダな業務の増加 ・運用負荷 etc… 歯止め
  • 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 23
  • 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. フレームワークプロジェクト(var/log) 技術的負債を徹底的に排除するためのコードベース(jar) 24 Integrate software resources & unlock their full potential “Absolute DRY” common process auto generated DSL for processing typically structured data of Recruit Codebase
  • 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. 哲学=「ありものは使わない」 外部ソリューションや、オープンソースフレームワークへの導入を試すも・・・ • 視野が狭まる • 機能不足・バグ/オーバースペック • ジョブ移行コストの膨大さ • 「リクルートだけの問題」 方針 1. 長い道のりだけど、自分で作ろう。 2. 本当にあらゆる面で優れた 製品があったら、道を譲ろう。 25
  • 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. 技術的負債のブレークダウンとソリューション: 26 • 最適なMW• 隠蔽 制約 • DI AOP • 共通化 Code生成 DRY Plugin SpeedSimple 重複コードが多い 再利用の属人化・不徹底 1つのMW上での無理な実装設計の不在・無秩序
  • 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. DRY(Don’t repeat yourself) • コンポーネント + コード生成 27 補完前 Loading Mahout Saving xml 補完後 Recommend User (Int) Item (Int) Dictionary UserId (Int) User (String) Dictionary ItemId(Int) Item(String) Input UserId (Int) ItemId(Int) Loading Mahout Saving Indexing Format
  • 28. (C) Recruit Technologies Co.,Ltd. All rights reserved. Simple • DASE ”MVC for Data Science” • それ以外は極力隠蔽 28 <data/> <algorithm/> <serving/> <evaluation/> xml .Jar Loading Query Query RDD +Scala Jar内部で判定 • 次のAlgorithmは何? • データ量はどのくらい? • 過去の判定結果は? MR Parallel Query Hdfs+ External
  • 29. (C) Recruit Technologies Co.,Ltd. All rights reserved. .Jar Plugin DIコンポーネントのAutowire/AOPにより以下の機能は自動実行 • 件数カウント • メール送信 • ログ+グラフ化 • クエリ解析+ステップ補完 • クエリセッション設定・ヒント 29
  • 30. (C) Recruit Technologies Co.,Ltd. All rights reserved. Speed • JDBC, Hive, Hbase, MapReduce, Elasticsearch… • 普通のJavaでHDFSにRead/Write • Pojoを渡せばAvro実装 • Templates & Callbacks • Spring Batch - スレッド標準実装 • Spring Boot + Maven - 既存知識の活用 30 各MWの特性を理解する + 最適なMWを利用するハードル(転送・学習)を0に HiveServer • Debugability on local machine • No Need to move jars on cluster (v.v UDFs)
  • 31. (C) Recruit Technologies Co.,Ltd. All rights reserved. プロジェクト完了!? 半年後、var/logは完成し、最初のvar/logジョブをリリース その後、新規ジョブはvar/log上に実装 31
  • 32. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 32
  • 33. (C) Recruit Technologies Co.,Ltd. All rights reserved. フレームワークプロジェクト 第2章 半年後var/logは完成し、運用に乗ったが、2通りの社内顧客を発見 1. [High-end Customers] ニーズ : 速度・定常運用・生産性 2. [Early Adopters] ニーズ : 最新論文・実験・Lean 2分割開発体制への移行を決定 33 Business Engineer Scientist Engineer コードは使い捨て データがあり 動けばいい 最適化・リファクタは とりあえずあとで ・・・
  • 34. (C) Recruit Technologies Co.,Ltd. All rights reserved. Move onto Agility 34 DWH DMT APP DWH DMT Produ ction pub sub Sandbox Business Engineer Scientist Everyone
  • 35. (C) Recruit Technologies Co.,Ltd. All rights reserved. Early Adopter向け機能とは何か ニーズ:さあ、実験をしよう。 1. 秒単位の応答性能 2. その場の思いつきを実データに適用 • 新しいライブラリ・・・ • 新しい特徴量・・・ • 新しい数式・・・ • 新しい自作関数・・・ 3. そのままリリース → jar + xml configuration ではない 35
  • 36. (C) Recruit Technologies Co.,Ltd. All rights reserved. import varlog.jar on Zeppelin 36 .Jar その場で作った 自作関数(動作確認後varlog.jarにコミット) データ抜きだし・加工
  • 37. (C) Recruit Technologies Co.,Ltd. All rights reserved. back to xml .scala File <scala> xml-tag autodeploy 37 Release Notes as a Job .Jar Zeppelinで動作すれば、xmlにコピーして自動リリースも可能
  • 38. (C) Recruit Technologies Co.,Ltd. All rights reserved. PUBSUBシステム構成 38 Pub -sub DA ORDD xml DWH Another Data Hadoop elasti c Job Powered by hdp2.5 Why Kafka?
  • 39. (C) Recruit Technologies Co.,Ltd. All rights reserved. Background Data Store: Kafka Kafkaとは? • publish & subscribe方式の分散データストア 利点 1. ビッグデータシステム間のトポロジー構造の単純化 2. 高速なスループット 3. Sparkとの接続性 39
  • 40. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 1) トポロジー構造の単純化 Jay Kreps(the original author of Kafka)によれば・・・ 40 << トポロジーが複雑=システム間のデータ転送が多い状況 ex) HBase→Hive, Hive→Oracle, Oracle→Hive, Oracle→Elastic, Prod→Sand… Before
  • 41. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 2) 高いスループット性能 put=4000件/秒=11.0MB〜14000件/秒 get=10000件/秒=31.7MB (no OS pagecache) MessageSize=3kB, Broker=1で上記性能。チューニング・スケールアウトも可 開発環境をローカルVMに構築 41
  • 42. (C) Recruit Technologies Co.,Ltd. All rights reserved. 狙い:最適なシステムの統合による高速化 通常ETLジョブ:全てのSQLがLoad/Join/Function/Persist処理を全部実行。役割分担無し 42 L J F PL J F P L J F P L/J処理を集約後SparkでF/P処理を実行。明確な役割分担 • DWH:Join,GroupByのみ • Kafka:Sparkのメモリへのロードのみ • Spark:ScalaFunction再利用のみ DWH EXA elastic Hadoop L L J J J F P P P L
  • 43. (C) Recruit Technologies Co.,Ltd. All rights reserved. Kafka 3) Sparkとの接続 OracleやHive内のデータ加工関数のモジュラリティは低い。scalaの関数をjarからExport 43 .Jar Before: After: select case when t.name in (‘a’) then 1 SQL id num u1 1 u2 2 u3 3 DMT public functions def func implict class A(RDD) mapRow hiveUdf scala Reusablily
  • 44. (C) Recruit Technologies Co.,Ltd. All rights reserved. “秒”レスポンスの検証 特徴量加工+データを1件覗く 1秒 44 特徴量加工+Reduce 53秒 特徴量加工+train+predict 169秒(50万件) さらに負荷 306秒(Depth = 30) ある画面の1週間のImpressionが約50万件。Task「RandomForestでクリック予測」 • overhead: spark=5sec Mllib=120sec • Spark Memory: 6G/192G • Kafka Bytes Out: 5G (Throughput: 100M/sec) Total 300 sec Kafka 50 ML min 120 ML ext 140〜 Graphana
  • 45. (C) Recruit Technologies Co.,Ltd. All rights reserved. インタラクティブ:MobProgrammingにも最適 45 チーム全体が同じことを、同じ時に、同じ場所で、 同じコンピュータ上で作業するソフトウェア開発アプローチ Agile原則(抜粋) • フェース・トゥ・フェース ”ワイガヤ環境” • 動くコードの2週間でのリリース • 難しい判断を要する設計の自己組織的決定 • 動くコードでデモすることによる活発な議論 を促進
  • 46. (C) Recruit Technologies Co.,Ltd. All rights reserved. アジェンダ 1.弊社と運営サービスのご紹介 2.横断データと技術的負債 3.「フレームワークプロジェクト」 4.HDP2.5・Kafka・Spark 5.結論 “On Happiness” 46
  • 47. (C) Recruit Technologies Co.,Ltd. All rights reserved. 我々が今目指している環境について 47 Analysis Ops Engineering Study Idea try Scientist
  • 48. (C) Recruit Technologies Co.,Ltd. All rights reserved. Workflow Change : Happy Analytics Before: After: 48 .Jar Scientist Scientist HBase Hive Oracle sqoop “accessible data” • 実験 • 生産性 • 共同作業 • 即時性/インタラクティブ性 Java ・・・
  • 49. (C) Recruit Technologies Co.,Ltd. All rights reserved. 最後に 49 Join, facebook 是非、データサイエンティストの働きやすい環境へ!

Editor's Notes

  1. 100を超えるサービス cross-domain data 近づけたか
  2. 各サービスが独立。それぞれで分析業務を実施している
  3. https://point.recruit.co.jp/pontaweb/about/recruitid/
  4. データ活用観点からは、複数のサービスを結合して扱うべきかもしれない。 ・仕事系・・・ ・旅行系・・・
  5. リアルとの接点も強化⇒こういった多岐のサービスをつないでいるリクルートIDのためのデータ分析基盤を私は提供・構築しています。 https://point.recruit.co.jp/pontaweb/
  6. ここまで7分
  7. 黎明期にどんなことをしていたのか振り返りたいと思います。
  8. 以上、5ページにわたって黎明期のシステム構成について説明してまいりましたが、ほとんど変わったところはないのではないでしょうか。
  9. 以上、5ページにわたって黎明期のシステム構成について説明してまいりましたが、ほとんど変わったところはないのではないでしょうか。
  10. 最初はシンプルな業務フローを考えていたのですが、業務は増えていきます。
  11. 果たして我々の方針は間違っていたのかというと、それほどでもありません。 いわばこの問題は必然的・構造的なものです。 なぜなら、この図①のように、黎明期は早く作ることが投資を好循環を生むからです。しかし、②にはまってからは、早く作ってはいけないのです。 なので、我々はむしろフェーズの変わり目を読んで、考え方を変えなければなりません。
  12. ここまで15分
  13. いろいろ作った機能を振り返ると、以下の4つの方針があったように思えます。 重複開発がある プラグイン化ができていない 適切なコンポーネント化と設計 実装が複雑すぎる 自由度がありすぎると属人性が生まれる 出来ることで済ませようとして帰って大変になっている あらゆるインフラが利用可能でなければいけない
  14. タグを書いてコンポーネントを再利用するという点でもDRYだが、自動コード生成もDRYである
  15. 実装が複雑すぎる 自由度がありすぎると属人性が生まれる ex) Cのマクロ
  16. DIやAOPにより、実行タイミングが決定されている状態
  17. ビッグデータインフラは箱だけあっても使われない。 出来ることで済ませようとして帰って大変になっている あらゆるインフラが利用可能でなければいけない
  18. ここまで21分
  19. 残り5分
  20. LinkedInの主張=get=100MB
  21. 実用に耐えうるレスポンス。特徴量変更して再予測なども一瞬 オーバーヘッドの説明