Submit Search
Upload
Pachyderm Introduction
•
Download as PPTX, PDF
•
1 like
•
510 views
Tetsurou Yano
Follow
Kubeflow への導入が予定されているPachydermについての紹介です。
Read less
Read more
Software
Report
Share
Report
Share
1 of 17
Download now
Recommended
【輪読会】実践的データ基盤への処方箋
【輪読会】実践的データ基盤への処方箋
Momota Sasaki
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
[db tech showcase Tokyo 2018] #dbts2018 #D1L 『"何が必要?どう実現?"~異種DB間データリアルタイム連携』
[db tech showcase Tokyo 2018] #dbts2018 #D1L 『"何が必要?どう実現?"~異種DB間データリアルタイム連携』
Insight Technology, Inc.
Hadoop 基礎
Hadoop 基礎
hideaki honda
[db tech showcase Tokyo 2018] #dbts2018 #D24 『異種データベース間データ連携ウラ話 ~ 新しいデータベースを試...
[db tech showcase Tokyo 2018] #dbts2018 #D24 『異種データベース間データ連携ウラ話 ~ 新しいデータベースを試...
Insight Technology, Inc.
Amazon RDSを参考にしたとりまチューニング
Amazon RDSを参考にしたとりまチューニング
Shunsuke Mihara
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
Recommended
【輪読会】実践的データ基盤への処方箋
【輪読会】実践的データ基盤への処方箋
Momota Sasaki
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
[db tech showcase Tokyo 2018] #dbts2018 #D1L 『"何が必要?どう実現?"~異種DB間データリアルタイム連携』
[db tech showcase Tokyo 2018] #dbts2018 #D1L 『"何が必要?どう実現?"~異種DB間データリアルタイム連携』
Insight Technology, Inc.
Hadoop 基礎
Hadoop 基礎
hideaki honda
[db tech showcase Tokyo 2018] #dbts2018 #D24 『異種データベース間データ連携ウラ話 ~ 新しいデータベースを試...
[db tech showcase Tokyo 2018] #dbts2018 #D24 『異種データベース間データ連携ウラ話 ~ 新しいデータベースを試...
Insight Technology, Inc.
Amazon RDSを参考にしたとりまチューニング
Amazon RDSを参考にしたとりまチューニング
Shunsuke Mihara
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
BigData Architecture for Azure
BigData Architecture for Azure
Ryoma Nagata
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
dstn
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
SASとHadoopとの連携 2015
SASとHadoopとの連携 2015
SAS Institute Japan
テーブルの変更・作成
テーブルの変更・作成
Jun Chiba
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Insight Technology, Inc.
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
Prepを使ってデータを武器にしよう
Prepを使ってデータを武器にしよう
AkiKusaka
Prepを使ってデータを武器にしよう!
Prepを使ってデータを武器にしよう!
AkiKusaka
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Masayuki Matsushita
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Insight Technology, Inc.
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Kensuke SAEKI
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
Insight Technology, Inc.
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Insight Technology, Inc.
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
Insight Technology, Inc.
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
More Related Content
What's hot
BigData Architecture for Azure
BigData Architecture for Azure
Ryoma Nagata
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
dstn
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
SASとHadoopとの連携 2015
SASとHadoopとの連携 2015
SAS Institute Japan
テーブルの変更・作成
テーブルの変更・作成
Jun Chiba
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Insight Technology, Inc.
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
Prepを使ってデータを武器にしよう
Prepを使ってデータを武器にしよう
AkiKusaka
Prepを使ってデータを武器にしよう!
Prepを使ってデータを武器にしよう!
AkiKusaka
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Masayuki Matsushita
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Insight Technology, Inc.
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Kensuke SAEKI
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
Insight Technology, Inc.
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Insight Technology, Inc.
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
Insight Technology, Inc.
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
What's hot
(20)
BigData Architecture for Azure
BigData Architecture for Azure
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
SASとHadoopとの連携 2015
SASとHadoopとの連携 2015
テーブルの変更・作成
テーブルの変更・作成
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Prepを使ってデータを武器にしよう
Prepを使ってデータを武器にしよう
Prepを使ってデータを武器にしよう!
Prepを使ってデータを武器にしよう!
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
SASとHadoopとの連携
SASとHadoopとの連携
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
[db tech showcase Tokyo 2017] B26: レデータの仮想化と自動化がもたらす開発効率アップとは?by 株式会社インサイトテクノ...
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
ビッグデータとデータマート
ビッグデータとデータマート
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Similar to Pachyderm Introduction
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
オラクルエンジニア通信
カタログDTPのデータを活用しよう!
カタログDTPのデータを活用しよう!
Masataka Kawahara
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
s. kaijima
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
The Hive
[コグラフ]spss modelerによるデータ加工入門
[コグラフ]spss modelerによるデータ加工入門
Co-graph Inc.
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
20121205 nosql(okuyama fs)セミナー資料
20121205 nosql(okuyama fs)セミナー資料
Takahiro Iwase
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
NTT DATA OSS Professional Services
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Kensuke SAEKI
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
Hadoop基盤を知る
Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
Kazuhiro Mitsuhashi
Similar to Pachyderm Introduction
(20)
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Big data解析ビジネス
Big data解析ビジネス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
カタログDTPのデータを活用しよう!
カタログDTPのデータを活用しよう!
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
[コグラフ]spss modelerによるデータ加工入門
[コグラフ]spss modelerによるデータ加工入門
はやわかりHadoop
はやわかりHadoop
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
20121205 nosql(okuyama fs)セミナー資料
20121205 nosql(okuyama fs)セミナー資料
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Hadoop基盤を知る
Hadoop基盤を知る
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
More from Tetsurou Yano
Container storage for DeepLearning
Container storage for DeepLearning
Tetsurou Yano
軽量Kubernetes環境 K3Sのご紹介
軽量Kubernetes環境 K3Sのご紹介
Tetsurou Yano
GitLab CI/CD パイプライン
GitLab CI/CD パイプライン
Tetsurou Yano
Nextcloud 16,15の新機能とOnline Office機能
Nextcloud 16,15の新機能とOnline Office機能
Tetsurou Yano
Nextcloud と Libreoffice online について
Nextcloud と Libreoffice online について
Tetsurou Yano
AI分野におけるコンテナオーケストレーションとは
AI分野におけるコンテナオーケストレーションとは
Tetsurou Yano
Kubernetes で変わるインフラ
Kubernetes で変わるインフラ
Tetsurou Yano
SIerにおけるKubernetes活用(OSSユーザーによる勉強会-公開版)
SIerにおけるKubernetes活用(OSSユーザーによる勉強会-公開版)
Tetsurou Yano
Rancher Charts Introduction
Rancher Charts Introduction
Tetsurou Yano
Rancher kubernetes storages
Rancher kubernetes storages
Tetsurou Yano
Stylez GitLab勉強会 第1回
Stylez GitLab勉強会 第1回
Tetsurou Yano
Rancher enterpriseについて
Rancher enterpriseについて
Tetsurou Yano
Rancher jp1周年振り返り anniversary meetup slide summary
Rancher jp1周年振り返り anniversary meetup slide summary
Tetsurou Yano
Rancher と GitLab を使う3つの理由
Rancher と GitLab を使う3つの理由
Tetsurou Yano
rancherによるdev opsの実際_スタイルズ
rancherによるdev opsの実際_スタイルズ
Tetsurou Yano
Rancher Meetup Tokyo #7 Rancher Home
Rancher Meetup Tokyo #7 Rancher Home
Tetsurou Yano
Rancherで簡単に作るk8s環境 Kubernetes meetup tokyo #4 LT kubernetes on rancher
Rancherで簡単に作るk8s環境 Kubernetes meetup tokyo #4 LT kubernetes on rancher
Tetsurou Yano
GitLab Meetup Tokyo#2 Rancher gitlab container registry
GitLab Meetup Tokyo#2 Rancher gitlab container registry
Tetsurou Yano
Rancher meetuptokyo #4 Vagrant でつくる Rancher HA構成
Rancher meetuptokyo #4 Vagrant でつくる Rancher HA構成
Tetsurou Yano
Rancher LT Talk 20170126
Rancher LT Talk 20170126
Tetsurou Yano
More from Tetsurou Yano
(20)
Container storage for DeepLearning
Container storage for DeepLearning
軽量Kubernetes環境 K3Sのご紹介
軽量Kubernetes環境 K3Sのご紹介
GitLab CI/CD パイプライン
GitLab CI/CD パイプライン
Nextcloud 16,15の新機能とOnline Office機能
Nextcloud 16,15の新機能とOnline Office機能
Nextcloud と Libreoffice online について
Nextcloud と Libreoffice online について
AI分野におけるコンテナオーケストレーションとは
AI分野におけるコンテナオーケストレーションとは
Kubernetes で変わるインフラ
Kubernetes で変わるインフラ
SIerにおけるKubernetes活用(OSSユーザーによる勉強会-公開版)
SIerにおけるKubernetes活用(OSSユーザーによる勉強会-公開版)
Rancher Charts Introduction
Rancher Charts Introduction
Rancher kubernetes storages
Rancher kubernetes storages
Stylez GitLab勉強会 第1回
Stylez GitLab勉強会 第1回
Rancher enterpriseについて
Rancher enterpriseについて
Rancher jp1周年振り返り anniversary meetup slide summary
Rancher jp1周年振り返り anniversary meetup slide summary
Rancher と GitLab を使う3つの理由
Rancher と GitLab を使う3つの理由
rancherによるdev opsの実際_スタイルズ
rancherによるdev opsの実際_スタイルズ
Rancher Meetup Tokyo #7 Rancher Home
Rancher Meetup Tokyo #7 Rancher Home
Rancherで簡単に作るk8s環境 Kubernetes meetup tokyo #4 LT kubernetes on rancher
Rancherで簡単に作るk8s環境 Kubernetes meetup tokyo #4 LT kubernetes on rancher
GitLab Meetup Tokyo#2 Rancher gitlab container registry
GitLab Meetup Tokyo#2 Rancher gitlab container registry
Rancher meetuptokyo #4 Vagrant でつくる Rancher HA構成
Rancher meetuptokyo #4 Vagrant でつくる Rancher HA構成
Rancher LT Talk 20170126
Rancher LT Talk 20170126
Pachyderm Introduction
1.
Pachyderm Introduction 株式会社スタイルズ 矢野 哲朗 2018年1月16日
2.
Pachydermとは? 2 データ処理のための 1. データ(トレーニングデータ、モデルデー タ含む)のバージョン管理 2. データ操作パイプライン ができるフレームワークです。 ※有償のEnterprise
Edition があります。 Enterprise Editionはダッシュボード機能やアクセスコントロール、ジョブ実行やデータに ついての詳細統計が取得できます。 今回は、OSSでのPachydermについてご紹介します
3.
Pachydermを作った人が困っていたこと 3 Spark、Hadoopを使っていたが、それらには問題があった • どういうデータが元々あったか?変更途中のデータの履歴が ない • どういう風にデータを修正したかという操作履歴がない •
元データに変更があった場合に同じような操作をなんども 手動で実施する必要がある Fully-Reproducible MLDeployment with Spark, Pachyderm, and MLeap- Databricks https://databricks.com/session/fully-reproducible-ml-deployment-with- spark-pachyderm-and-mleap
4.
Pachydermと他のソリューションとの比較 4 Fully-ReproducibleMLDeploymentwithSpark, Pachyderm,andMLeap wit… https://www.slideshare.net/databricks/fullyreproducible-ml-deployment-with-spark-pachyderm-and-mleap-with-daniel-whitenack-and-hollin-wilkins
5.
データがバージョニングされるツールがなかった 5 データをバージョニングして、データ操作を パイプライン化するというツールはなかった ので、Pachydermの開発者は開発を開始した
6.
Kubeflowとのインテグレーション 6 Kubeflowプロジェクトに採用予定 Ref: Kubeflow Project:
Deep Dive https://kccnceu18.sched.com/event/Drnd/kubeflow-deep-dive-david-aronchick-jeremy-lewi-google-intermediate-skill-level
7.
Pachydermではどういうことができるか? 7 データの バージョニング データ処理を コンテナで実行 データを分散処理 Pachyderm - Scalable,
Reproducible Data Science https://pachyderm.io/open_source.html
8.
動作例:全体像 8 このようなデータ処理があったとしま す。
9.
動作例:リポジトリ(データストア) 9 履歴管理されている リポジトリ 履歴管理されている リポジトリ 履歴管理されている リポジトリ 履歴管理されている リポジトリ データが保存されている場所=リポジトリがあります
10.
動作例:パイプライン 10 trainingにデータが入ってきたら(or 更新されたら)、train.scalaを実行して モデルを作成し、結果をmodelにMLeap bundleとして保存するパイプライン testまたは、modelのデータが更新されたら、score.scalaを実行して スコアを計算し、結果をscoreにscoreとして保存するパイプライン データを処理する=パイプラインがあります モデル作成用 データ 検証用データ
11.
動作例:実行 11 1. trainingにデータを入れたら自動的にバージョニングされて、train.scalaが動いて、modelに バージョニングしてデータを保存 2. testにデータを入れるか、またはmodelにデータが入ったら、score.scalaが動いて、scoreに バージョニングしてデータを保存 モデル作成用 データ 検証用データ
12.
Pachyderm について 12 Pachyderm動作要件 • Kubernetes •
Pachyderm • (Option)S3 compatible storage Pachyderm システム構成要素 • pachd(Pachydermジョブコントローラー) • etcd(ジョブデータ保管) • dash(Pachydermダッシュボード)
13.
Pachyderm インストール設定 13 Pachydermインストール Kubernetesに接続できる環境で 1. Pachydermコマンド(pachctl)をインストール 2.
PachydermをKubernetesクラスターにpachctl deploy localでデプロイ Pachyderm構成イメージ Kubernetes pachyderm/pachd quay.io/coreos/etcd pachyderm/dash pachyderm/grpc-proxy S3 Volume pachctlコマンド ブラウザー リポジトリのデータは ここに入ります
14.
Pachydermの使い方 14 Pachydermを使う 1. データを入れるリポジトリを作る(pachctl
create-repo hogehoge) 2. ファイルをレポジトリーにputする 3. パイプラインファイルをjsonファイルで作成する 4. パイプラインファイルを取り込む パイプラインサンプル { "pipeline":{ "name": "wordcount" }, "transform":{ "image": "wordcount-image", "cmd": ["/binary", "/pfs/data","/pfs/out"] }, "input":{ "atom":{ "repo":"data", "glob": "/*" } } } パイプライン動作イメージ Dockerイメージと オプションを実行指定
15.
Pachydermのデータ保存 15 Pachydermをデプロイするときにデータ保存先を指定する データは、トレーニングデータ、モデルデータを保存できる 保存先は、S3 互換のオブジェクトストレージも使える ジョブ実行履歴は、etcdのKVSに入る 移行や別の場所での確認時には、pachctl extract
で明示的にエクスポート、 pachctl restoreでインポートする必要がある 実行ジョブのソースコードはコンテナーイメージに入れておくか、コンテナー実行時 にソースコードを読み込む必要がある(ソースコード修正時のトリガーは別途用意す る必要がある) コンテナーイメージ実行時にPachydermのリポジトリデータは、以下のマウントパス で参照できる /pfs/<レポジトリ名> データ出力ディレクトリは以下のマウントパスにする必要がある /pfs/output
16.
Pachydermのパイプラインについて 16 パイプライン実行タイミングは、リポジト リが更新された時 Pachydermのパイプラインは複数のデ ータリポジトリを参照できる 実行する処理は、コンテナーイメージを 指定 実行する処理はオプションも指定可能 パイプラインの並列分散実行も可能 sparkやhadoopも呼び出せる cron定期実行も可能 リポジトリの更新された新しいファイル のみ処理も可能 { "pipeline": { "name": "estimate_pi" }, "transform":
{ “image”: “pachyderm/estimate-pi-spark:0.3”, “cmd”: [ “spark-submit”, “/home/estimate_pi.py” ] }, "parallelism_spec": { "constant": 1 }, "input": { "pfs": { "repo": "estimate_pi_config", "glob": "/num_samples" } } } パイプラインサンプル
17.
Pachyderm 情報リンク 17 Pachyderm
- Scalable, Reproducible Data Science https://pachyderm.io/ Fully Reproducible ML Deployment with Spark, Pachyderm, and MLeap - YouTube https://www.youtube.com/watch?v=TmTYenyOU0s Pachyderm Developer Documentation — Pachyderm 1.8.2 documentation https://pachyderm.readthedocs.io/en/latest/index.html Pachydermによるデータ管理とパイプライン | Research Blog https://adtech.cyberagent.io/research/archives/890 Modern Linux Pipeline Programmingを補助してくれるツールたち - Qiita https://qiita.com/mumoshu/items/fc6f6a3149e82f7b375f#pachyderm 3 go/debian での機械学習環境構築について https://tokyodebian-team.pages.debian.net/pdf2018/debianmeetingresume201803.pdf CoreOSとDockerの上でビッグデータ分析の敷居をフロントエンドプログラマ向けに低くするPachyderm | TechCrunch Japan https://jp.techcrunch.com/2015/01/24/20150123pachyderm/
Download now