Submit Search
Upload
S01 t3 data_engineer
•
5 likes
•
2,185 views
Takeshi Akutsu
Follow
Python Learning Workshop: Session 1, Talk 3, "Data Science and Data Engineer"
Read less
Read more
Technology
Report
Share
Report
Share
1 of 34
Download now
Download to read offline
Recommended
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
kurikiyo
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
世界一簡単なHadoopの話
世界一簡単なHadoopの話
Koichi Shimazaki
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
Strata conference 2012
Strata conference 2012
Junya Yamaguchi
Recommended
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
kurikiyo
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
世界一簡単なHadoopの話
世界一簡単なHadoopの話
Koichi Shimazaki
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
Strata conference 2012
Strata conference 2012
Junya Yamaguchi
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
DataWorks Summit
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
Makoto Yui
Hadoop 基礎
Hadoop 基礎
hideaki honda
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
yuji suzuki
データマネジメント2014
データマネジメント2014
Talend KK
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
Recruit Lifestyle Co., Ltd.
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
hamaken
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
データ分析基盤について
データ分析基盤について
Yuta Inamura
第一回IoT関連技術勉強会 分散処理編
第一回IoT関連技術勉強会 分散処理編
tzm_freedom
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
MapR Technologies Japan
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
Recruit Technologies
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
MapR Technologies Japan
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
Markezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawa
Shinya Nakazawa
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
More Related Content
What's hot
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
DataWorks Summit
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
Makoto Yui
Hadoop 基礎
Hadoop 基礎
hideaki honda
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
yuji suzuki
データマネジメント2014
データマネジメント2014
Talend KK
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
Recruit Lifestyle Co., Ltd.
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
hamaken
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
データ分析基盤について
データ分析基盤について
Yuta Inamura
第一回IoT関連技術勉強会 分散処理編
第一回IoT関連技術勉強会 分散処理編
tzm_freedom
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
MapR Technologies Japan
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
Recruit Technologies
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
MapR Technologies Japan
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
What's hot
(20)
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
ビッグデータとデータマート
ビッグデータとデータマート
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
Hadoop 基礎
Hadoop 基礎
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
データマネジメント2014
データマネジメント2014
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
データ分析基盤について
データ分析基盤について
第一回IoT関連技術勉強会 分散処理編
第一回IoT関連技術勉強会 分散処理編
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Similar to S01 t3 data_engineer
Markezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawa
Shinya Nakazawa
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
Takumi Kurosawa
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Kenji Hara
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
nagix
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
Datalake最新情報セミナー
Datalake最新情報セミナー
mtanaka0111
Talendビッグデータインテグレーション製品ご紹介
Talendビッグデータインテグレーション製品ご紹介
Talend KK
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
Yahoo!デベロッパーネットワーク
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Kensuke SAEKI
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
Amazon Web Services Japan
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)
Osamu Shimoda
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
Jun Kawahara
Similar to S01 t3 data_engineer
(20)
Markezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawa
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Datalake最新情報セミナー
Datalake最新情報セミナー
Talendビッグデータインテグレーション製品ご紹介
Talendビッグデータインテグレーション製品ご紹介
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Big data解析ビジネス
Big data解析ビジネス
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
More from Takeshi Akutsu
万年ビギナーによるPythonプログラミングのリハビリ計画
万年ビギナーによるPythonプログラミングのリハビリ計画
Takeshi Akutsu
Stapyの6年~本との出会いから生まれた技術コミュニティ~
Stapyの6年~本との出会いから生まれた技術コミュニティ~
Takeshi Akutsu
Start Python Club 2020年活動報告
Start Python Club 2020年活動報告
Takeshi Akutsu
みんなのPython勉強会#59 Intro
みんなのPython勉強会#59 Intro
Takeshi Akutsu
On the Necessity and Inapplicability of Python
On the Necessity and Inapplicability of Python
Takeshi Akutsu
Stapyユーザーガイド
Stapyユーザーガイド
Takeshi Akutsu
stapy_fukuoka_01_akutsu
stapy_fukuoka_01_akutsu
Takeshi Akutsu
Python初心者が4年で5000人のコミュニティに作ったエモい話
Python初心者が4年で5000人のコミュニティに作ったエモい話
Takeshi Akutsu
Scipy Japan 2019参加レポート
Scipy Japan 2019参加レポート
Takeshi Akutsu
Scipy Japan 2019の紹介
Scipy Japan 2019の紹介
Takeshi Akutsu
みんなのPython勉強会 in 長野 #3, Intro
みんなのPython勉強会 in 長野 #3, Intro
Takeshi Akutsu
Introduction
Introduction
Takeshi Akutsu
みんなのPython勉強会#35 まとめ
みんなのPython勉強会#35 まとめ
Takeshi Akutsu
モダンな独学の道。そうだ、オープンソースでいこう!
モダンな独学の道。そうだ、オープンソースでいこう!
Takeshi Akutsu
LT_by_Takeshi
LT_by_Takeshi
Takeshi Akutsu
Orientation
Orientation
Takeshi Akutsu
Introduction
Introduction
Takeshi Akutsu
プログラミング『超入門書』から見るPythonと解説テクニック
プログラミング『超入門書』から見るPythonと解説テクニック
Takeshi Akutsu
We are OSS Communities: Introduction of Start Python Club
We are OSS Communities: Introduction of Start Python Club
Takeshi Akutsu
ドコモAIエージェントAPIのご紹介
ドコモAIエージェントAPIのご紹介
Takeshi Akutsu
More from Takeshi Akutsu
(20)
万年ビギナーによるPythonプログラミングのリハビリ計画
万年ビギナーによるPythonプログラミングのリハビリ計画
Stapyの6年~本との出会いから生まれた技術コミュニティ~
Stapyの6年~本との出会いから生まれた技術コミュニティ~
Start Python Club 2020年活動報告
Start Python Club 2020年活動報告
みんなのPython勉強会#59 Intro
みんなのPython勉強会#59 Intro
On the Necessity and Inapplicability of Python
On the Necessity and Inapplicability of Python
Stapyユーザーガイド
Stapyユーザーガイド
stapy_fukuoka_01_akutsu
stapy_fukuoka_01_akutsu
Python初心者が4年で5000人のコミュニティに作ったエモい話
Python初心者が4年で5000人のコミュニティに作ったエモい話
Scipy Japan 2019参加レポート
Scipy Japan 2019参加レポート
Scipy Japan 2019の紹介
Scipy Japan 2019の紹介
みんなのPython勉強会 in 長野 #3, Intro
みんなのPython勉強会 in 長野 #3, Intro
Introduction
Introduction
みんなのPython勉強会#35 まとめ
みんなのPython勉強会#35 まとめ
モダンな独学の道。そうだ、オープンソースでいこう!
モダンな独学の道。そうだ、オープンソースでいこう!
LT_by_Takeshi
LT_by_Takeshi
Orientation
Orientation
Introduction
Introduction
プログラミング『超入門書』から見るPythonと解説テクニック
プログラミング『超入門書』から見るPythonと解説テクニック
We are OSS Communities: Introduction of Start Python Club
We are OSS Communities: Introduction of Start Python Club
ドコモAIエージェントAPIのご紹介
ドコモAIエージェントAPIのご紹介
Recently uploaded
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Recently uploaded
(12)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
S01 t3 data_engineer
1.
データサイエンスと データエンジニア 草薙
昭彦 (@nagix) MapR Technologies
2.
自己紹介 • 草薙
昭彦 (@nagix) • MapR Technologies データエンジニア NS-‐SHAFT 無料!
3.
業界の話
4.
IT業界のトレンド • ビッグデータ、クラウド、IoT/M2M
• データ活用の位置付けの変化 – 分析が企業の競争力に – リアルタイムなデータそのものがビジネス価値に
5.
なぜ今データサイエンスか • 深い顧客の理解なしではビジネスは難しく なってきている
– Web、モバイル、SNS、センサーなど、顧客に関す るあらゆるデータ • 人材の不足 – 個人の勘と経験ではなく、学術として整備 – 米国の大学ではコースが充実
6.
Google トレンド
7.
で、なぜ今? • なぜ大きな会社も小さな会社も?
– 巨大銀行からスタートアップまで • なぜいろいろな業界で? – 金融、Web、製造、セキュリティ、・・・ • なぜいろいろなアプリケーションで? – 広告ターゲティング、不正検知、故障予測、・・・ • なぜ同じタイミングで?
8.
ありがちな回答 より大量のデータが、より急速に生成される データサイズが最大容量の1台のコンピュータにも収まりきらなくなる データの生成や格納に必要なコストが下がり続けている これは正しい回答ではありません
9.
分析のスケーリングの法則 • 80:20
ルール – はじめはわずかな努力で大きな成果が得られる – ところが急激にリターンが減っていく • 一方、分析に必要なコストは – これまで: 規模を増やすとコストは指数関数的に 増加 – Big Data: コストの増加は直線的 • 分析のROIの構造が根本的に変わった!
10.
2,0000 500 1000
1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 分析で得られる価値
11.
2,0000 500 1000
1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 これまで: 分析にかかるコスト
12.
2,0000 500 1000
1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 これまで: 分析で得られるリターン
13.
2,0000 500 1000
1500 1 0 0.25 0.5 0.75 Scale Value Big Data: 分析にかかるコスト
14.
2,0000 500 1000
1500 1 0 0.25 0.5 0.75 Scale Value Big Data: 分析で得られるリターン
15.
データサイエンティストって どういう職業? •
ゴール – データに価値を見いだし – データに関するストーリーを伝えること • そのために – 必要なデータを引き出し – 統計や機械学習の知識を駆使してモデルを作り – 結果を生成 – 顧客や経営層とのコミュニケーションを行う
16.
データエンジニアってどういう職業? • ゴール
– データを適切な場所に適切な形式で格納し – 利用者がアクセスできるように整備する • そのために – データ処理のニーズを明確化し – ニーズを満たすストレージ基盤を設計構築し – データフローやアクセスアプリケーションを整備 • Big Data の 3V を扱えるシステムを構築する
17.
技術の話
18.
データサイエンティストに 求められるスキル •
統計学、機械学習 – R, SPSS, SAS, Knime, Weka, RapidMiner, SciPy, … • データの整形・フィルタリング・正規化・加工 – Python, Java, Hadoop, Hive, SQL, Spark, Excel, … • 可視化、プレゼンテーション • 貼っておきます – データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは hYp://tjo.hatenablog.com/entry/2015/03/13/190000 – データサイエンティスト養成読本 hYp://www.amazon.co.jp/dp/4774158968
19.
データエンジニアに求められるスキル • Python,
Java, Hadoop, Hive, SQL, Spark, … • OS, ネットワーク, ストレージ, クラウド, … Image via Data Science 101
20.
大規模なデータを扱う時に重要なこと • スケールアウト(水平スケーラビリティ)
• CPUとストレージの距離 サーバ ・・・ スケールアウト可能なアルゴリズム・データ格納方式 共有ストレージ (NAS/SAN) サーバ レイテンシ の問題 スループット の問題 サーバ サーバ サーバ 内蔵 HDD /SSD 内蔵 HDD /SSD 内蔵 HDD /SSD CPU CPU CPU
21.
大規模なデータを扱う時に重要なこと • Data
Gravity(データの重力) Web App Data 分析 App Data 会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App
22.
Hadoopって? サーバ サーバ
サーバ サーバ サーバ サーバ
23.
Hadoopって? サーバ Hadoop Distributed
File System (HDFS) データをブロックに 分割して分散配置、 3つのレプリカ作成
24.
Hadoopって? サーバ Hadoop Distributed
File System (HDFS) 分割されたデータ をMap、Reduceと いう単位で並列分 散処理 MapReduce
25.
Hadoopって? Hadoop Distributed
File System (HDFS) MapReduce Hadoop コア
26.
Hadoopって? Hadoop Distributed
File System (HDFS) MapReduce Hive SQLクエリ エンジン HBase NoSQL データベース Pig データ加工 フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ ・・・ MapReduce/HDFS を使いやすくする ための無数のプロ ジェクト
27.
Sparkって? • (主に)MapReduce
の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリ エンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム
28.
分析と機械学習 • 従来からの分析
– 集計、レポート、見える化、ルールベース処理 • 機械学習による応用 – 予測、カテゴリ分類、レコメンド、異常検知 • データ分析のステップ 1. ビジネスとデータの理解 2. データの準備 3. モデルの作成 4. モデルの評価 5. モデルの展開
29.
Python と Hadoop/Spark
• MapReduce を Python で – mrjob, Pydoop • Pig – Jython, cpython でユーザー定義関数を書く • Hadoop を管理する – snakebite • Spark を Python で – PySpark Hadoop with Python hYp://www.slideshare.net/DonaldMiner/hadoop-‐with-‐python
30.
ビジネスの話
31.
よくある悩み • どこにデータがあるか分からない
• 効果がわからないものに予算がつかない • 分析のスキルが足りない • 分析はできてもビジネスに結びつかない
32.
ビジネスに分析を生かしている企業 hYp://itpro.nikkeibp.co.jp/atcl/column/ 14/122600137/122600002/
「我々の仕事は、対話(アナログ)と データ分析(デジタル)の比率がそれ ぞれ50%ずつ。これが理想」 花王・石黒勲氏 hYp://special.nikkeibp.co.jp/ts/aricle/ae0d/ 180043/ 「スキルが高いデータサイエンティストよ り問題解決ができる人材」「高度な分析 技術はまず要らない」 リコー・佐藤敏明氏
33.
分析をビジネスに活用するために 重要なこと •
分析の8割は基本的なスキルでカバーできる • 分析には業務知識が必須 • 「データを中心に考える」文化の醸成 • ステップを踏んで少しずつ成果を出す • コミュニケーション
34.
ありがとうございました
Download now