Submit Search
Upload
データ分析基盤の憂鬱と退屈
•
0 likes
•
681 views
Shu (shoe116)
Follow
データサイエンティストも憂鬱だけど、データ基盤屋も憂鬱だ
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 10
Download now
Download to read offline
Recommended
バフェットコード(https://www.buffett-code.com/)における、データ処理の考え方をXBRLを例に話しました。
DataProcessingInBuffettCode-20190213
DataProcessingInBuffettCode-20190213
Shu (shoe116)
データサイエンティストも憂鬱だけど、データ基盤屋も憂鬱だ
データ分析基盤の憂鬱と退屈
データ分析基盤の憂鬱と退屈
Shu Suzuki
Gunosy go2015 06-02
Gunosy go2015 06-02
Yuta Kashino
Pythonデータ分析 第3回勉強会資料 7章分
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章
Makoto Kawano
内定者勉強会資料
Hadoop_startup
Hadoop_startup
Yusuke Shimizu
Rとデータベースの連携 Google Bigqueryを使ってRへのデータインポート SQLとdplyrを利用
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
Takashi Minoda
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1
Kazuya Obanayama
社内勉強会にて使用
分かった気分になるスタックトレース
分かった気分になるスタックトレース
Trash Briefing ,Ltd
Recommended
バフェットコード(https://www.buffett-code.com/)における、データ処理の考え方をXBRLを例に話しました。
DataProcessingInBuffettCode-20190213
DataProcessingInBuffettCode-20190213
Shu (shoe116)
データサイエンティストも憂鬱だけど、データ基盤屋も憂鬱だ
データ分析基盤の憂鬱と退屈
データ分析基盤の憂鬱と退屈
Shu Suzuki
Gunosy go2015 06-02
Gunosy go2015 06-02
Yuta Kashino
Pythonデータ分析 第3回勉強会資料 7章分
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章
Makoto Kawano
内定者勉強会資料
Hadoop_startup
Hadoop_startup
Yusuke Shimizu
Rとデータベースの連携 Google Bigqueryを使ってRへのデータインポート SQLとdplyrを利用
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
Takashi Minoda
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1
Kazuya Obanayama
社内勉強会にて使用
分かった気分になるスタックトレース
分かった気分になるスタックトレース
Trash Briefing ,Ltd
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
Yusuke Sato
Hadoop/Spark Conference Japan 2016のLT(ランチタイム: A会場)で話した資料になります。 http://hadoop.apache.jp/hcj2016-program/
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Yahoo!デベロッパーネットワーク
FessやElasticsearchを通して検索システムを作る際に遭遇する課題などを紹介します。
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Cassandra Summit Tokyo 2017
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Kazutaka Tomita
2019/10/27 Firebase Startup #1 @piece of cake のLT登壇資料です。Firestoreである程度大きなマスタデータが存在し、クライアントにダウンロードする必要があるときの運用方法について、FJUGの有識者の方々から知恵をいただいた内容を共有します。
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
Hirotaka Nishimiya
LastaFluteでKotlinを使うための方法を紹介します。
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
MySQLとPostgreSQLの全文検索勉強会2の資料です
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
Masahiko Sawada
本年のWebDBフォーラム2015 http://db-event.jpn.org/webdbf2015/ 技術報告セッションにおけるYahoo! JAPAN発表資料を公開します。
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Puppet
Rails勉強会でRailsにまったく関係ない話をするテロ。
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
大名古屋#4での第1回Hadoop関西勉強会の参加レポート
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
Hadoop Spark Conference 2019 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
一橋大学経済学部 #経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
Yasushi Hara
MySQLとPostgreSQLの日本語全文検索勉強会3の資料です
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
一橋大学 経済学部 #経済学のための実践的データ分析 9. オープンデータを使ってみよう - Open Linked Data - SPARQL Endpoint - RDF - Datadog
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
Yasushi Hara
RからSparkとParquetを使う話です。
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
ビッグデータとデータマート【タガヤス その2】登壇資料
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
一橋大学 経済学部 経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
リリースから2ヶ月で約5万件のメッセージが送信されたFacebookメッセージグループ送信ツール「fb-research」について
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
Masahiro Hiramitsu
大量のログデータを、より効率的に、より柔軟に扱うためのパイプラインをGCP使って作った話
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
Shu (shoe116)
Edinet, TdnetにXBRL形式で提供されるオープンデータ(有価証券報告書、決算短信)を用いた、ワンストップで効率的な企業分析を行うためのWebアプリケーション”Buffett-Code”(https://www.buffett-code.com)を有志で開発中です。 本校では 1. Buffett-Codeの開発の背景 2. 提供している機能の紹介 3. システムの概要 についてのご紹介です。 より詳細な情報については、 https://blog.buffett-code.com/entry/18/02/01 をご参照ください。 SEO: バフェット・コード バフェットコード
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
Shu (shoe116)
More Related Content
What's hot
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
Yusuke Sato
Hadoop/Spark Conference Japan 2016のLT(ランチタイム: A会場)で話した資料になります。 http://hadoop.apache.jp/hcj2016-program/
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Yahoo!デベロッパーネットワーク
FessやElasticsearchを通して検索システムを作る際に遭遇する課題などを紹介します。
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Cassandra Summit Tokyo 2017
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Kazutaka Tomita
2019/10/27 Firebase Startup #1 @piece of cake のLT登壇資料です。Firestoreである程度大きなマスタデータが存在し、クライアントにダウンロードする必要があるときの運用方法について、FJUGの有識者の方々から知恵をいただいた内容を共有します。
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
Hirotaka Nishimiya
LastaFluteでKotlinを使うための方法を紹介します。
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
MySQLとPostgreSQLの全文検索勉強会2の資料です
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
Masahiko Sawada
本年のWebDBフォーラム2015 http://db-event.jpn.org/webdbf2015/ 技術報告セッションにおけるYahoo! JAPAN発表資料を公開します。
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Puppet
Rails勉強会でRailsにまったく関係ない話をするテロ。
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
大名古屋#4での第1回Hadoop関西勉強会の参加レポート
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
Hadoop Spark Conference 2019 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
一橋大学経済学部 #経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
Yasushi Hara
MySQLとPostgreSQLの日本語全文検索勉強会3の資料です
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
一橋大学 経済学部 #経済学のための実践的データ分析 9. オープンデータを使ってみよう - Open Linked Data - SPARQL Endpoint - RDF - Datadog
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
Yasushi Hara
RからSparkとParquetを使う話です。
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
ビッグデータとデータマート【タガヤス その2】登壇資料
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
一橋大学 経済学部 経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
リリースから2ヶ月で約5万件のメッセージが送信されたFacebookメッセージグループ送信ツール「fb-research」について
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
Masahiro Hiramitsu
What's hot
(20)
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
pg_bigmと類似度検索
pg_bigmと類似度検索
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
More from Shu (shoe116)
大量のログデータを、より効率的に、より柔軟に扱うためのパイプラインをGCP使って作った話
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
Shu (shoe116)
Edinet, TdnetにXBRL形式で提供されるオープンデータ(有価証券報告書、決算短信)を用いた、ワンストップで効率的な企業分析を行うためのWebアプリケーション”Buffett-Code”(https://www.buffett-code.com)を有志で開発中です。 本校では 1. Buffett-Codeの開発の背景 2. 提供している機能の紹介 3. システムの概要 についてのご紹介です。 より詳細な情報については、 https://blog.buffett-code.com/entry/18/02/01 をご参照ください。 SEO: バフェット・コード バフェットコード
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
Shu (shoe116)
潜在的ディレクレ配分法(LDA)を用いた、経済アナリストの有用度レイティング
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
Shu (shoe116)
このブログをスライドにしたやつ http://shoe116.hatenablog.com/entry/2016/04/04/084113
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
Shu (shoe116)
AKB以降のアイドル論。 なぜアイドルは恋愛禁止なのか 元ネタ: http://shoe116.hatenablog.com/entry/2015/04/20/125540 イラスト引用:ぺろりん先生 (ベースボールガールズ) https://twitter.com/peroperorinko01
idoling_approval_desire
idoling_approval_desire
Shu (shoe116)
データサイエンティストの憂鬱と、そこから思いついて実行したデータマートプロジェクトの話。詳細は↓ http://shoe116.hatenablog.com/entry/2016/04/04/084113
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
hadoopの運用を少しでも楽にしたくてfabricしたよ! というスライド
Hadoop Ops & Fabric
Hadoop Ops & Fabric
Shu (shoe116)
「何を考えているかわかりにくい」って思われがちなエンジニアのロックンロール
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
Shu (shoe116)
More from Shu (shoe116)
(8)
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
idoling_approval_desire
idoling_approval_desire
tokyo_webmining_no51
tokyo_webmining_no51
Hadoop Ops & Fabric
Hadoop Ops & Fabric
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
Recently uploaded
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
Toru Miyahara
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
Toru Miyahara
人的資本経営[1]を実現するには,生産性とQoW(Quality of Work,働き方の質)を同時に改善し続けていくことが有効である.そのための課題は多岐に渡るため,DX(Digital Transformation)的発想が求められる。一方、情報の約60~80%が位置情報に関連していることが報告されている.本稿では,地理空間情報と他の情報とを連携させて課題解決を支援する地理空間インテリジェンス(GSI)でDXを促進し,製造現場やサービス現場で人的資本経営を支援することに資する筆者らの一連の取り組みについて紹介する.
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
Kurata Takeshi
下記の会の感想 https://kichijojipm.connpass.com/event/315276/presentation/
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
Masatsugu Matsushita
Solana Developer Hub Online #6 https://lu.ma/evx8jtpi
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
K Kinzal
スタートアップCTO経験から キャリアについて再考する DIGGLE 株式会社 取締役CTO 水上駿 こちらのイベントでの登壇資料です。 https://rosca.connpass.com/event/319175/
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
mizukami4
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Toru Miyahara
ビジュアルプログラミングIoTLT17資料です。
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
miyp
Recently uploaded
(8)
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
データ分析基盤の憂鬱と退屈
1.
データ分析基盤の憂鬱と退屈 @shoe116
2.
今日話すこと 0. whoami 1. データ分析基盤の憂鬱 1.
データ量に対してコストがスケールする 2. 顧客が本当に必要だったもの 2. データ分析基盤の退屈: 1. 結局のところ、使う側次第 2. なんかすごそうだけど、地味
3.
0. whoami なまえ:しゅう (@shoe116) お仕事:広告系エンジニア→データ分析基盤屋屋さん 推し事:ももくろ→でんぱ組→BiSH→CY8ER 関連語:hadoop,
kafka, storm, hive 最近のトピックス: 1. 転職までの無職期間(3週間)ヨーロッパふらふらした 2. バフェット・コード作った https://www.buffett-code.com/ 3. CY8ERの苺りなはむに名前覚えられた(俗に言う認知)
4.
1. データ基盤の憂鬱
5.
1.1 データ量に対してコストがスケールする - 本来、分析作業が生む価値に合わせてスケールするべき -
通常のトランザクションデータとは本質的に異なる - サービス用のデータは、その成長に対してスケール - 取得するログは無尽蔵に増やせるし増やしたくなる - ほとんどの場合、下記のすべてがスケールしてしまう - CPU/メモリ/ストレージ/ネットワーク - システムの管理コスト - 1つの処理にかかる時間 or 並列実行数
6.
1. 2 顧客が本当に必要だったもの -
「基盤」と聞くと夢が広がる - 環境的な:でかいストレージ、すごいコンピュート - 管理的な:ACL、セキュリティ、スキーマ情報 - DWH的な:分析しやすい良さげなテーブルが揃う - データサイエンティストに求められるスキルセット問題 - ビジネス力 - データササイエンス力 - データエンジニア力 - “基盤”で全部解決するの無理w
7.
1. データ基盤の退屈
8.
2.1 結局の所、使う側次第 - 分析基盤の価値は利用者個人個人に委ねられる -
環境的な:自分がやりたいことができるか - 管理的な:使いたいけど、管理はめんどくさい - DWH的な:自分にとって必要なデータの有無 - 分析基盤の性能は、使い方に大きく依存する - DBのデザインやスキーマ設計 - 圧縮アルゴリズム、ファイルフォーマット - アホなクエリはどうしたって遅い
9.
2.1 なんかすごそうだけど、地味 - 要件自体はひたすらシンプル -
漏れなくダブりなく、なる早でデータを集める - 処理効率が高く、圧縮が効く形でデータを保存 - 分析者が利用しやすい形でデータを提供する - 技術的には楽しくて仕方ないけど、地味 - チューニングで劇的に性能が左右される - 分散システム、圧縮、ソート、インデックス生成etc - 何がどうすごくなったか、なかなか伝わらない
10.
関連資料 - データサイエンティストのスキルセット - http://www.datascientist.or.jp/news/2014/pdf/1210.pdf -
データサイエンティストの憂鬱 - http://shoe116.hatenablog.com/entry/2016/04/04/084113 - バフェット・コード - https://www.buffett-code.com/ - https://github.com/BuffetCode/edinet_xbrl - CY8ERと苺りなはむ - http://icigostyle.com/ - https://twitter.com/CY8ERinfo - https://twitter.com/rinahamu
Download now