Submit Search
Upload
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
•
29 likes
•
12,858 views
Keigo Suda
Follow
Hadoop/Sparkカンファレンス2016講演資料
Read less
Read more
Internet
Report
Share
Report
Share
1 of 71
Download now
Download to read offline
Recommended
SpringFest2017の以下のセッションの資料です。 Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ http://springfest2017.springframework.jp/
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo!デベロッパーネットワーク
Spring Bootのオートコンフィグレーションの恩恵によって、開発者はコンフィグレーションの煩わしさから解放され、Springを容易に動かすことができるようになりました。その反面、ブラックボックスになってハマってしまうことも少なくありません。本セッションでは、Spring Bootのオートコンフィグレーションの仕組み・デバッグ方法・カスタマイズ方法を説明します。本セッションを聞いてオートコンフィグレーションを便利に使っていきましょう。 (Spring Fest 2021での発表資料)
怖くないSpring Bootのオートコンフィグレーション
怖くないSpring Bootのオートコンフィグレーション
土岐 孝平
MMAPv1, WiredTigerについても詳細に説明しています
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法
Tetsutaro Watanabe
エヴァンス本を読んだことがない人、ネット上の情報を聞きかじったことがある程度の人、そんな人たちを対象に、ドメイン駆動設計について、わかりやすく説明してみました。
世界でいちばんわかりやすいドメイン駆動設計
世界でいちばんわかりやすいドメイン駆動設計
増田 亨
11/1 Developers.IO 2019 Tokyo での発表資料です。
Oracleからamazon auroraへの移行にむけて
Oracleからamazon auroraへの移行にむけて
Yoichi Sai
2019/01 JSUG勉強会の資料です。 この資料でDisっているのはJPAではなく、 ・何も考えずに「標準だから」というだけでJPAを選ぶ人 ・OSSに全くコントリビュートせずにフリーライドする人 です。
Java ORマッパー選定のポイント #jsug
Java ORマッパー選定のポイント #jsug
Masatoshi Tada
JJUG CCC 2021 Spring にて講演。 2021年3月リリースのJDK 16 では、17個の JEP(JDK Enhancement Proposal)が導入されました。 JDK 16で導入された JEP 396: Strongly Encapsulate JDK Internals by Default による影響は十分に評価・準備することをお勧めします。 今回は、JEP 396での変更点やその背景を解説すると共に、アプリケーションでの評価・確認する際のポイントをご紹介します。
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
Yoshiro Tokumasu
会津大のGo勉強会で使用した資料です。
メルカリ・ソウゾウでは どうGoを活用しているのか?
メルカリ・ソウゾウでは どうGoを活用しているのか?
Takuya Ueda
Recommended
SpringFest2017の以下のセッションの資料です。 Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ http://springfest2017.springframework.jp/
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo!デベロッパーネットワーク
Spring Bootのオートコンフィグレーションの恩恵によって、開発者はコンフィグレーションの煩わしさから解放され、Springを容易に動かすことができるようになりました。その反面、ブラックボックスになってハマってしまうことも少なくありません。本セッションでは、Spring Bootのオートコンフィグレーションの仕組み・デバッグ方法・カスタマイズ方法を説明します。本セッションを聞いてオートコンフィグレーションを便利に使っていきましょう。 (Spring Fest 2021での発表資料)
怖くないSpring Bootのオートコンフィグレーション
怖くないSpring Bootのオートコンフィグレーション
土岐 孝平
MMAPv1, WiredTigerについても詳細に説明しています
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法
Tetsutaro Watanabe
エヴァンス本を読んだことがない人、ネット上の情報を聞きかじったことがある程度の人、そんな人たちを対象に、ドメイン駆動設計について、わかりやすく説明してみました。
世界でいちばんわかりやすいドメイン駆動設計
世界でいちばんわかりやすいドメイン駆動設計
増田 亨
11/1 Developers.IO 2019 Tokyo での発表資料です。
Oracleからamazon auroraへの移行にむけて
Oracleからamazon auroraへの移行にむけて
Yoichi Sai
2019/01 JSUG勉強会の資料です。 この資料でDisっているのはJPAではなく、 ・何も考えずに「標準だから」というだけでJPAを選ぶ人 ・OSSに全くコントリビュートせずにフリーライドする人 です。
Java ORマッパー選定のポイント #jsug
Java ORマッパー選定のポイント #jsug
Masatoshi Tada
JJUG CCC 2021 Spring にて講演。 2021年3月リリースのJDK 16 では、17個の JEP(JDK Enhancement Proposal)が導入されました。 JDK 16で導入された JEP 396: Strongly Encapsulate JDK Internals by Default による影響は十分に評価・準備することをお勧めします。 今回は、JEP 396での変更点やその背景を解説すると共に、アプリケーションでの評価・確認する際のポイントをご紹介します。
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
Yoshiro Tokumasu
会津大のGo勉強会で使用した資料です。
メルカリ・ソウゾウでは どうGoを活用しているのか?
メルカリ・ソウゾウでは どうGoを活用しているのか?
Takuya Ueda
ソフトバンクのAWS活用事例 Drink Meetup #2での発表資料
DatadogでAWS監視やってみた
DatadogでAWS監視やってみた
tyamane
アプリケーションの分割のアプローチ ●4つのアプローチ - ビジネスファンクション - 動詞/ユースケース - 名詞/リソース - 境界づけられたコンテキスト ● トランザクションの分割 - パイプライン化 (VETRO) - コーディネート (Saga) - 状態更新の非同期化 ( Event History - State Materialize - Domain Specific Query )
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
増田 亨
DynamoDBを設計するに当たって利用する3つの手法(GSIの多重定義、複合ソートキー、スパースインデックス)についてお話しします。
DynamoDB設計のちょっとした技
DynamoDB設計のちょっとした技
Yoichi Toyota
単なるキャッシュじゃないよ!?Infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
AdvancedTechNight
2021/11/30 第26回 Lucene/Solr勉強会 LIFULL HOME’SでのSolrの構成と運用の変遷 テクノロジー本部事業基盤ユニットプラットフォームグループ 磯野 圭輔
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL Co., Ltd.
従来のWebアプリケーションとSPAの違いに着目し、Spring Boot × Vue.jsでSPAを作る際のポイントやハマりどころを紹介します。
Spring Boot × Vue.jsでSPAを作る
Spring Boot × Vue.jsでSPAを作る
Go Miyasaka
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨ (2020年11⽉7⽇ JJUG CCC 2020 Fall 講演資料) NTTデータ 技術開発本部 先進コンピューティング技術センタ 阪⽥ 浩⼀
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
NTT DATA Technology & Innovation
社内勉強会で、JVMのGCについて調べて話した時の資料を最低限の修正を加えて公開してます。寺田さん監訳の『Javaパフォーマンス』をベースにいろいろ調べてまとめました。
JVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニング
佑哉 廣岡
データベースにおけるSaaSパーティショニングモデル、データベースエンジン毎の構成イメージ、マルチテナント化に向けた考慮点について解説しています。
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
@PHPerKaigi 2022
テストコードの DRY と DAMP
テストコードの DRY と DAMP
Yusuke Kagata
オススメのJavaログ管理手法 ~コンテナ編~ (Open Source Conference 2022 Online/Spring 発表資料) 2022年3月11日(金) NTTデータ 技術開発本部 佐藤 雄太
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
NTT DATA Technology & Innovation
CloudNative Days Spring 2021 ONLINE の登壇スライドになります 2021/3/12 17:55~18:15 Track-A
コンテナにおけるパフォーマンス調査でハマった話
コンテナにおけるパフォーマンス調査でハマった話
Yuta Shimada
より詳細なCQRSに関する資料はこちら https://little-hands.hatenablog.com/entry/2019/12/02/cqrs 参考資料:http://little-hands.hatenablog.com/entry/jjug2017fall 社内新規プロダクトでDDD, CQRSの思想をベースとしたアーキテクチャを構築し、コマンド(更新系処理)ではSpring Data JPA(Hibernate)を、クエリ(参照系処理)ではjOOQを採用しました。 結果としてそれぞれのORMの良いところを生かした組み合わせのアーキテクチャが構築できたので、その経緯と得られた知見についてお話ししたいと思います。 以下のようなトピックを考えています。 ・CQRSの定義とメリットデメリット ・DDD,CQRSを検討するにあたってのORMの選定ポイント ・構築したアーキテクチャ CQRSはDDDと切り分けて単独でも適用することができるので、DDDについてご存知ない方もご覧いただけます。日本語の文献は意外と少ないので、この辺りの分野に興味がある人の参考になれば幸いです。
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
Koichiro Matsuoka
アプリ「ニュースパス」をマイクロサービスで開発してみた泥臭い体験談です。
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
JAZUG 9 周年で発表したスライドになります。
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Shinya Yamaguchi
JJUG CCC 2019 Fall の発表資料になります。 OpenAPI Generator を使って小規模な Web API サーバーを開発したときの経験やノウハウをまとめたものです。 https://ccc2019fall.java-users.jp/ https://jjug-cfp.cfapps.io/submissions/92e3117f-d911-4674-b97b-581813cfa0dc
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
Yahoo!デベロッパーネットワーク
今こそ知りたいSpring Batch (Spring Fest 2020講演資料) 2020年12月17日 株式会社NTTデータ 公共・社会基盤事業推進部 橋本 直樹
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
Springの初心者が疑問に思ったり、おかしな使い方をしてしまいがちなところをピックアップして説明します。
これからSpringを使う開発者が知っておくべきこと
これからSpringを使う開発者が知っておくべきこと
土岐 孝平
PulsarはアメリカのYahoo! Inc. によって開発され、現在はApache Software Foundationに移管されたオープンソースのメッセージキューです。 日本のヤフーでも利用しているこのPulsarの機能や特徴をご紹介します。
ヤフー発のメッセージキュー「Pulsar」のご紹介
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
Application Load Balancer カテゴリ:ソリューションカット
Application Load Balancer
Application Load Balancer
Amazon Web Services Japan
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
Keigo Suda
An overview of Spark MLlib
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
More Related Content
What's hot
ソフトバンクのAWS活用事例 Drink Meetup #2での発表資料
DatadogでAWS監視やってみた
DatadogでAWS監視やってみた
tyamane
アプリケーションの分割のアプローチ ●4つのアプローチ - ビジネスファンクション - 動詞/ユースケース - 名詞/リソース - 境界づけられたコンテキスト ● トランザクションの分割 - パイプライン化 (VETRO) - コーディネート (Saga) - 状態更新の非同期化 ( Event History - State Materialize - Domain Specific Query )
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
増田 亨
DynamoDBを設計するに当たって利用する3つの手法(GSIの多重定義、複合ソートキー、スパースインデックス)についてお話しします。
DynamoDB設計のちょっとした技
DynamoDB設計のちょっとした技
Yoichi Toyota
単なるキャッシュじゃないよ!?Infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
AdvancedTechNight
2021/11/30 第26回 Lucene/Solr勉強会 LIFULL HOME’SでのSolrの構成と運用の変遷 テクノロジー本部事業基盤ユニットプラットフォームグループ 磯野 圭輔
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL Co., Ltd.
従来のWebアプリケーションとSPAの違いに着目し、Spring Boot × Vue.jsでSPAを作る際のポイントやハマりどころを紹介します。
Spring Boot × Vue.jsでSPAを作る
Spring Boot × Vue.jsでSPAを作る
Go Miyasaka
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨ (2020年11⽉7⽇ JJUG CCC 2020 Fall 講演資料) NTTデータ 技術開発本部 先進コンピューティング技術センタ 阪⽥ 浩⼀
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
NTT DATA Technology & Innovation
社内勉強会で、JVMのGCについて調べて話した時の資料を最低限の修正を加えて公開してます。寺田さん監訳の『Javaパフォーマンス』をベースにいろいろ調べてまとめました。
JVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニング
佑哉 廣岡
データベースにおけるSaaSパーティショニングモデル、データベースエンジン毎の構成イメージ、マルチテナント化に向けた考慮点について解説しています。
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
@PHPerKaigi 2022
テストコードの DRY と DAMP
テストコードの DRY と DAMP
Yusuke Kagata
オススメのJavaログ管理手法 ~コンテナ編~ (Open Source Conference 2022 Online/Spring 発表資料) 2022年3月11日(金) NTTデータ 技術開発本部 佐藤 雄太
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
NTT DATA Technology & Innovation
CloudNative Days Spring 2021 ONLINE の登壇スライドになります 2021/3/12 17:55~18:15 Track-A
コンテナにおけるパフォーマンス調査でハマった話
コンテナにおけるパフォーマンス調査でハマった話
Yuta Shimada
より詳細なCQRSに関する資料はこちら https://little-hands.hatenablog.com/entry/2019/12/02/cqrs 参考資料:http://little-hands.hatenablog.com/entry/jjug2017fall 社内新規プロダクトでDDD, CQRSの思想をベースとしたアーキテクチャを構築し、コマンド(更新系処理)ではSpring Data JPA(Hibernate)を、クエリ(参照系処理)ではjOOQを採用しました。 結果としてそれぞれのORMの良いところを生かした組み合わせのアーキテクチャが構築できたので、その経緯と得られた知見についてお話ししたいと思います。 以下のようなトピックを考えています。 ・CQRSの定義とメリットデメリット ・DDD,CQRSを検討するにあたってのORMの選定ポイント ・構築したアーキテクチャ CQRSはDDDと切り分けて単独でも適用することができるので、DDDについてご存知ない方もご覧いただけます。日本語の文献は意外と少ないので、この辺りの分野に興味がある人の参考になれば幸いです。
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
Koichiro Matsuoka
アプリ「ニュースパス」をマイクロサービスで開発してみた泥臭い体験談です。
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
JAZUG 9 周年で発表したスライドになります。
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Shinya Yamaguchi
JJUG CCC 2019 Fall の発表資料になります。 OpenAPI Generator を使って小規模な Web API サーバーを開発したときの経験やノウハウをまとめたものです。 https://ccc2019fall.java-users.jp/ https://jjug-cfp.cfapps.io/submissions/92e3117f-d911-4674-b97b-581813cfa0dc
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
Yahoo!デベロッパーネットワーク
今こそ知りたいSpring Batch (Spring Fest 2020講演資料) 2020年12月17日 株式会社NTTデータ 公共・社会基盤事業推進部 橋本 直樹
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
Springの初心者が疑問に思ったり、おかしな使い方をしてしまいがちなところをピックアップして説明します。
これからSpringを使う開発者が知っておくべきこと
これからSpringを使う開発者が知っておくべきこと
土岐 孝平
PulsarはアメリカのYahoo! Inc. によって開発され、現在はApache Software Foundationに移管されたオープンソースのメッセージキューです。 日本のヤフーでも利用しているこのPulsarの機能や特徴をご紹介します。
ヤフー発のメッセージキュー「Pulsar」のご紹介
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
Application Load Balancer カテゴリ:ソリューションカット
Application Load Balancer
Application Load Balancer
Amazon Web Services Japan
What's hot
(20)
DatadogでAWS監視やってみた
DatadogでAWS監視やってみた
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
DynamoDB設計のちょっとした技
DynamoDB設計のちょっとした技
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
Spring Boot × Vue.jsでSPAを作る
Spring Boot × Vue.jsでSPAを作る
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
Javaコードが速く実⾏される秘密 - JITコンパイラ⼊⾨(JJUG CCC 2020 Fall講演資料)
JVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニング
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
テストコードの DRY と DAMP
テストコードの DRY と DAMP
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
コンテナにおけるパフォーマンス調査でハマった話
コンテナにおけるパフォーマンス調査でハマった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
これからSpringを使う開発者が知っておくべきこと
これからSpringを使う開発者が知っておくべきこと
ヤフー発のメッセージキュー「Pulsar」のご紹介
ヤフー発のメッセージキュー「Pulsar」のご紹介
Application Load Balancer
Application Load Balancer
Viewers also liked
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
Keigo Suda
An overview of Spark MLlib
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
https://career.levtech.jp/hikalab/event/detail/79/ 発表資料
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
Hiroki Takeda
SparkSQL and Hive on Tez, LLAP Benchmark
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Hadoop Conference Japan 2016 の発表資料 前半のCloudera嶋内さん発表パートはこちら http://www.slideshare.net/Cloudera_jp/hcj2016-hadoopetl-20160208
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Makoto SHIMURA
Hadoop / Spark Conference Japan 2016 キーノート講演資料 『Spark 2.0 What's Next』 Reynold Xin (databricks) ▼イベントページ http://hadoop.apache.jp/hcj2016-program/ http://hcj2016.eventbrite.com/
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
The architecture around Hadoop based on Cloud services in Treasure Data.
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
Kai Sasaki
20161119 lt
20161119 lt
20161119 lt
aiko sato
未来太郎と未来花子
未来太郎と未来花子
未来太郎と未来花子
ming li
Abstract of Spark CL
Spark CL
Spark CL
力世 山本
Q学習を用いてロボットにボールを運ぶ行動を学習させてみました。資料では学習の概要を説明しています。動画に飛べない方は、こちら https://youtu.be/7fUrinWahZs
AI(強化学習)でロボットに学習させてみた
AI(強化学習)でロボットに学習させてみた
akmtt
2016/2/9に実施されたHadoop Conference Japan 2016でのセッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」のセッション資料です
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
Future_Lt20160810
Future_Lt20160810
Future_Lt20160810
Yosuke Tanaka
■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日本Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
社内LT用
ログモニタリングツールを自作した話
ログモニタリングツールを自作した話
Hiroki Takeda
http://www.zusaar.com/event/17397003
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Yahoo!デベロッパーネットワーク
■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
もう1つのHadoop Summit
Awsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩み
Keigo Suda
現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-20809016328
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
Viewers also liked
(20)
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
20161119 lt
20161119 lt
未来太郎と未来花子
未来太郎と未来花子
Spark CL
Spark CL
AI(強化学習)でロボットに学習させてみた
AI(強化学習)でロボットに学習させてみた
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Future_Lt20160810
Future_Lt20160810
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
ログモニタリングツールを自作した話
ログモニタリングツールを自作した話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Awsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩み
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Similar to 基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
第2回Tokyo Apache Drill Meetup LT
Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)
Keigo Suda
Drupal Business Consortium in Japan, First presentatiion. All Japanese.
Drupal business consortiam in Japan:DBCJ 20140909
Drupal business consortiam in Japan:DBCJ 20140909
Hidekazu Ikeda
スカイディスクでは2017年からメイン言語として、Hack/HHVMを採用しました。 Hack/HHVM, Golang, Pythonの3つを適材適所で利用します。 ・Pythonで開発してきた会社がなぜHack/HHVMに切り替えを行ったのか。 ・どうしてPHP7ではなくHack/HHVMなのか。 ・Hack/HHVMの最新事情はどうなっているのか。 等について発表します。
Hack/HHVMの最新事情とメイン言語に採用した理由
Hack/HHVMの最新事情とメイン言語に採用した理由
Yuji Otani
NSStudy #8 (7/6) 発表資料 http://nsstudy.connpass.com/event/33209/
Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方
Tadayoshi Sato
DXと名の付くプロジェクトで忘れてはならないこと〜匠Methodによるビジネスデザインの本質~ DX(デジタルトランスフォーメーション)を掲げたプロジェクトや組織が大流行していますが、これは正にコロナ禍において世の中やビジネスの変革期到来の証と言えるでしょう。 2021年6月30日19時より「DXプロジェクトに求められる企画力」というタイトルで、講演と佐藤 治夫さん、田中 豊久さんと対談をさせていただいた下記のBPStudyでの私が担当する講演パートでお話しした内容です。
DXと名の付くプロジェクトで忘れてはならないこと
DXと名の付くプロジェクトで忘れてはならないこと
Hagimoto Junzo
2015/10/14 Hortonworks社主催イベントでの、石川の講演資料になります
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
Recruit Technologies
2012/04/29鹿駆動勉強会の青江発表分の資料です
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
Takashi Aoe
Drupal current state of the Japanese market in 2016
Drupal Market in Japan @ 「DrupalCon 2016 New Orleans」情報交換会
Drupal Market in Japan @ 「DrupalCon 2016 New Orleans」情報交換会
Hidekazu Ikeda
バックエンドエンジニアが調べるヘッドレスCMS
ヘッドレスCMS調査 Strapiを試してみた
ヘッドレスCMS調査 Strapiを試してみた
SosukeYamada
日本市場の SI企業が Drupal を使う場合の Tips
Drupal si 20160704
Drupal si 20160704
Hidekazu Ikeda
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは DSX x IAE x Object Storage でデータ基盤を構築しよう
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
Kimihiko Kitase
B 6-3 jsls15-startup-shibata
B 6-3 jsls15-startup-shibata
chenree3
B 6-3 jsls15-startup-shibata
B 6-3 jsls15-startup-shibata
softlayerjp
ビジネスマン向けの Drupal 説明 本当の超高速開発
Bussiness man drupal_20160704
Bussiness man drupal_20160704
Hidekazu Ikeda
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
日本マイクロソフト様主催のイベント「リアルタイムデータ分析の最新動向と取り組み方」にて登壇させていただきました。 https://www.microsoftevents.com/profile/3210203
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
yuji suzuki
デザインガイア2016@立命館大学大阪いばらぎキャンパスでのRECONF研 招待講演
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
Kenichiro MITSUDA
BASEのアーキテクチャを育てる BASE Tech Talk#2 〜2022年にBASEへ入社したエンジニアが語る技術的チャレンジ〜
BASEのアーキテクチャを育てる - 20221213 BASE Tech Talk
BASEのアーキテクチャを育てる - 20221213 BASE Tech Talk
Tadashi Matsuda
2021年2月18~19日に開催されたDevelopers Summit 2021の講演スライドです。 https://event.shoeisha.jp/devsumi/20210218/session/3072
社会のコードを、書き換えよう~エンジニア起点のNew Normalな働き方~
社会のコードを、書き換えよう~エンジニア起点のNew Normalな働き方~
Hitachi, Ltd. OSS Solution Center.
kintone cafe 仙台 V.10
I love SQL の僕がkintone のデータにSQLアクセスできる 製品をリリースするまでの道のり
I love SQL の僕がkintone のデータにSQLアクセスできる 製品をリリースするまでの道のり
CData Software Japan
Similar to 基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
(20)
Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)
Drupal business consortiam in Japan:DBCJ 20140909
Drupal business consortiam in Japan:DBCJ 20140909
Hack/HHVMの最新事情とメイン言語に採用した理由
Hack/HHVMの最新事情とメイン言語に採用した理由
Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方
DXと名の付くプロジェクトで忘れてはならないこと
DXと名の付くプロジェクトで忘れてはならないこと
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
Drupal Market in Japan @ 「DrupalCon 2016 New Orleans」情報交換会
Drupal Market in Japan @ 「DrupalCon 2016 New Orleans」情報交換会
ヘッドレスCMS調査 Strapiを試してみた
ヘッドレスCMS調査 Strapiを試してみた
Drupal si 20160704
Drupal si 20160704
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
B 6-3 jsls15-startup-shibata
B 6-3 jsls15-startup-shibata
B 6-3 jsls15-startup-shibata
B 6-3 jsls15-startup-shibata
Bussiness man drupal_20160704
Bussiness man drupal_20160704
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
BASEのアーキテクチャを育てる - 20221213 BASE Tech Talk
BASEのアーキテクチャを育てる - 20221213 BASE Tech Talk
社会のコードを、書き換えよう~エンジニア起点のNew Normalな働き方~
社会のコードを、書き換えよう~エンジニア起点のNew Normalな働き方~
I love SQL の僕がkintone のデータにSQLアクセスできる 製品をリリースするまでの道のり
I love SQL の僕がkintone のデータにSQLアクセスできる 製品をリリースするまでの道のり
More from Keigo Suda
GoCon 2017 Autumn
20171105 go con2017_lt
20171105 go con2017_lt
Keigo Suda
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
Keigo Suda
Apache Kafka Meetup Japan #2
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
Keigo Suda
D&S Data Night vol.04
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Keigo Suda
2016/12/12 BigData-JAWS 勉強会第4回目
基幹業務もHadoop(EMR)で!!のその後
基幹業務もHadoop(EMR)で!!のその後
Keigo Suda
第1回社内LT大会
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
Keigo Suda
More from Keigo Suda
(6)
20171105 go con2017_lt
20171105 go con2017_lt
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
基幹業務もHadoop(EMR)で!!のその後
基幹業務もHadoop(EMR)で!!のその後
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
1.
基幹業務もHadoopで!! Hadoop / Spark
Conference 2016 Future Architect Keigo Suda ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて
2.
本発表を通してお伝えしたいこと Enterprise 基幹領域でのHadoop活用シーンへのヒント どういった課題をクリアするために? どんなことを検討/対応する必要がある? ※資料は後ほど公開致します
3.
目に焼き付けておきなさい。 Hadoopを使うってそういうことよ (綺麗なことばかりじゃないのよ)
4.
自己紹介 * 須田 桂伍(2012年入社) *
Technology Innovation Group シニアコンサルタント * インフラエンジニア~ソフトウェアアーキテクト * 最近はビッグデータ領域(情報系~基幹系)どっぷり 最近はQiita記事に技術ネタ投稿してます 直近の生きる目標(人生のマイルストン)
5.
Outline Introduction Architecture Team Development Conclusion
6.
Our Company
7.
フューチャーアーキテクト株式会社 (英文表記:Future Architect, Inc.) 設
立 上 場 資 本 金 代 表 者 売 上 高 社 員 数 オフィス : 1989年11月28日 : 2002年6月 東証1部 : 14億21百万円 : 代表取締役会長 CEO 金丸 恭文 : 連結344億24百万円、単体197億27百万円 (2014年12月期) : 連結1,587名、単体783名 (2014年12月末日現在) : 大崎 (本社)、大阪、鹿児島、福岡
8.
9.
10.
11.
Introduction
12.
店舗発注業務のセンター化 発注時に利用するマスタ作成をセンタ集約 店舗毎に行われていたマスタデータ作成処理を集約 店舗からはAPI経由でマスタデータを参照
13.
店舗発注業務の裏側 ローソン全業務で利用されるマスタデータを 日次バッチで最新化 1 最新化された全業務マスタデータの更新差分を 各店舗へファイル連携 店舗へ更新分データのファイル連携 2 本部センター ファイル 連携基盤 ストアコンピュータ データ反映 発注端末 商品を発注 しますね 更新データ 全業務マスタデータ 日次バッチ処理 最新化 1 2
3 4 全業務マスタデータの最新化処理 連携されたファイルデータを各店舗にある ストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施 発注時の商品データ参照4 更新分データのDB反映処理
14.
店舗発注業務の裏側 ローソン全業務で利用されるマスタデータを 日次バッチで最新化 1 最新化された全業務マスタデータの更新差分を 各店舗へファイル連携 店舗へ更新分データのファイル連携 2 本部センター ファイル 連携基盤 ストアコンピュータ データ反映 発注端末 商品を発注 しますね 更新データ 全業務マスタデータ 日次バッチ処理 最新化 1 2
3 4 全業務マスタデータの最新化処理 連携されたファイルデータを各店舗にある ストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施 発注時の商品データ参照4 更新分データのDB反映処理 これまでは処理負荷を 各店舗に分散していたイメージ
15.
機能のセンター集約 店舗DB 発注業務 データ参照 加工処理 加工処理取込処理 取込処理 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 API API
API API API API API 全店舗分の発注業務に利用する マスタデータをバッチ処理(日次)で作成 全業務マスタDBから店舗毎に必要な マスタデータの更新差分をファイルで連携 これまで店舗毎に配信されていた 全店舗分の更新差分ファイルを連携 受信用DB 公開用DB 1. 全業務マスタDBから各店舗へ更新差分ファイルを配信 2. 店舗毎にDBへ差分反映後、発注利用マスタデータを作成 3. 作成されたマスタデータは発注業務時に発注端末から参照 1. 全業務マスタDBから全店舗分の更新差分ファイルを配信 2. 受信用DBへ差分反映後、全店舗分の発注利用マスタデータを作成 3. 作成されたマスタデータはREST APIで公開し、発注端末より参照 データ参照 発注業務 Before After
16.
しかしその壁も高い・・・ 店舗数増加への考慮 ピーク時の処理多重度 限られたバッチウィンドウ膨大なレコード件数
17.
18.
18 20% 80% 全店舗分の処理ピークが重なる
19.
19 発注商品マスタ ~10億レコード PLUマスタ ~7億レコード 商品マスタ ~5億 約70マスタテーブル(数十億レコード)
20.
~1.5時間 店舗へのデータ公開バッチ処理開始 約4時間 リラン
21.
22.
23.
Distributed Architecture?
24.
Get Really Excited @
Midnight
25.
26.
Volume Complexity Small Medium ~ Specially Complex Simple Complex ~ Enterprise Web Complex
Business Logic データ観点でざくっと考えてみる(私見) Very Large
27.
Contains Business Logic… Much Various
28.
データ観点でざくっと考えてみる(私見) Volume Complexity Very Large Specially Complex Simple Complex ~Complex
Business Logic Large Web
29.
機能のセンター集約 店舗DB 発注業務 データ参照 加工処理 加工処理取込処理 取込処理 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 発注 端末 API API
API API API API API 全店舗分の発注業務に利用する マスタデータをバッチ処理(日次)で作成 全業務マスタDBから店舗毎に必要な マスタデータの更新差分をファイルで連携 これまで店舗毎に配信されていた 全店舗分の更新差分ファイルを連携 受信用DB 公開用DB 1. 全業務マスタDBから各店舗へ更新差分ファイルを配信 2. 店舗毎にDBへ差分反映後、発注利用マスタデータを作成 3. 作成されたマスタデータは発注業務時に発注端末から参照 1. 全業務マスタDBから全店舗分の更新差分ファイルを配信 2. 受信用DBへ差分反映後、全店舗分の発注利用マスタデータを作成 3. 作成されたマスタデータはREST APIで公開し、発注端末より参照 データ参照 発注業務 Before After
30.
31.
候補サービス EMR Redshift RDS (AmazonEMR)
32.
アーキテクチャ案 WITH EMR WITH Redshift WITH
RDS 取込フェーズ 加工フェーズ 参照フェーズ Data Imort Data Export SQL Batch MapReduce Storede Procedure & SQL Batch Data Imort Data Export
33.
ざっと比較してみる EMR 分散処理による高スループット アーキテクチャ Redshift RDS(MySQL) ノード追加によるリソース拡張 豊富なHadoopエコシステム システム拡張性 耐障害性 (ノード障害時) 処理特性 費用調整 コアノード障害ならば処理継続可能 分散処理による高スループット アーキテクチャ ノード追加によるリソース拡張 同時実行クエリ数の制約 コスト面で大量ノードで組めないので 1台失った時のインパクトでかい 更新処理がマスタサーバに集中 リードレプリカにより参照処理のみ スケール可能 マスター障害時はスレーブのマス タ昇格まで処理受付不可 コアノードのインスタンスタイプが 豊富&台数による微調整が可能 インスタンスタイプが少ない&台数に よる微調整が難しい そもそも参照しかスケールしないし な・・・
34.
ざっと比較してみる EMR 分散処理による高スループット アーキテクチャ Redshift RDS(MySQL) ノード追加によるリソース拡張 豊富なHadoopエコシステム システム拡張性 耐障害性 (ノード障害時) 処理特性 費用調整 コアノード障害ならば処理継続可能 分散処理による高スループット アーキテクチャ ノード追加によるリソース拡張 同時実行クエリ数の制約 更新処理がマスタサーバに集中 リードレプリカにより参照処理のみ スケール可能 マスター障害時はスレーブのマス タ昇格まで処理受付不可 コアノードのインスタンスタイプが 豊富&台数による微調整が可能 インスタンスタイプが少ない&台数に よる微調整が難しい そもそも参照しかスケールしないし な・・・ コスト面で大量ノードで組めないので 1台失った時のインパクトでかい
35.
やってみた
36.
36 20% 80% 全店舗分の処理ピークが重なる
37.
37 発注商品マスタ ~10億レコード PLUマスタ ~7億レコード 商品マスタ ~5億 約70マスタテーブル(数十億レコード)
38.
やってみた クラスタへのデータロード マスタデータ作成 インポート (全件) SQLバッチ(HiveQL) クラスタからのデータオフロード 平均:約60分 平均:約16分平均:約16分 平均:約90分 コアノード:~30台 エクスポート (全件)
39.
やってみた
40.
Architecture Overview
41.
アーキテクチャ全体像 全業務 マスタDB EMRクラスタ受信用DB ファイル連携用 バケット ファイル取込 サーバ SQLバッチ(HiveQL) 公開用DB APIサーバ 過去データ蓄積用 バケット アップロード 画像データ REST API ・・・ バイナリ配置用 バケット バイナリデータはS3パスを 返却し直接取得させる 発注端末 発注端末
42.
3フェーズアーキテクチャ EMRはあくまで処理エンジン!! 得意な処理に専念させるための役割分担と機能配置 データ永続化層 データ整合性の担保 前処理の実施 データは永続化させない データ加工に専念 データ永続化層 データ公開/参照 受信用DB 公開用DBEMRクラスタ
43.
Processing
44.
アーキテクチャ全体像 全業務 マスタDB EMRクラスタ受信用DB ファイル連携用 バケット ファイル取込 サーバ SQLバッチ(HiveQL) 公開用DB APIサーバ 過去データ蓄積用 バケット アップロード 画像データ REST API ・・・ バイナリ配置用 バケット バイナリデータはS3パスを 返却し直接取得させる 発注端末 発注端末
45.
加工処理の設計ポイント クラスタ構成 様々な更新処理 処理の分散設計 処理リラン ワークフロー
46.
46 20% 80% 全店舗分の処理ピークが重なる クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー
47.
47 20% 80% 全店舗分の処理ピークが重なる ピーク時用クラスタ 常時用クラスタ クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー
48.
クラスタ構成 常時処理 ピーク時処理 UPSERT INSERT クラスタ起動 クラスタ停止 対象テーブルを 差分更新 対象テーブルを 洗い替え(日付断面) クラスタ構成 様々な更新処理
処理の分散設計 処理リラン ワークフロー 受信用DB 公開用DBEMRクラスタ受信用DB 公開用DB EMRクラスタ
49.
49 20% 80% 全店舗分の処理ピークが重なる ピーク時用クラスタ 常時用クラスタ クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー
50.
様々な更新処理 更新サーバ 常時用クラスタ テーブル全体の部分 更新が必要な処理を担当 ピンポイントな 更新処理を担当 対象データ種の ファイルが到着/反映 クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー 公開用DB 受信用DB より速い反映が必要なデータ更新を担当
51.
処理の分散設計 マスタ作成の処理粒度をどう調整するか どの粒度でマスタ作成処理(HiveQL)を並列に走らせるか 店舗毎に いっぺんにドーン 複数店舗をまとまりにして いっぺんにドーン 全店舗分を いっぺんにドーン ・・・ ・・・ クラスタ構成 様々な更新処理
処理の分散設計 処理リラン ワークフロー
52.
処理の分散設計 店舗毎に いっぺんにドーン 複数店舗をまとまりにして いっぺんにドーン 全店舗分を いっぺんにドーン ・・・ ・・・ リソース不足 リソース不足
スループット抜群 クラスタ構成 様々な更新処理 処理の分散設計 処理リラン ワークフロー マスタ作成の処理粒度をどう調整するか どの粒度でマスタ作成処理(HiveQL)を並列に走らせるか
53.
処理の分散設計 マスタA 分割後 マスタA 分割後 マスタA 分割後 マスタA ・・・ マスタB 分割後 マスタB 分割後 マスタB 分割後 マスタB 発注商品 マスタ 発注商品 マスタ 発注商品 マスタ 発注商品 マスタ マスタA マスタB ・・・・・・ SQL SQL SQL SQL SQL SQL 発注商品 マスタ 発注商品 マスタ 店舗コードを もとにハッシュ分散 500店舗単位で 分割され後続に続く クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー ・・・ ・・・ 全店舗分 500店舗単位 公開用DBEMRクラスタ受信用DB
54.
店舗コードによる振分&パーティショニング ・・・ 500店舗毎に36分割 ハッシュ分散UDF クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー
55.
店舗コードによる振分&パーティショニング ・・・ ハッシュ分散UDF 店舗コードでのパーティショニング (Dynamic Partitioning) クラスタ構成
様々な更新処理 処理の分散設計 処理リラン ワークフロー 500店舗毎に36分割 1つのテーブルにハッシュで散った 複数店舗分のデータが入っている 結合時には必ず店舗コードが必要
56.
処理リラン インポート (全件) SQLバッチ(HiveQL) エクスポート (全件) リトライ/リカバリ リトライ/リカバリ リトライ/リカバリ ・・・ ワーク1
ワークN アウトプットインプット HiveQL 各処理単位で冪等にさせる マスタ作成処理も割り切って頭からリカバリできる設計 リトライ/リカバリ クラスタ構成 様々な更新処理 処理の分散設計 処理リラン ワークフロー 公開用DB受信用DB 1マスタ作成処理=1SQLファイル 中間ワークの状態管理はしない
57.
ワークフロー 処理命令はSDK経由で実行 EMRのStepではあくまでクラスタのプロビジョニング(Chefで実行)にのみに特化 コア マスター ・・・ 処理実行 スクリプト HiveQL 実行スクリプト HiveQL ワークフローサーバ コア コア コア SDK
hive -f ${HIVEQL_FILE} ¥ --hivevar PG_ID=${PG_ID} ¥ --hivevar VERSION_YMD=${VERSION_YMD} ¥ --hivevar TEMPO_GROUP_CD=${TEMPO_GROUP_CD} ¥ >> ${LOG_FILE} 2>1 クラスタ構成 様々な更新処理 処理の分散設計 処理リラン ワークフロー
58.
おまけ:Sqoopではまった話 MySQLへのダイレクトエクスポートで日本語が文字化け クラスタ構成 様々な更新処理 処理の分散設計
処理リラン ワークフロー こらっ(^ ^)
59.
Team Development
60.
いつも通りの開発を!! 開発者にミドルウェア(Hadoop)の存在を意識させない仕組みづくり チーム開発ですっごく考えたこと どう品質をどう担保するか どう開発生産性をあげるか * RDBでの開発に慣れたエンジニアでもいつも通りの開発ができる * Hadoop/Hiveのクセを意識せずに開発ができる *
HiveQLの品質担保をいかに効率的に実施していくか * Hiveのチェック制約の弱さをどのようにカバーするか
61.
チーム開発の全体像 起動時に開発DB からデータをステップ でインポート コーディングはHue エディタにて実施 HiveQLは単体テスト &回帰テストを実施 コーディング規約をも とした開発/レビュー 開発者
62.
チーム開発の全体像 起動時に開発DB からデータをステップ でインポート コーディングはHue エディタにて実施 HiveQLは単体テスト &回帰テストを実施 コーディング規約をも とした開発/レビュー 開発者
63.
Hiveでのコーディング MapReduceを意識させない規約づくり 開発者間の品質のばらつきを押さえるべく、ポイントは規約化
64.
HiveのユニットテストとCI Hiveだってしっかりテストしなきゃ!! HiveQL Test PG Input Data Output
Data 回 帰開 発 日次で定期実行 エクセルでテストデータを 管理しながらのコーディング Hiveのチェック制約機能の弱さを頻繁なテストでフォロー
65.
Hiveリソースによる区分・定数管理 区分値/定数管理もHiveで!! 設計書を正とした管理(納品資料駆動開発!!) 区分/定数管理表 hiverc HiveQL
66.
パラメータも同様に管理 区分/定数管理表 hiverc Hiveパラメータ&UDF登録もエクセルで! 下回りの設定も設計書を正とした管理(Infrastructure as
納品資料!!)
67.
Need More Consideration
68.
今後より検討が必要なポイント クラスタ起動 Blue Green クラスタのメンテをどうするか 発注商品マスタ 作成ジョブ 優先的に処理をさせたい リソーススケジューリングどうしよ EMRのレイヤでどう対応できるかがポイント クラスタのメンテや業務の重要度に応じたリソーススケジューリング
69.
Conclusion
70.
まとめ:基幹領域の適用シーンをもう一度考える 基幹領域だからといってHadoopを避ける理由はない(選択肢はRDBだけじゃない) 全てをHadoopで置き換えるのではなく、まずは重たいバッチ処理を部分的に切り出すよ うなはじめ方でノウハウをためるのがいいかも
Hadoop(HDFS)をベースとしてエコシステムは進化しているので、導入したHadoop基 盤をベースに様々なワークロードに対応可能 Enterprise
Download now