Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
今こそクラウドへ!データの移行、連携、統合のコツ
株式会社クライム
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
最新版Hadoopクラスタを運用して得られたもの
cyberagent
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Yahoo! JAPANのOracle構成-2017年版
Makoto Sato
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
1
of
14
Top clipped slide
(LT)Spark and Cassandra
Feb. 9, 2016
•
0 likes
3 likes
×
Be the first to like this
Show More
•
1,888 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Report
Technology
Apache Cassandraがリアルタイム分析でNOSQLのApache Cassandraに出会った。(2016年 Hadoop/Spark Conference Japan)
datastaxjp
Follow
Advertisement
Advertisement
Advertisement
Recommended
SparkとCassandraの美味しい関係
datastaxjp
8.9K views
•
43 slides
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
7.2K views
•
15 slides
DB Tech showcase Tokyo 2015 Works Applications
2t3
8.5K views
•
45 slides
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
7.3K views
•
53 slides
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
2.4K views
•
84 slides
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
6.5K views
•
76 slides
More Related Content
Slideshows for you
(20)
今こそクラウドへ!データの移行、連携、統合のコツ
株式会社クライム
•
798 views
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
•
6.2K views
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
•
70.6K views
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
•
3.9K views
最新版Hadoopクラスタを運用して得られたもの
cyberagent
•
5.1K views
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
•
2.4K views
Yahoo! JAPANのOracle構成-2017年版
Makoto Sato
•
4.4K views
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
•
23K views
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
•
3.2K views
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Insight Technology, Inc.
•
1.4K views
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
•
5.5K views
Hadoop概要説明
Satoshi Noto
•
31.2K views
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
オラクルエンジニア通信
•
2.8K views
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
•
26.6K views
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
•
3.7K views
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
NTT DATA OSS Professional Services
•
7.3K views
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
•
5.1K views
分散グラフデータベース DataStax Enterprise Graph
Yuki Morishita
•
2.1K views
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
•
3.6K views
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
•
2K views
Similar to (LT)Spark and Cassandra
(20)
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
Insight Technology, Inc.
•
1.6K views
Cassandra Meetup Tokyo, 2016 Spring
datastaxjp
•
1.1K views
Cassandra Meetup Tokyo, 2016 Spring
Shigeru Harasawa
•
283 views
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
•
2.6K views
AWS re:Invent2017で見た AWSの強さとは
NTT Communications Technology Development
•
1.3K views
Apache Sparkを使った感情極性分析
Tanaka Yuichi
•
2.7K views
Bluemixを使ったTwitter分析
Tanaka Yuichi
•
8.6K views
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Koichiro Sasaki
•
6.4K views
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
•
3.7K views
Guide to Cassandra for Production Deployments
smdkk
•
5K views
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Tanaka Yuichi
•
3.3K views
Datastax Enterpriseをはじめよう
Yuki Morishita
•
3K views
Accelerating AdTech on AWS #AWSAdTechJP
Eiji Shinohara
•
5.4K views
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
Insight Technology, Inc.
•
1.1K views
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Naoki (Neo) SATO
•
1K views
大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情
nagix
•
1.5K views
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
MapR Technologies Japan
•
4.6K views
Pysparkで始めるデータ分析
Tanaka Yuichi
•
6.5K views
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
•
193 views
Scalaプログラミング・マニアックス
Tomoharu ASAMI
•
6.5K views
Advertisement
More from datastaxjp
(12)
Db tech showcase 2016
datastaxjp
•
2K views
Cassandra Meetup Tokyo, 2016 Spring 2
datastaxjp
•
818 views
検索エンジンPatheeがAzureとCassandraをどう利用しているのか
datastaxjp
•
1.2K views
Cassandra v3.0 at Rakuten meet-up on 12/2/2015
datastaxjp
•
906 views
Investigation of Transactions in Cassandra
datastaxjp
•
2.1K views
Cassandra summit 2015 レポート
datastaxjp
•
819 views
Cassandra Meetup Tokyo, 2015 Summer
datastaxjp
•
582 views
Cassandra and Spark
datastaxjp
•
1.1K views
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
datastaxjp
•
1.4K views
[Cassandra summit Tokyo, 2015] Cassandra 2015 最新情報 by ジョナサン・エリス(Jonathan Ellis)
datastaxjp
•
1.2K views
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
datastaxjp
•
7.4K views
[db tech showcase Tokyo 2015] A27: RDBエンジニアの為のNOSQL, 今どうしてNOSQLなのか?
datastaxjp
•
5.9K views
Recently uploaded
(20)
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
54 views
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
108 views
JSONEncoderで詰まった話
とん とんぼ
•
65 views
社内ソフトスキルを考える
infinite_loop
•
61 views
留信网认证可查【皇家霍洛威学院文凭证书毕业证购买】
32lkhng
•
2 views
Forguncy製品概要.pptx
フォーガンシー
•
50 views
Omnis
DaisukeFujita10
•
15 views
TestSIP (1).pdf
DeependraSingh712859
•
2 views
SoftwareControl.pdf
ssusercd9928
•
15 views
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
55 views
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
175 views
SoftwareControl.pdf
ssusercd9928
•
6 views
3Dプリンタって いいね
infinite_loop
•
33 views
オレオレになりがちなテスト計画を見直した話
terahide
•
28 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
☀️【麦吉尔大学毕业证成绩单留学生首选】
15sad
•
3 views
20230602_enebular_meetup_kitazaki_v1.pdf
Ayachika Kitazaki
•
3 views
触感に関わる共感覚的表現と基本6感情の対応関係の検証
Matsushita Laboratory
•
9 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
•
13 views
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
•
12 views
Advertisement
(LT)Spark and Cassandra
©2015 DataStax Confidential.
Do not distribute without consent. 1 DataStax 原沢滋 Apache Sparkがリアルタイム分析で NOSQLのApache Cassandraに出会った。(ウルルン風) Hadoop / Spark Conference Japan 2016
Data Science at
Scale 2009
x Apache Cassandraとは 分散オペレーショナル・データベース Apache Cassandra
とは Amazon Dynamo の分散ハッシュ テーブル(DHT)と、Google BigTable のKVSの2つの特徴を併せ持つビッ グデータ用分散データベース • Amazon DynamoとGoogle Bigtableの良い点を持つ • 高速パフォーマンスとリニアな拡張 • SPOF(Single Point of Failure)がない、簡単に24時間 x 365 日ダウンさせないで運用が可能 • 完全な分散 • 柔軟なNoSQLデータモデル(スキーマーレス!) • シンプルな運用管理 • SQL ライクな言語CQLをサポートしている • 様々な無償ツールとドライバ/コネクタを持つ • 様々な整合性を選ぶ事が可能(CAP定理, BASE) +
OLTP (RDBMS)
DWH (RDBMS) Cassandra (NOSQL) OLTP (RDBMS) DWH (RDBMS) Hadoop/ Spark 分析・データベース オペレーショナル データベース 既存システム(RDB) 新システムへの要求 *データ量 *パフォマンス *柔軟性 *可用性 *値段 分析・データベース オペレーショナル データベース 既存システム(RDB) 新システム(NoSQL) 今までRDB では不可能、又は実現するのに コストが膨大にかかった領域 Cassandra(NOSQL)とHadoop/Sparkの位置付け
Spark Streaming
Near Real-‐Zme SparkSQL Structured Data MLLib Machine Learning GraphX Graph Analysis Sparkは大量データをスキャンするのが得意
CREATE TABLE raw_weather_data
(! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Cassandra は大量データを集めるのが得意です
Spark Streaming
Near Real-‐Zme SparkSQL Structured Data MLLib Machine Learning GraphX Graph Analysis Cassandra は大量データを集めるのが得意です Sparkは大量データをスキャンするのが得意
Spark Streaming
Near Real-‐Zme SparkSQL Structured Data MLLib Machine Learning GraphX Graph Analysis CREATE TABLE raw_weather_data (! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Spark Connector! Cassandra と Sparkが出会った
Spark Streaming
Near Real-‐Zme SparkSQL Structured Data MLLib Machine Learning GraphX Graph Analysis CREATE TABLE raw_weather_data (! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Spark Connector! リアルタイム 分析 オペレーショナル データ 分析結果 検索結果 分析結果 分析結果 オペレーショナルデータ Apache Spark と Apache Cassandra
Store a ton
of data Analyze a ton of data Apache Spark と Apache Cassandra 大量データをスキャンして 高速に集約、分析するのが得意 大量データをスキャンして 集約、分析するのが苦手 高速に、安全に大量のデータを 集めてくるのが得意 大量データを集めてくるのは 基本はバッチ処理 得意分野x得意分野 不得意分野を補う
Cassandraで分散された各ノードでSparkも動く 分散データを各 ノードで分析する パラレル処理 を行う事が可能 各ノードにCassandraとSpark Apache
Spark と Apache Cassandra
ETL不要!!(オペレーションと分析の分離) オペレーション オペレーショナル
環境 分析環境 双方向レプリケーション Apache Spark と Apache Cassandra
SPARK Cassandra Connector h[ps://github.com/datastax/spark-‐cassandra-‐connector
©2015 DataStax Confidential.
Do not distribute without consent. ありがとうございました! Twi[er account: @cassandrajapanで情報発信しています
Advertisement