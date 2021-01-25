Successfully reported this slideshow.
Cassandra 介紹與實作 Orozco Hsu 2020-01-26
Agenda • Cassandra說明介紹 • Cassandra應用場景 • Cassandra環境建置 • Cassandra操作練習 • Cassandra數據引入與查詢 • Cassandra管理與監控 • Cassandra叢集建置
Cassandra說明介紹 • Cassandra為Facebook原為了應對電子郵件的查詢效能所設計出 來，結合Google Big Table與Amazon DynamoDB的資料模型與 分散式架構所設計，同於Azure CosmosDB ...
Cassandra說明介紹 • Apache Cassandra是高度可擴展的，高性能的分佈式NoSQL資 料庫 • Cassandra具有能夠處理大量數據的分佈式架構。 數據放置在具 有多個複製因子的不同機器上，以獲得高可用性，而無需擔心單 ...
Cassandra說明介紹 • Cassandra是一個columnar database
Cassandra說明介紹 • Cassandra最初由Facebook的兩名印度人Avinash Lakshman(亞 馬遜Dynamo的作者之一)和Prashant Malik共同開發 • 最新版本的Apache Cassandra是: •...
Cassandra說明介紹 • 節點(Node) • Cassandra節點是存儲數據的地方 • Cassandra使用單個節點類型 • 所有節點相等並執行所有功能 • 任何節點都可以作爲協調器，確保沒有SPOF
Cassandra說明介紹 • 提交日誌(Commit log)： • 在Cassandra中，每個寫入操作都將寫入提交日誌 • Datacenter: • 集合所有的nodes，並且為replication的基本單位 • Cluster: •...
Cassandra說明介紹 • Commit log: • 寫入的資料為了長久保存，會先被寫為commit log • 存儲表(Mem-table)： • 內存表是用於保存數據結構 • 提交日誌後，數據將被寫入內存表 • SSTable： • ...
可調整 Replication factor 和 Consistency level 滿足 C 稱為可調一致性
Cassandra說明介紹 • Cassandra查詢語言(CQL)用於通過其節點訪問Cassandra • CQL將資料庫(Keyspace)視爲表格的容器 • 程序員使用cqlsh存取資料 類似SQL的語句組成，每一行由分號 ; 結束
Cassandra說明介紹 • 當客戶端發出「讀寫請求」時，該連接會接到某個Cassandra的 節點，而這個節點被稱為本次請求的Coordinator • Coordinator的職責是作為客戶端請求和擁有資料節點之間的代 理(Proxy) ...
Cassandra說明介紹 • 讀請求 • 客戶端發出讀請求，根據replica數量與指定的「consistency level」」 確定多少個返回成功，就視為請求成功 • Coordinator會將讀請求發給回應最快的replica • 如果...
該範例為 Replication factor 值為3，Coordinator 必須等到其中2個節點回應資料，如果資料版本不 一樣， Coordinator會合併且更新；第3個replica也會於後台被檢查，確保所有replica的資料一致性
該範例為 Replication factor 值為3，Coordinator 溝通最近的replica資料；在後台，其他2台 replica也會被檢查，確保所有replica資料的一致性
該範例為雙datacenter，Replication factor值為3， Coordinator必須等待4個replica返回資料；4個 replica可以來自任意datracenter；在後台，所有的 replica都會被檢查，確保所有r...
查找所有 SSTable，將該 row key 的資料全部找出來，然後合併操作
Cassandra說明介紹 • 同樣地，Coordinator也負責寫請求；Consistency level用於指定 多少個節點返回寫入成功之後，Coordinator給客戶端返回成功
Cassandra說明介紹 • 每個節點的寫入動作，都由寫入節點的提交日誌 • 該資料將緩存於內存表中 • 當內存表已滿、存放時間超過或手動刷新時，資料將被寫入SSTable • 所有寫入在整個集羣中自動分區和複製。 Cassandra定期整合...
Compaction增加 SSTable的讀取性能，避免 讀請求時需要掃描很多個SSTable
Cassandra說明介紹 • Hinted handoff 假設 replicate factor =2，儲存節點為 A 與 C；若寫入 成功標準為 consistency level of ONE or QUORUM，此 寫操作仍成功，因為...
Cassandra說明介紹 • 萬一節點A也死掉了，那就要進行 Manual repair • RUN => 後續需要在研究 參考: https://docs.datastax.com/en/cassandra-oss/3.0/cassandr...
Cassandra應用場景 • 阿里雲欒小凡 • 我主要是基於Cassandra做了一個分佈式的存儲系統Hedvig，這個存儲 系統後來成為了很多銀行的數據備份方案；在這個過程中，我對 Cassandra也有了更深的理解以及它周邊的生態，比如用...
Cassandra應用場景 • 蔚來汽車張旭東 • 公司需要一個NoSQL數據庫來存儲大量數據。在NoSQL數據庫中，通 過一些技術文檔和benchmark了解到，相較於HBase來說Cassandra的 性能要更好一些; Cassandra從...
Cassandra應用場景 • 網龍闕乃禎 • IM、IoT、收件箱、消息記錄這樣的數據，我們都用Cassandra來存儲。 像是IM這樣比較敏感的數據或是信息流的過濾，我們需要做一些風控審 計，所以我們需要做檢索或事後分析 • 我們會用Spa...
Cassandra應用場景 • 監控 • AIOps Platforms Software products • 分析 • Cassandra + Storm(使用zookeeper)和/或Cassandra + Spark/Hadoop
Cassandra應用場景 Loom Systems IBM Netcool Operations Insight Evanios System Center Operations Manager Micro Focus Operations ...
Cassandra應用場景 參考 https://www.g2.com/categories/aiops-platforms
Cassandra環境建置 • 下載相關檔案 • Dropbox: https://www.dropbox.com/sh/v1olasmxy5c5p7p/AACcZVZYmm0EA PgN-DrwXqhta?dl=0
Cassandra環境建置 • 於 Ubuntu 下，啟用 docker Cassandra • RUN => • RUN => curl -sSL https://raw.githubusercontent.com/bitnami/bitna...
Cassandra環境建置 • 啟用 spark 環境 • 系統會自動建立名為 「cassandra_default 」的 bridge 網路 • RUN => • RUN => cd /home/orozco/cassandra_traini...
Cassandra環境建置 • 登入 container 環境 • RUN => • RUN => docker exec -it -u root bd6e09f55cc6 /bin/bash cqlsh -ucassandra -pcassa...
Cassandra操作練習 • 進入 cqlsh 查詢 CONSISTENCY • RUN => consistency;
Cassandra操作練習 • 建立Keyspace • RUN => • RUN => • RUN => CREATE KEYSPACE mytest WITH replication = {'class': 'SimpleStrategy'...
Cassandra操作練習 • 建立表格 • RUN => • RUN => • RUN => • RUN => create table student(stu_id int key, stu_name text, address text,...
Cassandra操作練習 • 寫入資料 • RUN => • RUN => insert into student(stu_id, address, contact_no, email, stu_name) values(1,'taipei'...
Cassandra操作練習 • 更新資料 • RUN => • RUN => update student set contact_no = 99999 where stu_id =1; select * from student;
Cassandra操作練習 • 刪除資料 • RUN => • RUN => delete from student where stu_id=1; truncate table student;
Cassandra操作練習 • 建立 index 欄位 • RUN => • RUN => • RUN => create index email_index on student (email); desc student; drop ind...
Cassandra操作練習 • Native type
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => alter table student add fav map<text,text>; insert into student(stu_id, ...
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => • RUN => • RUN => alter table student add tag set<text>; update student ...
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => alter table student add class list<int>; update student set class=[1,2,3...
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => • RUN => • RUN => • RUN => create type profile (no int, lane text, city ...
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => create table collect_things ( k int primary key, v<tuple<int,text,float>...
Cassandra操作練習 • 建立特殊欄位 • RUN => • RUN => • RUN => CREATE TABLE mytest.page_view_counts(counter_value counter,url_name varc...
Cassandra操作練習 • Keys • Primary key: A general concept to indicate one or more columns used to retrieve data from a Table •...
Cassandra操作練習 • Keys • The Partition Key is responsible for data distribution across your nodes • The Clustering Key is re...
Cassandra操作練習 更多參考: https://stackoverflow.com/questions/24949676/difference-between-partition-key-composite- key-and-clust...
Cassandra數據引入與查詢 • 建置測試資料 • RUN => • RUN => create table name(id uuid primary key, lastname text, firstname text); INSERT ...
Cassandra數據引入與查詢 • 匯出資料 • RUN => • RUN => • RUN => copy name (id, lastname) to '/tmp/name.csv' with header=true; quit; cat...
Cassandra數據引入與查詢 • 常見的資料存取方式 Cassandra Copy to csv Copy from csv (SQL join) (cold data) (Machine Learning)
Cassandra數據引入與查詢 • Python • 透過 python 與 pandas dataframe 直接存取 • 透過 pyspark dataframe 存取
Cassandra數據引入與查詢 • 透過 python 的方式 • 先進去 (jupyter/pyspark-notebook) 容器 • RUN => • RUN => • RUN => • RUN => • RUN => docker e...
Cassandra數據引入與查詢 • 建立 keyspace from cassandra.cluster import Cluster from cassandra.auth import PlainTextAuthProvider ap =...
Cassandra數據引入與查詢 • 查詢 • 關閉 rows = session.execute('select * from pp limit 5;') for row in rows: print(row) import pandas a...
Cassandra數據引入與查詢 • 建立表格，先進去 Cassandra 容器 • RUN => • RUN => • RUN => • RUN => • RUN => • RUN => docker exec -it 8e031c4abd3...
Cassandra數據引入與查詢 • 透過 pyspark 的方式 • RUN => • RUN => • RUN => • RUN => docker exec -it 97c01391900f /bin/bash cd /usr/local...
Cassandra數據引入與查詢 • 透過 pyspark 抓取資料 • RUN => • RUN => • RUN => spark.conf.set("spark.cassandra.connection.host", "172.23.0....
Cassandra數據引入與查詢 • 於 Cassandra 容器建立表格 • RUN => • RUN => • RUN => CREATE TABLE sensors1 ( sensor_id int, location text, gro...
Cassandra數據引入與查詢 • 透過 spark 寫入資料 • RUN => • RUN => sensors=spark.read.format("csv").option("header","true").option("spark....
Cassandra數據引入與查詢 • 透過 spark 寫入 db • RUN => • RUN => sensors.write.format("org.apache.spark.sql.cassandra").option("spark.c...
Cassandra數據引入與查詢 • 透過 spark 讀取表格 • RUN => • RUN => data_frame = spark.read.format("org.apache.spark.sql.cassandra").option...
Cassandra數據引入與查詢 • 透過 spark 進行 where • RUN => • RUN => • RUN => from pyspark.sql.functions import * data_frame1 = spark.re...
Cassandra數據引入與查詢 • 透過 spark 進行 join • RUN => • RUN => res.show() res=data_frame1.join(data_frame, data_frame1.sensor_id==d...
Cassandra數據引入與查詢 • 透過 spark 進行 map-reduce 計算 group_id 數量 • RUN => data_frame1.rdd.map(lambda r: (r.group_id,1)).reduceByKe...
Cassandra數據引入與查詢 (額外補充) • Cassandra 與 spark 容器連接，透過 link 參數可將容器互連 • Example RUN (spark) => • Example RUN (CS) => • Example...
Cassandra管理與監控 • 進入 Cassandra 容器，進入 cqlsh 環境 • RUN => • RUN => • RUN => • RUN => create user abc; alter user abc with pass...
Cassandra管理與監控 • 進入 Cassandra 環境 • RUN => • RUN => • RUN => nodetool help 參考網址: https://twgame.wordpress.com/2015/02/09/do...
Cassandra管理與監控 • 啟動 ops-center docker • RUN => docker run -e DS_LICENSE=accept -d -p 8888:8888 -p 61620:61620 --net=cassan...
Cassandra管理與監控 • 常遇到的系統管理問題 • 監控DB機器狀態 (如: CPU、RAM使用量突然飆高的問題) • 跨時區 cluster • 網路設定
Cassandra叢集建置 • 模擬建立三台實體VM VM1 VM2 VM3 IP: 192.168.159.128 CORE: 1 Mem:4GB HD: 30GB OS: CentOS7 IP: 192.168.159.129 CORE: ...
Cassandra叢集建置 • 於各台安裝 Docker 環境，並啟動 Cassandra • RUN => • RUN => • RUN => • RUN => • RUN => curl -sSL https://get.docker.co...
Cassandra叢集建置 • 於各台安裝 Docker 環境，並啟動 Cassandra • RUN => • RUN => docker run --restart=always --name cassandra-3 -d -e CASSA...
Cassandra叢集建置 • 於各節點登入，並建立資料測試 • RUN => • RUN => • RUN => • RUN on other node=> docker exec -it 2660 /bin/bash cqlsh Creat...
×