SlideShare a Scribd company logo
淺談大數據平台安全現況
Introduction to
Big Data Platform Security
Jazz Yao Tsung Wang
<http://about.me/jazzwang>
2016/7/12 1CSA Summit 2016
About Me
• 王耀聰 Jazz Wang
• 資安門外漢 /交大電控碩士
• 前 Etu Manager 產品協理
• 現任 TenMax Data Architect
• Hadoop.TW 共同創辦人
• HadoopCon 社群年會總召
• Hadoop The Definitive Guide 譯者
• Hadoop Operations 譯者
• 自由軟體愛好者 / 推廣者 / 開發者
• http://about.me/jazzwang - slideshare, github, etc.
2016/7/12 2CSA Summit 2016
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 3CSA Summit 2016
Gartner Hype Cycle 2014
2016/7/12 CSA Summit 2016 4
萌芽期 夢幻期 幻滅期 平原期 高原期
Cloud Computing
Big Data
Internet of Things
Gartner Hype Cycle 2015
2016/7/12 CSA Summit 2016 5
萌芽期 夢幻期 幻滅期 平原期 高原期
“ Hybrid ’’
Cloud Computing
Internet of Things
VR
AR
Big Data 退燒 畢業了!!
隱身進入以下領域:
• Internet of Things ( 物聯網 )
• Business Intelligence and Analytics ( 商業智慧 )
• Enterprise Architecture
• Web-Scale IT
• Digital Banking Transformation ( 數位金融 )
• Utility Industry IT
• CRM Customer Service and Customer Engagement
• CRM Marketing Applications
• Digital Commerce ( 電子商務 )
6
導入 Big Data 到底是想要?還是需要?
2016/7/12 CSA Summit 2016 7
Open Data資料集
分析資料的合法性
資料鑑價?
個資法
商業模式
金礦
開採權
含金度
提煉廠 分析平台與工具軟體 SMAQ
開採成本 總擁有成本 軟硬體投資
國際金價 提供給客戶的價值 產品通路






2016 年剛好是”跨越鴻溝”的時間點
2016/7/12 CSA Summit 2016 8
企業導入 Big Data 的四個階段
2016/7/12 CSA Summit 2016 9
專案規劃
大數據
平台建置
大數據
平台資安
大數據
品質管制
台灣只有極少數
創新者在這個位置
Innovators
台灣開始有一些追隨者在這個位置
Early Majority
但往往問題是“剛開始蒐集數據”或
”剛開始思考如何讓數據產生價值”
台灣只有少數
先行者在這個位置
Early Adopters
今天談大數據平台資安只是
預告後面的路還很崎嶇…..
Big Data 專案規劃的六頂思考帽
• 問題一:組織想要解決什麼商業問題 ?? ( Value )
可以用資料解決嗎 ?? ( 降低成本 or 增加收益 )
• 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料??
該如何獲得 ?? 有哪些型態 ?? ( Variety )
• 問題三:分析這些資料是否合乎法規需求 ??
有無需要事先聲明的保護條款 ?? ( Legality )
• 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ??
需要多少資料才能找到答案 ?? ( Volume , Veracity )
• 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術
定義多快找到答案才能解決商業問題 ( Velocity )
• 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? )
持續改善的時程藍圖 ( Validation , Roadmap )
2016/7/12 CSA Summit 2016 10
專案規劃
大數據平台建置的三個面向
2016/7/12 CSA Summit 2016 11
影片
自訂
Flume
HDFS
Map
Reduce
Hive
(Cold)
Mobile
App
照片
錄音
日誌檔 Log
網頁 HTML
交換檔
XML, Json
syslog
FTP
Scribe
Fluentd HBase
File Input /
Output
Format
FS
Shell
Web
HDFS
Thrift
Java
API
Pig
Mahout
Oozie
Impala
(Warm)
Sqoop
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
變
行動
Engineer
(電機)
Network
(網通)
System
Admin
DBA
(資管)
Programmer
(資工)
Analyst
(統計)
Decision
Maker
企業內部的人力資源盤點 People
處理巨量資料的常見流程 Process
處理巨量資料的技術盤點 Technology



大數據
平台建置
如果您對以上內容有興趣…
2016/7/12 CSA Summit 2016 12
http://www.ithome.com.tw/news/101577
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 13CSA Summit 2016
大數據
平台資安
高可用性 High Availability (HA)
CDH 4.7 CDH 5.2 CDH 5.3 CDH 5.4 CDH 5.7
文件日期 2014/12 2015/9 2015/10 2015/11 2016/06
管理者介面 ClouderaManager V V
金鑰管理 Key Trustee KMS V
稽核者介面
Cloudera Navigator
Key Trustee Server
V V
使用者介面 Hue V V
查詢引擎 Llama / Impala V V V 沒寫?
ODBC 接口 HiveServer2 V
Schema Hive Metastore V V V V
工作流程 Oozie V V V V
索引引擎 Solr ( Search ) V V V V
運算引擎 MRv1 / YARN V V V V V
快速查表 HBase V V V V
儲存層 HDFS V V V V V
2016/7/12 CSA Summit 2016 14
• 架一座 Big Data Platform 的叢集,其實同時買了很多不同功能的元件!
• 國際大廠對於各元件高可用性的支援還持續隨著時間,正在慢慢增加中
高可用性 High Availability (HA)
• 現狀:
• 大數據平台的賣點是划算--分散儲存、分散運算、平行查詢一次購足
• 缺點是潛藏的維運成本 -- 請不要過度期待高可用性的支援是完整的!
( 10 歲的童工 vs 38 歲的老員工,成本不同,強項不同,互補非取代 )
• 分散式系統難解的耦合性:
如果您想要支援 AAA 與 Encryption 就會隨之增加高可用性的挑戰!
• 建議:
• 麻煩先根據組織的需求,由需求往回推估最小功能元件集合
• 再根據最小功能元件集合,逐一驗證每個元件的高可用性支援程度
• 寧可分階段依商務問題的急迫性,逐一增加元件的複雜度;
千萬別想一次到位,所有功能元件都想馬上用得上。
2016/7/12 CSA Summit 2016 15
注意!! 並不是所有角色都可以跑兩個
• 以下角色,一座叢集只能跑一個!
• HDFS Balancer
• YARN JobHistory Server
• Impala StateStored
• Impala Catalog Server
• Spark History Server
• 真的不幸那台掛掉,只好手動進管理介面改派給別台!!
(或者寫好自動化隔離腳本靠 API 來達成)
(謎之音:前提是管理介面還活著!或許這就是為何基本
軟體授權最低台數從5台漲到 10 台,就是要把服務拆散)
2016/7/12 CSA Summit 2016 16
災害復原 Disaster Recovery (DR)
• 高可用性是用在臨時有一台機器暫時故障(還有救)的時候
• 災害復原是用在臨時有一台機器完全救不回來的時候
• 現況:複雜的 State Machine !!
• HDFS 靠 Journal Node 所以可以從另外兩台救回
• MRv1/YARN 因為狀態存在 HDFS 所以裝一台新的也沒關係
• HBase 因為狀態存在 HDFS 所以重裝一台也沒關係
• 但其他的呢?? Hive Metastore 背後的資料庫 ??
Cloudera Manager 背後的資料庫?? Oozie 的 Metastore ??
• 建議:
• 有關聯式資料庫的地方儘量維持兩台 Active-Standby 或 A-A 副本
• 裝機後至少做一次全系統備份(把當時的狀態存起來)
• 行有餘力,別忘了做遞增備份
2016/7/12 CSA Summit 2016 17
災害復原 Disaster Recovery (DR)
• 本錢夠粗的可以考慮 異地備援 ( 架兩座叢集做同步 )
• 一些解決方案:
• Cloudera Backup and Disaster Recovery ( BDR )
• 把 HDP 備份到 Azure
• BDR 主要備份的對象是
• Metastore (有用到外部關聯式資料庫的部分)
• HDFS 的內容
2016/7/12 CSA Summit 2016 18
https://0x0fff.com/hadoop-cluster-backup/
Hadoop 剛滿十歲,後繼者還在追趕進度
• Hadoop Security 的四大範疇:
• Authentication – 帳號密碼認證
• Authorization – 基於帳號身分,管理讀寫權限
• Auditing – 稽核讀寫的紀錄
• Encryption – 資料的加密、通訊的加密 (運算過程的加密?)
• 那 Spark 呢?? 還在經歷生長痛中….
• Authentication – 1.3 剛支援 Kerberos
https://issues.apache.org/jira/browse/SPARK-5493
• Authorization – 目標做到 Spark SQL column-level 管控
• Auditing – 是否有工具??還在找
• Encryption – 進行中
https://issues.apache.org/jira/browse/SPARK-5682
2016/7/12 CSA Summit 2016 19
身分認證 Authentication
• 現況:支援度最廣的還是 Kerberos
2016/7/12 CSA Summit 2016 20
CM CN HDFS MRv1 YARN Flume HBase
HCat
olog
Hive
Server
2
HiveS
erver
Hue Impala Llama Oozie
ZooK
eeper
一個
以上
擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 雙重* 擇一 擇一 擇一
simple V V V V V V V V V V V V
Data
base
V V V
Open
LDAP
V V V V V*
AD V V V V V*
LDAPS V V V V*
Kerberos V V V V V V V V V V V V V V
External
Program V CLASS
SAML V V
OpenID V
Oauth V
身分認證 Authentication
• 導入前的自我檢驗項目:
• 組織內部有沒有合適的系統管理者可以協助 Kerberos 問題排查
• 組織內部的網管能否協助Kerberos 跨網段傳輸的問題排查
• 叢集成長到一定數量時,能否接受 Kerberos 認證會影響效能
• 折衷選擇一:AD/LDAP
• 如果目前組織的需求跟Data Warehouse Offload 有關
只會用到 Hive / Impala 等 SQL on Hadoop 的元件
• 折衷選擇二:透過 API Server 做隔離層
2016/7/12 CSA Summit 2016 21
Application Server
HDFS HBase Hive Impala Spark
權限控管 Authorization
• 現況:
• Apache Sentry or Apache Ranger
• Role-Based Access Control
• Fine-grained access control – 目標是 column-based 權限控管
• Unified Authorization
2016/7/12 CSA Summit 2016 22
存取稽核 Auditing ( Accounting )
• 現況:
• 土砲手工打造每個元件的Audit Log 蒐集系統
• Cloudera Navigator
• Apache Ranger Audit Framework
2016/7/12 CSA Summit 2016 23
加密防護 Encryption
• 傳輸過程的加密
• 儲存資料的加密
2016/7/12 CSA Summit 2016 24
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 25CSA Summit 2016
現在進行式:Data Governance
• 全球頂尖的極極少數創新者已經走到「數據品管」的階段!!
• Data Governance
• Apache Atlas
2016/7/12 CSA Summit 2016 26
專案規劃
大數據
平台建置
大數據
平台資安
大數據
品質管制
Data governance is a control that ensures that the data
entry by an operations team member or by an automated
process meets precise standards, such as a business rule,
a data definition and data integrity constraints in the
data model.
http://atlas.incubator.apache.org/
題外話:開放原始碼軟體的資安掃描
當 Open Source 變成一種商業策略
企業該如何確保所採用的開源軟體是安全的呢?
縱使掃過原始碼,又能確保多少安全性呢?
2016/7/12 CSA Summit 2016 27
結語
• 企業對「資訊安全」的需求成為大數據平台的獲利模式
• 對各種 Security 需求的支援完整性也象徵著Hadoop 正式進入
Enterprise Software !!
• 先求有,二求安全,再求品質
2016/7/12 CSA Summit 2016 28
Q & A
JAZZWANG.TW 老鼠 GMAIL 點 COM
2016/7/12 CSA Summit 2016 29

More Related Content

What's hot

Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Etu Solution
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
 
Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
Wei-Yu Chen
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
Jazz Yao-Tsung Wang
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Min Zhou
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
 
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
Jazz Yao-Tsung Wang
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
Herman Wu
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 

What's hot (20)

Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 

Viewers also liked

Introduction to HCFS
Introduction to HCFSIntroduction to HCFS
Introduction to HCFS
Jazz Yao-Tsung Wang
 
PCI Security Standards on Big Data Platform (1)
PCI Security Standards on Big Data Platform (1)PCI Security Standards on Big Data Platform (1)
PCI Security Standards on Big Data Platform (1)
Chris Cheng-Hsun Lin
 
Yarn Resource Management Using Machine Learning
Yarn Resource Management Using Machine LearningYarn Resource Management Using Machine Learning
Yarn Resource Management Using Machine Learning
ojavajava
 
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Jing-Doo Wang
 
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-OnApache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Taiwan User Group
 
2016 Hadoop Conf TW - 如何建置數據精靈
2016 Hadoop Conf TW - 如何建置數據精靈2016 Hadoop Conf TW - 如何建置數據精靈
2016 Hadoop Conf TW - 如何建置數據精靈
晨揚 施
 
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Flink Taiwan User Group
 
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
HadoopCon 2016  - 用 Jupyter Notebook Hold 住一個上線 Spark  Machine Learning 專案實戰HadoopCon 2016  - 用 Jupyter Notebook Hold 住一個上線 Spark  Machine Learning 專案實戰
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
Wayne Chen
 
BI in Xuenn
BI in XuennBI in Xuenn
BI in Xuenn
Len Chang
 
HadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myuiHadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myui
Makoto Yui
 
Achieve big data analytic platform with lambda architecture on cloud
Achieve big data analytic platform with lambda architecture on cloudAchieve big data analytic platform with lambda architecture on cloud
Achieve big data analytic platform with lambda architecture on cloud
Scott Miao
 
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Training Workshop @ HadoopCon2016 - #1 System OverviewApache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Taiwan User Group
 
大數據時代的行動支付風險控制
大數據時代的行動支付風險控制大數據時代的行動支付風險控制
大數據時代的行動支付風險控制
Chris Cheng-Hsun Lin
 
SparkR - Play Spark Using R (20160909 HadoopCon)
SparkR - Play Spark Using R (20160909 HadoopCon)SparkR - Play Spark Using R (20160909 HadoopCon)
SparkR - Play Spark Using R (20160909 HadoopCon)
wqchen
 
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic StackHadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Len Chang
 
使用Amazon Machine Learning 創建智能應用程式
使用Amazon Machine Learning 創建智能應用程式使用Amazon Machine Learning 創建智能應用程式
使用Amazon Machine Learning 創建智能應用程式
Amazon Web Services
 
Log Event Stream Processing In Flink Way
Log Event Stream Processing In Flink WayLog Event Stream Processing In Flink Way
Log Event Stream Processing In Flink Way
George T. C. Lai
 

Viewers also liked (17)

Introduction to HCFS
Introduction to HCFSIntroduction to HCFS
Introduction to HCFS
 
PCI Security Standards on Big Data Platform (1)
PCI Security Standards on Big Data Platform (1)PCI Security Standards on Big Data Platform (1)
PCI Security Standards on Big Data Platform (1)
 
Yarn Resource Management Using Machine Learning
Yarn Resource Management Using Machine LearningYarn Resource Management Using Machine Learning
Yarn Resource Management Using Machine Learning
 
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
 
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-OnApache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
 
2016 Hadoop Conf TW - 如何建置數據精靈
2016 Hadoop Conf TW - 如何建置數據精靈2016 Hadoop Conf TW - 如何建置數據精靈
2016 Hadoop Conf TW - 如何建置數據精靈
 
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
 
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
HadoopCon 2016  - 用 Jupyter Notebook Hold 住一個上線 Spark  Machine Learning 專案實戰HadoopCon 2016  - 用 Jupyter Notebook Hold 住一個上線 Spark  Machine Learning 專案實戰
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
 
BI in Xuenn
BI in XuennBI in Xuenn
BI in Xuenn
 
HadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myuiHadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myui
 
Achieve big data analytic platform with lambda architecture on cloud
Achieve big data analytic platform with lambda architecture on cloudAchieve big data analytic platform with lambda architecture on cloud
Achieve big data analytic platform with lambda architecture on cloud
 
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Training Workshop @ HadoopCon2016 - #1 System OverviewApache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
 
大數據時代的行動支付風險控制
大數據時代的行動支付風險控制大數據時代的行動支付風險控制
大數據時代的行動支付風險控制
 
SparkR - Play Spark Using R (20160909 HadoopCon)
SparkR - Play Spark Using R (20160909 HadoopCon)SparkR - Play Spark Using R (20160909 HadoopCon)
SparkR - Play Spark Using R (20160909 HadoopCon)
 
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic StackHadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
 
使用Amazon Machine Learning 創建智能應用程式
使用Amazon Machine Learning 創建智能應用程式使用Amazon Machine Learning 創建智能應用程式
使用Amazon Machine Learning 創建智能應用程式
 
Log Event Stream Processing In Flink Way
Log Event Stream Processing In Flink WayLog Event Stream Processing In Flink Way
Log Event Stream Processing In Flink Way
 

Similar to 2016-07-12 Introduction to Big Data Platform Security

Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
 
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
涛 吴
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍
snakebbf
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
Etu Solution
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
 
KSDG BaaS Intro
KSDG BaaS IntroKSDG BaaS Intro
KSDG BaaS Intro
ericpi Bi
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践
jins0618
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructurekyhpudding
 
2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍
Li Jiansheng
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
Etu Solution
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)锐 张
 
网站离线数据安全分析漫谈 2012cert
网站离线数据安全分析漫谈 2012cert网站离线数据安全分析漫谈 2012cert
网站离线数据安全分析漫谈 2012cert
ph4nt0m
 
hicloud PaaS雲創平台(Java/PHP介紹)
hicloud PaaS雲創平台(Java/PHP介紹)hicloud PaaS雲創平台(Java/PHP介紹)
hicloud PaaS雲創平台(Java/PHP介紹)
hicloud-paas
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
vanadies10
 
Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)
涛 吴
 
AWS re:Invent Recap 2016 Taiwan part 1
AWS re:Invent Recap 2016 Taiwan part 1AWS re:Invent Recap 2016 Taiwan part 1
AWS re:Invent Recap 2016 Taiwan part 1
Amazon Web Services
 
Raising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi LuRaising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi Lu
郁萍 王
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
Hubert Fan Chiang
 

Similar to 2016-07-12 Introduction to Big Data Platform Security (20)

Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
Pegasus: Designing a Distributed Key Value System (Arch summit beijing-2016)
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
KSDG BaaS Intro
KSDG BaaS IntroKSDG BaaS Intro
KSDG BaaS Intro
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructure
 
2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)新浪云计算公开课第一期:Let’s run @ sae(丛磊)
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
 
网站离线数据安全分析漫谈 2012cert
网站离线数据安全分析漫谈 2012cert网站离线数据安全分析漫谈 2012cert
网站离线数据安全分析漫谈 2012cert
 
hicloud PaaS雲創平台(Java/PHP介紹)
hicloud PaaS雲創平台(Java/PHP介紹)hicloud PaaS雲創平台(Java/PHP介紹)
hicloud PaaS雲創平台(Java/PHP介紹)
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)Pegasus KV Storage, Let the Users focus on their work (2018/07)
Pegasus KV Storage, Let the Users focus on their work (2018/07)
 
AWS re:Invent Recap 2016 Taiwan part 1
AWS re:Invent Recap 2016 Taiwan part 1AWS re:Invent Recap 2016 Taiwan part 1
AWS re:Invent Recap 2016 Taiwan part 1
 
Raising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi LuRaising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi Lu
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
 

2016-07-12 Introduction to Big Data Platform Security

  • 1. 淺談大數據平台安全現況 Introduction to Big Data Platform Security Jazz Yao Tsung Wang <http://about.me/jazzwang> 2016/7/12 1CSA Summit 2016
  • 2. About Me • 王耀聰 Jazz Wang • 資安門外漢 /交大電控碩士 • 前 Etu Manager 產品協理 • 現任 TenMax Data Architect • Hadoop.TW 共同創辦人 • HadoopCon 社群年會總召 • Hadoop The Definitive Guide 譯者 • Hadoop Operations 譯者 • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang - slideshare, github, etc. 2016/7/12 2CSA Summit 2016
  • 3. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 3CSA Summit 2016
  • 4. Gartner Hype Cycle 2014 2016/7/12 CSA Summit 2016 4 萌芽期 夢幻期 幻滅期 平原期 高原期 Cloud Computing Big Data Internet of Things
  • 5. Gartner Hype Cycle 2015 2016/7/12 CSA Summit 2016 5 萌芽期 夢幻期 幻滅期 平原期 高原期 “ Hybrid ’’ Cloud Computing Internet of Things VR AR
  • 6. Big Data 退燒 畢業了!! 隱身進入以下領域: • Internet of Things ( 物聯網 ) • Business Intelligence and Analytics ( 商業智慧 ) • Enterprise Architecture • Web-Scale IT • Digital Banking Transformation ( 數位金融 ) • Utility Industry IT • CRM Customer Service and Customer Engagement • CRM Marketing Applications • Digital Commerce ( 電子商務 ) 6
  • 7. 導入 Big Data 到底是想要?還是需要? 2016/7/12 CSA Summit 2016 7 Open Data資料集 分析資料的合法性 資料鑑價? 個資法 商業模式 金礦 開採權 含金度 提煉廠 分析平台與工具軟體 SMAQ 開採成本 總擁有成本 軟硬體投資 國際金價 提供給客戶的價值 產品通路      
  • 9. 企業導入 Big Data 的四個階段 2016/7/12 CSA Summit 2016 9 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 台灣只有極少數 創新者在這個位置 Innovators 台灣開始有一些追隨者在這個位置 Early Majority 但往往問題是“剛開始蒐集數據”或 ”剛開始思考如何讓數據產生價值” 台灣只有少數 先行者在這個位置 Early Adopters 今天談大數據平台資安只是 預告後面的路還很崎嶇…..
  • 10. Big Data 專案規劃的六頂思考帽 • 問題一:組織想要解決什麼商業問題 ?? ( Value ) 可以用資料解決嗎 ?? ( 降低成本 or 增加收益 ) • 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料?? 該如何獲得 ?? 有哪些型態 ?? ( Variety ) • 問題三:分析這些資料是否合乎法規需求 ?? 有無需要事先聲明的保護條款 ?? ( Legality ) • 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ?? 需要多少資料才能找到答案 ?? ( Volume , Veracity ) • 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術 定義多快找到答案才能解決商業問題 ( Velocity ) • 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? ) 持續改善的時程藍圖 ( Validation , Roadmap ) 2016/7/12 CSA Summit 2016 10 專案規劃
  • 11. 大數據平台建置的三個面向 2016/7/12 CSA Summit 2016 11 影片 自訂 Flume HDFS Map Reduce Hive (Cold) Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase File Input / Output Format FS Shell Web HDFS Thrift Java API Pig Mahout Oozie Impala (Warm) Sqoop 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 變 行動 Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) Decision Maker 企業內部的人力資源盤點 People 處理巨量資料的常見流程 Process 處理巨量資料的技術盤點 Technology    大數據 平台建置
  • 12. 如果您對以上內容有興趣… 2016/7/12 CSA Summit 2016 12 http://www.ithome.com.tw/news/101577
  • 13. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 13CSA Summit 2016 大數據 平台資安
  • 14. 高可用性 High Availability (HA) CDH 4.7 CDH 5.2 CDH 5.3 CDH 5.4 CDH 5.7 文件日期 2014/12 2015/9 2015/10 2015/11 2016/06 管理者介面 ClouderaManager V V 金鑰管理 Key Trustee KMS V 稽核者介面 Cloudera Navigator Key Trustee Server V V 使用者介面 Hue V V 查詢引擎 Llama / Impala V V V 沒寫? ODBC 接口 HiveServer2 V Schema Hive Metastore V V V V 工作流程 Oozie V V V V 索引引擎 Solr ( Search ) V V V V 運算引擎 MRv1 / YARN V V V V V 快速查表 HBase V V V V 儲存層 HDFS V V V V V 2016/7/12 CSA Summit 2016 14 • 架一座 Big Data Platform 的叢集,其實同時買了很多不同功能的元件! • 國際大廠對於各元件高可用性的支援還持續隨著時間,正在慢慢增加中
  • 15. 高可用性 High Availability (HA) • 現狀: • 大數據平台的賣點是划算--分散儲存、分散運算、平行查詢一次購足 • 缺點是潛藏的維運成本 -- 請不要過度期待高可用性的支援是完整的! ( 10 歲的童工 vs 38 歲的老員工,成本不同,強項不同,互補非取代 ) • 分散式系統難解的耦合性: 如果您想要支援 AAA 與 Encryption 就會隨之增加高可用性的挑戰! • 建議: • 麻煩先根據組織的需求,由需求往回推估最小功能元件集合 • 再根據最小功能元件集合,逐一驗證每個元件的高可用性支援程度 • 寧可分階段依商務問題的急迫性,逐一增加元件的複雜度; 千萬別想一次到位,所有功能元件都想馬上用得上。 2016/7/12 CSA Summit 2016 15
  • 16. 注意!! 並不是所有角色都可以跑兩個 • 以下角色,一座叢集只能跑一個! • HDFS Balancer • YARN JobHistory Server • Impala StateStored • Impala Catalog Server • Spark History Server • 真的不幸那台掛掉,只好手動進管理介面改派給別台!! (或者寫好自動化隔離腳本靠 API 來達成) (謎之音:前提是管理介面還活著!或許這就是為何基本 軟體授權最低台數從5台漲到 10 台,就是要把服務拆散) 2016/7/12 CSA Summit 2016 16
  • 17. 災害復原 Disaster Recovery (DR) • 高可用性是用在臨時有一台機器暫時故障(還有救)的時候 • 災害復原是用在臨時有一台機器完全救不回來的時候 • 現況:複雜的 State Machine !! • HDFS 靠 Journal Node 所以可以從另外兩台救回 • MRv1/YARN 因為狀態存在 HDFS 所以裝一台新的也沒關係 • HBase 因為狀態存在 HDFS 所以重裝一台也沒關係 • 但其他的呢?? Hive Metastore 背後的資料庫 ?? Cloudera Manager 背後的資料庫?? Oozie 的 Metastore ?? • 建議: • 有關聯式資料庫的地方儘量維持兩台 Active-Standby 或 A-A 副本 • 裝機後至少做一次全系統備份(把當時的狀態存起來) • 行有餘力,別忘了做遞增備份 2016/7/12 CSA Summit 2016 17
  • 18. 災害復原 Disaster Recovery (DR) • 本錢夠粗的可以考慮 異地備援 ( 架兩座叢集做同步 ) • 一些解決方案: • Cloudera Backup and Disaster Recovery ( BDR ) • 把 HDP 備份到 Azure • BDR 主要備份的對象是 • Metastore (有用到外部關聯式資料庫的部分) • HDFS 的內容 2016/7/12 CSA Summit 2016 18 https://0x0fff.com/hadoop-cluster-backup/
  • 19. Hadoop 剛滿十歲,後繼者還在追趕進度 • Hadoop Security 的四大範疇: • Authentication – 帳號密碼認證 • Authorization – 基於帳號身分,管理讀寫權限 • Auditing – 稽核讀寫的紀錄 • Encryption – 資料的加密、通訊的加密 (運算過程的加密?) • 那 Spark 呢?? 還在經歷生長痛中…. • Authentication – 1.3 剛支援 Kerberos https://issues.apache.org/jira/browse/SPARK-5493 • Authorization – 目標做到 Spark SQL column-level 管控 • Auditing – 是否有工具??還在找 • Encryption – 進行中 https://issues.apache.org/jira/browse/SPARK-5682 2016/7/12 CSA Summit 2016 19
  • 20. 身分認證 Authentication • 現況:支援度最廣的還是 Kerberos 2016/7/12 CSA Summit 2016 20 CM CN HDFS MRv1 YARN Flume HBase HCat olog Hive Server 2 HiveS erver Hue Impala Llama Oozie ZooK eeper 一個 以上 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 雙重* 擇一 擇一 擇一 simple V V V V V V V V V V V V Data base V V V Open LDAP V V V V V* AD V V V V V* LDAPS V V V V* Kerberos V V V V V V V V V V V V V V External Program V CLASS SAML V V OpenID V Oauth V
  • 21. 身分認證 Authentication • 導入前的自我檢驗項目: • 組織內部有沒有合適的系統管理者可以協助 Kerberos 問題排查 • 組織內部的網管能否協助Kerberos 跨網段傳輸的問題排查 • 叢集成長到一定數量時,能否接受 Kerberos 認證會影響效能 • 折衷選擇一:AD/LDAP • 如果目前組織的需求跟Data Warehouse Offload 有關 只會用到 Hive / Impala 等 SQL on Hadoop 的元件 • 折衷選擇二:透過 API Server 做隔離層 2016/7/12 CSA Summit 2016 21 Application Server HDFS HBase Hive Impala Spark
  • 22. 權限控管 Authorization • 現況: • Apache Sentry or Apache Ranger • Role-Based Access Control • Fine-grained access control – 目標是 column-based 權限控管 • Unified Authorization 2016/7/12 CSA Summit 2016 22
  • 23. 存取稽核 Auditing ( Accounting ) • 現況: • 土砲手工打造每個元件的Audit Log 蒐集系統 • Cloudera Navigator • Apache Ranger Audit Framework 2016/7/12 CSA Summit 2016 23
  • 24. 加密防護 Encryption • 傳輸過程的加密 • 儲存資料的加密 2016/7/12 CSA Summit 2016 24
  • 25. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 25CSA Summit 2016
  • 26. 現在進行式:Data Governance • 全球頂尖的極極少數創新者已經走到「數據品管」的階段!! • Data Governance • Apache Atlas 2016/7/12 CSA Summit 2016 26 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 Data governance is a control that ensures that the data entry by an operations team member or by an automated process meets precise standards, such as a business rule, a data definition and data integrity constraints in the data model. http://atlas.incubator.apache.org/
  • 27. 題外話:開放原始碼軟體的資安掃描 當 Open Source 變成一種商業策略 企業該如何確保所採用的開源軟體是安全的呢? 縱使掃過原始碼,又能確保多少安全性呢? 2016/7/12 CSA Summit 2016 27
  • 28. 結語 • 企業對「資訊安全」的需求成為大數據平台的獲利模式 • 對各種 Security 需求的支援完整性也象徵著Hadoop 正式進入 Enterprise Software !! • 先求有,二求安全,再求品質 2016/7/12 CSA Summit 2016 28
  • 29. Q & A JAZZWANG.TW 老鼠 GMAIL 點 COM 2016/7/12 CSA Summit 2016 29