DATA VIRTUALIZATION
BY THUNYAPORN KULNA | PANUPAT BOONCHU
AGENDA
• Big Data
• Apache Hadoop
• Apache Hive
• Apache Sqoop
• Apache Spark
• Google Chart
• ผลการดาเนินงาน
Big Data ?
Big Data ?
Big Data Tools
Apache Hadoop
Parallel
Apache Hadoop
HDFS
Client
NameNode
BackupNode
(Secondary Node)
Local Disk
DataNode
Local Disk
DataNode
Local Disk
DataNode
MasterNodesSlaveNodes
Apache Hive
HiveQL
Data Warehouse
Run บน Hadoop
Hive Architecture
command
Map Task
HDFS Hbase
Hive
Hadoop
Enterprise
Data Warehouse
Document
Based Systems
Relational
Database
Apache Sqoop
• ประมวลผลแบบ Cluster
• RDD (Resilient distributed dataset)
• รองรับ Fault tolerant
• ทางานร่วมกับ HDFS บน Hadoop Mesos Cloud
SQL
Client
(driver)
Master
(Cluster Manager)
Worker
1
Worker
2
Worker
N
…
Scala
Java
Python
Scala
Java
Python
Ecosystem
CHARTS
Visualization API
ข้อดีของ Big Data Analytic
• วิเคราะห์พฤติกรรมของผู้บริโภค
• ผู้ให้บริการสามารถเข้าใจลูกค้าดียิ่งขึ้น
• สามารถคาดการเหตุการณ์ที่จะเกิดขึ้นล่วงหน้าได้
• สามารถมองเห็นภาพรวมที่ผ่านมาได้ง่ายขึ้น
ผลการดาเนินงาน
Overview
Start
Finish
Dataset
Traffic Violation
756,828 ข้อมูล
นาข้อมูลมาจาก data.gov
Traffic Violation
นาไฟล์ใส่ไว้ใน hdfs ของ hadoop
ดึงข้อมูลจาก HDFS
Export ผลลัพธ์เป็น csv
Result
Result
นาข้อมูลที่ได้มาใส่ Google Chart
จานวนอุบัติเหตุที่เกิดขึ้นในแต่ละปี
ดึงข้อมูลจาก HDFS
นาข้อมูลออกเป็นไฟล์ JSON
นาข้อมูลที่ได้มาใส่
Google Chart
END

Internship