Dokumen tersebut membahas tentang Big Data, yang merupakan kumpulan data besar dan kompleks yang sulit untuk diproses menggunakan database dan perangkat konvensional. Big Data digunakan untuk menganalisis berbagai konsep seperti volume data yang sangat besar, analisis media sosial, manajemen data generasi berikutnya, data real-time, dan lainnya. Dokumen tersebut juga membahas teknologi pengolahan Big Data seperti yang digunakan Google yaitu Google
2. Big DataBig Data
Big data adalah
sekumpulan beberapa
set data besar dan
complex yang akan
menjadi susah untuk
diproses sehingga
membutuhkan
database serta
perangkat tertentu
untuk memprosesnya.
(wikipedia, 2014).
Sekumpulan data
tersebut akan dianalisa
menjadi sekumpulan
data yang kecil akan
tetapi nampak menjadi
data yang besar. Big
Data telah digunakan
untuk menyam- paikan
segala macam konsep
termasuk jumlah data
yang sangat besar, anal-
isis media sosial,
penerapan next
generation dalam hal
manajemen data, data
real-time, dan lain-lain.
Sebuah problem
domain di mana
teknologi tradisional
seperti relational
database tidak mampu
lagi untuk melayani,
membantu kita
mengubah apa yang
akan dilakukan,
bagaimana
mendapatkan
wawasan, membuat
keputusan (tetapi
perubahan tidak
menjadi pengganti
ataupun ekstensi)
Dua Tipe data Big Data
Data Struktural adalah sejumlah data
yang dapat dengan mudah untuk
dikategorikan dan dianalisis. Data-data
ini biasanya dihasilkan oleh perangkat
jaringan sensor yang tertanam pada
peragkat elektronik, smartphone dan
GPS. Data struktural juga mencakup hal-
hal seperti angka penjualan, saldo
rekening dn data transaksi.
Data Unstruktural biasanya data
informasi yang bersifat lebih kom- pleks
seperti halnya ulasan pelanggan pada
situs komersial, foto, dan multimedia
lainnya serta jejaring sosial. Data ini
tidak dapat dengan mudah untuk
dipisahkan kedalam kategori atau
dianalisis secara numerik.
5. Volume
•Berhubungan dengan
skala ukuran data yang
digunakan. Volume data
berkembang pesat
karena adanya beberapa
aplikasi bisnis, sosial,
web dan eksplorasi
ilmiah.
Velocity
•Berhubungan dengan
kecepatan akses data
yang berkaitan dengan
kebutuhan data
streaming yang bersifat
real time.
Variety
•Berhubungan dengan
beberapa bentuk data
yang digunakan dalam
proses analisis data.
Veracity
•Berhubungan dengan
ketidakpastian dan
keakuratan suatu data.
Pada beberapa kondisi
tingkat akurasi akan
didapatkan apabila
dilakukan adanya proses
filtering dan selecting
data.
6. Teknologi Big Data
File System
Framework Komputasi
Open source, seperti
Apache Hadoop, Spark
Komersial, seperti Google,
Amazon, Microsoft
Tools
Key-Value Store : Key-value
pair (KVP) digunakan pada
noSQL
Document Oriented
Database JSON
Big Table Database
Hbase, Casandra
Graph Database Neo4j
Prinsip Big Data: tidak membuang
data apapun karena residu tersebut
mungkin akan menjadi penting
sejalannya waktu.
Big Data
Processing
software
Pengolahan data
berbasis batch
Pengolahan data
berbasis real-
time
7. Google
Bigtable
System penyimpanan data
terdistribusi yang ditujukan untuk
mengelola data yang terstruktur
dan didesain sebagai system yang
handal untuk mengelola data
dalam skala petabytes dan dalam
ribuan mesin (komputer)
Google menggunakan Bigtable
dalam lebih dari 60 produk dan
proyeknya termasuk :
Google web indexing, Google
Analytics, Google Finance, Orkut,
Personalize Search, Writely dan
Google Earth.
Google
MapReduce
Model pemrograman rilisan
Google yang ditujukan untuk
memproses data berukuran
raksasa secara terdistribusi dan
paralel dalam cluster yang terdiri
atas ribuan komputer.
Google File
System (GFS)
Salah satu jenis dari media
penyimpanan data seperti halnya
hard disk drive (HDD), flash disk,
DVD-R dan sebagainya. Bedanya,
GFS menyimpan data-nya secara
terdistribusi pada komputer-
komputer dalam suatu cluster.
GFS bisa menyimpan data super
besar yang tidak bisa disimpan
dalam suatu HDD paling besar
sekalipun.
Google memiliki
teknologi canggih yang
memungkinkannya
mampu mengolah dan
memanfaatkan Big Data
dengan tepat. DI
antaranya adalah
Google Bigtable, Google
MapReduce, dan GFS.
8. Hadoop
Apache telah merilis
software open source
yang dikenal dengan
nama Hadoop untuk
mengebangkan dan
menjalankan aplikasi
MapReduce.
Secara garis besar
Hadoop terdiri atas
HDFS (Hadoop
Distributed File
System) dan Hadoop
MapReduce. HDFS
adalah versi open
source-nya GFS
(Google File System),
dan Hadoop
MapReduce adalah
versi open source dari
Google MapReduce.
Keunggulannya
adalah: Sederhana,
Fleksibel dalam
Ukuran, Handal, anti
Gagal
9. Mengapa perlu mengintegrasikan Big Data untuk bisnis?
Melihat Tren
•membantu menganalisis
kegiatan pelanggan yang
telah lalu untuk menjelaskan
perilaku masa depannya.
Menetapkan Patokan
Solusi CRM dengan big data
terpadu memungkinkan
perusahaan menetapkan
pembiayaan selama periode
waktu dibandingkan dengan
pesaingnya.
10. Etika Big Data
Privacy isn’t dead
•Kata lain dari aturan dalam
informasi. Private tidak selalu
berarti rahasia, tetapi
memastikan bahwa privasi data
adalah mendefinisikan suatu
masalah dan menegakkan
aturan informasi. Aturan
tersebut juga tidak selalu
mengenai aturan tentang
pengumpulan data tetapi juga
tentang penggunaan data dan
retensinya.
Shared private information can
still remain confidential
Setiap data/informasi yang
dibuat dan dishare tidak berarti
bahwa nilai kerahasiaan pada
data tersebut bisa dilihat oleh
banyak orang.
Big data requires transparency.
•Big data akan berpengaruh
ketika penggunaan sekunder
dari set data yang menghasilkan
prediksi baru dan kesimpulan.