1. Big Data Security & Forensics
Tinjauan Big Data sebagai Tools dan Target Forensics
2. Data dan Big Data
Data merupakan kumpulan
fakta seperti hasil
pengukuran ataupun statistik
mengenai suatu benda
ataupun konsep (Adrienne
Watt, 2021)
Big datamerupakan dataset
yang tidak hanya berukuran besar,
namun juga memiliki variasi yang
beragam, dan kecepatan
perubahan yang tinggi (Elgendy N,
2014) (Balusamy B, 2021)
2
3. Karakteristik Big Data (Song & Li, 2020)
Volume
Velocity
Variety
Velocity
Velocity mengacu pada penambahan
data yang sangat cepat. Data terus
menerus dihasilkan dari berbagai
sumber data. Pengumpulan data ini
dapat dilakukan secara batch, real time,
ataupun stream data.
Variety
Berbagai media akan menghasilkan
berbagai bentuk data seperti teks,
gambar, multimedia, log, surat, dan
sebagainya. Data ini dapat memiliki
bentuk terstruktur, semi-terstruktur
ataupun yang tidak terstruktur.
Volume
Data yang dihasilkan oleh manusia,
perusahaan atau sensor memiliki
ukuran yang sangat besar. Ukuran
datanya bisa mencapai petabyte dan
zettabytes.
3
4. Sumber Big Data (Chen et al., 2014)
Human Generated
Data yang dibuat oleh
manusia misalnya
status update, twit,
foto, video, email, dan
sebagainya
Machine Generated
Data yang diciptakan oleh
mesin seperti sensor, log,
tracking, dan sebagainya
Organization Generated
Data dari organisasi biasanya
sangat terstruktur dan
umumnya disimpan dalam
database 4
5. Big Data Analytics
● Tiga V dalam big data (Volume, Variety, Velocity) membuat analisis data secara konvensional
dengan database menjadi sulit dilakukan, karena itu diperlukan metode analytics yang khusus
(Elgendy N, 2014).
● Big Data Analytics itu sendiri merupakan ilmu yang mempelajari dan menganalisa dataset
berukuran besar dengan berbagai variasi data baik terstruktur, semi terstruktur, dan tidak
terstruktur, dengan cara streaming atau batch (Balusamy, 2021)
● Big data analytics dilakukan untuk menganalisis dan mendapatkan pola yang berguna dari yang
sebelumnya belum diketahui serta untuk mendapatkan relasi dari beberapa variabel yang
tersimpan.
● Potensi besar dari big data analytics adalah Advanced Data Visualization (ADV) dan visual
discovery. Kuncinya adalah menyajikan informasi yang dapat dipahami dengan mudah oleh user
untuk membantu pengambilan keputusan.
5
6. Big Data Lifecycle (Balusamy et al. 2021)
Phase in Big Data Lifecycle
1)big data generation;
2)data aggregation;
3)data preprocessing;
4)big data analytics; dan
5)visualizing big data
6
7. ● Security (keamanan) dalam teknologi informasi (TI), adalah pertahanan informasi
digital dan aset TI terhadap ancaman internal dan eksternal, baik yang disengaja
maupun tidak disengaja (https://syswareindonesia.com/Pages/security).
● Pertahanan ini mencakup deteksi, pencegahan, dan respons terhadap ancaman
cyber-attacks melalui penggunaan kebijakan keamanan, perangkat lunak, dan
layanan TI.
● Cyber-attacks sendiri didefinisikan sebagai aktivitas cyber untuk menyerang atau
bertahan yang menyebabkan kerusakan atau kematian seseorang atau suatu
objek (Tampubolon, 2019).
Security
7
8. Forensics
● Digital Forensics merupakan metodologi ilmiah atau langkah-langkah yang
diambil menuju pengumpulan, identifikasi, analisis, dokumentasi bukti yang
berasal dari sumber digital dan dapat disajikan dalam pengadilan bila diperlukan
(Tahir & Iqbal, 2015).
8
9. Keamanan Big Data dan Big Data untuk Keamanan
Big Data
For Security & Forensics
Security & Forensics for
Keamanan Big Data
● Cyber-attacks seperti injection,
malware sangat umum terjadi
pada lingkungan Big data.
● Cyber-attacks ini berkembang
pesat dan menimbulkan
kerugian yang signifikan dengan
pencurian data ataupun
menghancurkan struktur
datanya.
● Beberapa solusi pengamanan big
data misalnya enkripsi untuk
kontrol akses pada level aplikasi
(dengan API), database, dan file
system (Jayasingh et al., 2016).
Big Data untuk Keamanan
● Untuk menindak cyber-attacks,
penyidik perlu menemukan jejak
kejahatan dalam bentuk data
digital seperti file log, email,
riwayat web, spreadsheet, file
yang dihapus, telepon seluler,
dan sebagainya.
● Data digital tersebut diberikan
kepada hakim di pengadilan
sebagai bukti yang sah untuk
mengadili pelaku kriminal.
● forensik digital memiliki
serangkaian langkah sesuai
dengan aturan yang berlaku
seperti Collection & Acquisition,
Preservation, serta Examination
& Analysis (Song & Li, 2020).
9
10. Keamanan pada
Big Data
Aspek keamanan dan potensi
serangan terhadap konten big data
dan tahapan analytics-nya
10
11. Keamanan pada Big Data
● Beberapa titik tahapan pada big data lifecycle berpotensi rentan terhadap cyber-attacks:
○ big data generation;
Fase pertama Big Data Lifecycle yang merupakan sumber dari big data.
○ data aggregation (Data Collection);
Fase pengumpulan data dari berbagai jenis sumber. Beberapa literatur menyebutkan fase ini sebagai fase pertama dalam big
data lifecycle karena pada tahap inilah pertama kalinya data pengelola data berinteraksi dengan big data.
○ data preprocessing (Data Storage);
Fase transformasi data, di mana data yang telah dikumpulkan akan diproses dan kemudian disimpan. Beberapa preprocessing
yang dilakukan pada data antara lain smoothing, aggregation, generalization, Discretization.
○ big data analytics (Data Analytics);
Fase analisis pemrosesan data dilakukan untuk menghasilkan informasi yang berguna. Pada fase ini dilakukan metode data
mining seperti clustering, classification, dan association rule mining.
○ visualizing big data (Knowledge Creation).
Merupakan fase terakhir pada big data lifecycle yang membantu pengguna mendapatkan insight dari informasi yang tersedia.
● Big data tidak dapat disimpan dengan cara konvensional karena ukurannya yang sangat besar dan format
yang tidak biasa sehingga menimbulkan banyak isu seperti privasi, toleransi kesalahan, keamanan dan
kualitas data (Suraj et al., 2018).
11
13. Phishing, Spamming, Spoofing
● Serangan ini mengincar hak akses yang dimiliki penyedia data, pengumpul data, atau pihak
pengambil keputusan.
● Phishing adalah jenis lain dari cyber-attacks di mana penyerang mempengaruhi target untuk
mendapatkan data rahasia mereka yang biasanya dengan menirukan form login, maintenance,
atau reset password.
● Spamming adalah penggunaan sistem pesan untuk mengirim pesan yang tidak diminta (spam),
terutama iklan, serta mengirim pesan berulang kali di situs yang sama.
● Spoofing adalah tindakan menyamarkan komunikasi dari sumber yang tidak dikenal sebagai dari
sumber yang dikenal dan terpercaya (menyamar).
● Pencegahannya dengan menerapkan program security awareness ke seluruh pengguna.
13
14. Data Mining Based Attacks
● Penggunaan metode data mining untuk mengekstrak informasi sensitif dari dataset
(Dev et al. 2012).
● Misalnya mendapatkan informasi kondisi keuangan dari variabel belanja dan konsumsi
(analisis multivariat), algoritma clustering untuk mengelompokkan orang dan
mendapatkan perilakunya, association rule mining untuk mengungkap hubungan
antar sejumlah besar transaksi bisnis, dan sebagainya.
● Pencegahannya dengan memecah dataset menjadi beberapa bagian dan
mendistribusikannya ke beberapa provider cloud berbeda. Sehingga bila terjadi
serangan pada salah satu provider cloud penyimpanan datanya, maka akan
menghasilkan data yang tidak lengkap.
14
15. Serangan pada perangkat penyimpanan data
● Ancaman keamanan perangkat penyimpanan data secara fisik, seperti pencurian
perangkat hardisk atau membuat kloning/image dari hardisk tersebut, atau
pengrusakan perangkat secara fisik.
● Pencegahannya dengan pengamanan secara fisik, serta penyimpanan data yang
tidak terpusat. Agar bila terjadi pencurian atau pengrusakan perangkat
penyimpanan data, maka tidak semua data akan hilang.
15
16. Unauthorized Data Access
● Celah keamanan di mana seseorang dapat mengakses data yang tidak sesuai dengan hak
aksesnya.
● Pencegahannya dengan menerapkan pengendalian ketat terhadap hak akses pengguna.
16
Ancaman Privacy Data
● Membocorkan informasi level individu yang seharusnya dilindungi
● Pencegahannya dengan enkripsi informasi akhir dan menerapkan strategi kontrol akses.
17. ● Serangan yang melakukan scan secara penuh terhadap keseluruhan (atau
beberapa) dataset untuk mendapatkan informasi spesifik mengenai individu
tertentu meskipun sebelumnya sudah dianonimisasi (Jensen, 2013).
● Pencegahannya dengan melakukan enkripsi pada atribut utama dari data
tersebut agar tidak dapat dilacak hanya dengan mencari korelasi antar dataset
saja.
Re-identification attacks
17
18. Wrong Result Thread
● Ancaman utama big data analytics yaitu validitas dari data yang dikumpulkan.
● Misalnya 2 atau lebih dataset dihubungkan dengan 1 atribut yang sama yaitu
misalnya alamat email. Ancamannya: orang bisa saja memalsukan alamat email
untuk mendapatkan data target yang emailnya bersesuaian.
● penggunaan analisis yang salah, dapat menghasilkan kesimpulan informasi yang
salah juga (Jensen, 2013)
● Pencegahannya dengan mengikuti prosedur analisis. Mendokumentasikan, audit,
dan review proses.
18
19. Top 10 Big Data Security Breach
1. Cam4 (Maret 2020)
10.88 milyar record (nama, email, dst)
2. Yahoo! (Oktober 2017)
3 milyar akun
3. Aadhaar (Maret 2018)
1.1 milyar penduduk india (nama, nomor
identitas, rekening bank)
4. First American Financial Corp. (Mei 2019)
763 juta pengguna (nomor rekening, nomor
jaminan sosial, transaksi, dst)
5. Verifications.io (Februari 2019)
763 juta pengguna (email, nama, nomor
telepon, dst)
19
6. LinkedIn (Juni 2021)
700 juta pengguna (email, nama, telepon,
lokasi, dst)
7. Facebook (April 2019)
533 juta record (komentar, like, nama, dst)
8. Yahoo! (2014)
500 juta akun (nama, email, telepon, dst)
9. Starwood (Marriott) (November 2018)
500 juta tamu (nama, telepon, paspor,
nomor kartu kredit, dst)
10. Adult Friend Finder (Oktober 2016)
412.2 juta akun (nama, username, tanggal
lahir, dst)
(The 65 Biggest Data Breaches (Updated June 2022) | UpGuard, n.d.)
21. Tantangan dan Peluang Keamanan terkait Big Data Analytics
(Jayasingh et al., 2016)
● Fraud Detection
Deteksi penipuan dengan big data analytics. Misalnya pada data perbankan, kartu kredit, operator selular,
dan sebagainya.
● Network Forensics
Traffic monitoring untuk mendeteksi pola yang tidak normal yang mengindikasikan serangan pada jaringan.
● Data Privacy Issues
Penggunaan data mining dapat digunakan untuk mengekstrak data pribadi. Di satu sisi data pribadi ini
dapat digunakan untuk kepentingan penegakan hukum, namun di sisi lain dapat disalahgunakan untuk
pencurian data pribadi.
● Data Provenance Problem
Big data yang memiliki banyak sumber data dari yang terpercaya ataupun yang kurang terpercaya. Integritas
dan keaslian data merupakan hal yang perlu diperhatikan dalam menganalisis data. Perlu dilakukan
eksplorasi lebih lanjut untuk mengidentifikasi sumber data dan bagaimana visualisasinya.
21
22. Tahapan Digital Forensics (Song & Li, 2020)
● Collection and Acquisition
Mengacu pada pengumpulan, akuisisi, dan pengarsipan data bukti digital potensial yang relevan seperti log, file
data, dump memori, cache, lalu lintas jaringan, media sosial, halaman web, atau IoT. Selain dapat dilakukan
secara pasif dari insiden yang telah terjadi, pengumpulan data juga dapat dilakukan secara proaktif dengan
monitoring, network sniffing, intrusion detection, boundary detection, honey trapping technology, dan
sebagainya.
● Preservation
Data yang dikumpulkan harus disimpan dan dilindungi dengan spesifikasi yang sesuai agar integritas dan keaslian
bukti digital dapat terjamin.
● Examination and Analysis
Memeriksa raw data dan arsip melalui pemulihan, pemecahan password, pencarian, simulasi, korelasi, statistik,
perbandingan, atau metode lain untuk menemukan petunjuk atau bukti yang relevan. Teknik matching pola,
machine learning, data mining, ataupun AI dapat digunakan untuk analisis data digital ini.
● Presentation
Hasil pemeriksaan dan analisis ditampilkan, serta laporan disajikan di pengadilan sebagai barang bukti. Tapahan
ini mencakup data visualization, natural language processing, human-machine interface, dan sebagainya
22
23. Big Data Digital Forensics (Song & Li, 2020)
● Permasalahan digital forensics konsisten dengan karakteristik big data yaitu data
yang perlu diproses secara forensik memiliki ukuran yang besar, memiliki struktur
yang beragam, dan relasi yang kompleks.
● Karena itu sangat sesuai untuk menggunakan teknologi Big Data yang dapat
memecahkan permasalahan digital forensics:
○ penggunaan teknologi big data untuk investigasi digital forensics dapat menyelesaikan tugas-tugas
yang membutuhkan waktu lama untuk diselesaikan dengan digital forensics tradisional, sangat
mengurangi biaya tenaga kerja.
○ dapat menggali petunjuk yang sulit ditemukan oleh metode digital forensics tradisional dari
sejumlah besar data dan berbagai jenis sumber data.
○ dapat membuat peringatan dini kejahatan dan menyimpan data bukti potensial untuk memberikan
dukungan kuat untuk mencegah dan memerangi kejahatan dunia maya.
23
25. Big Data Digital Forensics Investigation Framework (Song & Li, 2020)
25
Digital Forensics Technology
● Sumber data yang beragam
perlu distandarisasi dan
dikonversi terlebih dahulu.
● Perlu adanya proses reduksi
data seperti lossless
compression, dan data
deduplication.
● Menggunakan teknologi AI
untuk analisis data
26. Intermediate Technology
● Chain of Custody (CoC)
Berfungsi untuk mengawasi dan mendokumentasikan berbagai operasi atau status sepanjang proses investigasi
forensik. CoC memastikan keamanan dan ketertelusuran proses big data forensics, keaslian data, legitimasi bukti,
dan hasil yang dapat diulang.
● Standardization
Bertujuan untuk memecahkan masalah data heterogenitas dari sumber yang beragam. Penggunaan data,
prosedur pemrosesan, dan solusi teknis yang standar akan meningkatkan keandalan hasil investigasi forensik.
● Access Control and Privacy Protection
Untuk mengamankan data, mencegah akses dan gangguan ilegal dari luar, mencegah kebocoran data yang
disimpan.
● Artificial Intelligence
Memungkinkan mesin untuk menguasai proses digital forensics tradisional menggunakan berbagai alat dan
teknologi khusus untuk investigasi forensik. Hasil pemeriksaan dianalisis menggunakan teknologi AI seperti
matching pattern, data mining, data filtering, dan teknologi lainnya. Feedback dari pengguna akan menjadi
masukan kembali bagi data training dan meningkatkan akurasi dari sistem AI tersebut.
26
27. Big Data Technology
● Menggunakan teknologi ekosistem Hadoop. Penggunaan teknologi big data atau tools
lainnya tidak mempengaruhi struktur framework tersebut.
● CoC dan Standardisasi. Seluruh proses operasi sistem big data, seperti penyimpanan
data, analisis dan pemeriksaan, perlu diawasi dan diaudit oleh CoC. Selain itu, struktur
sistem, alur kerja, komponen, dan cara penerapan sistem perlu distandarisasi agar
legitimasi dan keandalan proses big data digital forensics dapat terjamin.
● Distributed Big Data Forensics Tool. Tools pemeriksaan dan analisis digital forensics
tradisional seperti file retriever, registry viewer, log parser, dan sebagainya, berjalan
secara stand alone. Namun, dalam big data forensics investigation, tools ini berjalan
pada sistem yang terdistribusi, sehingga perlu untuk menyebarkan alat analisis
forensik ke sistem big data agar dapat dengan cepat memeriksa sejumlah besar data di
data warehouse.
27
28. Opportunities in Big Data Forensics (Zawoad & Hasan, 2015)
● Menghubungkan kumpulan data yang berbeda untuk mengidentifikasi cyber attacks. Terdapat beberapa
forum online mengenai security dan arsip cybercrime seperti misalnya zone-h yang berisikan informasi insiden
hacking. Tidak jarang hacker menuliskan “pencapaiannya” disertai dengan identitasnya. Dengan tools dan
prosedur yang tepat untuk menangani data ini, maka potensinya sangat besar untuk dapat memetakan informasi
insiden hacking dengan pola yang terjadi di lapangan untuk dapat mengidentifikasi pelaku cybercrime.
● Live feed dari black list phishing yang ideal. Adanya live phishing feed dapat membantu pengguna internet
terhindar dari penipuan. Internet service providers (ISPs) dapat menggunakan list ini untuk meningkatkan
keamanan dalam berselancar di dunia maya. Diperlukan teknologi yang efisien untuk mengidentifikasi web
phishing yang jumlahnya sangat banyak ini secara realtime.
● Memanfaatkan perangkat IoT dalam investigasi kasus kriminal. Semakin banyaknya perangkat IoT dapat
dimanfaatkan untuk investigasi digital forensics. IoT biasanya dilengkapi dengan berbagai sensor yang dapat
melaporkan informasi penting terkait lingkungan sekitar sensor tersebut. Analisa data yang sesuai dengan cara
yang tepat bisa saja menghasilkan informasi yang dapat membantu investigator mendapatkan fakta mengenai
insiden kriminal.
28
30. Referensi
Alshboul, Y., Wang, Y., & Nepali, R. K. (2015). Big data lifecycle: Threats and security model. 2015 Americas Conference on Information Systems, AMCIS 2015, August.
Balusamy, B., R, N. A., Kadry, S., & Gandomi, A. H. (2021). Big data : concepts, technology and architecture.
Chen, M., Mao, S., Liu, Y., Digital, G. E., Northoff, H., Mcafee, A., Brynjolfsson, E., Prof, A., Ghotkar, M., & Rokde, M. P. (2014). Big Data : How it is Generated and its Importance. Exercise Immunology Review,
20(2), 7. http://tarjomefa.com/wp-content/uploads/2017/04/6539-English-TarjomeFa-1.pdf
Dev, H., Sen, T., Basak, M., & Ali, M. E. (2012). An approach to protect the privacy of cloud data from data mining based attacks. Proceedings - 2012 SC Companion: High Performance Computing, Networking
Storage and Analysis, SCC 2012, 1106–1115. https://doi.org/10.1109/SC.Companion.2012.133
Elgendy, N., & Elragal, A. (2014). Big Data Analytics: A Literature Review Paper. In LNAI (Vol. 8557).
Jayasingh, B. B., Patra, M. R., & Mahesh, D. B. (2016). Security issues and challenges of big data analytics and visualization. Proceedings of the 2016 2nd International Conference on Contemporary Computing
and Informatics, IC3I 2016, 204–208. https://doi.org/10.1109/IC3I.2016.7917961
Jensen, M. (2013). Challenges of privacy protection in big data analytics. Proceedings - 2013 IEEE International Congress on Big Data, BigData 2013, 235–238. https://doi.org/10.1109/BigData.Congress.2013.39
Shalaginov, A., Johnsen, J. W., & Franke, K. (2017). Cyber crime investigations in the era of big data. Proceedings - 2017 IEEE International Conference on Big Data, Big Data 2017, 2018-Janua, 3672–3676.
https://doi.org/10.1109/BigData.2017.8258362
Song, J., & Li, J. (2020). A Framework for Digital Forensic Investigation of Big Data. 2020 3rd International Conference on Artificial Intelligence and Big Data, ICAIBD 2020, 96–100.
https://doi.org/10.1109/ICAIBD49809.2020.9137498
Suraj, M. V., Kumar Singh, N., & Tomar, D. S. (2018). Big data Analytics of cyber attacks: A review. 2018 IEEE International Conference on System, Computation, Automation and Networking, ICSCA 2018.
https://doi.org/10.1109/ICSCAN.2018.8541263
Sysware. (n.d.). Retrieved June 27, 2022, from https://syswareindonesia.com/Pages/security
Tahir, S., & Iqbal, W. (2015). Big Data-An evolving concern for forensic investigators. 2015 1st International Conference on Anti-Cybercrime, ICACC 2015, 0–5. https://doi.org/10.1109/Anti-
Cybercrime.2015.7351932
Tampubolon, K. E. A. (2019). Perbedaan Cyber Attack, Cybercrime, dan Cyber Warfare. Jurist-Diction, 2(2), 539. https://doi.org/10.20473/jd.v2i2.14250
The 65 Biggest Data Breaches (Updated June 2022) | UpGuard. (n.d.). Retrieved June 27, 2022, from https://www.upguard.com/blog/biggest-data-breaches
Watt, A., & Eng, N. (2021). Database Design (2nd ed.). http://open.bccampus.ca
Zawoad, S., & Hasan, R. (2015). Digital forensics in the age of big data: Challenges, approaches, and opportunities. Proceedings - 2015 IEEE 17th International Conference on High Performance Computing and
Communications, 2015 IEEE 7th International Symposium on Cyberspace Safety and Security and 2015 IEEE 12th International Conference on Embedded Software and Systems, H, 1320–1325.
https://doi.org/10.1109/HPCC-CSS-ICESS.2015.305
30