SlideShare a Scribd company logo
1 of 73
OPEN SOURCE
INTELLIGENCE
DAN TREN DEMOKRATISASI DATA
27 NOVEMBER 2020WAHYU ADI SETYANTO
2
Wahyu Adi Setyanto, S.Kom, PG.Dipl
wahyu.adi@mediakernels.com
Head of Research & Development, Media Kernels Indonesia
1999 – 2005 S1, Ilmu Komputer, UGM, Yogyakarta
2016 – 2017 S2, Artificial Intelligence, University of Edinburgh, UK
2006 – 2016 Helpdesk & Support Engineer, Network Administrator
PT Kompas Media Nusantara, Jakarta
2017 – 2018 System Administrator & Developer
PT Media Kernels Indonesia, Jakarta
2018 – Sekarang Head of Research & Development
PT Media Kernels Indonesia, Jakarta
2010 – 2012 Technical assistant for Kompas mobile app project on iOS,
BlackberryOS, Android, Chrome Web Store
2016 – 2017 Chevening FCO Scholar
2017 – 2017 Volunteer, Marine Conservation Society, Edinburgh, UK
2018 – Sekarang Volunteer, Indonesia OneSearch
2019 – Sekarang Tim pengembang NoPlagiarism Indonesia OneSearch
(similarity detector & backend services)
PENDIDIKAN
KARIR
LAIN-LAIN
AGENDA
• Open Data dan Industri Baru
• Open Source Intelligence (OSINT)
• Studi Kasus OSINT: Drone Emprit
• Studi Kasus Demokratisasi Data: Drone Emprit Academic
• Resiko, Peluang dan Persiapan Era Open Data
3
OPEN DATA DAN INDUSTRI
BARU
TENTANG OPEN DATA
• https://opendatahandbook.org/guide/en/what-is-open-data/
• “Open data is data that can be freely used, re-used and
redistributed by anyone - subject only, at most, to the requirement
to attribute and share-alike.”
• Karakteristik Open Data
• Aksesibilitas (format standar yang dikenal luas / kompatibel)
• Akses (mudah diperoleh)
• Digunakan / disebarluaskan ulang dengan atribut dan syarat yang sama
seperti semula (“copyleft”)
• Partisipasi universal (kesetaraan akses bagi semua)
5
RASIONALISASI OPEN DATA
• Sudut pandang berbeda terhadap data membuka potensi manfaat
yang beraneka ragam
• Kerugian bagi banyak pihak jika hanya organisasi pencari profit /
pihak dengan uang berlimpah saja yang punya akses ke data
• “Customer” akan selamanya menjadi “Product” (konteks “free service”)
• Sulit memverifikasi akuntabilitas lembaga publik
• Progres riset sains & perkembangan teknologi lebih lambat
• “Information wants to be free” (Stewart Brand, 1984)
• UU No 14 Tahun 2008 tentang Keterbukaan Informasi Publik
6
TREN OPEN DATA (PEMERINTAH)*
7
*)
US Census Bureau tak diketahui tahun rilis open data-nya.
BPS RI tidak masuk karena sebagian layanan berbayar.
TREN OPEN DATA (AKADEMIA - INDUSTRI)
8
KEMANA MENCARI OPEN DATA?
• Amazon Open Data initiative
• https://registry.opendata.aws/
• Google Cloud Public Dataset
• https://console.cloud.google.com/marketplace/browse?filter=solution-
type:dataset
• Azure Open Datasets
• https://azure.microsoft.com/en-us/services/open-datasets/
• Organisasi (nirlaba) internasional
• UN, EU, ASEAN, …
9
TANTANGAN OPEN DATA
• Interoperabilitas
• Banyak “standar” untuk berbagai domain dan kebutuhan
• Tidak ada “one size fits all”
• DCAT-US Schema (OpenData.gov), OAI-PMH (OneSearch.id)
• Pilih yang mana saja? Seberapa banyak harus didukung?
• ”Ego sektoral” / “political will”
• Asumsi open data akan mengurangi wewenang / kekuasaan / daya tawar
suatu posisi / institusi
• Hambatan administratif
• Kekosongan regulasi / payung hukum
• Peleburan / ekspansi / perampingan / penutupan organisasi pemerintah
• Serah terima pengelolaan data
• Falsifikasi Data, baik sebagian/seluruhnya
10
OPEN SOURCE
INTELLIGENCE
OPEN SOURCE INTELLIGENCE (OSINT)
• Steele (2007): “unclassified information that has been deliberately
discovered, discriminated, distilled and disseminated to a select
audience in order to address a specific question”
• Informasi yang:
• Semua orang bisa mengakses (tidak bersifat rahasia)
• Secara aktif dicari / dieksplorasi
• Ditujukan pada pemirsa tertentu (yang tertarik dan menganggap relevan)
• Menjawab pertanyaan spesifik
• https://osintframework.com/
• Kumpulan tool / resource
• Dikurasi oleh Justine Nordine (@jnordine)
• Sebagian besar berkaitan dengan cyber- / network-security
12
SUMBER DATA OSINT
• (Hassan & Hijazi, 2018)
• Internet
• Media sosial, forum, blog, wiki, “dark” web, data geolocation, alamat IP,
berkas digital, dsb
• https://opendataimpactmap.org: contoh bagaimana open data
dimanfaatkan
• Jurnal khusus, publikasi akademik, laporan tahunan, prosiding
konferensi ilmiah
• Informasi geospasial
• Foto / video + metadata
• Media tradisional
• Buku, majalah, koran, radio, TV
13
KATEGORI OPEN INFORMATION & INTELLIGENCE
Validated Open
Source Intelligence
(V-OSINT)
Open Source
Intelligence (OSINT)
Open Source
Information (OSIF)
Open Source Data
(OSD)
14
(Steele, 2006)
KATEGORI OPEN INFORMATION & INTELLIGENCE
(2)
• Open source data (OSD)
• Data sumber primer
• Gambar, audio, video, teks
• Surat terbuka, tayangan Vimeo/Youtube, podcast artis / kalangan
profesional, Tweet netizen, blog
• Open source information (OSIF)
• Buku, koran, berita daring, laporan keuangan perusahaan terbuka
• Open source intelligence (OSINT)
• Siapa yang tweet pertama soal #TagarHeboh? Siapa yang
mempopulerkan?
• Berapa kasus korupsi yang melibatkan partai oposisi? Berapa lama rata-
rata vonisnya?
• Validated Open source intelligence (V-OSINT)
• Hasil OSINT yang dikonfirmasi sumber otoritatif
15
PARA “PEMAIN” OSINT
• Kategori “Social Analytics Application” menurut Gartner
• Luar negeri
• Palantir
• Tyler Technologies
• Verint
• Tableau
• Digimind
• Dan lain-lain
• Dalam negeri
• MediaWave
• Binokular
• IMM
• Evello
• Drone Emprit & FactMiner
• Dan lain-lain
16
STUDI KASUS OSINT:
DRONE EMPRIT
TENTANG DRONE EMPRIT
• Sistem monitoring dan analisis
media digital & media sosial
berbasis big data
• Masuk kategori “Social
Analytics Application” menurut
Gartner
• Dikembangkan sejak tahun
2009 di Amsterdam oleh Ismail
Fahmi
• Mulai digunakan di Indonesia
sejak 2012
18
STATISTIK DATA DRONE EMPRIT
19
(25 NOV 2019 S.D 25 NOV 2020)
2,4 Milyar
20,7 Juta23,8 Juta
Komentar & Post
FB Group / Public Page
Komentar &
Post Akun IG
Komentar & Post
Akun Youtube
Artikel dalam &
Luar Negeri
Artikel berita
Nasional & Lokal
Jumlah tweet
9,9 Juta
(ID)
2,7 Juta
(EN)
6 Juta
PROSEDUR OSINT DENGAN DRONE EMPRIT
• ”Katakunci” dan “Filter” yang
tepat sangat penting
• Sering tidak pas / meleset
• Terbiasa dimudahkan oleh
”personalized” search result?
• Lakukan survei katakunci.
Jangan berasumsi.
• Sebagian jawaban ada pada
pilihan grafik yang demikian
banyak
• Sebagian lain ada pada
interpretasi peneliti
• Pertanyaan riset + grafik analisis
+ interpretasi = INSIGHT
20
PRINSIP DASAR: KATA KUNCI VS. FILTER
21
PRINSIP DASAR: KATA KUNCI VS. FILTER (2)
• Pemilihan kata kunci untuk
proyek pemantauan tidak boleh
ambigu
• Data sesuai kata kunci yang
masuk ke “data lake”:
• Jika akurat akan memperkaya
koleksi dokumen
• Jika meleset akan
menghamburkan ruang
penyimpan / waktu komputasi
yang berharga
• Filter menentukan apa yang
ditampilkan grafik untuk analisis
• Jika kurang pas masih bisa
diperbaiki untuk mempertajam
analisis
22
MENGAPA DATA SAYA TERLALU SEDIKIT?
23
• Tidak tepat dalam memilih kata kunci & filter
• Kurang survei “lapangan”? DuckDuckGo? Twitter Search Advanced?
• Slaah keitk?
• Bukan periode puncak bergulirnya suatu isu
• Kasus Free API twitter:
• Terlambat mengantisipasi kata kunci populer
• Tidak populer di medsos / media daring yang kita fokuskan
MENGAPA DATA SAYA TERLALU BANYAK?
24
• Tidak tepat memilih kata kunci dan filter:
• Kata kunci terlalu luas
• Kata kunci ada di lebih dari satu bahasa
• Kata kunci favorit pengirim “spam”
• Tidak menerapkan filter (bahasa, logical OR / AND / NOT)
• Terbalik dalam menerapkan filter
• Topik ada di puncak popularitas
CONTOH PERTANYAAN RISET
25
1. Isu Covid-19 di media sosial
1. Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov
2020)?
2. Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt-
Nov 2020)?
3. Bagaimana perbandingan 1.1 dan 1.2 di periode awal pandemi (Feb-
Mar 2020) dibandingkan dengan periode sebulan terakhir (Okt-Nov
2020)?
2. Tagar #DiRumahAja di media sosial
1. Sejak isu Covid-19, seberapa gencar (volume & tren) tagar ini
dikumandangkan di medsos?
2. Bagaimana tren status bot untuk Twitter account yang menggaungkan
tagar ini sejak awal pandemi?
3. Bagaimana perkembangan ekspresi emosi warganet selama berdiam
#DiRumahAja sejak awal pandemi?
CONTOH PERTANYAAN RISET (2)
26
3. M Rizieq Shihab (non-tagar) di media sosial dan daring
1. Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov
2020)?
2. Bagaimana tren sentimen publik selama sebulan terakhir (Okt-Nov
2020) dan proporsinya sesuai kategori media?
3. Bagaimana peta SNA di Twitter?
1. COVID-19: SETTING PEMANTAUAN
27
• Periode pemantauan:
• 25 Feb – 25 Mar 2020
• 25 Okt – 25 Nov 2020
• Kata kunci:
• #coronavirus, corona, nCov, covid, covid-19, covid19
• Jenis media:
• News (ID), Twitter, Facebook, Instagram
• Filter bahasa: Indonesia
• Filter NOT - OR:
• Malaysia, KKM, #AWANInews, jangkitan, kedah, sabah, pinang,
dipermudahkan, Cikgu, kes baharu, kes kematian, kesihatan, tiada, kerana,
cakap, takde, TERKANDAS, kes, mesej, surau, kes baru, kes aktif, Kuala
Lumpur, Terengganu, baharu, selepas kesilapan, butoh, memaki, takziah,
kuarantin, kakitangan, menyeru, cakap, perutusan, surau, kesepaduan,
korang, takda, kes tertinggi, Hospital, dijangka, Selangor, Johor, kejer, pesakit,
dipercayai, dijangkiti, takpe, cuba
1.1 COVID-19: EKSPRESI EMOSI PUBLIK OKT-NOV
2020
28
Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
1.2 COVID-19: TREN EKSPRESI EMOSI PUBLIK
(SURPRISE) OKT-NOV 2020
29
Q: Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt-Nov 2020)?
1.2 COVID-19: TREN EKSPRESI EMOSI PUBLIK
(ANTICIPATION) OKT-NOV 2020
30
Q: Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt-Nov 2020)?
1.3 COVID-19: EKSPRESI EMOSI PUBLIK AWAL
PANDEMI VS. SEBULAN TERAKHIR
31
Q: Bagaimana perbandingan
ekspresi emosi publik di periode
awal pandemi (Feb-Mar 2020)
dibandingkan dengan periode
sebulan terakhir (Okt-Nov
2020)?
1.3 COVID-19: TREN EKSPRESI EMOSI PUBLIK
AWAL PANDEMIK VS. SEBULAN TERAKHIR
32
FEAR ANTICIPATION
ANGER
SURPRISE ANTICIPATION
SADNESS
Q: Bagaimana
perbandingan
tren ekspresi
emosi publik di
periode awal
pandemi (Feb-
Mar 2020)
dibandingkan
dengan periode
sebulan terakhir
(Okt-Nov
2020)?
2. #DIRUMAHAJA: SETTING PEMANTAUAN
33
• Periode pemantauan:
• 25 Feb – 25 Mar 2020 (awal pandemi)
• 25 Okt – 25 Nov 2020 (1 bulan terakhir pandemi)
• 25 Feb – 25 Nov 2020 (pandemi berjalan sejauh ini)
• Kata kunci:
• DirumahAja
• Jenis media:
• News (ID), Twitter, Facebook, Instagram, Youtube
• Filter bahasa: (tidak ada)
• Filter logical: (tidak ada)
2.1 #DIRUMAHAJA: TREN DAN VOLUME SEJAK
AWAL PANDEMI
34
1. Spike di awal pandemi untuk Instagram: Spam? Jualan? Endorse produk? (harus cek silang dengan data
yang masuk)
2. Normalnya, volume data Tweet lebih tinggi seperti terlihat hingga Juni 2020. Sesudah itu, Instagram lebih
tinggi. Salah satu penjelasan: IG adalah medium favorit untuk posting foto jalan-jalan, wisata kuliner, dsb.
Posting ulang konten lama dengan tagar #DiRumahAja merupakan ekspresi rindu kondisi normal.
3. Proyek pemantauan baru digelar 1 April 2020. Data sebelumnya tidak tertangkap mesin.
Q: Sejak isu Covid-19, bagaimana volume & tren tagar #DirumahAja dikumandangkan di medsos?
2.2 #DIRUMAHAJA: TREN TWITTER BOT SEJAK AWAL
PANDEMI
• Percakapan terlihat natural
• Tidak nampak aktivitas twitter bot
yang cukup berarti untuk
mengusung tagar #DiRumahAja
• Kesimpulan: tagar #DiRumahAja
yang sering menyertai tagar
promo produk di Twitter dilakukan
secara “manusiawi” bukan
“robotwi”
35
Q: Bagaimana tren status bot untuk Twitter account yang menggaungkan tagar #DirumahAja
sejak awal pandemi?
2.3 #DIRUMAHAJA: EKSPRESI EMOSI PUBLIK
SEJAK AWAL PANDEMI
36
1. Secara umum ada ekspresi
“Trust”, “Anticipation”, “Joy”
2. Cukup banyak spam (jualan,
prostitusi) yang menghiasi 3
kategori emosi teratas
3. Ekspresi “Trust” menunjukkan
masih ada yang tidak percaya
Covid-19 itu nyata dan
meragukan keseriusan
pemerintah menanganinya
4. Ekspresi “Anticipation”
menunjukkan masyarakat yang
menaruh harapan akan
perubahan situasi pandemi
5. Tren ekspresi “Joy”
menunjukkan kejenuhan yang
seiring waktu memupuskan
kegembiraan bisa di rumah saja
di awal masa pandemi
Q: Bagaimana ekspresi emosi warganet selama berdiam #DiRumahAja sejak awal pandemi?
3. H. RIZIEQ: SETTING PEMANTAUAN
37
• Periode pemantauan: 1-25 Nov 2020
• Kata kunci:
• habib rizieq, habibrizieq, muhammad rizieq syihab, Imam Besar FPI
• Jenis media:
• News (ID), Twitter
• Filter bahasa: (tidak ada)
• Filter NOT: (tidak ada)
3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV
2020
38
Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV
2020
39
Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
1. Didominasi “Surprise” karena
berbagai peristiwa tak
terduga oleh publik:
kepulangan tiba-tiba,
kemacetan & kerumuman
saat penjemputan,
kerumunan saat acara
pernikahan putrinya.
2. Ekspresi “Anticipation”
menyusul mengikuti beberapa
dampak susulan kejadian
penyebab “Surprise” tersebut
3. Menarik untuk disimak
bagaimana ekspresi “Joy”
seimbang dengan “Anger”.
3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV
2020
40
Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
1. 2 Nov 2020: Ekspresi “Anger” merespon karikatur Nabi di majalah Perancis yang dikontraskan dengan peristiwa
lokal lewat ceramah H. Riziek
2. 11 Nov 2020: Anies Baswedan menemui H. Riziek
3. Ekspresi lain (“Surprise”, ”Anticipation”, “Joy”, “Trust”) naik turun seiring berbagai peristiwa di tanggal lainnya
3.2 H. RIZIEK: TREN SENTIMEN PUBLIK
MENURUT PLATFORM MEDIA OKT-NOV 2020
• 25 Okt - 25 Nov 2020
• Tidak ingin terlibat perang tagar
• Agar bisa membandingkan konten medsos vs.
media daring secara ”adil”
• Melepaskan diri dari perang opini yang riuh
• Menyebutkan nama secara bermartabat
• Membuang sebutan yang bersifat tak pantas
• Meminimalkan umpatan yang bersifat ekstrim
• Beda platform, beda hasil:
• Twitter: mayoritas negatif
• Media daring: mayoritas positif
• Peristiwa dalam rentang tanggal:
• Penjemputan masif di bandara Soekarno Hatta
• Acara pernikahan putri H. Riziek di Bogor
• Publik lebih banyak merespon secara negatif
beberapa peristiwa penting tersebut (merasa
terganggu dengan kemacetan, khawatir dengan
kerumunan yang berisiko penularan Covid)
• Media daring lebih banyak memberitakan
secara positif dan netral, tidak banyak
mengulas respon publik di medsos
sebagaimana kerap dilakukan.
41
Q: Bagaimana tren sentimen publik selama
sebulan terakhir (Okt-Nov 2020) dan
proporsinya sesuai kategori media?
3.3 H. RIZIEK: PETA SOCIAL NETWORK ANALYSIS (TWITTER) OKT-NOV
2020
42
3.3 H. RIZIEK: PETA SOCIAL NETWORK ANALYSIS (SNA) OKT-NOV 2020
• Total tweets: 392 ribu, sample: 4 ribu
• SNA: Sentimen negatif (merah) dominan
• Tren Bot: Mayoritas lewat percakapan manusia
(hijau), bukan bot (merah).
• Area A:
• Polarisasi ekstrim cinta dan ekstrim benci, bertabur
sindiran dan sarkasme
• Sebagian media daring (Republika, SindoNews,
Kumparan, Gelora) ikut hanyut di kluster ini
• Banyak supporter pasif mengelilingi influencer
utama pihak oposisi (@fadlizon, @maspiyuo, ...)
• Area B:
• Penengah dan penyeimbang informasi
• Mayoritas oleh Detik, sebagian kecil oleh
KompasTV & CNN Indonesia
• Area C:
• Seharusnya lebih besar lagi! (@Islamidotco,
@BakarSmith, @Na_dirs, ...)
• Berusaha objektif saat mengkritik (jelas objek kritik
dan argumennya)
• Mencintai H. Riziek sebagai keturunan Nabi SAW,
tetapi menolak kontroversi pernyataan /
perilakunya
• Menjaga jarak dari tarik ulur agenda politik
43
ANALISIS EMOSI: KATEGORI MENURUT ROBERT
PLUTCHIK
• (Plutchik, 1980)
• Delapan kategori emosi
• Joy, Trust, Fear, Surprise,
Sadness, Disgust, Anger,
Anticipation
• Masing-masing kategori emosi
memiliki kutub berseberangan
• Setiap kategori emosi punya
intensitas yang makin melemah
dari pusat ke tepi
• Analisis Emosi Drone Emprit
memetakan kategori dan
intensitas emosi ke dalam
sekelompok kata kunci yang
dipilih seksama dan dievaluasi
berkala (bahasa Indonesia dan
Inggris).
44
ANALISIS TOPIK
45
TENTANG ANALISIS TOPIK
• Sumber data: situs berita
daring
• Memantau topik berita utama
dari berbagai media pada
suatu waktu
• Kluster topik berdasarkan
keberadaan, frekuensi, lokasi
kata kunci dengan bobot
tertentu
• Headline terpilih adalah yang
dominan di seluruh metriks
• Ekstraksi “term” / kata kunci
secara otomatis.
46
TENTANG FACTMINER
47
• Sumber data:
• Berita media daring
• Sumber teks lainnya (dokumen laporan, transkrip wawancara, dsb)
• Menggali fakta-fakta pada teks:
• Named Entity: nama orang, organisasi, kota,
• Peristiwa: kata kerja yang terlibat
• Kalimat: subjek, predikat, objek / keterangan
• Menampilkan secara visual:
• Peta geolokasi terjadinya suatu peristiwa
• Peta co-occurrence: istilah yang sering muncul secara bersamaan
• Peta SPO (Subjek-Predikat-Objek): frekuensi kemunculan kata dalam
konteks SPO
FACTMINER: DASHBOARD
48
FACTMINER: EKSTRAKSI FAKTA DARI TEKS
49
FACTMINER: PETA GEOLOKASI
50
FACTMINER: PETA S-P-O
51
FACTMINER: PETA CO-OCCURRENCE
52
DRONE EMPRIT PRESS: PUBLIKASI HASIL
ANALISIS
53
TENTANG DRONE EMPRIT PRESS
• Publikasi hasil analisis yang
tersebar di berbagai medium
(Slideshare, FB)
• Artikel terpilih dibukukan
dalam “Membaca Indonesia”
jilid 1-6
• Bisa diakses daring di
pers.droneemprit.id
• Membaca data apa-adanya
• Memungkinkan analisis
turunan dan meta-analisis
• Memberi ruang interpretasi
bagi pembaca
54
ALGORITMA
• Clustering (K-Means, Agglomerative hierachical, dsb)
• Maximum Entropy classifier
• Deep learning (Convolutional Neural Network)
• Named Entity Recognition (NER)
55
TEKNOLOGI KOMPUTASI
• DB: MySQL, MongoDB
• Document search engine: Apache Lucene, Solr, ElasticSearch
• Programming languages: Perl, Python, Golang, Bash, C++ (sedikit)
• Queue server: Redis, Apache Kafka, RabbitMQ
• Web front-end: PHP, Javascript, Node.js
• Container: Docker
• OS: Ubuntu Linux
56
BEBERAPA RUANG UNTUK BERKEMBANG
• Coreference resolution (lanjutan)
• Non-keyword based emotion detection
• Deteksi sarkasme
• Deteksi bahasa yang lebih akurat di mikroblog (Twitter)
• Aspect based sentiment analysis
• Prediksi viralitas isu / tagar
57
DEMOKRATISASI DATA:
DRONE EMPRIT ACADEMIC
TENTANG DRONE EMPRIT ACADEMIC
• Diluncurkan pada acara “Jogjakarta Mendaras Data” pada tanggal
14 Oktober 2018
• Didukung semangat menormalkan kembali politik gagasan
• Meningkatkan rasio sinyal/derau warganet di ranah medsos
• Menangkap sinyal aspirasi warganet agar sampai pada pihak terkait
• Tujuan akhir: kebijakan publik yang berbasis aspirasi masyarakat banyak
• Sistem aplikasi disediakan oleh PT Media Kernels Indonesia
• Subset Drone Emprit
• Sumber data: Twitter free API
• Sistem terpasang dan dikelola Badan Sistem Informasi (BSI)
Universitas Islam Indonesia, Jogjakarta
59
TENTANG DRONE EMPRIT ACADEMIC (2)
• “Gratis”
• Tidak dipungut biaya
• Untuk akademisi, jurnalis, masyarakat umum
• “Pembayaran” adalah dengan tulisan berbasis data Drone Emprit di
berbagai pilihan medium (jurnal, blog, surat kabar, dsb)
• Minimal 1 tulisan setiap 2 bulan
• Beberapa statistik (per 25 Nov 2020)
• 921 proyek pemantauan katakunci (236 aktif)
• 2900 anggota terdaftar
• Diakses di dea.uii.ac.id
60
DRONE EMPRIT ACADEMIC
61
DRONE EMPRIT ACADEMIC: KATEGORI TOPIK
62
DRONE EMPRIT ACADEMIC: SETTING
PEMANTAUAN
63
DRONE EMPRIT ACADEMIC: PUBLIKASI
64
DRONE EMPRIT ACADEMIC: SDG DAN KATEGORI
TURUNANNYA
65
RESIKO, PELUANG, DAN
PERSIAPAN
RESIKO OPEN DATA
• Inherent bias
• Cherry-picking data
• Data misuse / misinterpretation / misrepresentation
• Falsified data (deliberate)
• Privacy abuse
• Cyber-security risks
67
PELUANG & MANFAAT OPEN DATA
• Mendorong :
• Social activism
• Citizen & data journalism
• Computational journalism & fact-checking
• Citizen investigation
• Global Investigative Journalism Network (gijn.org)
• Mendukung freedom of press
• Bahkan ketika industri media dikuasai oligarki
• Mendorong berkembangnya riset kolaboratif
• Menyemai tumbuhnya industri baru
68
PERSIAPKAN BEKAL
• Keterampilan / Pengetahuan
• Pemrograman (tak bisa ditawar)
• Komunikasi
• Menyampaikan gagasan dengan jernih & menarik
• Mendeskripsikan bug dengan akurat
• Bertanya secara efektif
• Domain of interest
• Linguistik
• Pemrosesan gambar
• Robotika, mekatronik
• Psikologi, Psikolinguistik, Behavioral science
• Fisika
• Biologi, Bioinformatics
• Dan lain-lain
• Crawler & Harvester
• Bagaimana menjadi “tamu” yang sopan dan menghindari pemblokiran?
• Bersikap sopan namun efektif: tidak semudah yang terlihat 
69
PERSIAPKAN BEKAL (2)
• Perubahan Pola Pikir
• Ada sekian banyak data W. Jika saya ubah ke bentuk tertentu, apa yang bisa
saya gali?
• Ada data X. Jika punya hingga N tahun ke belakang, insight apa yang saya
dapat?
• Adanya masalah Z, data apa yang saya butuhkan untuk memecahkannya?
Dari mana? Jika tidak cukup ilmu, siapa yang bisa saya ajak berkolaborasi?
• Berlatih!
• Proyek sampingan
• Hackathon
• Kompetisi Kaggle
• Reproduksi eksperimen
• Dan lain-lain
• Kolaborasi
• Interdisipliner
• PENTING: Latar belakang demografi (gender, etnis, geografis, sosial/ekonomi,
dsb) yang beragam mendorong penerapan AI yang etis dan bertanggung
jawab
70
PERTANYAAN?
DAFTAR BACAAN
REFERENSI
• Fahmi, I. (2016). Drone Emprit: software for media monitoring and
analytics. Available at http://pers.droneemprit.id
• Fahmi, I. (2018). Drone Emprit Academic: Software for social media
monitoring and analytics. Available at http://dea.uii.ac.id
• Hassan, N.A & Hijazi, R. (2018). Open source intelligence methods and
tools: a practical guide to online intelligence. Apress. DOI 10.1007/978-1-
4842-3213-2
• Koehn, P. (2005). Europarl: a parallel corpus for statistical machine
translation. In MachineTranslation Summit X, pages 79–86, Phuket,
Thailand.
• Krizhevsky, A. (2009). Learning multiple layers of features from tiny
images. Available at https://www.cs.toronto.edu/~kriz/cifar.html
• Plutchik, R. (1980). Emotion: a psychoevolutionary synthesis. Harper &
Row New York.
• Steele, R.D. (2007). Open source intelligence. In Johnson, L.K. (Eds.),
Handbook of Intelligence Studies (pp. 129-147). Routledge
73

More Related Content

Similar to Open Source Intelligence dan Tren Demokratisasi Data

PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
Andri946883
 
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
BatakMusikGroup
 
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdf
Dedek28
 
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
Muhammad Rochman
 

Similar to Open Source Intelligence dan Tren Demokratisasi Data (20)

Big Data untuk Layanan Publik
Big Data untuk Layanan PublikBig Data untuk Layanan Publik
Big Data untuk Layanan Publik
 
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
 
Tahapan Analisis Data Digital
Tahapan Analisis Data DigitalTahapan Analisis Data Digital
Tahapan Analisis Data Digital
 
MEDSOS DAN ONLINE UNTUK ANALISIS DAN MONITORING BENCANA
MEDSOS DAN ONLINE UNTUK ANALISIS DAN MONITORING BENCANAMEDSOS DAN ONLINE UNTUK ANALISIS DAN MONITORING BENCANA
MEDSOS DAN ONLINE UNTUK ANALISIS DAN MONITORING BENCANA
 
Open Data: sebuah pengantar
Open Data: sebuah pengantarOpen Data: sebuah pengantar
Open Data: sebuah pengantar
 
Pemanfaatan Big Data dalam Mitigasi Bencana
Pemanfaatan Big Data dalam Mitigasi BencanaPemanfaatan Big Data dalam Mitigasi Bencana
Pemanfaatan Big Data dalam Mitigasi Bencana
 
pengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxpengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptx
 
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
 
Materi Seminar Netnografi - Feri Sulianta.pdf
Materi Seminar Netnografi - Feri Sulianta.pdfMateri Seminar Netnografi - Feri Sulianta.pdf
Materi Seminar Netnografi - Feri Sulianta.pdf
 
OSINT For Cyber Threat Inteligence
OSINT For Cyber Threat InteligenceOSINT For Cyber Threat Inteligence
OSINT For Cyber Threat Inteligence
 
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdf
 
Big Data
Big DataBig Data
Big Data
 
How to Create Analysis using Twitter and Online Media Data
How to Create Analysis using Twitter and Online Media DataHow to Create Analysis using Twitter and Online Media Data
How to Create Analysis using Twitter and Online Media Data
 
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
Modul 2 - PENGEMBANGAN EKOSISTEM DIGITAL DI PERPUSTAKAAN PT - Samarinda_08060...
 
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
 
KARYA & INOVASI BAGI BANGSA
KARYA & INOVASI BAGI BANGSAKARYA & INOVASI BAGI BANGSA
KARYA & INOVASI BAGI BANGSA
 
Education 4.0
Education 4.0 Education 4.0
Education 4.0
 
Demokrasi 4.0: Demokrasi dalam Masyarakat Industri 4.0
Demokrasi 4.0: Demokrasi dalam Masyarakat Industri 4.0Demokrasi 4.0: Demokrasi dalam Masyarakat Industri 4.0
Demokrasi 4.0: Demokrasi dalam Masyarakat Industri 4.0
 
Keamanan Siber dan Demokrasi: Hacking, Leaking, and Doxing
Keamanan Siber dan Demokrasi: Hacking, Leaking, and DoxingKeamanan Siber dan Demokrasi: Hacking, Leaking, and Doxing
Keamanan Siber dan Demokrasi: Hacking, Leaking, and Doxing
 
Open Data dan xPlore.Pustakadata.id
Open Data dan xPlore.Pustakadata.idOpen Data dan xPlore.Pustakadata.id
Open Data dan xPlore.Pustakadata.id
 

Recently uploaded

Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Obat Telat Bulan Di Bandung
 
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
ssupi412
 
Aksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptxAksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptx
meirahayu651
 
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953
 
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdfKELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
InnesKana26
 
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
buktifisikskp23
 

Recently uploaded (20)

Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
 
PPT ANALISIS KEUANGAN PEMERINTAH (1).pptx
PPT ANALISIS KEUANGAN PEMERINTAH  (1).pptxPPT ANALISIS KEUANGAN PEMERINTAH  (1).pptx
PPT ANALISIS KEUANGAN PEMERINTAH (1).pptx
 
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
384986085-Bahaya-Narkoba-Bagi-Kesehatan-Jiwa-Remaja.ppt
 
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
Jual Obat Aborsi Tasikmalaya ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik J...
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
Katalog-Kurikulum-Non-Pendas-UT-2023-2024_SC-23-MEI-2023-revisi-171023_compre...
 
Teknis-Audit-Internal untuk penerapan ISO 17025
Teknis-Audit-Internal untuk penerapan ISO 17025Teknis-Audit-Internal untuk penerapan ISO 17025
Teknis-Audit-Internal untuk penerapan ISO 17025
 
Aksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptxAksi Nyata Mencegah Kekerasan Seksual.pptx
Aksi Nyata Mencegah Kekerasan Seksual.pptx
 
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
Jual Obat Aborsi Samarinda ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jua...
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjana
 
Menganalisis T Test dengan menggunakan SPSS
Menganalisis T Test dengan menggunakan SPSSMenganalisis T Test dengan menggunakan SPSS
Menganalisis T Test dengan menggunakan SPSS
 
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptxPPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
PPT SEMINAR PROPOSAL KLASIFIKASI CNN.pptx
 
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptxPEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
PEMANTAUAN HEMODINAMIK.dalam keperawatan pptx
 
TUGAS TELAAH jurnal dengan COHORT-1.docx
TUGAS TELAAH jurnal dengan COHORT-1.docxTUGAS TELAAH jurnal dengan COHORT-1.docx
TUGAS TELAAH jurnal dengan COHORT-1.docx
 
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPersyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
 
materi konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxmateri konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptx
 
Digital Onboarding (Bisnis Digital) Fase F
Digital Onboarding (Bisnis Digital) Fase FDigital Onboarding (Bisnis Digital) Fase F
Digital Onboarding (Bisnis Digital) Fase F
 
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdfKELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
KELOMPOK 6- DINAMIKA DAN TANTANGAN PANCASILA SEBAGAI IDEOLOGI.pdf
 
apotek jual obat aborsi Bogor Wa 082223109953 obat aborsi Cytotec Di Bogor
apotek jual obat aborsi Bogor Wa 082223109953 obat aborsi Cytotec Di Bogorapotek jual obat aborsi Bogor Wa 082223109953 obat aborsi Cytotec Di Bogor
apotek jual obat aborsi Bogor Wa 082223109953 obat aborsi Cytotec Di Bogor
 
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
Telaah Kurikulum dan Buku Teks Mata Pelajaran Bahasa Indonesia Sekolah Dasar ...
 

Open Source Intelligence dan Tren Demokratisasi Data

  • 1. OPEN SOURCE INTELLIGENCE DAN TREN DEMOKRATISASI DATA 27 NOVEMBER 2020WAHYU ADI SETYANTO
  • 2. 2 Wahyu Adi Setyanto, S.Kom, PG.Dipl wahyu.adi@mediakernels.com Head of Research & Development, Media Kernels Indonesia 1999 – 2005 S1, Ilmu Komputer, UGM, Yogyakarta 2016 – 2017 S2, Artificial Intelligence, University of Edinburgh, UK 2006 – 2016 Helpdesk & Support Engineer, Network Administrator PT Kompas Media Nusantara, Jakarta 2017 – 2018 System Administrator & Developer PT Media Kernels Indonesia, Jakarta 2018 – Sekarang Head of Research & Development PT Media Kernels Indonesia, Jakarta 2010 – 2012 Technical assistant for Kompas mobile app project on iOS, BlackberryOS, Android, Chrome Web Store 2016 – 2017 Chevening FCO Scholar 2017 – 2017 Volunteer, Marine Conservation Society, Edinburgh, UK 2018 – Sekarang Volunteer, Indonesia OneSearch 2019 – Sekarang Tim pengembang NoPlagiarism Indonesia OneSearch (similarity detector & backend services) PENDIDIKAN KARIR LAIN-LAIN
  • 3. AGENDA • Open Data dan Industri Baru • Open Source Intelligence (OSINT) • Studi Kasus OSINT: Drone Emprit • Studi Kasus Demokratisasi Data: Drone Emprit Academic • Resiko, Peluang dan Persiapan Era Open Data 3
  • 4. OPEN DATA DAN INDUSTRI BARU
  • 5. TENTANG OPEN DATA • https://opendatahandbook.org/guide/en/what-is-open-data/ • “Open data is data that can be freely used, re-used and redistributed by anyone - subject only, at most, to the requirement to attribute and share-alike.” • Karakteristik Open Data • Aksesibilitas (format standar yang dikenal luas / kompatibel) • Akses (mudah diperoleh) • Digunakan / disebarluaskan ulang dengan atribut dan syarat yang sama seperti semula (“copyleft”) • Partisipasi universal (kesetaraan akses bagi semua) 5
  • 6. RASIONALISASI OPEN DATA • Sudut pandang berbeda terhadap data membuka potensi manfaat yang beraneka ragam • Kerugian bagi banyak pihak jika hanya organisasi pencari profit / pihak dengan uang berlimpah saja yang punya akses ke data • “Customer” akan selamanya menjadi “Product” (konteks “free service”) • Sulit memverifikasi akuntabilitas lembaga publik • Progres riset sains & perkembangan teknologi lebih lambat • “Information wants to be free” (Stewart Brand, 1984) • UU No 14 Tahun 2008 tentang Keterbukaan Informasi Publik 6
  • 7. TREN OPEN DATA (PEMERINTAH)* 7 *) US Census Bureau tak diketahui tahun rilis open data-nya. BPS RI tidak masuk karena sebagian layanan berbayar.
  • 8. TREN OPEN DATA (AKADEMIA - INDUSTRI) 8
  • 9. KEMANA MENCARI OPEN DATA? • Amazon Open Data initiative • https://registry.opendata.aws/ • Google Cloud Public Dataset • https://console.cloud.google.com/marketplace/browse?filter=solution- type:dataset • Azure Open Datasets • https://azure.microsoft.com/en-us/services/open-datasets/ • Organisasi (nirlaba) internasional • UN, EU, ASEAN, … 9
  • 10. TANTANGAN OPEN DATA • Interoperabilitas • Banyak “standar” untuk berbagai domain dan kebutuhan • Tidak ada “one size fits all” • DCAT-US Schema (OpenData.gov), OAI-PMH (OneSearch.id) • Pilih yang mana saja? Seberapa banyak harus didukung? • ”Ego sektoral” / “political will” • Asumsi open data akan mengurangi wewenang / kekuasaan / daya tawar suatu posisi / institusi • Hambatan administratif • Kekosongan regulasi / payung hukum • Peleburan / ekspansi / perampingan / penutupan organisasi pemerintah • Serah terima pengelolaan data • Falsifikasi Data, baik sebagian/seluruhnya 10
  • 12. OPEN SOURCE INTELLIGENCE (OSINT) • Steele (2007): “unclassified information that has been deliberately discovered, discriminated, distilled and disseminated to a select audience in order to address a specific question” • Informasi yang: • Semua orang bisa mengakses (tidak bersifat rahasia) • Secara aktif dicari / dieksplorasi • Ditujukan pada pemirsa tertentu (yang tertarik dan menganggap relevan) • Menjawab pertanyaan spesifik • https://osintframework.com/ • Kumpulan tool / resource • Dikurasi oleh Justine Nordine (@jnordine) • Sebagian besar berkaitan dengan cyber- / network-security 12
  • 13. SUMBER DATA OSINT • (Hassan & Hijazi, 2018) • Internet • Media sosial, forum, blog, wiki, “dark” web, data geolocation, alamat IP, berkas digital, dsb • https://opendataimpactmap.org: contoh bagaimana open data dimanfaatkan • Jurnal khusus, publikasi akademik, laporan tahunan, prosiding konferensi ilmiah • Informasi geospasial • Foto / video + metadata • Media tradisional • Buku, majalah, koran, radio, TV 13
  • 14. KATEGORI OPEN INFORMATION & INTELLIGENCE Validated Open Source Intelligence (V-OSINT) Open Source Intelligence (OSINT) Open Source Information (OSIF) Open Source Data (OSD) 14 (Steele, 2006)
  • 15. KATEGORI OPEN INFORMATION & INTELLIGENCE (2) • Open source data (OSD) • Data sumber primer • Gambar, audio, video, teks • Surat terbuka, tayangan Vimeo/Youtube, podcast artis / kalangan profesional, Tweet netizen, blog • Open source information (OSIF) • Buku, koran, berita daring, laporan keuangan perusahaan terbuka • Open source intelligence (OSINT) • Siapa yang tweet pertama soal #TagarHeboh? Siapa yang mempopulerkan? • Berapa kasus korupsi yang melibatkan partai oposisi? Berapa lama rata- rata vonisnya? • Validated Open source intelligence (V-OSINT) • Hasil OSINT yang dikonfirmasi sumber otoritatif 15
  • 16. PARA “PEMAIN” OSINT • Kategori “Social Analytics Application” menurut Gartner • Luar negeri • Palantir • Tyler Technologies • Verint • Tableau • Digimind • Dan lain-lain • Dalam negeri • MediaWave • Binokular • IMM • Evello • Drone Emprit & FactMiner • Dan lain-lain 16
  • 18. TENTANG DRONE EMPRIT • Sistem monitoring dan analisis media digital & media sosial berbasis big data • Masuk kategori “Social Analytics Application” menurut Gartner • Dikembangkan sejak tahun 2009 di Amsterdam oleh Ismail Fahmi • Mulai digunakan di Indonesia sejak 2012 18
  • 19. STATISTIK DATA DRONE EMPRIT 19 (25 NOV 2019 S.D 25 NOV 2020) 2,4 Milyar 20,7 Juta23,8 Juta Komentar & Post FB Group / Public Page Komentar & Post Akun IG Komentar & Post Akun Youtube Artikel dalam & Luar Negeri Artikel berita Nasional & Lokal Jumlah tweet 9,9 Juta (ID) 2,7 Juta (EN) 6 Juta
  • 20. PROSEDUR OSINT DENGAN DRONE EMPRIT • ”Katakunci” dan “Filter” yang tepat sangat penting • Sering tidak pas / meleset • Terbiasa dimudahkan oleh ”personalized” search result? • Lakukan survei katakunci. Jangan berasumsi. • Sebagian jawaban ada pada pilihan grafik yang demikian banyak • Sebagian lain ada pada interpretasi peneliti • Pertanyaan riset + grafik analisis + interpretasi = INSIGHT 20
  • 21. PRINSIP DASAR: KATA KUNCI VS. FILTER 21
  • 22. PRINSIP DASAR: KATA KUNCI VS. FILTER (2) • Pemilihan kata kunci untuk proyek pemantauan tidak boleh ambigu • Data sesuai kata kunci yang masuk ke “data lake”: • Jika akurat akan memperkaya koleksi dokumen • Jika meleset akan menghamburkan ruang penyimpan / waktu komputasi yang berharga • Filter menentukan apa yang ditampilkan grafik untuk analisis • Jika kurang pas masih bisa diperbaiki untuk mempertajam analisis 22
  • 23. MENGAPA DATA SAYA TERLALU SEDIKIT? 23 • Tidak tepat dalam memilih kata kunci & filter • Kurang survei “lapangan”? DuckDuckGo? Twitter Search Advanced? • Slaah keitk? • Bukan periode puncak bergulirnya suatu isu • Kasus Free API twitter: • Terlambat mengantisipasi kata kunci populer • Tidak populer di medsos / media daring yang kita fokuskan
  • 24. MENGAPA DATA SAYA TERLALU BANYAK? 24 • Tidak tepat memilih kata kunci dan filter: • Kata kunci terlalu luas • Kata kunci ada di lebih dari satu bahasa • Kata kunci favorit pengirim “spam” • Tidak menerapkan filter (bahasa, logical OR / AND / NOT) • Terbalik dalam menerapkan filter • Topik ada di puncak popularitas
  • 25. CONTOH PERTANYAAN RISET 25 1. Isu Covid-19 di media sosial 1. Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)? 2. Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt- Nov 2020)? 3. Bagaimana perbandingan 1.1 dan 1.2 di periode awal pandemi (Feb- Mar 2020) dibandingkan dengan periode sebulan terakhir (Okt-Nov 2020)? 2. Tagar #DiRumahAja di media sosial 1. Sejak isu Covid-19, seberapa gencar (volume & tren) tagar ini dikumandangkan di medsos? 2. Bagaimana tren status bot untuk Twitter account yang menggaungkan tagar ini sejak awal pandemi? 3. Bagaimana perkembangan ekspresi emosi warganet selama berdiam #DiRumahAja sejak awal pandemi?
  • 26. CONTOH PERTANYAAN RISET (2) 26 3. M Rizieq Shihab (non-tagar) di media sosial dan daring 1. Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)? 2. Bagaimana tren sentimen publik selama sebulan terakhir (Okt-Nov 2020) dan proporsinya sesuai kategori media? 3. Bagaimana peta SNA di Twitter?
  • 27. 1. COVID-19: SETTING PEMANTAUAN 27 • Periode pemantauan: • 25 Feb – 25 Mar 2020 • 25 Okt – 25 Nov 2020 • Kata kunci: • #coronavirus, corona, nCov, covid, covid-19, covid19 • Jenis media: • News (ID), Twitter, Facebook, Instagram • Filter bahasa: Indonesia • Filter NOT - OR: • Malaysia, KKM, #AWANInews, jangkitan, kedah, sabah, pinang, dipermudahkan, Cikgu, kes baharu, kes kematian, kesihatan, tiada, kerana, cakap, takde, TERKANDAS, kes, mesej, surau, kes baru, kes aktif, Kuala Lumpur, Terengganu, baharu, selepas kesilapan, butoh, memaki, takziah, kuarantin, kakitangan, menyeru, cakap, perutusan, surau, kesepaduan, korang, takda, kes tertinggi, Hospital, dijangka, Selangor, Johor, kejer, pesakit, dipercayai, dijangkiti, takpe, cuba
  • 28. 1.1 COVID-19: EKSPRESI EMOSI PUBLIK OKT-NOV 2020 28 Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
  • 29. 1.2 COVID-19: TREN EKSPRESI EMOSI PUBLIK (SURPRISE) OKT-NOV 2020 29 Q: Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt-Nov 2020)?
  • 30. 1.2 COVID-19: TREN EKSPRESI EMOSI PUBLIK (ANTICIPATION) OKT-NOV 2020 30 Q: Bagaimana tren ekspresi emosi public selama sebulan terakhir (Okt-Nov 2020)?
  • 31. 1.3 COVID-19: EKSPRESI EMOSI PUBLIK AWAL PANDEMI VS. SEBULAN TERAKHIR 31 Q: Bagaimana perbandingan ekspresi emosi publik di periode awal pandemi (Feb-Mar 2020) dibandingkan dengan periode sebulan terakhir (Okt-Nov 2020)?
  • 32. 1.3 COVID-19: TREN EKSPRESI EMOSI PUBLIK AWAL PANDEMIK VS. SEBULAN TERAKHIR 32 FEAR ANTICIPATION ANGER SURPRISE ANTICIPATION SADNESS Q: Bagaimana perbandingan tren ekspresi emosi publik di periode awal pandemi (Feb- Mar 2020) dibandingkan dengan periode sebulan terakhir (Okt-Nov 2020)?
  • 33. 2. #DIRUMAHAJA: SETTING PEMANTAUAN 33 • Periode pemantauan: • 25 Feb – 25 Mar 2020 (awal pandemi) • 25 Okt – 25 Nov 2020 (1 bulan terakhir pandemi) • 25 Feb – 25 Nov 2020 (pandemi berjalan sejauh ini) • Kata kunci: • DirumahAja • Jenis media: • News (ID), Twitter, Facebook, Instagram, Youtube • Filter bahasa: (tidak ada) • Filter logical: (tidak ada)
  • 34. 2.1 #DIRUMAHAJA: TREN DAN VOLUME SEJAK AWAL PANDEMI 34 1. Spike di awal pandemi untuk Instagram: Spam? Jualan? Endorse produk? (harus cek silang dengan data yang masuk) 2. Normalnya, volume data Tweet lebih tinggi seperti terlihat hingga Juni 2020. Sesudah itu, Instagram lebih tinggi. Salah satu penjelasan: IG adalah medium favorit untuk posting foto jalan-jalan, wisata kuliner, dsb. Posting ulang konten lama dengan tagar #DiRumahAja merupakan ekspresi rindu kondisi normal. 3. Proyek pemantauan baru digelar 1 April 2020. Data sebelumnya tidak tertangkap mesin. Q: Sejak isu Covid-19, bagaimana volume & tren tagar #DirumahAja dikumandangkan di medsos?
  • 35. 2.2 #DIRUMAHAJA: TREN TWITTER BOT SEJAK AWAL PANDEMI • Percakapan terlihat natural • Tidak nampak aktivitas twitter bot yang cukup berarti untuk mengusung tagar #DiRumahAja • Kesimpulan: tagar #DiRumahAja yang sering menyertai tagar promo produk di Twitter dilakukan secara “manusiawi” bukan “robotwi” 35 Q: Bagaimana tren status bot untuk Twitter account yang menggaungkan tagar #DirumahAja sejak awal pandemi?
  • 36. 2.3 #DIRUMAHAJA: EKSPRESI EMOSI PUBLIK SEJAK AWAL PANDEMI 36 1. Secara umum ada ekspresi “Trust”, “Anticipation”, “Joy” 2. Cukup banyak spam (jualan, prostitusi) yang menghiasi 3 kategori emosi teratas 3. Ekspresi “Trust” menunjukkan masih ada yang tidak percaya Covid-19 itu nyata dan meragukan keseriusan pemerintah menanganinya 4. Ekspresi “Anticipation” menunjukkan masyarakat yang menaruh harapan akan perubahan situasi pandemi 5. Tren ekspresi “Joy” menunjukkan kejenuhan yang seiring waktu memupuskan kegembiraan bisa di rumah saja di awal masa pandemi Q: Bagaimana ekspresi emosi warganet selama berdiam #DiRumahAja sejak awal pandemi?
  • 37. 3. H. RIZIEQ: SETTING PEMANTAUAN 37 • Periode pemantauan: 1-25 Nov 2020 • Kata kunci: • habib rizieq, habibrizieq, muhammad rizieq syihab, Imam Besar FPI • Jenis media: • News (ID), Twitter • Filter bahasa: (tidak ada) • Filter NOT: (tidak ada)
  • 38. 3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV 2020 38 Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)?
  • 39. 3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV 2020 39 Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)? 1. Didominasi “Surprise” karena berbagai peristiwa tak terduga oleh publik: kepulangan tiba-tiba, kemacetan & kerumuman saat penjemputan, kerumunan saat acara pernikahan putrinya. 2. Ekspresi “Anticipation” menyusul mengikuti beberapa dampak susulan kejadian penyebab “Surprise” tersebut 3. Menarik untuk disimak bagaimana ekspresi “Joy” seimbang dengan “Anger”.
  • 40. 3.1 H. RIZIEK: EKSPRESI EMOSI PUBLIK OKT-NOV 2020 40 Q: Apa saja ekspresi emosi publik selama sebulan terakhir (Okt-Nov 2020)? 1. 2 Nov 2020: Ekspresi “Anger” merespon karikatur Nabi di majalah Perancis yang dikontraskan dengan peristiwa lokal lewat ceramah H. Riziek 2. 11 Nov 2020: Anies Baswedan menemui H. Riziek 3. Ekspresi lain (“Surprise”, ”Anticipation”, “Joy”, “Trust”) naik turun seiring berbagai peristiwa di tanggal lainnya
  • 41. 3.2 H. RIZIEK: TREN SENTIMEN PUBLIK MENURUT PLATFORM MEDIA OKT-NOV 2020 • 25 Okt - 25 Nov 2020 • Tidak ingin terlibat perang tagar • Agar bisa membandingkan konten medsos vs. media daring secara ”adil” • Melepaskan diri dari perang opini yang riuh • Menyebutkan nama secara bermartabat • Membuang sebutan yang bersifat tak pantas • Meminimalkan umpatan yang bersifat ekstrim • Beda platform, beda hasil: • Twitter: mayoritas negatif • Media daring: mayoritas positif • Peristiwa dalam rentang tanggal: • Penjemputan masif di bandara Soekarno Hatta • Acara pernikahan putri H. Riziek di Bogor • Publik lebih banyak merespon secara negatif beberapa peristiwa penting tersebut (merasa terganggu dengan kemacetan, khawatir dengan kerumunan yang berisiko penularan Covid) • Media daring lebih banyak memberitakan secara positif dan netral, tidak banyak mengulas respon publik di medsos sebagaimana kerap dilakukan. 41 Q: Bagaimana tren sentimen publik selama sebulan terakhir (Okt-Nov 2020) dan proporsinya sesuai kategori media?
  • 42. 3.3 H. RIZIEK: PETA SOCIAL NETWORK ANALYSIS (TWITTER) OKT-NOV 2020 42
  • 43. 3.3 H. RIZIEK: PETA SOCIAL NETWORK ANALYSIS (SNA) OKT-NOV 2020 • Total tweets: 392 ribu, sample: 4 ribu • SNA: Sentimen negatif (merah) dominan • Tren Bot: Mayoritas lewat percakapan manusia (hijau), bukan bot (merah). • Area A: • Polarisasi ekstrim cinta dan ekstrim benci, bertabur sindiran dan sarkasme • Sebagian media daring (Republika, SindoNews, Kumparan, Gelora) ikut hanyut di kluster ini • Banyak supporter pasif mengelilingi influencer utama pihak oposisi (@fadlizon, @maspiyuo, ...) • Area B: • Penengah dan penyeimbang informasi • Mayoritas oleh Detik, sebagian kecil oleh KompasTV & CNN Indonesia • Area C: • Seharusnya lebih besar lagi! (@Islamidotco, @BakarSmith, @Na_dirs, ...) • Berusaha objektif saat mengkritik (jelas objek kritik dan argumennya) • Mencintai H. Riziek sebagai keturunan Nabi SAW, tetapi menolak kontroversi pernyataan / perilakunya • Menjaga jarak dari tarik ulur agenda politik 43
  • 44. ANALISIS EMOSI: KATEGORI MENURUT ROBERT PLUTCHIK • (Plutchik, 1980) • Delapan kategori emosi • Joy, Trust, Fear, Surprise, Sadness, Disgust, Anger, Anticipation • Masing-masing kategori emosi memiliki kutub berseberangan • Setiap kategori emosi punya intensitas yang makin melemah dari pusat ke tepi • Analisis Emosi Drone Emprit memetakan kategori dan intensitas emosi ke dalam sekelompok kata kunci yang dipilih seksama dan dievaluasi berkala (bahasa Indonesia dan Inggris). 44
  • 46. TENTANG ANALISIS TOPIK • Sumber data: situs berita daring • Memantau topik berita utama dari berbagai media pada suatu waktu • Kluster topik berdasarkan keberadaan, frekuensi, lokasi kata kunci dengan bobot tertentu • Headline terpilih adalah yang dominan di seluruh metriks • Ekstraksi “term” / kata kunci secara otomatis. 46
  • 47. TENTANG FACTMINER 47 • Sumber data: • Berita media daring • Sumber teks lainnya (dokumen laporan, transkrip wawancara, dsb) • Menggali fakta-fakta pada teks: • Named Entity: nama orang, organisasi, kota, • Peristiwa: kata kerja yang terlibat • Kalimat: subjek, predikat, objek / keterangan • Menampilkan secara visual: • Peta geolokasi terjadinya suatu peristiwa • Peta co-occurrence: istilah yang sering muncul secara bersamaan • Peta SPO (Subjek-Predikat-Objek): frekuensi kemunculan kata dalam konteks SPO
  • 53. DRONE EMPRIT PRESS: PUBLIKASI HASIL ANALISIS 53
  • 54. TENTANG DRONE EMPRIT PRESS • Publikasi hasil analisis yang tersebar di berbagai medium (Slideshare, FB) • Artikel terpilih dibukukan dalam “Membaca Indonesia” jilid 1-6 • Bisa diakses daring di pers.droneemprit.id • Membaca data apa-adanya • Memungkinkan analisis turunan dan meta-analisis • Memberi ruang interpretasi bagi pembaca 54
  • 55. ALGORITMA • Clustering (K-Means, Agglomerative hierachical, dsb) • Maximum Entropy classifier • Deep learning (Convolutional Neural Network) • Named Entity Recognition (NER) 55
  • 56. TEKNOLOGI KOMPUTASI • DB: MySQL, MongoDB • Document search engine: Apache Lucene, Solr, ElasticSearch • Programming languages: Perl, Python, Golang, Bash, C++ (sedikit) • Queue server: Redis, Apache Kafka, RabbitMQ • Web front-end: PHP, Javascript, Node.js • Container: Docker • OS: Ubuntu Linux 56
  • 57. BEBERAPA RUANG UNTUK BERKEMBANG • Coreference resolution (lanjutan) • Non-keyword based emotion detection • Deteksi sarkasme • Deteksi bahasa yang lebih akurat di mikroblog (Twitter) • Aspect based sentiment analysis • Prediksi viralitas isu / tagar 57
  • 59. TENTANG DRONE EMPRIT ACADEMIC • Diluncurkan pada acara “Jogjakarta Mendaras Data” pada tanggal 14 Oktober 2018 • Didukung semangat menormalkan kembali politik gagasan • Meningkatkan rasio sinyal/derau warganet di ranah medsos • Menangkap sinyal aspirasi warganet agar sampai pada pihak terkait • Tujuan akhir: kebijakan publik yang berbasis aspirasi masyarakat banyak • Sistem aplikasi disediakan oleh PT Media Kernels Indonesia • Subset Drone Emprit • Sumber data: Twitter free API • Sistem terpasang dan dikelola Badan Sistem Informasi (BSI) Universitas Islam Indonesia, Jogjakarta 59
  • 60. TENTANG DRONE EMPRIT ACADEMIC (2) • “Gratis” • Tidak dipungut biaya • Untuk akademisi, jurnalis, masyarakat umum • “Pembayaran” adalah dengan tulisan berbasis data Drone Emprit di berbagai pilihan medium (jurnal, blog, surat kabar, dsb) • Minimal 1 tulisan setiap 2 bulan • Beberapa statistik (per 25 Nov 2020) • 921 proyek pemantauan katakunci (236 aktif) • 2900 anggota terdaftar • Diakses di dea.uii.ac.id 60
  • 62. DRONE EMPRIT ACADEMIC: KATEGORI TOPIK 62
  • 63. DRONE EMPRIT ACADEMIC: SETTING PEMANTAUAN 63
  • 64. DRONE EMPRIT ACADEMIC: PUBLIKASI 64
  • 65. DRONE EMPRIT ACADEMIC: SDG DAN KATEGORI TURUNANNYA 65
  • 67. RESIKO OPEN DATA • Inherent bias • Cherry-picking data • Data misuse / misinterpretation / misrepresentation • Falsified data (deliberate) • Privacy abuse • Cyber-security risks 67
  • 68. PELUANG & MANFAAT OPEN DATA • Mendorong : • Social activism • Citizen & data journalism • Computational journalism & fact-checking • Citizen investigation • Global Investigative Journalism Network (gijn.org) • Mendukung freedom of press • Bahkan ketika industri media dikuasai oligarki • Mendorong berkembangnya riset kolaboratif • Menyemai tumbuhnya industri baru 68
  • 69. PERSIAPKAN BEKAL • Keterampilan / Pengetahuan • Pemrograman (tak bisa ditawar) • Komunikasi • Menyampaikan gagasan dengan jernih & menarik • Mendeskripsikan bug dengan akurat • Bertanya secara efektif • Domain of interest • Linguistik • Pemrosesan gambar • Robotika, mekatronik • Psikologi, Psikolinguistik, Behavioral science • Fisika • Biologi, Bioinformatics • Dan lain-lain • Crawler & Harvester • Bagaimana menjadi “tamu” yang sopan dan menghindari pemblokiran? • Bersikap sopan namun efektif: tidak semudah yang terlihat  69
  • 70. PERSIAPKAN BEKAL (2) • Perubahan Pola Pikir • Ada sekian banyak data W. Jika saya ubah ke bentuk tertentu, apa yang bisa saya gali? • Ada data X. Jika punya hingga N tahun ke belakang, insight apa yang saya dapat? • Adanya masalah Z, data apa yang saya butuhkan untuk memecahkannya? Dari mana? Jika tidak cukup ilmu, siapa yang bisa saya ajak berkolaborasi? • Berlatih! • Proyek sampingan • Hackathon • Kompetisi Kaggle • Reproduksi eksperimen • Dan lain-lain • Kolaborasi • Interdisipliner • PENTING: Latar belakang demografi (gender, etnis, geografis, sosial/ekonomi, dsb) yang beragam mendorong penerapan AI yang etis dan bertanggung jawab 70
  • 73. REFERENSI • Fahmi, I. (2016). Drone Emprit: software for media monitoring and analytics. Available at http://pers.droneemprit.id • Fahmi, I. (2018). Drone Emprit Academic: Software for social media monitoring and analytics. Available at http://dea.uii.ac.id • Hassan, N.A & Hijazi, R. (2018). Open source intelligence methods and tools: a practical guide to online intelligence. Apress. DOI 10.1007/978-1- 4842-3213-2 • Koehn, P. (2005). Europarl: a parallel corpus for statistical machine translation. In MachineTranslation Summit X, pages 79–86, Phuket, Thailand. • Krizhevsky, A. (2009). Learning multiple layers of features from tiny images. Available at https://www.cs.toronto.edu/~kriz/cifar.html • Plutchik, R. (1980). Emotion: a psychoevolutionary synthesis. Harper & Row New York. • Steele, R.D. (2007). Open source intelligence. In Johnson, L.K. (Eds.), Handbook of Intelligence Studies (pp. 129-147). Routledge 73