Visualisasi Data Kualitatif dengan Netlytics

Webinar Series DMfSS
Visualisasi Data Kualitatif
dengan Netlytics
Hendro Subagyo, PDDI LIPI
Webinar Series Digital Method IPSK
Jakarta, 23 Agustus 2020

Agenda
➢Kuantitatif vs Kualitatif
➢Visualisasi Kuantitatif dan Kualitatif
➢Visualisasi Data Kualitatif dengan Netlytics

Requirements
• Telah mengikuti kelas Pengenalan Netlytic (akuisisi data twitter)
• Softwares:
• Web browser untuk membuka Netlytic
• Netlytic untuk eksplorasi dan visualisasi
• Excel untuk eksplorasi dan visualisasi

Kualitatif dan Kuantitatif
• Kuantitatif: numerik, dapat diukur.
• Kualitatif: kategorikal, dapat diindera, tidak dapat diukur.
• Tidak semua data adalah numerik (kuantitatif).
• Bahkan sebagian besar data di dalam organisasi adalah kualitatif.
• Terkadang, data kualitatif perlu ditransformasi menjadi kuantitatif dalam
rangka analisis. Tetapi data numerik hasil transformasi tersebut, tidak
menghilangkan sifat non-numerik.
• Tidak semua dataset adalah tabular.

Data & Dataset (himpunan data)
Dataset Iris (Ronald Fisher 1936)
kuantitatif kualitatif

Tipe DataJenis Atribut Deskripsi Contoh Operasi
Ratio
(Mutlak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Mempunyai titik nol yang absolut
(*, /)
• Umur
• Berat badan
• Tinggi badan
• Jumlah uang
geometric mean,
harmonic mean,
percent variation
Interval
(Jarak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Tidak mempunyai titik nol yang absolut
(+, - )
• Suhu 0°c-100°c,
• Umur 20-30 tahun
mean, standard
deviation, Pearson's
correlation, t and F
tests
Ordinal
(Peringkat)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Tetapi diantara data tersebut terdapat
hubungan atau berurutan
(<, >)
• Tingkat kepuasan
pelanggan (puas, sedang,
tidak puas)
median, percentiles,
rank correlation, run
tests, sign tests
Nominal
(Label)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Menunjukkan beberapa object yang berbeda
(=, )
• Kode pos
• Jenis kelamin
• Nomer induk karyawan
• Nama kota
mode, entropy,
contingency
correlation, 2 test

Data: Terstruktur vs Tidak Terstruktur
• Tipe data teks yang
paling banyak dianalisis
di bidang sosial adalah
salah contoh data tidak
terstruktur.
• Data tidak terstruktur
adalah data yang tidak
berupa tabular.
• Data terbanyak di
organisasi, justru data
tidak terstruktur
https://lawtomated.com/wp-content/uploads/2019/04/structuredVsUnstructuredIgneos.png

Rekomendasi dalam Akuisisi Data - 1
1. Tidak semua data dibuat dan diperlakukan secara sama/setara.
Luangkan waktu dan usaha untuk mempertimbangkan kategori data
(nominal, ordinal, interval, rasio) yang akan kita kumpulkan.
Bagaimana data tsb akan dianalisis atau dipresentasikan?
2. Lebih banyak lebih baik, bila kita dapat memastikan spek dimensi
data, waktu, responden dslb., sehingga menambahkan data akuisisi
di lain waktu sangat sulit.
3. Lebih banyak tidak lebih baik, bila kita dapat mengkomunikasikan
lebih baik dengan data yang lebih sedikit.

Rekomendasi dalam Akuisisi Data - 2
3. Selalu jaga data tetap mudah dan dalam bentuk tabular. Nama
field/kolom singkat dan mudah dipahami. Setiap baris/record terisi
dengan data yang valid.
4. Komentar sangat berguna. Tambahkan field komentar bila
diperlukan, agar pembaca data dapat memahami lebih baik.
5. Konsisten dalam judul kategori dalam data.

Visualisasi Kualitatif dg Netlytic
Pembahasan akuisisi data sosial media dengan Netlytic telah dibahas dalam
pertemuan sebelumnya. Pertemuan ini akan mencoba mereview melalui studi
kasus, dan melanjutkan pembahasan visualisasi kualitatif.

Review: Siklus Data Mining (CRISP-DM)
CRoss-Industry Standard Process for Data Mining

Memahami Bisnis & Data, Penyiapan Data
• Problem: sentimen pengguna terhadap layanan
IndiHome
• Konteks: dalam dua minggu terakhir, pandemic ….
→Dapat menggunakan Netlytic
• Kata kunci: IndiHome layanan pengguna

Kata Kunci: IndiHome layanan pengguna
• Data terlalu sedikit. Perlu
perbaikan kata kunci.
→Kata kunci:
IndiHome layanan

Kata Kunci: IndiHome layanan
• Data cukup (maksimum
Netlytic).
• Simpan sebagai Test 2
IndiHome
→ Eksplorasi data hasil akuisisi

Field AUTHOR:
Terlalu banyak IndiHome, yang mengindikasikan
tweets dari IndiHome sendiri, sehingga tidak
menggambarkan sentiment pengguna layanan
Modifikasi Query:
Mengeluarkan tweets dari
@IndiHome
@IndiHomeW
@TelkomSolution
Simpan sebagai dataset
Test 2 IndiHome

Query:
Indohome layanan -FROM:IndiHome -FROM:TelkomSolution -
FROM:IndiHomeW
Sepertinya sudah OK.
Simpan sebagai dataset
Test 3 IndiHome

Apa yang telah kita lakukan.
• Memahami kebutuhan dan data
• Melakukan akuisisi data
• Mengeksplorasi data
• Mengulangi akuisisi data, agar lebih mendekati kebutuhan data

Visualisasi berbasis Word Count

Analisis & Visualisasi Kualitatif berbasis
Word Frequency
• Proses analisis berbasis
frekuensi kata, di mana kata
adalah data nominal.
• Kualitas analisis tergantung
bagaimana kita memaknai setiap
kata yang muncul.
• Salah satu teknik adalah
menghapus “stop words”.

Stop Word
• Stop Word adalah kata yang
terlalu sering muncul dan tidak
terkait dengan makna dalam
konteks. Contoh: kata sambung.
• Kenapa “Stop”, karena dalam
rangkaian proses (pipeline)
pengolahan seluruh kata dalam
teks, maka kata tersebut tidak
diproses (skip, stop).
• Netlytic berbasis bahasa Inggris,
sehingga tidak dapat mengolah
kata secara otomatis untuk
Bahasa Indonesia:
• Stop word
• Stemming
• Lemmatization
• Stop Word Bahasa
• Lucene Project’s ID Stop Word →
lihat stopwords_ID.txt

Data Cleaning:
Menghapus kata yang tidak penting
• Selain kata-kata Stop Word,
perlu juga dihapus kata-kata
yang tidak perlu
• Ada pula kata-kata yang perlu
ditransformasi menjadi 1 term:
• Saya, aku, guwe, gw, gue → saya
• Error, eror, err → error
• Emosi, emosy, esmosi → emosi

Data Cleaning: dengan spreadsheet (Excel)
• Membuang kata/rekod yang tidak perlu
• Normalisasi kata
• Saya, aku, guwe, gw, gue → saya
• Error, eror, err → error
• Emosi, emosy, esmosi → emosi
• Menggabungkan rekod dari kata-kata
yang telah ternomalisasi, jumlah
kemunculan di-SUM (ditambahkan)
• Sebaliknya, terkadang ada rekod yang
perlu dibagi menjadi 2 rekod, karena
mengandung 2 term/kata.

Visualiasi Word Cloud dari data Spreadsheet
(Excel, csv) via aplikasi free di internet
• Word Cloud
https://www.wordclouds.com/
• Jason Davies
https://www.jasondavies.com/w
ordcloud/
• Format data tergantung aplikasi
website.
• Word Cloud menganut format
csv:
weight (frekuensi), word (kata)

• Merubah format sesuai
spesifikasi World Cloud
• Klik “Word List”
• Upload file csv.

• Format World Cloud

• Tentukan konfigurasi: shape, size, color scheme

• Membersihkan data tidak penting
• Visualiasi Word Count/Cloud dengan Netlytics/Word Cloud

Visualisasi Klasifikasi Dokumen

Klasifikasi Berbasis Kemunculan Kata
• Klik “Create/Edit Categories”
untuk memulai membuat
kategori klasifikasi

• Aktifkan/Non-aktifkan kategori yang
diperlukan.
• Dalam hal klasifikasi sentiment, kita hanya
perlu Feeling (bad) & Feeling (good), dan
menon-aktifkan lainnya.
• Atau kita dapat membuat kategori sendiri,
misal: Positif & Negatif

• Tambahkan kata/istilah yang mengindikasikan
sentimen positif pada kategori Feeling (bad)
• Lemot, lem***t
• Satu bintang (*) di antara 2 kata, menandakan boleh ada
kata apa saja di antara 2 kata tersebut:
“dari * ke” → dari Jakarta ke
• Tiga bintang (***) di depan, tengah atau belakang
deretan huruf (string), menandakan boleh muncul
deretan huruf apa saja.
“lel***t” → lelet, leleeet, leloot

• Setelah menentukan kata-kata penanda
klasifikasi, klik “Analyze” untuk memulai
analisis.
• Kemudian setelah menu di samping kiri
ini, maka klik “Visualize” untuk melihat
hasil analisis.

• Hasil analisis berupa diagram treemap.
• Setiap kotak dalam treemap dapat diklik untuk melihat informasi lebih
detil.

• Untuk menyimpan hasil klasifikasi,
klik “Export” dan pilih opsi dataset
yang diinginkan.

• Membuat klasifikasi berbasis kategori dengan kemunculan kata/istilah
• Visualisasi hasil klasifikasi dengan Netlytic

Communication Network berbasis Twitter
• Name Network (who mention
whom): jaringan komunikasi
yang dibangun dengan menggali
nama personal di dalam pesan
twitter.
• Chain Network (who replies to
whom): jaringan komunikasi
yang dibangun berdasarkan
perilaku partisipasi posting di
dalam twitter.

Name Network (who mention whom)
jaringan komunikasi yang dibangun dg menggali nama personal
• Pilih Network Analysis, kemudian di
box “Name Network”, klik “Analyze”.
• Kemudian Klik “Visualize”

Hasil Name Network:
• Dataset Test 2 Indihom
(termasuk akun IndiHome)
• Dataset Test 3 IndiHome (tanpa
akun IndiHome)

In-degree & Out-degree
• @cheeflo mention @JoeProf & @VMoso
• Degree = in-degree + out-degree
• @cheeflo:
in-degree = 0, out-degree = 2, degree = 2
• @JoeProf:
in-degree = 1, out-degree = 0, degree = 1
• @VMoso:
In-degree = 1, out-degree = 0, degree = 1
Social Network Analysis memanfaatkan in-
degree dan out-degree.
cheeflo
JoeProf
VMosco

Analisis In-Degree & Out-Degree
(dataset Test 3 IndiHome)
@rifqiqi4 dan @detytresiaputri menmention 2 orang yang sama dalam query ini. Jadi?

Chain Network (who mention whom)
jaringan komunikasi yang dibangun dg prilaku partisipasi posting
• Pilih Network Analysis, kemudian di
box “Chain Network”, klik “Analyze”.
• Kemudian Klik “Visualize”

Sebuah klaster adalah
sekelompok node yang
terhubung secara padat
(high density) yang lebih
mungkin untuk
berkomunikasi satu sama
lain daripada ke node di
luar cluster.
Kepadatan adalah proporsi
ikatan yang ada dengan
jumlah total ikatan yang
mungkin dalam suatu
jaringan.
Density = jumlah koneksi
dibagi jumlah konesi yang
mungkin

Komunitas/Klaster ke-4
• @detytreasiaputri me-mention
@nurulamelia, @fiersabesar @
dan @bejalanbatiss
• @rifqiqi4 me-reply tweet tsb,
dengan me-mention @nurulamelia
dan @fiersabesari
• Ke-lima-nya, berpotensi dalam 1
komunitas dan kecil kemungkinan
berkomunikasi dengan pengguna
lain. (berdasarkan data)

5 Aplikasi berbasis Social Network Analysis
1. Menemukan dan analisis influencer
influencer = nilai indegree besar → prestise, otoritas, real impact
2. Menemukan dan analisis activator
activator = nilai outdegree besar + tags/sentiment → memancing engagement
3. Analisis aliran informasi
bagaimana informasi mengalir tersampaikan kepada orang-orang/komunitas
4. Mengukur dampak kampanye/marketing
efektifitas social media sebagai hub kampanye, dapat diukur dengan link, hastags dll
5. Analisis klaster dan komunitas
Pemetaan klister dan komunitas, diukur dengan informasi relasi dan teks kemiripan topik/tema,
demografi, referensi dll

• Membuat klasifikasi berbasis kategori dengan kemunculan kata/istilah
• Visualisasi hasil klasifikasi dengan Netlytic
• Menganalisis data twitter berdasarkan penggalian informasi
penyebutan nama pengguna (Name Network) dan prilaku partisipasi
posting (Chain Network)

Tugas Workshop Sesi 4: Netlytic
• Tugas Kelompok
• Tema tugas: studi kasus pada masing-masing kegiatan PRN
1. Lakukan analisis berbasis pilihan berikut: a) sentimen positif/negative,
b) klasifikasi teks, c) identifikasi Bahasa, d) ekstraksi topik, dari data
twitter yang telah Anda kumpulkan dengan Netlytic. Anda dapat
menggunakan salah satu teknik atau mengkombinasikan 2 atau lebih
teknik. Output: ringkasan data
2. Lakukan analisis Name Network dan Chain Network berdasarkan data
twitter yang telah Anda kumpulkan dengan Netlytic. Output: diagram
jaringan. Bebas mengkombinasikan data lebih jauh dengan
memberikan keterangan makna dari output (maksimal 500 kata)

Visualisasi Data Kualitatif dengan Netlytics

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Visualisasi Data Kualitatif dengan Netlytics

Similar to Visualisasi Data Kualitatif dengan Netlytics (20)

More from Hendro Subagyo

More from Hendro Subagyo (20)

Recently uploaded

Recently uploaded (13)

Visualisasi Data Kualitatif dengan Netlytics