FrekuensiKataBI

•

5 likes•12,259 views

Dalam bahasa yang sama, kata yang paling sering digunakan, jumlah huruf per kata, serta berbagai statistik lain yang terkait dengan distribusi frekuensi sangat bergantung kepada ragam yang digunakan. Makalah ini menelaah perbandingan distribusi frekuensi kata antara empat ragam bahasa Indonesia yang populer di internet, yaitu Kompas (media massa), Wikipedia bahasa Indonesia (ensiklopedia), Twitter (mikroblog), dan Kaskus (forum). Kajian dilakukan dengan menggunakan korpus yang diambil dari data yang tersedia secara publik di internet serta diproses dengan menggunakan bahasa pemrograman Python serta beberapa pustaka pemrograman yang bersumber terbuka. Hasil kajian menunjukkan adanya perbedaan distribusi yang cukup tajam di antara keempat ragam bahasa Indonesia ini. Kompas banyak menggunakan kata akan karena sifat beritanya; Wikipedia banyak menggunakan kata adalah karena sifat deskriptifnya; Twitter banyak menggunakan kata aku karena sifat subjektifnya; Kaskus banyak menggunakan kata gan yang merupakan kata khas komunitas ini. Kajian ini juga memberikan beberapa hal yang harus diperhatikan dalam kajian serupa seperti penyiapan dan pembersihan data korpus dan leksikon. Kajian ini diharapkan dapat memberikan dasar penelitian lebih lanjut dalam bidang distribusi frekuensi dan analisis korpus bahasa Indonesia.

Education Technology

Perbandingan distribusi frekuensi
kata bahasa Indonesia di Kompas,
Wikipedia, Twitter, dan Kaskus
Ivan Lanin, Jim Geovedi, Wicak Soegijoko
Ardwort, http://ardwort.com

Latar belakang
• Apa kata yang paling sering dipakai dalam
bahasa Indonesia?
• Berapa jumlah huruf per kata yang paling
sering dipakai dalam bahasa Indonesia?
• Apakah ragam bahasa menentukan pemilihan
kata?
• Bagaimana pola distribusi frekuensi
penggunaan kata?
2

Sumber data
Korpus Sumber data Jumlah
kata unik
Jumlah
kata total
Kompas
(media massa)
Diambil pada bulan Januari tahun 2013
untuk artikel berita berbahasa Indonesia
daring tahun 2012
343.532 32.724.503
Wikipedia
(ensiklopedia)
Diambil dari salinan Wikipedia bahasa
Indonesia bulan Januari tahun 2013
936.288 43.545.242
Twitter
(mikroblog)
Diambil pada bulan Januari tahun 2013
untuk percakapan bulan Oktober-Desember
2012 oleh pengguna Twitter yang berlokasi
di Indonesia
798.078 34.769.573
Kaskus
(forum)
Diambil pada bulan Januari tahun 2013 dan
dari 1000 utas (thread) terakhir sub-forum
The Lounge
761.795 109.292.156
3

Metodologi
Scraping
(Kompas, Kaskus)
Ekstrasi XML
(Wikipedia)
Kueri API (Twitter)
Pengambilan
Kode HTML
URL
Pola acu
Tanda baca
Pembersihan
Python
NLTK
NumPy
SciPy
Ramisch (2012): f
= Cw(•) / N
Zipf (1932): f = k/r
Pengolahan
4

Peringkat frekuensi kemunculan *
# Kompas Wikipedia Twitter Kaskus
1 yang yang di gan
2 di dan yg ane
3 dan di ya di
4 ini pada aku yang
5 itu dari yang yg
6 dengan dengan ini ya
7 untuk ini itu ada
8 dari adalah ada itu
9 dalam dalam d tuh
10 akan untuk aja aja
# Kompas Wikipedia Twitter Kaskus
11 pada kategori ga bisa
12 tidak tahun dan juga
13 juga sebagai gak kalo
14 ke oleh i keren
15 tersebut indonesia mau ga
16 ada ke ke banget
17 bisa the udah nya
18 saat ia lagi wah
19 jakarta tidak kalo nih
20 tahun menjadi the jadi
5
* Data lengkap: https://github.com/ardwort/freq-dist-id

Analisis frekuensi kemunculan
Kompas Wikipedia Twitter Kaskus
• akan (#10): hal-hal di
masa depan
• Jakarta (#19):
tempat
• tahun (#20): waktu
• adalah (#8):
deskriptif
• the (#17): nama diri
• kategori (#11):
kategorisasi artikel
• aku (#4); mau (#15):
subjektif
• yg (#2); d (#9); ga
(#11): pemendekan
• aja (#10); gak (#13);
udah (#17); kalo
(#19): percakapan
• i (#14): campur kode
atau alih kode
• gan (#1); ane (#2):
pronomina persona
khas komunitas
• yg (#5); ga (#15):
pemendekan
• kalo (#13); banget
(#16): percakapan
• tuh (#9); wah (#18);
nih (#19), keren
(#14): ekspresif
• nya (#17): partikel
6

Distribusi frekuensi kemunculan
Hukum Zipf:
f = k/r
7

Perbandingan frekuensi kemunculan
• Perbandingan: Tala
(2003)
• yang dan di: empat
korpus
• ada, dan, ini, itu, dan ke:
tiga korpus
8

Distribusi jumlah huruf per kata
• Distribusi Gauss condong
ke kiri (kata pendek)
• Kompas: 5 huruf
• Wikipedia: 4 huruf
• Twitter: 4 huruf
• Kaskus: 3 huruf
• Dorongan meminimalkan
waktu & upaya
(Piantadosi, 2011)
9

Kesimpulan dan pengembangan
• Kesimpulan:
– Kata yang tersering dipakai umumnya merupakan partikel
– Jumlah huruf per kata yang paling sering dipakai antara 3‌–5
– Ragam bahasa menentukan pemilihan kata
– Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikuti
hukum Zipf
• Penyempurnaan
– Pengenalan nama diri (named-entity recognition)
– Penandaan kata hentian (stopwords)
• Pengembangan:
– Kamus kata bahasa Indonesia sederhana berdasarkan kata yang paling
sering muncul dalam berbagai korpus
– Kamus variasi ejaan (atau salah eja) kata
– Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal)
10

Recently uploaded

RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...Kanaidi ken

1.2.a.6 Dekon modul 1.2. DINI FITRIANI.pdfsandi625870

alat-alat liturgi dalam Gereja Katolik.pptxRioNahak1

Kelompok 4 : Karakteristik Negara InggrisNazla aulia

aksi nyata pendidikan inklusif.pelatihan mandiri pmmeunikekambe10

Kelompok 1_Karakteristik negara jepang.pdfCloverash1

Panduan Substansi_ Pengelolaan Kinerja Kepala Sekolah Tahap Pelaksanaan.pptxsudianaade137

Demonstrasi Kontekstual Modul 1.2. pdfvebronialite32

PPT IPS Geografi SMA Kelas X_Bab 5_Atmosfer.pptx_20240214_193530_0000.pdfNatasyaA11

Panduan Mengisi Dokumen Tindak Lanjut.pdfandriasyulianto57

Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 TesalonikaSABDA

Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxBambang440423

Kisi-kisi UTS Kelas 9 Tahun Ajaran 2023/2024 Semester 2 IPSyudi_alfian

Membuat Strategi Penerapan Kurikulum Merdeka di dalam KelasHardaminOde2

PRESENTASI EEC social mobile, and local marketing.pptxPCMBANDUNGANKabSemar

adap penggunaan media sosial dalam kehidupan sehari-hari.pptxmtsmampunbarub4

SBM_Kelompok-7_Alat dan Media Pembelajaran.pptxFardanassegaf

PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKARenoMardhatillahS

SKPM Kualiti @ Sekolah 23 Feb 22222023.pptxg66527130

Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxsyafnasir

Recently uploaded (20)

RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...

1.2.a.6 Dekon modul 1.2. DINI FITRIANI.pdf

alat-alat liturgi dalam Gereja Katolik.pptx

Kelompok 4 : Karakteristik Negara Inggris

aksi nyata pendidikan inklusif.pelatihan mandiri pmm

Kelompok 1_Karakteristik negara jepang.pdf

Panduan Substansi_ Pengelolaan Kinerja Kepala Sekolah Tahap Pelaksanaan.pptx

Demonstrasi Kontekstual Modul 1.2. pdf

PPT IPS Geografi SMA Kelas X_Bab 5_Atmosfer.pptx_20240214_193530_0000.pdf

Panduan Mengisi Dokumen Tindak Lanjut.pdf

Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika

Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx

Kisi-kisi UTS Kelas 9 Tahun Ajaran 2023/2024 Semester 2 IPS

Membuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas

PRESENTASI EEC social mobile, and local marketing.pptx

adap penggunaan media sosial dalam kehidupan sehari-hari.pptx

SBM_Kelompok-7_Alat dan Media Pembelajaran.pptx

PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA

SKPM Kualiti @ Sekolah 23 Feb 22222023.pptx

Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx

FrekuensiKataBI

1. Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus Ivan Lanin, Jim Geovedi, Wicak Soegijoko Ardwort, http://ardwort.com

2. Latar belakang • Apa kata yang paling sering dipakai dalam bahasa Indonesia? • Berapa jumlah huruf per kata yang paling sering dipakai dalam bahasa Indonesia? • Apakah ragam bahasa menentukan pemilihan kata? • Bagaimana pola distribusi frekuensi penggunaan kata? 2

3. Sumber data Korpus Sumber data Jumlah kata unik Jumlah kata total Kompas (media massa) Diambil pada bulan Januari tahun 2013 untuk artikel berita berbahasa Indonesia daring tahun 2012 343.532 32.724.503 Wikipedia (ensiklopedia) Diambil dari salinan Wikipedia bahasa Indonesia bulan Januari tahun 2013 936.288 43.545.242 Twitter (mikroblog) Diambil pada bulan Januari tahun 2013 untuk percakapan bulan Oktober-Desember 2012 oleh pengguna Twitter yang berlokasi di Indonesia 798.078 34.769.573 Kaskus (forum) Diambil pada bulan Januari tahun 2013 dan dari 1000 utas (thread) terakhir sub-forum The Lounge 761.795 109.292.156 3

4. Metodologi Scraping (Kompas, Kaskus) Ekstrasi XML (Wikipedia) Kueri API (Twitter) Pengambilan Kode HTML URL Pola acu Tanda baca Pembersihan Python NLTK NumPy SciPy Ramisch (2012): f = Cw(•) / N Zipf (1932): f = k/r Pengolahan 4

5. Peringkat frekuensi kemunculan * # Kompas Wikipedia Twitter Kaskus 1 yang yang di gan 2 di dan yg ane 3 dan di ya di 4 ini pada aku yang 5 itu dari yang yg 6 dengan dengan ini ya 7 untuk ini itu ada 8 dari adalah ada itu 9 dalam dalam d tuh 10 akan untuk aja aja # Kompas Wikipedia Twitter Kaskus 11 pada kategori ga bisa 12 tidak tahun dan juga 13 juga sebagai gak kalo 14 ke oleh i keren 15 tersebut indonesia mau ga 16 ada ke ke banget 17 bisa the udah nya 18 saat ia lagi wah 19 jakarta tidak kalo nih 20 tahun menjadi the jadi 5 * Data lengkap: https://github.com/ardwort/freq-dist-id

6. Analisis frekuensi kemunculan Kompas Wikipedia Twitter Kaskus • akan (#10): hal-hal di masa depan • Jakarta (#19): tempat • tahun (#20): waktu • adalah (#8): deskriptif • the (#17): nama diri • kategori (#11): kategorisasi artikel • aku (#4); mau (#15): subjektif • yg (#2); d (#9); ga (#11): pemendekan • aja (#10); gak (#13); udah (#17); kalo (#19): percakapan • i (#14): campur kode atau alih kode • gan (#1); ane (#2): pronomina persona khas komunitas • yg (#5); ga (#15): pemendekan • kalo (#13); banget (#16): percakapan • tuh (#9); wah (#18); nih (#19), keren (#14): ekspresif • nya (#17): partikel 6

7. Distribusi frekuensi kemunculan Hukum Zipf: f = k/r 7

8. Perbandingan frekuensi kemunculan • Perbandingan: Tala (2003) • yang dan di: empat korpus • ada, dan, ini, itu, dan ke: tiga korpus 8

9. Distribusi jumlah huruf per kata • Distribusi Gauss condong ke kiri (kata pendek) • Kompas: 5 huruf • Wikipedia: 4 huruf • Twitter: 4 huruf • Kaskus: 3 huruf • Dorongan meminimalkan waktu & upaya (Piantadosi, 2011) 9

10. Kesimpulan dan pengembangan • Kesimpulan: – Kata yang tersering dipakai umumnya merupakan partikel – Jumlah huruf per kata yang paling sering dipakai antara 3‌–5 – Ragam bahasa menentukan pemilihan kata – Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikuti hukum Zipf • Penyempurnaan – Pengenalan nama diri (named-entity recognition) – Penandaan kata hentian (stopwords) • Pengembangan: – Kamus kata bahasa Indonesia sederhana berdasarkan kata yang paling sering muncul dalam berbagai korpus – Kamus variasi ejaan (atau salah eja) kata – Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal) 10

FrekuensiKataBI

Recommended

Recommended

More Related Content

More from Jim Geovedi

More from Jim Geovedi (16)

Recently uploaded

Recently uploaded (20)

FrekuensiKataBI