Perbandingan distribusi frekuensikata bahasa Indonesia di Kompas,Wikipedia, Twitter, dan KaskusIvan Lanin, Jim Geovedi, Wi...
Latar belakang• Apa kata yang paling sering dipakai dalambahasa Indonesia?• Berapa jumlah huruf per kata yang palingsering...
Sumber dataKorpus Sumber data Jumlahkata unikJumlahkata totalKompas(media massa)Diambil pada bulan Januari tahun 2013untuk...
MetodologiScraping(Kompas, Kaskus)Ekstrasi XML(Wikipedia)Kueri API (Twitter)PengambilanKode HTMLURLPola acuTanda bacaPembe...
Peringkat frekuensi kemunculan *# Kompas Wikipedia Twitter Kaskus1 yang yang di gan2 di dan yg ane3 dan di ya di4 ini pada...
Analisis frekuensi kemunculanKompas Wikipedia Twitter Kaskus• akan (#10): hal-hal dimasa depan• Jakarta (#19):tempat• tahu...
Distribusi frekuensi kemunculanHukum Zipf:f = k/r7
Perbandingan frekuensi kemunculan• Perbandingan: Tala(2003)• yang dan di: empatkorpus• ada, dan, ini, itu, dan ke:tiga kor...
Distribusi jumlah huruf per kata• Distribusi Gauss condongke kiri (kata pendek)• Kompas: 5 huruf• Wikipedia: 4 huruf• Twit...
Kesimpulan dan pengembangan• Kesimpulan:– Kata yang tersering dipakai umumnya merupakan partikel– Jumlah huruf per kata ya...
Upcoming SlideShare
Loading in...5
×

Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

9,867

Published on

Dalam bahasa yang sama, kata yang paling sering digunakan, jumlah huruf per kata, serta berbagai statistik lain yang terkait dengan distribusi frekuensi sangat bergantung kepada ragam yang digunakan. Makalah ini menelaah perbandingan distribusi frekuensi kata antara empat ragam bahasa Indonesia yang populer di internet, yaitu Kompas (media massa), Wikipedia bahasa Indonesia (ensiklopedia), Twitter (mikroblog), dan Kaskus (forum). Kajian dilakukan dengan menggunakan korpus yang diambil dari data yang tersedia secara publik di internet serta diproses dengan menggunakan bahasa pemrograman Python serta beberapa pustaka pemrograman yang bersumber terbuka. Hasil kajian menunjukkan adanya perbedaan distribusi yang cukup tajam di antara keempat ragam bahasa Indonesia ini. Kompas banyak menggunakan kata akan karena sifat beritanya; Wikipedia banyak menggunakan kata adalah karena sifat deskriptifnya; Twitter banyak menggunakan kata aku karena sifat subjektifnya; Kaskus banyak menggunakan kata gan yang merupakan kata khas komunitas ini. Kajian ini juga memberikan beberapa hal yang harus diperhatikan dalam kajian serupa seperti penyiapan dan pembersihan data korpus dan leksikon. Kajian ini diharapkan dapat memberikan dasar penelitian lebih lanjut dalam bidang distribusi frekuensi dan analisis korpus bahasa Indonesia.

Published in: Education, Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
9,867
On Slideshare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
35
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

  1. 1. Perbandingan distribusi frekuensikata bahasa Indonesia di Kompas,Wikipedia, Twitter, dan KaskusIvan Lanin, Jim Geovedi, Wicak SoegijokoArdwort, http://ardwort.com
  2. 2. Latar belakang• Apa kata yang paling sering dipakai dalambahasa Indonesia?• Berapa jumlah huruf per kata yang palingsering dipakai dalam bahasa Indonesia?• Apakah ragam bahasa menentukan pemilihankata?• Bagaimana pola distribusi frekuensipenggunaan kata?2
  3. 3. Sumber dataKorpus Sumber data Jumlahkata unikJumlahkata totalKompas(media massa)Diambil pada bulan Januari tahun 2013untuk artikel berita berbahasa Indonesiadaring tahun 2012343.532 32.724.503Wikipedia(ensiklopedia)Diambil dari salinan Wikipedia bahasaIndonesia bulan Januari tahun 2013936.288 43.545.242Twitter(mikroblog)Diambil pada bulan Januari tahun 2013untuk percakapan bulan Oktober-Desember2012 oleh pengguna Twitter yang berlokasidi Indonesia798.078 34.769.573Kaskus(forum)Diambil pada bulan Januari tahun 2013 dandari 1000 utas (thread) terakhir sub-forumThe Lounge761.795 109.292.1563
  4. 4. MetodologiScraping(Kompas, Kaskus)Ekstrasi XML(Wikipedia)Kueri API (Twitter)PengambilanKode HTMLURLPola acuTanda bacaPembersihanPythonNLTKNumPySciPyRamisch (2012): f= Cw(•) / NZipf (1932): f = k/rPengolahan4
  5. 5. Peringkat frekuensi kemunculan *# Kompas Wikipedia Twitter Kaskus1 yang yang di gan2 di dan yg ane3 dan di ya di4 ini pada aku yang5 itu dari yang yg6 dengan dengan ini ya7 untuk ini itu ada8 dari adalah ada itu9 dalam dalam d tuh10 akan untuk aja aja# Kompas Wikipedia Twitter Kaskus11 pada kategori ga bisa12 tidak tahun dan juga13 juga sebagai gak kalo14 ke oleh i keren15 tersebut indonesia mau ga16 ada ke ke banget17 bisa the udah nya18 saat ia lagi wah19 jakarta tidak kalo nih20 tahun menjadi the jadi5* Data lengkap: https://github.com/ardwort/freq-dist-id
  6. 6. Analisis frekuensi kemunculanKompas Wikipedia Twitter Kaskus• akan (#10): hal-hal dimasa depan• Jakarta (#19):tempat• tahun (#20): waktu• adalah (#8):deskriptif• the (#17): nama diri• kategori (#11):kategorisasi artikel• aku (#4); mau (#15):subjektif• yg (#2); d (#9); ga(#11): pemendekan• aja (#10); gak (#13);udah (#17); kalo(#19): percakapan• i (#14): campur kodeatau alih kode• gan (#1); ane (#2):pronomina personakhas komunitas• yg (#5); ga (#15):pemendekan• kalo (#13); banget(#16): percakapan• tuh (#9); wah (#18);nih (#19), keren(#14): ekspresif• nya (#17): partikel6
  7. 7. Distribusi frekuensi kemunculanHukum Zipf:f = k/r7
  8. 8. Perbandingan frekuensi kemunculan• Perbandingan: Tala(2003)• yang dan di: empatkorpus• ada, dan, ini, itu, dan ke:tiga korpus8
  9. 9. Distribusi jumlah huruf per kata• Distribusi Gauss condongke kiri (kata pendek)• Kompas: 5 huruf• Wikipedia: 4 huruf• Twitter: 4 huruf• Kaskus: 3 huruf• Dorongan meminimalkanwaktu & upaya(Piantadosi, 2011)9
  10. 10. Kesimpulan dan pengembangan• Kesimpulan:– Kata yang tersering dipakai umumnya merupakan partikel– Jumlah huruf per kata yang paling sering dipakai antara 3‌–5– Ragam bahasa menentukan pemilihan kata– Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikutihukum Zipf• Penyempurnaan– Pengenalan nama diri (named-entity recognition)– Penandaan kata hentian (stopwords)• Pengembangan:– Kamus kata bahasa Indonesia sederhana berdasarkan kata yang palingsering muncul dalam berbagai korpus– Kamus variasi ejaan (atau salah eja) kata– Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal)10
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×