Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

  • 10,227 views
Uploaded on

Dalam bahasa yang sama, kata yang paling sering digunakan, jumlah huruf per kata, serta berbagai statistik lain yang terkait dengan distribusi frekuensi sangat bergantung kepada ragam yang......

Dalam bahasa yang sama, kata yang paling sering digunakan, jumlah huruf per kata, serta berbagai statistik lain yang terkait dengan distribusi frekuensi sangat bergantung kepada ragam yang digunakan. Makalah ini menelaah perbandingan distribusi frekuensi kata antara empat ragam bahasa Indonesia yang populer di internet, yaitu Kompas (media massa), Wikipedia bahasa Indonesia (ensiklopedia), Twitter (mikroblog), dan Kaskus (forum). Kajian dilakukan dengan menggunakan korpus yang diambil dari data yang tersedia secara publik di internet serta diproses dengan menggunakan bahasa pemrograman Python serta beberapa pustaka pemrograman yang bersumber terbuka. Hasil kajian menunjukkan adanya perbedaan distribusi yang cukup tajam di antara keempat ragam bahasa Indonesia ini. Kompas banyak menggunakan kata akan karena sifat beritanya; Wikipedia banyak menggunakan kata adalah karena sifat deskriptifnya; Twitter banyak menggunakan kata aku karena sifat subjektifnya; Kaskus banyak menggunakan kata gan yang merupakan kata khas komunitas ini. Kajian ini juga memberikan beberapa hal yang harus diperhatikan dalam kajian serupa seperti penyiapan dan pembersihan data korpus dan leksikon. Kajian ini diharapkan dapat memberikan dasar penelitian lebih lanjut dalam bidang distribusi frekuensi dan analisis korpus bahasa Indonesia.

More in: Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
10,227
On Slideshare
9,825
From Embeds
402
Number of Embeds
7

Actions

Shares
Downloads
32
Comments
0
Likes
3

Embeds 402

http://netproteam.blogspot.com 270
https://twitter.com 104
https://tweetdeck.twitter.com 11
http://www.linkedin.com 10
http://selebtweet.com 3
https://www.linkedin.com 3
http://translate.googl 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Perbandingan distribusi frekuensikata bahasa Indonesia di Kompas,Wikipedia, Twitter, dan KaskusIvan Lanin, Jim Geovedi, Wicak SoegijokoArdwort, http://ardwort.com
  • 2. Latar belakang• Apa kata yang paling sering dipakai dalambahasa Indonesia?• Berapa jumlah huruf per kata yang palingsering dipakai dalam bahasa Indonesia?• Apakah ragam bahasa menentukan pemilihankata?• Bagaimana pola distribusi frekuensipenggunaan kata?2
  • 3. Sumber dataKorpus Sumber data Jumlahkata unikJumlahkata totalKompas(media massa)Diambil pada bulan Januari tahun 2013untuk artikel berita berbahasa Indonesiadaring tahun 2012343.532 32.724.503Wikipedia(ensiklopedia)Diambil dari salinan Wikipedia bahasaIndonesia bulan Januari tahun 2013936.288 43.545.242Twitter(mikroblog)Diambil pada bulan Januari tahun 2013untuk percakapan bulan Oktober-Desember2012 oleh pengguna Twitter yang berlokasidi Indonesia798.078 34.769.573Kaskus(forum)Diambil pada bulan Januari tahun 2013 dandari 1000 utas (thread) terakhir sub-forumThe Lounge761.795 109.292.1563
  • 4. MetodologiScraping(Kompas, Kaskus)Ekstrasi XML(Wikipedia)Kueri API (Twitter)PengambilanKode HTMLURLPola acuTanda bacaPembersihanPythonNLTKNumPySciPyRamisch (2012): f= Cw(•) / NZipf (1932): f = k/rPengolahan4
  • 5. Peringkat frekuensi kemunculan *# Kompas Wikipedia Twitter Kaskus1 yang yang di gan2 di dan yg ane3 dan di ya di4 ini pada aku yang5 itu dari yang yg6 dengan dengan ini ya7 untuk ini itu ada8 dari adalah ada itu9 dalam dalam d tuh10 akan untuk aja aja# Kompas Wikipedia Twitter Kaskus11 pada kategori ga bisa12 tidak tahun dan juga13 juga sebagai gak kalo14 ke oleh i keren15 tersebut indonesia mau ga16 ada ke ke banget17 bisa the udah nya18 saat ia lagi wah19 jakarta tidak kalo nih20 tahun menjadi the jadi5* Data lengkap: https://github.com/ardwort/freq-dist-id
  • 6. Analisis frekuensi kemunculanKompas Wikipedia Twitter Kaskus• akan (#10): hal-hal dimasa depan• Jakarta (#19):tempat• tahun (#20): waktu• adalah (#8):deskriptif• the (#17): nama diri• kategori (#11):kategorisasi artikel• aku (#4); mau (#15):subjektif• yg (#2); d (#9); ga(#11): pemendekan• aja (#10); gak (#13);udah (#17); kalo(#19): percakapan• i (#14): campur kodeatau alih kode• gan (#1); ane (#2):pronomina personakhas komunitas• yg (#5); ga (#15):pemendekan• kalo (#13); banget(#16): percakapan• tuh (#9); wah (#18);nih (#19), keren(#14): ekspresif• nya (#17): partikel6
  • 7. Distribusi frekuensi kemunculanHukum Zipf:f = k/r7
  • 8. Perbandingan frekuensi kemunculan• Perbandingan: Tala(2003)• yang dan di: empatkorpus• ada, dan, ini, itu, dan ke:tiga korpus8
  • 9. Distribusi jumlah huruf per kata• Distribusi Gauss condongke kiri (kata pendek)• Kompas: 5 huruf• Wikipedia: 4 huruf• Twitter: 4 huruf• Kaskus: 3 huruf• Dorongan meminimalkanwaktu & upaya(Piantadosi, 2011)9
  • 10. Kesimpulan dan pengembangan• Kesimpulan:– Kata yang tersering dipakai umumnya merupakan partikel– Jumlah huruf per kata yang paling sering dipakai antara 3‌–5– Ragam bahasa menentukan pemilihan kata– Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikutihukum Zipf• Penyempurnaan– Pengenalan nama diri (named-entity recognition)– Penandaan kata hentian (stopwords)• Pengembangan:– Kamus kata bahasa Indonesia sederhana berdasarkan kata yang palingsering muncul dalam berbagai korpus– Kamus variasi ejaan (atau salah eja) kata– Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal)10