SlideShare a Scribd company logo
1 of 21
Download to read offline
Pertemuan 3: NLTK, 27 September 2011
 Penilaian
   Tugas 20% (ditentukan kemudian)
   UTS 30% (27 Okt 2011, 0800 WIB; Buka catatan)
   UAS 40% (12 Jan 2012, 0800 WIB; Buka catatan)
 Catatan ujian
   1 lembar A4
   Bukan fotokopi
   26 Okt 2011, 1200 WIB (UTS)
   11 Jan 2011, 1200 WIB (UAS)
 Model Boolean
 Model Vektor




                  Information Retrieval – ISD312   NLTK dan Python   3
 Menggunakan NLTK
 Pemrograman Python
 Latihan




                  Information Retrieval – ISD312   NLTK dan Python   4
 Menggunakan package nltk
   import nltk
 Mengunduh korpus-korpus yang tersedia online
   nltk.download()
 Menggunakan korpus "Book"
   from nltk.book import *
   import nltk.book as buku




                   Information Retrieval – ISD312   NLTK dan Python   5
 text1: Moby Dick
 text2: Sense and Sensibility
 text3: The Book of Genesis
 text4: Inaugural Address Corpus
 text5: Chat Corpus
 text6: Monty Python and the Holy Grail
 text7: Wall Street Journal
 text8: Personals Corpus
 text9: The Man Who Was Thursday




                     Information Retrieval – ISD312   NLTK dan Python   6
 Konkordansi
   Menampilkan kalimat yang menggunakan sebuah kata
    tertentu
   text1.concordance("monstrous")
 Kemiripan berdasarkan konteks
   text1.similar("monstrous")
 Menampilkan konteks dari kata-kata yang mirip
   text1.common_contexts(['monstrous',
    'subtly'])
   List sebagai paameter untuk fungsi
    common_contexts()

                      Information Retrieval – ISD312   NLTK dan Python   7
 text1
 Jumlah tokens dalam satu dokumen
    len(text1)
   Perulangan kemunculan dihitung
 Jumlah kata unik
    len(set(text1))
   set() menghilangkan perulangan kemunculan
 Mengurutkan data dalam list / set
   sorted(set(text1))



                     Information Retrieval – ISD312   NLTK dan Python   8
 List dan Variabel
   sent1 = ['Kelas', 'Information',
     'Retrieval', 'Teknik', 'Informatika']
   Indeks dimulai dari 0
 Slicing
    sent1[1:2]
    sent1[:2]
    sent1[2:]
    sent1[-2:]




                      Information Retrieval – ISD312   NLTK dan Python   9
 Concatenation
   sent1 + sent1
 Append
   sent1.append('python')
 String
   Diapit oleh 'single quote' atau "double quote"
   List of characters




                         Information Retrieval – ISD312   NLTK dan Python   10
 Lexical richness
 Perbandingan jumlah tokens dengan jumlah kata unik
   len(text1) / len(set(text1))
   Integer division
   from __future__ import division
 Jumlah kemunculan sebuah token
    text1.count('whale')
    100 * text1.count('whale') / len(text1)




                     Information Retrieval – ISD312   NLTK dan Python   11
>>> def lexicalDiversity(text):
...     return len(text) / len(set(text))
>>> def percentage(count, total):
...     return 100 * count / total
lexicalDiversity(text5)
percentage(text1.count('whale'), len(text1))




                 Information Retrieval – ISD312   NLTK dan Python   12
df = FreqDist(text5)
vocabulary = df.keys()
vocabulary[:10]
df.plot(50)
df.plot(50, cumulative=True)




                 Information Retrieval – ISD312   NLTK dan Python   13
 Kemunculan dua kata (bi-) dalam dokumen
 N-grams: Kemunculan N kata dalam dokumen
kalimat = ['After', 'all', 'is', 'said',
  'and', 'done', 'more', 'is', 'said', 'than',
  'done']
tokens = set(kalimat)
tokens = sorted(tokens)
tokens[-2:]
bigrams(kalimat)



                   Information Retrieval – ISD312   NLTK dan Python   14
 Muncul hanya satu kali dalam dokumen
H = df.hapaxes()
longHapaxes = [w for w in V if len(w) > 15]




                   Information Retrieval – ISD312   NLTK dan Python   15
 Frase dua-kata yang sering muncul bersama
 Melibatkan kata yang jarang muncul
 text1.collocations()
 text5.collocations()




                         Information Retrieval – ISD312   NLTK dan Python   16
 Menghitung frekuensi terms dalam teks
   from nltk.book import *
   fdist1 = FreqDist(text1)
   vocabulary = fdist.keys()
   vocabulary[:50]
   vocabulary['whale']




                       Information Retrieval – ISD312   NLTK dan Python   17
 Mengubah definisi fungsi percentage() agar bisa
  menerima satu parameter: nama dokumen
 Buat sebuah fungsi python yang menerima dua buah
  vektor dan mengembalikan Hasil dot-product dari
  kedua vektor tersebut
 Buat sebuah fungsi python yang menerima sebuah
  vektor dan mengembalikan Norm dari vektor tersebut




                     Information Retrieval – ISD312   NLTK dan Python   18
 Hitung berapa jumlah kata unik di dalam korpus
 nltk.book
   Tuliskan statement-statement progam Python yang
    anda gunakan untuk mendapatkannya
 Batas waktu: 3 Oktober 2011, pukul 13.30 WIB
 By e-mail barliant@gmail.com (Subject "ISD312 TM2",
  Nama, dan NIM)
 Bonus sebelum batas waktu pengumpulan
 Nilai kosong setelah batas waktu


                     Information Retrieval – ISD312   NLTK dan Python   19
 http://www.nltk.org/book
 http://tjerdastangkas.blogspot.com/search/label/isd312




                      Information Retrieval – ISD312   NLTK dan Python   20
Selasa, 27 September 2011

More Related Content

Viewers also liked

Visita granada 3er ciclo 2016
Visita granada 3er ciclo 2016Visita granada 3er ciclo 2016
Visita granada 3er ciclo 2016XXX XXX
 
Diversity Plus Article Agl Resources 2009
Diversity Plus Article   Agl Resources 2009Diversity Plus Article   Agl Resources 2009
Diversity Plus Article Agl Resources 2009Tarece Johnson Hassell
 
learning: yankin' out an engine
learning: yankin' out an enginelearning: yankin' out an engine
learning: yankin' out an engineKristin Cline
 
Quesnel.Adolescent Literacy.Feb 2016
Quesnel.Adolescent Literacy.Feb 2016Quesnel.Adolescent Literacy.Feb 2016
Quesnel.Adolescent Literacy.Feb 2016Faye Brownlie
 
Cyberpolitics 2009 W11
Cyberpolitics 2009 W11Cyberpolitics 2009 W11
Cyberpolitics 2009 W11oiwan
 
In Memoriam Octavian Paler
In Memoriam Octavian PalerIn Memoriam Octavian Paler
In Memoriam Octavian Palerpuicarmariana
 
ISA Corporate Presentation
ISA Corporate PresentationISA Corporate Presentation
ISA Corporate PresentationPrashant Gandhi
 
Nanga 2009
Nanga 2009Nanga 2009
Nanga 2009khan333
 
Sunshine coast literacy_jan_2015
Sunshine coast literacy_jan_2015Sunshine coast literacy_jan_2015
Sunshine coast literacy_jan_2015Faye Brownlie
 
Osam Mardin Professional Samples1
Osam Mardin Professional Samples1Osam Mardin Professional Samples1
Osam Mardin Professional Samples1mardinor
 
Joe Pollaro Obama look alike
Joe Pollaro Obama look alikeJoe Pollaro Obama look alike
Joe Pollaro Obama look alikeJoe Pollaro
 
Inclusion, Quesnel district staff
Inclusion, Quesnel district staff Inclusion, Quesnel district staff
Inclusion, Quesnel district staff Faye Brownlie
 
Jules Cheret (1836-1933) y sus contemporáneos
Jules Cheret (1836-1933) y sus contemporáneosJules Cheret (1836-1933) y sus contemporáneos
Jules Cheret (1836-1933) y sus contemporáneosalmudenaresad
 

Viewers also liked (20)

Visita granada 3er ciclo 2016
Visita granada 3er ciclo 2016Visita granada 3er ciclo 2016
Visita granada 3er ciclo 2016
 
Simplethings
SimplethingsSimplethings
Simplethings
 
Diversity Plus Article Agl Resources 2009
Diversity Plus Article   Agl Resources 2009Diversity Plus Article   Agl Resources 2009
Diversity Plus Article Agl Resources 2009
 
learning: yankin' out an engine
learning: yankin' out an enginelearning: yankin' out an engine
learning: yankin' out an engine
 
Quesnel.Adolescent Literacy.Feb 2016
Quesnel.Adolescent Literacy.Feb 2016Quesnel.Adolescent Literacy.Feb 2016
Quesnel.Adolescent Literacy.Feb 2016
 
Cyberpolitics 2009 W11
Cyberpolitics 2009 W11Cyberpolitics 2009 W11
Cyberpolitics 2009 W11
 
Sph 107 Ch 8
Sph 107 Ch 8Sph 107 Ch 8
Sph 107 Ch 8
 
In Memoriam Octavian Paler
In Memoriam Octavian PalerIn Memoriam Octavian Paler
In Memoriam Octavian Paler
 
Sph 107 Ch 14
Sph 107 Ch 14Sph 107 Ch 14
Sph 107 Ch 14
 
受動態(1)
受動態(1)受動態(1)
受動態(1)
 
ISA Corporate Presentation
ISA Corporate PresentationISA Corporate Presentation
ISA Corporate Presentation
 
7fevrier2009
7fevrier20097fevrier2009
7fevrier2009
 
Nanga 2009
Nanga 2009Nanga 2009
Nanga 2009
 
Stem And Leaf
Stem And LeafStem And Leaf
Stem And Leaf
 
Sunshine coast literacy_jan_2015
Sunshine coast literacy_jan_2015Sunshine coast literacy_jan_2015
Sunshine coast literacy_jan_2015
 
SPH 106 Ch 1
SPH 106 Ch 1SPH 106 Ch 1
SPH 106 Ch 1
 
Osam Mardin Professional Samples1
Osam Mardin Professional Samples1Osam Mardin Professional Samples1
Osam Mardin Professional Samples1
 
Joe Pollaro Obama look alike
Joe Pollaro Obama look alikeJoe Pollaro Obama look alike
Joe Pollaro Obama look alike
 
Inclusion, Quesnel district staff
Inclusion, Quesnel district staff Inclusion, Quesnel district staff
Inclusion, Quesnel district staff
 
Jules Cheret (1836-1933) y sus contemporáneos
Jules Cheret (1836-1933) y sus contemporáneosJules Cheret (1836-1933) y sus contemporáneos
Jules Cheret (1836-1933) y sus contemporáneos
 

More from Anung Ariwibowo (20)

isd314-06-association-mining
isd314-06-association-miningisd314-06-association-mining
isd314-06-association-mining
 
ikp213-unifikasi
ikp213-unifikasiikp213-unifikasi
ikp213-unifikasi
 
ikp213-06-horn-clause
ikp213-06-horn-clauseikp213-06-horn-clause
ikp213-06-horn-clause
 
ikp213-01-pendahuluan
ikp213-01-pendahuluanikp213-01-pendahuluan
ikp213-01-pendahuluan
 
ikd312-05-sqlite
ikd312-05-sqliteikd312-05-sqlite
ikd312-05-sqlite
 
ikd312-05-kalkulus-relasional
ikd312-05-kalkulus-relasionalikd312-05-kalkulus-relasional
ikd312-05-kalkulus-relasional
 
ikd312-04-aljabar-relasional
ikd312-04-aljabar-relasionalikd312-04-aljabar-relasional
ikd312-04-aljabar-relasional
 
ikd312-03-design
ikd312-03-designikd312-03-design
ikd312-03-design
 
ikd312-02-three-schema
ikd312-02-three-schemaikd312-02-three-schema
ikd312-02-three-schema
 
ikp213-02-pendahuluan
ikp213-02-pendahuluanikp213-02-pendahuluan
ikp213-02-pendahuluan
 
ikh311-08
ikh311-08ikh311-08
ikh311-08
 
ikh311-07
ikh311-07ikh311-07
ikh311-07
 
ikh311-06
ikh311-06ikh311-06
ikh311-06
 
ikh311-05
ikh311-05ikh311-05
ikh311-05
 
ikp321-svn
ikp321-svnikp321-svn
ikp321-svn
 
ikh311-04
ikh311-04ikh311-04
ikh311-04
 
ikp321-05
ikp321-05ikp321-05
ikp321-05
 
imsakiyah-jakarta-1433-09
imsakiyah-jakarta-1433-09imsakiyah-jakarta-1433-09
imsakiyah-jakarta-1433-09
 
ikh311-03
ikh311-03ikh311-03
ikh311-03
 
ikp321-04
ikp321-04ikp321-04
ikp321-04
 

Isd312 03-nltk

  • 1. Pertemuan 3: NLTK, 27 September 2011
  • 2.  Penilaian  Tugas 20% (ditentukan kemudian)  UTS 30% (27 Okt 2011, 0800 WIB; Buka catatan)  UAS 40% (12 Jan 2012, 0800 WIB; Buka catatan)  Catatan ujian  1 lembar A4  Bukan fotokopi  26 Okt 2011, 1200 WIB (UTS)  11 Jan 2011, 1200 WIB (UAS)
  • 3.  Model Boolean  Model Vektor Information Retrieval – ISD312 NLTK dan Python 3
  • 4.  Menggunakan NLTK  Pemrograman Python  Latihan Information Retrieval – ISD312 NLTK dan Python 4
  • 5.  Menggunakan package nltk  import nltk  Mengunduh korpus-korpus yang tersedia online  nltk.download()  Menggunakan korpus "Book"  from nltk.book import *  import nltk.book as buku Information Retrieval – ISD312 NLTK dan Python 5
  • 6.  text1: Moby Dick  text2: Sense and Sensibility  text3: The Book of Genesis  text4: Inaugural Address Corpus  text5: Chat Corpus  text6: Monty Python and the Holy Grail  text7: Wall Street Journal  text8: Personals Corpus  text9: The Man Who Was Thursday Information Retrieval – ISD312 NLTK dan Python 6
  • 7.  Konkordansi  Menampilkan kalimat yang menggunakan sebuah kata tertentu  text1.concordance("monstrous")  Kemiripan berdasarkan konteks  text1.similar("monstrous")  Menampilkan konteks dari kata-kata yang mirip  text1.common_contexts(['monstrous', 'subtly'])  List sebagai paameter untuk fungsi common_contexts() Information Retrieval – ISD312 NLTK dan Python 7
  • 8.  text1  Jumlah tokens dalam satu dokumen  len(text1)  Perulangan kemunculan dihitung  Jumlah kata unik  len(set(text1))  set() menghilangkan perulangan kemunculan  Mengurutkan data dalam list / set  sorted(set(text1)) Information Retrieval – ISD312 NLTK dan Python 8
  • 9.  List dan Variabel  sent1 = ['Kelas', 'Information', 'Retrieval', 'Teknik', 'Informatika']  Indeks dimulai dari 0  Slicing  sent1[1:2]  sent1[:2]  sent1[2:]  sent1[-2:] Information Retrieval – ISD312 NLTK dan Python 9
  • 10.  Concatenation  sent1 + sent1  Append  sent1.append('python')  String  Diapit oleh 'single quote' atau "double quote"  List of characters Information Retrieval – ISD312 NLTK dan Python 10
  • 11.  Lexical richness  Perbandingan jumlah tokens dengan jumlah kata unik  len(text1) / len(set(text1))  Integer division  from __future__ import division  Jumlah kemunculan sebuah token  text1.count('whale')  100 * text1.count('whale') / len(text1) Information Retrieval – ISD312 NLTK dan Python 11
  • 12. >>> def lexicalDiversity(text): ... return len(text) / len(set(text)) >>> def percentage(count, total): ... return 100 * count / total lexicalDiversity(text5) percentage(text1.count('whale'), len(text1)) Information Retrieval – ISD312 NLTK dan Python 12
  • 13. df = FreqDist(text5) vocabulary = df.keys() vocabulary[:10] df.plot(50) df.plot(50, cumulative=True) Information Retrieval – ISD312 NLTK dan Python 13
  • 14.  Kemunculan dua kata (bi-) dalam dokumen  N-grams: Kemunculan N kata dalam dokumen kalimat = ['After', 'all', 'is', 'said', 'and', 'done', 'more', 'is', 'said', 'than', 'done'] tokens = set(kalimat) tokens = sorted(tokens) tokens[-2:] bigrams(kalimat) Information Retrieval – ISD312 NLTK dan Python 14
  • 15.  Muncul hanya satu kali dalam dokumen H = df.hapaxes() longHapaxes = [w for w in V if len(w) > 15] Information Retrieval – ISD312 NLTK dan Python 15
  • 16.  Frase dua-kata yang sering muncul bersama  Melibatkan kata yang jarang muncul  text1.collocations()  text5.collocations() Information Retrieval – ISD312 NLTK dan Python 16
  • 17.  Menghitung frekuensi terms dalam teks  from nltk.book import *  fdist1 = FreqDist(text1)  vocabulary = fdist.keys()  vocabulary[:50]  vocabulary['whale'] Information Retrieval – ISD312 NLTK dan Python 17
  • 18.  Mengubah definisi fungsi percentage() agar bisa menerima satu parameter: nama dokumen  Buat sebuah fungsi python yang menerima dua buah vektor dan mengembalikan Hasil dot-product dari kedua vektor tersebut  Buat sebuah fungsi python yang menerima sebuah vektor dan mengembalikan Norm dari vektor tersebut Information Retrieval – ISD312 NLTK dan Python 18
  • 19.  Hitung berapa jumlah kata unik di dalam korpus nltk.book  Tuliskan statement-statement progam Python yang anda gunakan untuk mendapatkannya  Batas waktu: 3 Oktober 2011, pukul 13.30 WIB  By e-mail barliant@gmail.com (Subject "ISD312 TM2", Nama, dan NIM)  Bonus sebelum batas waktu pengumpulan  Nilai kosong setelah batas waktu Information Retrieval – ISD312 NLTK dan Python 19