Dokumen tersebut membahas tentang teknik kompilasi, meliputi:
1. Pendahuluan tentang proses kompilasi dan fase-fasenya
2. Penganalisa leksikal (scanner) yang membaca program sumber dan mengubahnya menjadi token
3. Penganalisa sintaks (parser) yang memeriksa kesesuaian token dengan aturan sintaks
Data Mining digunakan untuk mengekstrak pola dan pengetahuan dari data besar yang kompleks untuk memecahkan masalah bisnis. Teknik utama Data Mining meliputi estimasi, prediksi, klasifikasi, klastering dan asosiasi. Metode pembelajaran terdiri dari pembelajaran terbimbing, tidak terbimbing dan semi terbimbing.
The document discusses data preparation and exploratory data analysis. It explains that exploratory data analysis involves exploring a dataset before using it, to understand the data source, data types, attribute names, duplicate rows, missing values, outliers, and univariate, bivariate, and multivariate analyses. This helps ensure the dataset is clean before applying data mining techniques to extract knowledge from the data. The document also provides examples of handling issues like missing values, duplicate rows, and outliers during exploratory data analysis.
Dokumen tersebut membahas konsep dasar sistem basis data meliputi pengertian database, sistem database, komponen dasar sistem database, jenis data dalam database dan hubungannya, keuntungan dan kerugian pemakaian sistem database, istilah-istilah yang dipergunakan dalam sistem basis data, serta aplikasi sistem basis data dalam lifecycle pengembangan sistem.
Dokumen tersebut membahas tentang teknik kompilasi, meliputi:
1. Pendahuluan tentang proses kompilasi dan fase-fasenya
2. Penganalisa leksikal (scanner) yang membaca program sumber dan mengubahnya menjadi token
3. Penganalisa sintaks (parser) yang memeriksa kesesuaian token dengan aturan sintaks
Data Mining digunakan untuk mengekstrak pola dan pengetahuan dari data besar yang kompleks untuk memecahkan masalah bisnis. Teknik utama Data Mining meliputi estimasi, prediksi, klasifikasi, klastering dan asosiasi. Metode pembelajaran terdiri dari pembelajaran terbimbing, tidak terbimbing dan semi terbimbing.
The document discusses data preparation and exploratory data analysis. It explains that exploratory data analysis involves exploring a dataset before using it, to understand the data source, data types, attribute names, duplicate rows, missing values, outliers, and univariate, bivariate, and multivariate analyses. This helps ensure the dataset is clean before applying data mining techniques to extract knowledge from the data. The document also provides examples of handling issues like missing values, duplicate rows, and outliers during exploratory data analysis.
Dokumen tersebut membahas konsep dasar sistem basis data meliputi pengertian database, sistem database, komponen dasar sistem database, jenis data dalam database dan hubungannya, keuntungan dan kerugian pemakaian sistem database, istilah-istilah yang dipergunakan dalam sistem basis data, serta aplikasi sistem basis data dalam lifecycle pengembangan sistem.
Algoritma RSA merupakan algoritma kriptografi kunci publik yang paling terkenal dan banyak digunakan. Algoritma ini ditemukan oleh tiga peneliti dari MIT pada tahun 1976. Keamanan RSA terletak pada kesulitan memfaktorkan bilangan besar menjadi faktor-faktor prima.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
Dokumen tersebut membahas algoritma program dinamis untuk menentukan lintasan terpendek antara dua simpul dalam sebuah graf. Metode yang digunakan adalah program dinamis mundur dimana permasalahan dibagi menjadi beberapa tahap dan dihitung secara mundur untuk menentukan nilai optimal pada setiap tahap. Hasil akhir adalah terdapat tiga lintasan terpendek dengan panjang 11 antara simpul 1 dan 10.
Analisis pada e-commerce dan website Tokopedia.comCllszhr
Dokumen ini memberikan analisis mengenai situs e-commerce Tokopedia.com. Tokopedia menjual berbagai produk seperti elektronik, peralatan rumah tangga, fashion, dan lainnya. Dokumen ini menjelaskan manfaat belanja di Tokopedia seperti pilihan produk yang beragam, keamanan transaksi, sistem pencarian dan pelacakan pesanan yang mudah. Dokumen ini juga menjelaskan cara menjadi pembeli di Tokopedia melalui pendaftaran, pembel
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
isu sosial dan etika dalam sistem informasiKasi Irawati
Dokumen tersebut membahas isu-isu sosial dan etika yang berkaitan dengan sistem informasi, termasuk privasi data, keamanan informasi, dan dampak sosial dari teknologi. Dokumen tersebut juga menjelaskan prinsip-prinsip etika yang relevan seperti tanggung jawab, akuntabilitas, dan kewajiban dalam mengelola sistem informasi."
Dokumen tersebut membahas tentang pemodelan sistem informasi menggunakan Data Flow Diagram (DFD) dan Diagram Konteks. DFD dan Diagram Konteks digunakan untuk memodelkan proses, aliran data, entitas, dan simpanan data dalam sistem informasi."
PDA (Push Down Automata) merupakan mesin otomata yang memiliki memori tidak terbatas berupa stack. PDA dapat menerima bahasa bebas konteks dan direpresentasikan dengan 7 tupel yang mencakup state, simbol input, simbol stack, fungsi transisi, state awal, state akhir, dan simbol awal stack. PDA melakukan transisi dengan membaca input atau tanpa membaca input serta menambah atau mengurangi isi stack.
Dokumen tersebut membahas tentang pengujian perangkat lunak, termasuk definisi pengujian perangkat lunak, tujuan pengujian, jenis pengujian seperti manual testing, automated testing, unit testing, integration testing, serta metode pengujian seperti white box testing dan black box testing.
This document provides an outline and overview of a seminar on text mining. It discusses basics of text mining including definitions, similarities to data mining, preprocessing operations, document features, and representational models of documents. It also describes general architectures of text mining systems and provides examples of system architectures for generic, domain-oriented, and advanced text mining systems with background knowledge bases.
Text mining refers to extracting knowledge from unstructured text data. It is needed because most biological knowledge exists in unstructured research papers, making it difficult for scientists to manually analyze large amounts of text. Challenges include dealing with noisy, unstructured data and complex relationships between concepts. The text mining process involves preprocessing text through steps like tokenization, feature selection, and parsing to extract meaningful features before analysis can be done through classification, clustering, or other techniques. Potential applications are wide-ranging across domains like customer profiling, trend analysis, and web search.
Algoritma RSA merupakan algoritma kriptografi kunci publik yang paling terkenal dan banyak digunakan. Algoritma ini ditemukan oleh tiga peneliti dari MIT pada tahun 1976. Keamanan RSA terletak pada kesulitan memfaktorkan bilangan besar menjadi faktor-faktor prima.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
Dokumen tersebut membahas algoritma program dinamis untuk menentukan lintasan terpendek antara dua simpul dalam sebuah graf. Metode yang digunakan adalah program dinamis mundur dimana permasalahan dibagi menjadi beberapa tahap dan dihitung secara mundur untuk menentukan nilai optimal pada setiap tahap. Hasil akhir adalah terdapat tiga lintasan terpendek dengan panjang 11 antara simpul 1 dan 10.
Analisis pada e-commerce dan website Tokopedia.comCllszhr
Dokumen ini memberikan analisis mengenai situs e-commerce Tokopedia.com. Tokopedia menjual berbagai produk seperti elektronik, peralatan rumah tangga, fashion, dan lainnya. Dokumen ini menjelaskan manfaat belanja di Tokopedia seperti pilihan produk yang beragam, keamanan transaksi, sistem pencarian dan pelacakan pesanan yang mudah. Dokumen ini juga menjelaskan cara menjadi pembeli di Tokopedia melalui pendaftaran, pembel
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
isu sosial dan etika dalam sistem informasiKasi Irawati
Dokumen tersebut membahas isu-isu sosial dan etika yang berkaitan dengan sistem informasi, termasuk privasi data, keamanan informasi, dan dampak sosial dari teknologi. Dokumen tersebut juga menjelaskan prinsip-prinsip etika yang relevan seperti tanggung jawab, akuntabilitas, dan kewajiban dalam mengelola sistem informasi."
Dokumen tersebut membahas tentang pemodelan sistem informasi menggunakan Data Flow Diagram (DFD) dan Diagram Konteks. DFD dan Diagram Konteks digunakan untuk memodelkan proses, aliran data, entitas, dan simpanan data dalam sistem informasi."
PDA (Push Down Automata) merupakan mesin otomata yang memiliki memori tidak terbatas berupa stack. PDA dapat menerima bahasa bebas konteks dan direpresentasikan dengan 7 tupel yang mencakup state, simbol input, simbol stack, fungsi transisi, state awal, state akhir, dan simbol awal stack. PDA melakukan transisi dengan membaca input atau tanpa membaca input serta menambah atau mengurangi isi stack.
Dokumen tersebut membahas tentang pengujian perangkat lunak, termasuk definisi pengujian perangkat lunak, tujuan pengujian, jenis pengujian seperti manual testing, automated testing, unit testing, integration testing, serta metode pengujian seperti white box testing dan black box testing.
This document provides an outline and overview of a seminar on text mining. It discusses basics of text mining including definitions, similarities to data mining, preprocessing operations, document features, and representational models of documents. It also describes general architectures of text mining systems and provides examples of system architectures for generic, domain-oriented, and advanced text mining systems with background knowledge bases.
Text mining refers to extracting knowledge from unstructured text data. It is needed because most biological knowledge exists in unstructured research papers, making it difficult for scientists to manually analyze large amounts of text. Challenges include dealing with noisy, unstructured data and complex relationships between concepts. The text mining process involves preprocessing text through steps like tokenization, feature selection, and parsing to extract meaningful features before analysis can be done through classification, clustering, or other techniques. Potential applications are wide-ranging across domains like customer profiling, trend analysis, and web search.
Big Data & Text Mining: Finding Nuggets in Mountains of Textual Data
Big amount of information is available in textual form in databases or online sources, and for many enterprise functions (marketing, maintenance, finance, etc.) represents a huge opportunity to improve their business knowledge. For example, text mining is starting to be used in marketing, more specifically in analytical customer relationship management, in order to achieve the holy 360° view of the customer (integrating elements from inbound mails, web comments, surveys, internal notes, etc.).
Facing this new domain I have make a personal research, and realize a synthesis, which has help me to clarify some ideas. The below presentation does not intend to be exhaustive on the subject, but could perhaps bring you some useful insights.
This document outlines a seminar on text mining by examples presented by Hadi Mohammadzadeh. The seminar covers new terminologies related to text mining, WordNet as a lexical database, the Reuters-21578 text collection, CMU text learning group data archives, text mine software algorithms, and useful websites. The seminar is divided into seven parts covering these topics in detail with examples.
This document presents an overview of text mining. It discusses how text mining differs from data mining in that it involves natural language processing of unstructured or semi-structured text data rather than structured numeric data. The key steps of text mining include pre-processing text, applying techniques like summarization, classification, clustering and information extraction, and analyzing the results. Some common applications of text mining are market trend analysis and filtering of spam emails. While text mining allows extraction of information from diverse sources, it requires initial learning systems and suitable programs for knowledge discovery.
The class outline covers introduction to unstructured data analysis, word-level analysis using vector space model and TF-IDF, beyond word-level analysis using natural language processing, and a text mining demonstration in R mining Twitter data. The document provides background on text mining, defines what text mining is and its tasks. It discusses features of text data and methods for acquiring texts. It also covers word-level analysis methods like vector space model and TF-IDF, and applications. It discusses limitations of word-level analysis and how natural language processing can help. Finally, it demonstrates Twitter mining in R.
Kebutuhan Sentiment Analysis
Text Mining untuk Sentiment Analysis
Pengolahan kata Text Mining menggunakan Machine Learning
Studi Kasus Sentiment Analysis
Machine Learning and Data Mining: 19 Mining Text And Web DataPier Luca Lanzi
Course "Machine Learning and Data Mining" for the degree of Computer Engineering at the Politecnico di Milano. In this lecture we overview text and web mining. The slides are mainly taken from Jiawei Han textbook.
Text Mining with R -- an Analysis of Twitter DataYanchang Zhao
This document discusses analyzing Twitter data using text mining techniques in R. It outlines extracting tweets from Twitter and cleaning the text by removing punctuation, numbers, URLs, and stopwords. It then analyzes the cleaned text by finding frequent words, word associations, and creating a word cloud visualization. It performs text clustering on the tweets using hierarchical and k-means clustering. Finally, it models topics in the tweets using partitioning around medoids clustering. The overall goal is to demonstrate various text mining and natural language processing techniques for analyzing Twitter data in R.
Download Link > https://ertekprojects.com/gurdal-ertek-publications/blog/text-mining-with-rapidminer/
The goal of this chapter is to introduce the text mining capabilities of RAPIDMINER through a use case. The use case involves mining reviews for hotels at TripAdvisor.com, a popular web portal. We will be demonstrating basic text mining in RAPIDMINER using the text mining extension. We will present two different RAPIDMINER processes, namely Process01 andProcess02, which respectively describe how text mining can be combined with association mining and cluster modeling. While it is possible to construct each of these processes from scratch by inserting the appropriate operators into the process view, we will instead import these two processes readily from existing model files. Throughout the chapter, we will at times deliberately instruct the reader to take erroneous steps that result in undesired outcomes. We believe that this is a very realistic way of learning to use RAPIDMINER, since in practice, the modeling process frequently involves such steps that are later corrected.
This document discusses text and web mining. It defines text mining as analyzing huge amounts of text data to extract information. It discusses measures for text retrieval like precision and recall. It also covers text retrieval and indexing methods like inverted indices and signature files. Finally, it discusses challenges in web mining like the huge size and dynamic nature of the web and how web usage mining allows collection of web access information from server logs.
High level introduction to text mining analytics, which covers the building blocks or most commonly used techniques of text mining along with useful additional references/links where required for background/literature and R codes to get you started.
This document discusses text mining and information extraction. It covers the goals of information extraction including extracting structured data from unstructured text. It also discusses named entity recognition, challenges in NER, maximum entropy methods for NER, template filling using statistical and finite-state approaches, and applications of information extraction.
The document discusses different modes of transportation networks in Europe, including railway, inland waterways, air, and road networks. It provides details on the Trans-European rail network established by the European Railway Agency, the ERTMS rail management system, and important inland waterways networks in countries like Germany, Netherlands, Belgium, and Romania. It also outlines the growth of air transportation in Europe and initiatives to modernize air traffic management under the Single European Sky program. Finally, it addresses the importance of road networks and the Trans-European road network developed to link regions and markets across the EU.
R is a free software environment for statistical analysis and graphics. This document discusses using R for text mining, including preprocessing text data through transformations like stemming, stopword removal, and part-of-speech tagging. It also demonstrates building term document matrices and classifying text with k-nearest neighbors (KNN) algorithms. Specifically, it shows classifying speeches from Obama and Romney with over 90% accuracy using KNN classification in R.
Unmanned railway tracking and anti collision system using gsmvmohankumar5
This document describes an anti-collision system for unmanned railway crossings that uses GPS receivers in trains to track locations and prevent collisions. When trains get within a minimum distance, both will stop. Infrared sensors activate gate controls when a train reaches a specific spot. Train locations are sent via GSM modem to a server and displayed to alert drivers. The system uses a microcontroller, sensors, transmitters, receivers and other hardware to monitor trains and control gates for increased safety.
4. • Komputational
• Visualisasi
Statistika
• Machine
Learning
Artificial
Intelleigence
• Asosiasi
• Sekuensial
Pattern
Recognition
• BasisData
BasisData
Definisi Text Mining
Text mining mengacupada pencarian
informasi,pertambangandata, mesin-
learning, statistik, dan komputasi
linguistic terhadap informasiyang
disimpansebagaiteks(Bridge, C 2011).
5. Bagaimana
Text Mining
Bekerja?
Kotu –Predictive &Analytic
Using RapidMiner 2015
(page:288)
– Melakukankonversidata text ke bentuk semi-
structured data
– Memodelkandata dengan menerapkansalahsatu
teknik-teknik clustering,klasifikasidanprediksi.
– Menemukan“Pattern”
7. 1. Himpunan
Data
(Pemahaman dan
Pengolahan Data)
2. Metode
Data Mining
(Pilih Metode
Sesuai Karakter
Data)
3. Pengetahuan
(Pola/Model/Rumus/
Tree/Rule/Cluster)
4.
Evaluation
(Akurasi, AUC,
RMSE, Lift
Ratio,…)
Proses Data Mining
DATA PRE-PROCESSING
Data Cleaning
Data Integration
Data Reduction
Data Transformation
Text Processing
Estimation
Prediction
Classification
Clustering
Association
ProsesText Mining
8. Word, Token &
Tokenization
– Kata dipisahkan oleh karakter khusus: “spasi” kata
disebut token.
– Proses diskretisasi kata dalam dokumen disebut
tokenization.
– Setiap kalimat dapat dianggap sebagai dokumen
terpisah,
– Dokumen adalahkoleksiberurutan token
9. Matrix of
Terms
Kotu– Predictive &Analytic
Using RapidMiner 2015
(page:288)
• We can impose some form of structure on
this raw data by creatinga matrix, where:
• the columns consist of all the tokens
found in the two documents
• the cells of the matrix are the counts of
the number of times a token appears
• Each token is now an attribute in standard
data mining parlance and each document is
an example
10. Term
Document
Matrix (TDM)
Kotu – Predictive &Analytic
Using RapidMiner 2015
(page:288)
– Basically, unstructured raw data is now transformed into a format
that is recognized, not only by the human users as a data table,
but more importantly by all the machine learning algorithms
which require such tablesfor training
– This table is called a document vector or term document matrix
(TDM) and is the cornerstone of the preprocessing required for
text mining
11. Term Frequency–
Inverse Document
Frequency (TF–IDF)
Kotu– Predictive &
Analytic Using
RapidMiner 2015
(page:288)
– We could have also chosen to use theTF–IDF scores for each term to
create the document vector
– N is the number of documentsthat we are trying to mine
– Nk is the number of documentsthat contain the keyword,k
12. Stop words
– Stop words adalah kata umum (common words) yang
biasanya muncul dalam jumlah besar dan dianggap
tidak memiliki makna. Stop words umumnya
dimanfaatkan dalam task information retrieval,
termasuk oleh Google (penjelasannya di sini). Contoh
stop words untuk bahasa Inggris diantaranya “of”,
“the”.23 Jul 2008
13. Stemming
Stemming (ataumungkin lebih tepatnya lemmatization?)adalah
prosesmengubah kata berimbuhan menjadi kata dasar.Aturan-
aturan bahasa diterapkan untuk menanggalkanimbuhan-imbuhan
itu.Contohnya:
– membetulkan ->betul
– berpegangan ->pegang
– Ada banyak persoalan yang dihadapipada prosesstemming
Bahasa Indonesia,di antaranya yaitu:
– Imbuhan pada Bahasa Indonesia cukup kompleks,terdiridari:
– Prefiks, imbuhan di depan kata:ber-tiga
– Suffiks, imbuhan di akhir kata:makan-an
– Konfiks,imbuhan di depan dan di akhir kata:per-ubah-an
– Infiks, imbuhan di tengah kata:kemilau.
– Imbuhan dari bahasa asing:final-isasi,sosial-isasi
– Aturan perubahan prefiks,seperti (me-)menjadi (meng-,mem-,
men-,meny-)
14. N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining
(pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan
kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya
dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam
prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata).
Sebagai contoh terdapat sebuah kaliman “The cow jumps over the moon”. Jika N=2
makan dikenaldengan bigram. Dimana ngram menjadi :
– The cow
– Cow jumps
– Jumps over
– Over the
– The moon
Bisa dilihat daricontoh diatas,dimana kitamemiliki 5 n-gram dalam kasus tersebut.
Perhatikan bahwaterjadi pergerakan katatiap dua katayaitudari the-> cow ke cow
–> jumps ke jumps -> over dst. Dimana kejadiannyaterjadi secara berurutan dengan
cara tiap kata berpindah maju satu kata kedepan untuk membangkitkan n-gram
selanjutnya.
– Jika terdapat N=3 maka n-gram menjadi sebagai berikut :
– The cow jumps
– Cow jumps over
– Jumps over the
– Over themoon
15. N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka
bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu
kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan
trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five
gram dan seterusnya.
Berapa banyak N-gram dalam sebuah kalimat?
– Jika dimisalkan X adalah jumlah kata dalam suatu kalimat K, maka jumlah
n-gram dari kalimat K adalah :
– NgramsK = X – (N – 1)
Digunakan untuk apa itu N-gram?
N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n-
gram yang digunakan tidak hanya menggunakan unigram tapi model
bigram dan trigram juga digunakan. Microsoft dan Google menggunakan
model ini untuk pengembangan web mereka beberapa diantaranya
digunakan untuk beberapa tugas seperti spelling correction, word breaking
dan text summarization dalam web mereka. Bisa dilihat di link berikut
tentang pembahasan n-gram pada Microsoft link 1 dan ini merupakan salah
satu paper yang berkaitan dengann-gram link 2.
Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga
digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan
Naïve Bayes danlain-lain.
17. CaseStudy
Goal:
• Audience dapat mengidentifikasi permasalahan pada Textminig (CRIPS-DM
Prosedur)
• Audience mengerti setiap langkah yang dilakukan pada prosesText mining
• Audience dapat mengimplementasikan Text Mining di beberapa case
20. Business
Understanding
– Gillian is a historian and archivist, and she has recently curated an exhibit on
the Federalist Papers, the essays that were written and published in the late
1700’s
– The essays werepublished anonymously under the author name ‘Publius’,and
no one really knew at thetime if ‘Publius’was one individual or many
– Years later, after Alexander Hamilton died in the year 1804, some notes were
discovered that revealed that he (Hamilton), James Madison and John Jay had
been theauthors of the papers
– The notes indicated specific authors for some papers, but not for others.
Specifically, John Jay was revealed to be the author for papers 3, 4 and 5;
Madison for paper 14; and Hamilton for paper 17. Paper 18 had no author
named, but there was evidence that Hamilton and Madison worked on that
one together
– Gillian would like to analyze paper 18’s content in the context of the other
papers with known authors, to seeif she can generate some evidence that the
suspected collaboration between Hamilton and Madison is in fact a likely
scenario
– Having studied all of the Federalist Papers and other writings by the three
statesmen who wrote them, Gillian feels confident that paper 18 is a
collaboration that John Jay did not contribute to—his vocabulary and
grammatical structure was quite different from those of Hamilton and
Madison
21. Data
Understanding
– Gillian’s data set is simple: we will include the full text of Federalist
Papers number 5 (Jay), 14 (Madison), 17 (Hamilton), and 18
(suspected collaboration between Madison and Hamilton). The
Federalist Papers are available through a number of sources: they
have been re-published in book form, they are available on a
number of different web sites, and their text is archived in many
libraries throughout the world. For this chapter’s exercise, the text
of these four papers has been added to the book’s companion web
site.There are four files for you to download:
– Chapter12_Federalist05_Jay.txt
– Chapter12_Federalist14_Madison.txt
– Chapter12_Federalist17_Hamilton.txt
– Chapter12_Federalist18_Collaboration.txt.
36. Word list/ Daftar kata
menunjukan frekuensi
penggunaan kata pada
dokumen. Contoh:Kata
”state” digunakan pada 4
dokumen dengan total
penggunaan sebanyak 35
kali
38. Hasil Clustering: Ada 2
cluster yaitu cluster 0dan 1.
1.Paper 5 danpaper 18
adalah cluster 0.
2. Paper 14dan 17termasuk
cluster 1.
Untuk melihat detail
documen dengan cara klik
icon page.
39. Create documents à
Rename (“paper3”) -à Klik
editText
Buka paper 3pada data set
kemudian copydan paste
ke dalamedit parameter à
apply
40. Hasil Clustering:
Paper 3 masuk dalam
kelompok cluster 1.Akan
tetapi, documen dengan ID
=1 author= Jay, Dokumen
ID= 3, Hamilton
Model inibelum tepat
karena CLUSTERING yang
dilakukan, menghasilkan
pengelompokan yang salah.
42. Final cluster results
after training our
text mining model
torecognize John
Jay’s writing style.
Hasil CLUSTERING,
Documen berhasil
dikelopokkan berdasarkan
Author Madison Hamilton
danJay
44. 1. Kebutuhan Sentiment Analysis
2. Text Mining untuk Sentiment Analysis
3. Pengolahan kataText Mining menggunakan Machine Learning
4. Studi Kasus Sentiment Analysis
Overview
45. Social Media
Berbagi
Informasi
Opini Publik
Peran
Pengawasan
• Meningkatnya penggunaan social
media di masyarakat, berdampak pada
bertambahnya peran berbagi infromasi
di ruang public, yang selanjutnya
menyebabkanberkembangnya opini
publik.
• Kemudian hal tersebut dimanfaatkan
menggunakan metoda tertentu untuk
tujuan pengawasan terhadap suatu
objek.
Kebutuhan
Sentiment
Analysis
46. SentimenAnalisis adalah jenis natural language yaitu
pengolahan kata untuk melacak mood masyarakat tentang
produk atau topik tertentu.Analisis sentimen, disebut opinion
mining.
(G.Vinodhini, M.Chandrasekaran 2012)
Definisi
Sentiment
Analysis
48. Menemukan
Kata kunci 10 DestinasiWisata yang
diprioritaskan oleh Kemenpar
Pilkada DKI Jakarta
Jadwal Ganjil Genap
Pemilihan Key
Word
49. Pemilihah Sumber data Untuk
sentiment. Pemilihan harus
berdasar pada kegunaan
sosmed.
•Ada fasilitas Repost yang memiliki
istilah Reshared, jadi kita langsung
bisa mengutip sebuah status dari
teman yang ada pada circle kita. Ini
mirip seperti Retweet di Twitter
•-Atur status Status yang kita buat
bisa diatur apakah itu tidak boleh
dishare kembali atau tidak boleh
dikomentari.
G+
• media bisnis online melalui jaringan
pertemanan yang telah dimiliki.
• -Upload gambar mudah, dan bisa dibuat
album foto.
• -Terdapat aplikasi chat yang membuat
pangguna yang sedang online bisa chat
dengan temannya yang sedang online juga.
• -Pengguna bisa membuat/bergabung dengan
group kesukaan/hobi/bisnis/pertemanan
yang memungkinkan pembagian informasi
lebih spesifik, mudah, dan tepat sasaran.
Facebook
• Menjangkau tidak hanya antara teman,
tetapi komunikasi antara artis dengan fans-
nya juga menjadi lebih mudah.
• -Komunikasi di twitter terjadi sangat cepat.
Sering terjadi berita-berita terupdate, seperti
terjadinya suatu bencana misalnya, lebih
dahulu didapatkan infonya melalui twitter.
• -Terdapat fitur trending topic yang
memungkinkan kita untuk mengetahui apa
saja yang sedang in atau happening
dibicarakan oleh para pengguna twitter.
• -Dapat memasarkan produk secara geratis.
Twitter
•Memperindah foto kita
•bisa menshare video
•memasarkan produk atau berjualan
online
Instagram
•sharing apa saja yang kita mau,
maupun itu lagu, curhatan, foto,
tempat/lokasi kita berada.
•Path bersifat privasi, tidak seperti
facebook dan twitter
•Path memiliki 8 Free Filter Lenses
utk mempercantik foto/video
Path
http://suckrockers.blogspot.co.id/2013/12
/sosial-media-beserta-kelebihan-
dan.html
Pemilihan Sumber
Data (Sosmed)