Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Mengenal Rapidminer

11,307 views

Published on

Tool Open Source untuk Data Mining

Published in: Technology
  • pak.,saya mau tanya kenapa dalam pemprosesan untuk aturan assosian rule musti menggunakan algoritma fp_Grow dalam rapid miner?? trmksh
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Saya mau bertanya, kebetulan saya sedang mengerjakan naive bayes menggunakan rapidminer. yang saya bingungkan disini bagaimana penggunakan training dan testing data setnya???

    saya mengikuti salah satu video tutorial di Youtube hanya menggunakan data seluruhnya tanpa menjadikan training dan testing. apa bedanya? terima kasih
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • makasih mas buat sharenya...
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Pak.., tolong dong kasih modul yg lengkap buat belajar rapidminer-5.1, mendeley-desktop sama netbeans-7.0.1.
    Makasih sebelumnya..
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Mengenal Rapidminer

  1. 1. Mengenal RapidMiner <ul><li>Bowo Prasetyo
  2. 2. http://www.scribd.com/prazjp
  3. 3. http://www.slideshare.net/bowoprasetyo </li></ul>Tool Open Source untuk Data Mining Rabu, 2 Agustus 2011
  4. 4. RapidMiner <ul><li>Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics.
  5. 5. Machine learning </li><ul><li>Algoritma di mana perilaku komputer ber-evolusi berdasarkan data empiris, seperti sensor atau database. </li></ul><li>Data mining </li><ul><li>Proses mengekstrak pola-pola dari data set yang besar dengan mengombinasikan metoda statistika, kecerdasan buatan dan database. </li></ul></ul>
  6. 6. RapidMiner <ul><li>Text mining </li><ul><li>Mirip dengan text analytics, yaitu proses untuk mendapatkan informasi bermutu tinggi dari teks. </li></ul><li>Predictive analytics </li><ul><li>Teknik-teknik statistika yang menganalisa fakta masa kini dan masa lalu untuk memprediksi kejadian di masa depan. </li></ul></ul>
  7. 7. RapidMiner <ul><li>Open source berlisensi AGPL (GNU Affero General Public License) versi 3.
  8. 8. Dimulai pada 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund.
  9. 9. Di-host oleh SourceForge sejak 2004.
  10. 10. Peringkat satu sebagai tool data mining untuk proyek nyata pada poll oleh KDnuggets, sebuah koran data-mining, pada 2010-2011. </li></ul>
  11. 11. RapidMiner <ul><li>Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi.
  12. 12. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI.
  13. 13. Ditulis dalam bahasa pemrograman Java.
  14. 14. Mengintegrasikan proyek data mining Weka dan statistika R. </li></ul>
  15. 15. Instalasi <ul><li>Sistem Microsoft Windows </li><ul><li>Download file installer rapidminer-XXX-install.exe di http://rapid-i.com/content/view/26/84/ .
  16. 16. Double-click file installer dan ikuti instruksinya. </li></ul><li>Sistem lain </li><ul><li>Install Java versi 1.5 atau lebih.
  17. 17. Download dan ekstrak arsip zip Java binary.
  18. 18. Definisikan RAPIDMINER_HOME.
  19. 19. Run dengan ”scripts/RapidMinerGUI”. </li></ul></ul>
  20. 20. Terminologi Dasar <ul><li>Atribut dan atribut target </li><ul><li>Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi. </li><ul><li>ID, atribut biasa. </li></ul><li>Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining. </li><ul><li>Label, cluster, weight. </li></ul></ul><li>Peran atribut (attribute role) </li><ul><li>Label, cluster, weight, ID, biasa </li></ul></ul>
  21. 21. Terminologi Dasar <ul><li>Tipe nilai (value type) </li><ul><li>nominal: nilai secara kategori
  22. 22. numeric: nilai numerik secara umum
  23. 23. integer: bilangan bulat
  24. 24. real: bilangan nyata
  25. 25. text: teks bebas tanpa struktur
  26. 26. binominal: nominal dua nilai
  27. 27. polynominal: nominal lebih dari dua nilai
  28. 28. date_time: tanggal dan waktu
  29. 29. date: hanya tanggal
  30. 30. time: hanya waktu </li></ul></ul>
  31. 31. Terminologi Dasar <ul><li>Data dan metadata </li><ul><li>Data menyebutkan obyek-obyek dari sebuah konsep. </li><ul><li>Ditunjukkan sebagai baris dari tabel. </li></ul><li>Metadata menggambarkan karakteristik dari konsep tersebut. </li><ul><li>Ditunjukkan sebagai kolom dari tabel. </li></ul></ul><li>Modelling </li><ul><li>Penggunaan metoda data mining terhadap data.
  32. 32. Hasilnya disebut model. </li></ul></ul>
  33. 33. Desain Proses Analisa <ul><li>Fleksibilitas dan fungsionalitas </li><ul><li>Sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan GUI.
  34. 34. Meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operator-operator. </li></ul><li>Skalabilitas </li><ul><li>Mulai versi 4.6 ~ .. fokus utama pada skalabilitas untuk data ukuran besar.
  35. 35. Konsep view untuk data mirip seperti database.
  36. 36. Transformasi data on-the-fly tanpa copy .
  37. 37. 100 juta data set bukanlah data yang besar. </li></ul></ul>
  38. 38. Desain Proses Analisa <ul><li>Format data </li><ul><li>Terhubung sangat baik dengan berbagai sumber data: Oracle, IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan berbagai format lain.
  39. 39. Bersama-sama dengan operator-operator untuk data preprocessing, bisa digunakan juga sebagai tool ETL (extraction, transformation, loading) dengan hasil yang menakjubkan. </li></ul></ul>
  40. 40. Repositori Pertama <ul><li>Menjalankan RapidMiner untuk pertama kali, akan menanyakan pembuatan repositori baru. </li></ul><ul><li>Repositori ini berfungsi sebagai lokasi penyimpanan terpusat untuk data dan proses analisa kita. </li></ul>
  41. 41. Perspektif dan View <ul><li>Sebuah perspektif berisi pilihan elemen-elemen GUI, yang disebut view , yang dapat dikonfigurasi secara bebas. </li><ul><li>Elemen-elemen ini dapat diatur bagaimanapun juga sesuka kita. </li></ul><li>Tiga perspektif: </li><ul><li>Perspektif selamat datang (welcome perspective).
  42. 42. Perspektif desain (design perspective).
  43. 43. Perspektif hasil (result perspective). </li></ul></ul>
  44. 44. Perspektif dan View
  45. 45. Perspektif Desain <ul><li>Perspektif pusat di mana semua proses analisa dibuat dan dimanage.
  46. 46. Pindah ke perspektif desain dengan: </li><ul><li>Klik tombol paling kiri.
  47. 47. Atau gunakan menu View -> Perspectives -> Design. </li></ul><li>View: </li><ul><li>Operators, Repositories, Process, Parameters, Help, Comment, Overview, Problems, Log </li></ul></ul>
  48. 48. Perspektif Desain
  49. 49. View Operator <ul><li>Semua tahapan kerja (operator) ditampilkan di sini secara berkelompok, dan bisa diikutsertakan di dalam proses analisa. </li></ul>
  50. 50. View Operator <ul><li>Process control </li><ul><li>Untuk mengontrol aliran proses, seperti loop atau conditional branch . </li></ul><li>Utility </li><ul><li>Untuk mengelompokkan subprocess , juga macro dan logger . </li></ul><li>Repository Access </li><ul><li>Untuk membaca dan menulis repositori. </li></ul></ul>
  51. 51. View Operator <ul><li>Import </li><ul><li>Untuk membaca data dari berbagai format eksternal. </li></ul><li>Export </li><ul><li>Untuk menulis data ke berbagai format eksternal. </li></ul><li>Data Transformation </li><ul><li>Untuk transformasi data dan metadata. </li></ul></ul>
  52. 52. View Operator <ul><li>Modelling </li><ul><li>Untuk proses data mining yang sesungguhnya seperti klasifikasi, regresi, clustering, aturan asosiasi dll. </li></ul><li>Evaluation </li><ul><li>Untuk menghitung kualitas dari modelling. </li></ul></ul>
  53. 53. View Operator
  54. 54. View Repositori <ul><li>Komponen pusat yang menyediakan servis untuk manajemen dan pen-strukturan proses analisa, baik data, metadata, proses maupun hasil. </li></ul>
  55. 55. View Proses <ul><li>Menampilkan tahap-tahap individual operator di dalam proses analisa dan juga interkoneksi di antara mereka. </li></ul>
  56. 56. View Proses
  57. 57. View Parameter <ul><li>Operator-operator mungkin memerlukan parameter untuk bisa berfungsi. Setelah sebuah operator dipilih di view Proses, parameternya ditampilkan di view ini. </li></ul>
  58. 58. View Parameter
  59. 59. View Help dan Comment <ul><li>View Help menampilkan deskripsi dari operator.
  60. 60. View Comment menampilkan komentar yang dapat diedit terhadap operator. </li></ul>
  61. 61. View Help dan Comment
  62. 62. View Overview <ul><li>Menampilkan seluruh area kerja dan menyorot seksi yang ditampilkan saat ini dengan sebuah kotak kecil. </li></ul>
  63. 63. View Overview
  64. 64. View Problem <ul><li>Menampilkan setiap pesan warning dan error. </li></ul>
  65. 65. View Log <ul><li>Menampilkan pesan log selama melakukan desain dan eksekusi proses. </li></ul>
  66. 66. View Problem dan Log
  67. 67. Operator dan Proses <ul><li>Proses data mining pada dasarnya adalah mendefinisikan proses analisa dengan menyatakan urutan tahap kerja individual.
  68. 68. Komponen dari proses ini disebut operator, yang didefinisikan dengan: </li><ul><li>Deskripsi input.
  69. 69. Deskripsi output.
  70. 70. Aksi yang dilakukan.
  71. 71. Parameter yang diperlukan. </li></ul></ul>
  72. 72. Operator dan Proses <ul><li>Sebuah operator bisa disambungkan melalui port masukan (kiri) dan port keluaran (kanan). </li></ul><ul><li>Indikator status dari operator: </li><ul><li>Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah behasil dijalankan).
  73. 73. Segitiga warning: bila ada pesan status.
  74. 74. Breakpoint: bila ada breakpoint sebelum/sesudahnya.
  75. 75. Comment: bila ada komentar.
  76. 76. Subprocess: bila mempunyai subprocess. </li></ul></ul>
  77. 77. Operator dan Proses <ul><li>Sebuah proses analisa yang terdiri dari beberapa operator. </li><ul><li>Warna aliran data menunjukkan tipe obyek yang dilewatkan. </li></ul></ul>
  78. 78. Membuat Proses Baru <ul><li>Pilih menu File -> New </li></ul><ul><li>Pilih repositori dan lokasi, lalu beri nama. </li></ul>
  79. 79. Struktur Repositori <ul><li>Repositori terstruktur ke dalam proyek-proyek.
  80. 80. Masing-masing proyek terstruktur lagi ke dalam data, processes, dan results. </li></ul>
  81. 81. Proses Analisa Pertama
  82. 82. Proses Analisa Pertama <ul><li>Generate Sales Data -> proses sangat sederhana, yang hanya men-generate data. </li></ul>
  83. 83. Transformasi Metadata <ul><li>Metadata dari terminal output. </li></ul>
  84. 84. Transformasi Metadata <ul><li>Generate Attributes -> men-generate atribut baru. </li></ul>
  85. 85. Transformasi Metadata <ul><li>Parameter dari operator Generate Attributes. </li></ul>
  86. 86. Transformasi Metadata <ul><li>Menghitung atribut baru “total price” sebagai perkalian dari “amount” dan “single price”. </li></ul>
  87. 87. Transformasi Metadata
  88. 88. Transformasi Metadata <ul><li>Select Attributes -> untuk memilih subset dari atribut. </li></ul>
  89. 89. Transformasi Metadata <ul><li>Parameter untuk operator Select Attributes. </li></ul>
  90. 90. Transformasi Metadata <ul><li>Atribut individu maupun subset bisa dipilih atau dihapus. </li></ul>
  91. 91. Menjalankan Proses <ul><li>Proses dapat dijalankan dengan: </li><ul><li>Menekan tombol Play.
  92. 92. Memilih menu Process -> Run.
  93. 93. Menekan kunci F11. </li></ul></ul>
  94. 94. Melihat Hasil
  95. 95. Referensi <ul><li>Wikipedia, http://en.wikipedia.org/wiki/RapidMiner
  96. 96. RapidMiner Installation Guide, http://rapid-i.com/content/view/17/40/
  97. 97. RapidMiner 5.0 Manual, Rapid-I, 2010, http://www.rapid-i.com </li></ul>

×