Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
Ringkasan dokumen tersebut adalah:
(1) Dokumen tersebut membahas dua jenis diagram struktur yaitu Diagram Warnier-Orr dan Diagram Jackson;
(2) Diagram Warnier-Orr digunakan untuk menggambarkan struktur data seperti urutan, pencarian, repetisi, dan seleksi;
(3) Diagram Jackson disebut juga Jackson Structured Design yang dimulai dengan membangun model dunia nyata lalu menambahkan fungsi sistem.
Ringkasan dokumen tersebut adalah:
Teori Kategori Sosial menyatakan bahwa meski masyarakat bersifat heterogen, kelompok-kelompok sosial yang memiliki ciri yang sama cenderung memiliki respon yang seragam terhadap media. Teori ini dikemukakan oleh Melvin DeFleur dan mengelompokkan masyarakat berdasarkan usia, jenis kelamin, suku, pendidikan, dan faktor lainnya.
Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
Ringkasan dokumen tersebut adalah:
(1) Dokumen tersebut membahas dua jenis diagram struktur yaitu Diagram Warnier-Orr dan Diagram Jackson;
(2) Diagram Warnier-Orr digunakan untuk menggambarkan struktur data seperti urutan, pencarian, repetisi, dan seleksi;
(3) Diagram Jackson disebut juga Jackson Structured Design yang dimulai dengan membangun model dunia nyata lalu menambahkan fungsi sistem.
Ringkasan dokumen tersebut adalah:
Teori Kategori Sosial menyatakan bahwa meski masyarakat bersifat heterogen, kelompok-kelompok sosial yang memiliki ciri yang sama cenderung memiliki respon yang seragam terhadap media. Teori ini dikemukakan oleh Melvin DeFleur dan mengelompokkan masyarakat berdasarkan usia, jenis kelamin, suku, pendidikan, dan faktor lainnya.
Metodologi Penelitian (10) konsep dasar penelitianjayamartha
Dokumen tersebut membahas konsep dasar penelitian yang mencakup karakteristik penelitian, langkah-langkah penelitian, dan jenis-jenis penelitian seperti kuantitatif, kualitatif, dasar, terapan, dan evaluatif.
Rantai Pasokan PT. Carrefour Indonesia.TbkHelmiati (Emy)
Carrefour menerapkan Supply Chain Management dengan konsep Just-In-Time untuk mengefisiensikan distribusi produk tanpa persediaan di gudang. Sistem InfoLog digunakan untuk proses bisnis seperti perencanaan persediaan, operasi gudang, distribusi ke gerai, dan pelaporan. Carrefour juga menerapkan kontrol persediaan berdasarkan tingkat minimum, maksimum, dan reorder untuk menjaga ketersediaan barang.
Dokumen tersebut membahas tentang persepsi konsumen terhadap stimuli pemasaran. Ada 3 faktor yang mempengaruhi persepsi konsumen yaitu karakteristik stimulus, kemampuan konsumen, dan kondisi internal konsumen. Stimuli pemasaran dapat membentuk citra merek, toko, dan perusahaan di mata konsumen melalui proses inferensi.
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]Penny Hutabarat
Pemasaran sosial melibatkan penggunaan prinsip pemasaran komersial untuk mempengaruhi perilaku masyarakat demi kepentingan sosial. Dokumen ini menjelaskan konsep, sejarah, dan unsur-unsur pemasaran sosial seperti produk, harga, tempat, dan promosi serta analisis audiens dan segmentasi untuk mempengaruhi perubahan perilaku secara sukarela.
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013Annissa Savira II
Ppt ini berisikan tentang Teori Pengurangan Ketidakpastian. Ppt ini merupakan salah satu tugas dari mata kuliah Teori Komunikasi pada jurusan Manajemen Komunikasi Fikom Unpad 2013.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Ringkasan dokumen tersebut adalah:
1. Requirements engineering merupakan fase awal dalam proses pengembangan perangkat lunak dimana kebutuhan pengguna dikumpulkan dan ditetapkan.
2. Terdapat beberapa tahapan dalam requirements engineering seperti elicitation, specification, validation, dan pelacakan perubahan kebutuhan.
3. Kebutuhan tersebut kemudian didokumentasikan untuk memastikan konsistensi dan kelengkapan spesifikasi kebutuhan.
Dokumen ini membahas tentang manajemen jasa laundry. Jasa laundry memberikan layanan pencucian pakaian dengan tujuan memberikan kepuasan kepada pelanggan. Dokumen ini menganalisis atribut penting dalam jasa laundry seperti kualitas, harga, dan pelayanan. Dilakukan survei terhadap pelanggan untuk mengetahui tingkat kepuasan dan kepentingan atribut. Hasilnya digunakan untuk merancang konsep desain jasa laundry agar dapat memenuhi kebutuhan pelang
Dokumen ini memberikan informasi tentang PT. GO-Jek Indonesia, perusahaan rintisan berbasis aplikasi yang menyediakan layanan on-demand. GO-Jek berhasil masuk dalam daftar 56 Perusahaan yang mengubah dunia karena keberhasilannya dan merupakan satu-satunya perusahaan asal Asia Tenggara dalam daftar tersebut. GO-Jek bertujuan untuk meningkatkan kesejahteraan pekerja informal di Indonesia dengan layanan cepatnya dan berfokus p
Teori Pembelajaran Sosial dikembangkan oleh Albert Bandura pada tahun 1977. Teori ini menjelaskan bagaimana kepribadian seseorang berkembang melalui pengamatan terhadap perilaku orang lain. Terdapat empat tahapan dalam pembelajaran sosial yaitu atensi, retensi, reproduksi, dan motivasi. Teori ini sering diterapkan dalam kasus anak yang meniru perilaku yang dilihat di televisi.
Dokumen tersebut merupakan pidato penutupan dari Reny Sukmawani setelah menyelesaikan studi S3. Pidato tersebut berisi ucapan terima kasih kepada berbagai pihak yang telah mendukung dan membimbingnya selama menyelesaikan studi, seperti tim promotor, penguji, rektor universitas, keluarga, serta rekan-rekan. Reny juga menyampaikan harapan agar ilmu yang diperolehnya dapat memberikan manfaat
Dokumen tersebut membahas tentang tantangan pemerintah dalam menyediakan akses perumahan bagi masyarakat berpenghasilan rendah (MBR) di Indonesia. Hal ini disebabkan lahan kosong yang dimiliki investor swasta dan spekulan, sehingga harga perumahan menjadi mahal. Dokumen tersebut kemudian menjelaskan beberapa strategi yang dapat diterapkan pemerintah seperti penerapan pajak progresif untuk lahan kosong, program bank lahan, serta
Dokumen tersebut membahas model pemilihan moda dalam empat langkah permodelan transportasi. Terdapat empat struktur model pemilihan moda yang dijelaskan yaitu trip-end modal split, trip-interchange modal split, model sintesis, dan model multi-moda. Dokumen ini juga menjelaskan faktor-faktor yang mempengaruhi pemilihan moda serta teknik survei yang digunakan dalam pemodelan tersebut.
Metodologi Penelitian (10) konsep dasar penelitianjayamartha
Dokumen tersebut membahas konsep dasar penelitian yang mencakup karakteristik penelitian, langkah-langkah penelitian, dan jenis-jenis penelitian seperti kuantitatif, kualitatif, dasar, terapan, dan evaluatif.
Rantai Pasokan PT. Carrefour Indonesia.TbkHelmiati (Emy)
Carrefour menerapkan Supply Chain Management dengan konsep Just-In-Time untuk mengefisiensikan distribusi produk tanpa persediaan di gudang. Sistem InfoLog digunakan untuk proses bisnis seperti perencanaan persediaan, operasi gudang, distribusi ke gerai, dan pelaporan. Carrefour juga menerapkan kontrol persediaan berdasarkan tingkat minimum, maksimum, dan reorder untuk menjaga ketersediaan barang.
Dokumen tersebut membahas tentang persepsi konsumen terhadap stimuli pemasaran. Ada 3 faktor yang mempengaruhi persepsi konsumen yaitu karakteristik stimulus, kemampuan konsumen, dan kondisi internal konsumen. Stimuli pemasaran dapat membentuk citra merek, toko, dan perusahaan di mata konsumen melalui proses inferensi.
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]Penny Hutabarat
Pemasaran sosial melibatkan penggunaan prinsip pemasaran komersial untuk mempengaruhi perilaku masyarakat demi kepentingan sosial. Dokumen ini menjelaskan konsep, sejarah, dan unsur-unsur pemasaran sosial seperti produk, harga, tempat, dan promosi serta analisis audiens dan segmentasi untuk mempengaruhi perubahan perilaku secara sukarela.
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013Annissa Savira II
Ppt ini berisikan tentang Teori Pengurangan Ketidakpastian. Ppt ini merupakan salah satu tugas dari mata kuliah Teori Komunikasi pada jurusan Manajemen Komunikasi Fikom Unpad 2013.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Ringkasan dokumen tersebut adalah:
1. Requirements engineering merupakan fase awal dalam proses pengembangan perangkat lunak dimana kebutuhan pengguna dikumpulkan dan ditetapkan.
2. Terdapat beberapa tahapan dalam requirements engineering seperti elicitation, specification, validation, dan pelacakan perubahan kebutuhan.
3. Kebutuhan tersebut kemudian didokumentasikan untuk memastikan konsistensi dan kelengkapan spesifikasi kebutuhan.
Dokumen ini membahas tentang manajemen jasa laundry. Jasa laundry memberikan layanan pencucian pakaian dengan tujuan memberikan kepuasan kepada pelanggan. Dokumen ini menganalisis atribut penting dalam jasa laundry seperti kualitas, harga, dan pelayanan. Dilakukan survei terhadap pelanggan untuk mengetahui tingkat kepuasan dan kepentingan atribut. Hasilnya digunakan untuk merancang konsep desain jasa laundry agar dapat memenuhi kebutuhan pelang
Dokumen ini memberikan informasi tentang PT. GO-Jek Indonesia, perusahaan rintisan berbasis aplikasi yang menyediakan layanan on-demand. GO-Jek berhasil masuk dalam daftar 56 Perusahaan yang mengubah dunia karena keberhasilannya dan merupakan satu-satunya perusahaan asal Asia Tenggara dalam daftar tersebut. GO-Jek bertujuan untuk meningkatkan kesejahteraan pekerja informal di Indonesia dengan layanan cepatnya dan berfokus p
Teori Pembelajaran Sosial dikembangkan oleh Albert Bandura pada tahun 1977. Teori ini menjelaskan bagaimana kepribadian seseorang berkembang melalui pengamatan terhadap perilaku orang lain. Terdapat empat tahapan dalam pembelajaran sosial yaitu atensi, retensi, reproduksi, dan motivasi. Teori ini sering diterapkan dalam kasus anak yang meniru perilaku yang dilihat di televisi.
Dokumen tersebut merupakan pidato penutupan dari Reny Sukmawani setelah menyelesaikan studi S3. Pidato tersebut berisi ucapan terima kasih kepada berbagai pihak yang telah mendukung dan membimbingnya selama menyelesaikan studi, seperti tim promotor, penguji, rektor universitas, keluarga, serta rekan-rekan. Reny juga menyampaikan harapan agar ilmu yang diperolehnya dapat memberikan manfaat
Dokumen tersebut membahas tentang tantangan pemerintah dalam menyediakan akses perumahan bagi masyarakat berpenghasilan rendah (MBR) di Indonesia. Hal ini disebabkan lahan kosong yang dimiliki investor swasta dan spekulan, sehingga harga perumahan menjadi mahal. Dokumen tersebut kemudian menjelaskan beberapa strategi yang dapat diterapkan pemerintah seperti penerapan pajak progresif untuk lahan kosong, program bank lahan, serta
Dokumen tersebut membahas model pemilihan moda dalam empat langkah permodelan transportasi. Terdapat empat struktur model pemilihan moda yang dijelaskan yaitu trip-end modal split, trip-interchange modal split, model sintesis, dan model multi-moda. Dokumen ini juga menjelaskan faktor-faktor yang mempengaruhi pemilihan moda serta teknik survei yang digunakan dalam pemodelan tersebut.
1. Sistem pengaturan lampu lalu lintas berbasis deteksi jumlah kendaraan menggunakan kamera dan metode deteksi tepi untuk menentukan lama waktu lampu hijau.
2. Logika fuzzy dengan metode Mamdani digunakan untuk menentukan durasi berdasarkan kepadatan kendaraan di setiap ruas jalan.
3. Sistem ini termasuk soft real time system karena kegagalan tidak berbahaya bagi sistem melainkan hanya menyebabkan penurun
Ringkasan dokumen tersebut adalah sebagai berikut:
1. Penelitian ini bertujuan untuk mengoptimalkan kinerja lalu lintas dengan melakukan simulasi sistem lampu lalu lintas menggunakan jaringan saraf tiruan backpropagation.
2. Metode yang digunakan adalah penelitian eksperimental dengan mengumpulkan dan memproses data lalu lintas secara sintetis dan riil, kemudian diolah menggunakan perangkat lun
Sistem pendukung keputusan ini dirancang untuk membantu PT Kereta Api Indonesia DAOP 8 Surabaya dalam memilih mitra tender proyek dengan metode Promethee. Sistem ini akan menilai calon mitra berdasarkan kriteria prakualifikasi dan pascakualifikasi, kemudian memberikan peringkat untuk memilih pemenang tender berdasarkan preferensi pengambil keputusan. Harapannya sistem ini dapat meningkatkan akurasi dan efisiensi proses seleksi mitra tender proy
Dokumen ini membahas penggunaan UML dan ROSE dalam presentasi dengan menjelaskan cara menggunakan PowerPoint untuk mencatat item-item tindak lanjut selama presentasi. Dokumen ini juga menjelaskan konsep dasar rekayasa perangkat lunak berorientasi objek dengan mendefinisikan objek, kelas, pewarisan, agregasi, dan keunggulannya dibanding paradigma lain.
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...Amran Simamora
Dokumen tersebut membahas tentang deteksi, pelacakan, dan perhitungan jumlah kendaraan menggunakan metode Moving Average Subtraction dan algoritma Hungarian. Metode ini digunakan untuk mendeteksi kendaraan secara otomatis dari video CCTV dan dapat menghitung jenis kendaraan serta jumlahnya dengan akurasi tertinggi 77% untuk kendaraan panjang. Prosesnya meliputi pelatihan, pengujian, segmentasi citra menggunakan Moving Average Subtraction dan operasi
Laporan ini membahas klasifikasi multispektral citra satelit Landsat 7 menggunakan perangkat lunak Envi 5.1. Terdapat dua jenis klasifikasi yaitu tak terkontrol (unsupervised) dengan algoritma Isodata dan K-Means, serta terkontrol (supervised) menggunakan Maximum Likelihood, Minimum Distance, dan Parallelepiped dengan membuat Region of Interest terlebih dahulu. Hasilnya menunjukkan algoritma Maximum Likelihood paling akurat mengklasifikasikan objek
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...faisalpiliang1
1. Penelitian ini menggunakan algoritma Greedy untuk menentukan rute terpendek dari lokasi pengguna ke tujuh puskesmas di Kota Tanjungpinang berdasarkan koordinat simpul dan koneksi jalan.
Dokumen tersebut membahas tentang simulasi sebagai imitasi cara kerja suatu sistem dengan menggunakan komputer. Simulasi digunakan untuk mempelajari sistem kompleks, membandingkan rancangan alternatif, dan mempelajari pengaruh perubahan terhadap sistem yang ada. Terdapat berbagai jenis simulasi seperti Monte Carlo, trace-driven, dan discrete event simulation. Simulasi memiliki kelebihan seperti fleksibilitas dan kemampuan membandingkan
Simulasi sistem pelayanan parkir sepeda motor di supermarket Bravo Swalayan Tuban menggunakan software Arena untuk memodelkan sistem antrian aktual. Data waktu kedatangan, pelayanan, dan antrian 20 pengunjung digunakan untuk menganalisis kinerja sistem dan merancang skenario perbaikan dengan penambahan operator. Hasil simulasi menunjukkan perlunya perbaikan untuk mengurangi waktu antrian pelanggan.
Mata kuliah ini membahas penggunaan metode ilmiah untuk mengoptimalkan sumber daya terbatas dengan menggunakan teknik pemrograman linier, masalah transportasi, dan analisis jaringan. Mahasiswa akan mempelajari konsep dan model penelitian operasional serta mampu menyelesaikan berbagai masalah dengan menyusun model matematika dan menentukan solusi optimal.
Robot Micromouse dapat bergerak di dalam labirin tanpa menyentuh objek, menggunakan algoritma backtracking untuk mencari jalan terpendek. Robot mendeteksi dinding menggunakan sensor inframerah dan dikendalikan mikrokontroler ATMEGA 8535.
Dokumen tersebut berisi daftar 13 pertanyaan essay tentang hukum pajak yang harus dijawab oleh mahasiswa. Pertanyaan-pertanyaan tersebut meliputi definisi pajak dan unsur-unsurnya, fungsi pajak, teori pemungutan pajak di Indonesia, tarif pajak di Indonesia, timbul dan berakhirnya utang pajak, perbedaan zakat dan pajak, tahap reformasi pajak di Indonesia, definisi hukum pajak internasional, tata cara pendaft
This document provides guidance on writing review articles. It discusses reasons for writing review articles such as sharing knowledge and advancing one's field. It also discusses typical sections of a review article such as the introduction, methods, and conclusion. The document provides examples of different types of review articles and notes that review articles are important for keeping up with developments in a field given the large volume of existing literature. It also provides tips for selecting topics, writing titles, referencing, and searching for source materials to include.
Format laporan Tutor Universitas Terbuka 2014Ratzman III
Dokumen tersebut berisi format-format dan pedoman pelaksanaan tutorial, yang mencakup tanda terima perlengkapan tutor, rancangan aktivitas tutorial, satuan aktivitas tutorial, rekap nilai tugas tutorial, format tugas wajib tutorial, format penilaian tugas tutorial, daftar hadir mahasiswa, kisi-kisi tugas tutorial, catatan pertemuan tutorial, dan tanda terima tugas mahasiswa.
Arduino Ch3 : Tilt Sensing Servo Motor Controller Ratzman III
Sensors allow us to operate industrial and consumer products that use physical stimuli such as touch, sound, and motion. In this chapter, we will build a device to detect the orientation of an object using a tilt control switch to control the servo motor.
Arduino - Ch 2: Sunrise-Sunset Light SwitchRatzman III
The document describes how to build a Sunrise-Sunset Light Switch using an Arduino microcontroller. The circuit uses a photocell to detect light instead of a pushbutton. When light is detected, a red LED turns on. After a few seconds determined by an RC timing circuit, the red LED turns off and a green LED turns on. The circuit diagram and code are provided to build the project. Modifications to the code allow status messages to display on the serial monitor.
The document describes how to build a "Trick Switch" circuit using an Arduino, pushbutton, LED, capacitor, and resistors. When the pushbutton is pressed, the LED turns on. After releasing the button, the capacitor stores energy from the power supply, keeping the LED on for a few extra seconds until the capacitor discharges. The circuit is modified to add an indicator LED to show when the timing cycle finishes. Schematics and code are provided to build and program the circuit.
Dokumen ini membahas tentang kalkulus relasional dan bahasa query SQL dan QBE. Kalkulus relasional menggunakan variabel untuk nilai domain atribut, bukan nilai tupel. SQL dibangun berdasarkan aljabar relasional dan memberikan bahasa query tingkat tinggi dengan struktur sederhana. SQL dan QBE merupakan dua bahasa query komersial yang tersedia berdasarkan model relasional.
Dokumen tersebut membahas tentang bahasa query formal basis data relasional yaitu SQL dan aljabar relasional. Aljabar relasional merupakan kumpulan operasi yang diterapkan pada relasi untuk menghasilkan relasi baru, meliputi seleksi, proyeksi, produk kartesian, penyatuan, perbedaan himpunan, penamaan ulang, irisan himpunan, join, outer join, dan pembagian.
Dokumen ini membahas tentang RDBMS (Relational Database Management System) dan notasi Chen untuk merancang basis data relasional. RDBMS mengelola basis data yang terdiri dari tabel-tabel yang saling berhubungan. Notasi Chen digunakan untuk merepresentasikan entitas, hubungan, dan atribut dalam basis data secara grafis.
Kisi-kisi soal ujian tengah semester mata kuliah Sistem Basis Data meliputi 11 pertanyaan essay dan 1 pertanyaan penjelasan tentang model data. Pertanyaan-pertanyaan tersebut mencakup pengertian basis data sebagai gambaran operasional perusahaan, properti yang tersimpan, keamanan basis data, perbedaan sistem pengarsipan manual dan basis data, tujuan pembangunan basis data, elemen pendefinisian basis data, keuntungan pendekatan abstraksi data, tingkat e
Dokumen ini berisi kriteria penilaian untuk tugas kelompok mata kuliah Basis Data. Tugas ini meliputi penjelasan fungsi submenu di situs E-learning, pembuatan struktur basis data dari submenu tersebut, dan presentasi hasil analisis di depan kelas. Penilaian tugas mencakup penguasaan materi, wawasan pengetahuan, kelengkapan materi, originalitas, dan kerapihan penulisan dengan total skor 100.
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum MerdekaFathan Emran
Modul Ajar Bahasa Inggris Kelas 10 SMA/MA Fase E Kurikulum Merdeka - abdiera.com. Modul Ajar Bahasa Inggris Kelas 10 SMA/MA Fase E Kurikulum Merdeka. Modul Ajar Bahasa Inggris Kelas 10 SMA/MA Fase E Kurikulum Merdeka.
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaFathan Emran
Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka - abdiera.com. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka.
Materi ini membahas tentang defenisi dan Usia Anak di Indonesia serta hubungannya dengan risiko terpapar kekerasan. Dalam modul ini, akan diuraikan berbagai bentuk kekerasan yang dapat dialami anak-anak, seperti kekerasan fisik, emosional, seksual, dan penelantaran.
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
1. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Implementasi Reinforcement Learning pada Simulasi
Penentuan Jalur Robot Bertipe Line-Follower
Anggrahita Bayu Sasmita (13507021), Nur Ulfa Maulidevi (197603092008012010)
Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung,
Jalan Ganeca 10 Bandung, Jawa Barat, Indonesia
if17021@students.if.itb.ac.id
ulfa@informatika.org
Abstrak-- Line-follower merupakan tipe robot yang
diprogram untuk bergerak mengikuti lajur tertentu
sehingga dapat menjadi agent dalam persoalan pencarian
jalur (pathfinding). Hal ini dapat dilakukan dengan
berbagai macam metode baik dengan menggunakan
informasi tertentu maupun tidak. Solusi yang diberikan
dalam menyelesaikan pencarian jalur terdekat ini
menggunakan akuisisi informasi melalui reinforcement
learning, khususnya Q-Learning. Pembelajaran
dilakukan melalui simulasi. Pada simulasi tersebut, agent
melakukan eksplorasi pada lajur tertentu untuk
memperoleh informasi reward. Informasi ini kemudian
digunakan oleh agent dalam eksploitasinya, yaitu memilih
jalur yang paling efektif dalam percabangan lajur.
Eksploitasi agent dilakukan menggunakan metode Greedy
Best First Search yang dimodifikasi. Implementasi
reinforcement learning mengakibatkan peningkatan
efisiensi yang ditunjukkan dengan reduksi penempuhan
lajur menuju goal state sebanyak 32,39%. Reduksi
tersebut dibandingkan dengan pencarian Depth-First
Search. Angka tersebut relatif terhadap rata-rata pilihan
jalur dalam setiap percabangan. Sebagai kesimpulan,
pembelajaran mesin dapat digunakan dalam akuisisi
informasi pada kasus pathfinding. Informasi tersebut
kemudian dapat diacu menggunakan metode pencarian
informed search. Implementasi pembelajaran mesin ini
dapat dikembangkan lagi dalam dua hal. Pengembangan
pertama dapat dilakukan dengan memodifikasi sensor
robot sehingga dapat mengakomodasi pilihan
percabangan yang lebih banyak. Pengembangan
berikutnya dilakukan dalam modifikasi representasi
state-action untuk digunakan sebagai informasi dalam
metode searching lainnya.
Kata kunci-- Line follower, reinforcement learning, Q-
Learning, Greedy Best-First Search, penentuan jalur,
simulasi
1. PENDAHULUAN
A. Latar Belakang
Dalam keseharian aktivitas masyarakat, pemenuhan
kebutuhan suatu produk didukung dengan adanya kegiatan
produksi dalam aktivitas industri. Pemanfaatan teknologi
robot pada kegiatan produksi merupakan salah satu
pendekatan mekanisasi atas persoalan performansi aktivitas
industri yang fluktuatif.
Dalam kajian pembangunannya, robot memiliki tiga aspek
berupa mekanisme gerak, rangkaian elektrik berupa sensor
dan aktuator, serta program yang mengendalikan kerja robot
tersebut. Untuk kasus-kasus tertentu, kerja robot merupakan
suatu aktivitas dengan algoritma tertentu untuk dipetakan
dalam suatu program. Salah satu kasusnya adalah aktivitas
yang melibatkan penyelesaian penentuan jalur (pathfinding).
Salah satu contoh teknologi robot yang dikembangkan
dalam kegiatan industri adalah robot bertipe line-follower.
Robot ini merupakan suatu perangkat yang melakukan
perpindahan berdasarkan masukan berupa deteksi optik
terhadap lajur kontras [1].
Lajur yang menjadi salah satu persoalan pada line-follower
adalah lajur bercabang. Secara pragmatis, metode pencarian
jalur pada line follower merupakan serangkaian percabangan
kondisional (if-then-else). Hal ini mengakibatkan
peningkatan kerumitan bergantung pada jumlah titik
percabangan dan rata-rata jumlah pilihan pada setiap
percabangan [2].
Permasalahan yang mengakibatkan adanya algoritma yang
kompleks dapat diselesaikan melalui pendekatan metode
pembelajaran mesin [2]. Salah satu metode pada
pembelajaran mesin ialah reinforcement learning. Metode ini
merupakan analogi terhadap metode pelatihan yang
menerapkan aspek reward [3]. Metode ini digunakan sebagai
pembelajaran bagi agent untuk menyelesaikan masalah yang
membutuhkan pengetahuan agent terhadap kondisi per-
bagian kasus dalam detil tertentu.
Jurnal Sarjana Institut Teknologi Bandung bidang Teknik Elektro dan Informatika
Volume 1, Number 1, April 2012
1
2. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
B. Rumusan Masalah
Berdasarkan penjelasan mengenai latar belakang persoalan
tersebut, maka pada penelitian ini terdapat dua rumusan
masalah, yaitu.
1. Bagaimana memodelkan reinforcement learning untuk
adaptasi pathfinding pada line-follower?
2. Apa saja perubahan efisiensi pengambilan langkah
robot, baik keuntungan maupun kerugian, apabila robot
dilengkapi dukungan reinforcement learning
dibandingkan tanpa dukungan tersebut?
C. Tujuan
Kedua rumusan masalah tersebut menjadi dasar bagi
tujuan penelitian ini. Oleh karena itu, terdapat dua poin yang
menjadi tujuan untuk menjawab rumusan masalah di atas.
Poin-pointersebut yaitu:
1. Membangun suatu model pembelajaran mesin
reinforcement learning untuk adaptasi penentuan jalur
pada robot bertipe line follower sebagai alternatif
dalam pembangunan robot tersebut pada sisi
pemrograman.
2. Menguji efisiensi robot line-follower dalam
pengambilan langkah pathfinding, baik keuntungan
maupun kerugian, melalui simulasi dengan
pembandingan terhadap metode pathfinding tanpa
reinforcement learning.
2. LANDASAN TEORI
A. Spesifikasi Line-Follower
Robot bertipe line-follower merupakan suatu mesin
terprogram yang memiliki kemampuan bergerak mengikuti
suatu jalur yang telah ditentukan [1]. Robot ini memiliki
sensor optik sebagai pendeteksi jalur. Adapun deteksi
percabangan membutuhkan konstruksi sensor dalam
morfologi tertentu. Sebagai contoh, sensor yang disusun
cembung terhadap lajur memberikan kemampuan deteksi
percabangan bagi robot [4]. Sensor pada spesifikasi untuk
penelitian ini dibatasi dengan kemampuan membaca hingga
empat pilihan percabangan.
Robot line-follower ini bergerak dengan aktuator yang
terhubung dengan roda. Oleh karena itu, robot ini dapat
dilengkapi dengan rotary encoder sebagai sensor untuk
mengukur jarak tempuh. Sensor ini melakukan pengukuran
secara diskrit. Oleh karena pengukuran diskrit tersebut, maka
robot dalam spesifikasi ini memiliki keterbatasan dalam detil
informasi jarak.
B. Metode Reinforcement Learning
Pembelajaran mesin metode reinforcement learning
menjadi suatu pilihan dalam penentuan pengendalian robot
[2]. Metode ini mengasumsikan bahwa lingkungan terdefinisi
sebagai himpunan keadaan (states) S dengan agen (robot)
memiliki pilihan aksi A dengan jumlah tertentu. Untuk setiap
langkah, yang didefinisikan sebagai pembagian waktu secara
diskrit, agen melakukan pengamatan terhadap keadaan
lingkungan, st ,dan memberikan keluaran berupa aksi, at.
Agen mendapatkan suatu reward, R yang
menunjukkan kualitas aksi yang diberikan agen berdasarkan
ekspektasi pemrogram. Agen kemudian melakukan observasi
ulang terhadap lingkungannya, . Keadaan yang dituju
dari metode pembelajaran ini ialah mendapatkan experience
tuples (st, , , ), dan mendapatkan pembelajaran atas
suatu pemetaan keadaan-keadaan untuk mengukur nilai
jangka panjang pada keadaan tersebut. Pemetaan tersebut
didefinisikan sebagai optimal value function.
Salah satu algoritma reinforcement learning yang dapat
digunakan adalah Q-Learning [3]. Algoritma ini memiliki
optimal value function sebagai berikut:
( ) ( ) ( )
Fungsi tersebut merepresentasikan nilai reward akibat
agent mengambil aksi a dari keadaan s yang mengakibatkan
perpindahan keadaan menjadi s’. Parameter merupakan
discount factor sebagai ukuran terhadap reward yang pada
proses berikutnya. Setelah mendapatkan Q-function yang
optimal, terdapat pertimbangan optimasi π*
(s) yang
merupakan nilai maksimum dari suatu keadaan.
( ) ( )
Nilai Q-function disimpan dalam suatu struktur tabel
dalam indeks yang mengacu pada state dan action. Untuk
setiap waktu robot menghasilkan aksi, experience tuple
dihasilkan dan tabel untuk keadaan s dan aksi a diperbaharui
dengan acuan sebagai berikut:
̂( ) ( ) ̂( )
Dalam pemrograman robot, implementasi reinforcement
learning merupakan dukungan yang mempermudah
hubungan aksi robot terhadap keadaan lingkungan. Suatu
robot dapat memandang sebuah task sebagai fungsi reward
yang lebih terbebas dari bias program dibandingkan melalui
pemetaan kondisional.
Dalam penelitian ini, persoalan penentuan jalur merupakan
suatu persoalan deterministik yang dapat dikategorikan
sebagai exploration problem. Dalam hal ini, agent
membutuhkan tahapan khusus untuk mempelajari lajurnya
dan menyimpan informasi hasil pembelajarannya. Eksplorasi
yang dilakukan sebagai tahapan pembelajaran peta lajur
dilakukan menggunakan strategi pencarian tertentu.
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
2
3. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
C. Greedy Best-First Search
Strategi pencarian yang diimplementasikan dalam
penyelesaian pencarian jalur pada penelitian ini
menggunakan metode Greedy Best-First Search. Bentuk
sederhana dalam metode ini adalah mencari pengambilan
estimasi langkah terpendek menuju goal state [5]. Fungsi
yang menghitung estimasi tersebut dinamakan fungsi
heuristik yang dilambangkan dengan h:
h(n) = estimasi langkah terpendek menuju goal
Dalam strategi ini, agent diprogram untuk mengambil
keputusan berupa action dengan nilai reward tertentu. Nilai
reward tersebut menjadi informasi bagi agent untuk memilih
action yang mengakibatkan pengambilan langkah terdekat
terhadap goal. Nilai tersebut didapatkan melalui
reinforcement learning dan digunakan untuk diacu sebagai
fungsi heuristik pada strategi pencarian Greedy Best-First
Search.
D. Depth-First Search
Metode pencarian Depth-First Search (DFS) merupakan
metode uninformed search. Hal ini menunjukkan bahwa
pencarian melalui DFS dilakukan tanpa dukungan informasi
nilai apapun, termasuk jumlah langkah menuju goal state.
Dalam metode ini, agent hanya mampu membedakan state
yang berkedudukan sebagai goal dan yang bukan (Russel,
1995).
Apabila dimodelkan melalui graf pohon pencarian, agent
pada metode DFS melakukan pencarian yang terfokus pada
kedalaman aras di setiap titiknya. Apabila agent sudah tidak
bisa lagi mencari lebih dalam sedangkan ia berada pada state
non-goal, agent akan melakukan backtracking menuju state
pada aras lebih rendah. Agent yang melakukan bactracking
melakukan pencarian melalui sisi yang belum dicari pada
titik di aras yang lebih rendah. Ekspansi dilakukan hingga
agent menemukan goal state.
3. ANALISIS SOLUSI
A. Representasi Pathfinding dalam Model Reinforcement
Learning
Persoalan yang diselesaikan melalui pendekatan
pembelajaran mesin reinforcement learning memiliki
sejumlah keadaan yang tertentu (state) yang diperoleh
berdasarkan aksi (action) yang dilakukan agent. Aksi yang
dilakukan disertai dengan nilai reward tertentu bergantung
pada pendekatan penyelesaian masalah. Melalui proses
learning, agent berusaha mencari sejumlah aksi yang
memberikan nilai reward maksimal hingga goal state
tercapai dan agent menghentikan pencarian action. Proses
learning yang dilakukan dapat disederhanakan sebagai entry
nilai bagi tabel state-action-reward yang menjadi model yang
dibangun sebagai acuan fungsi target dalam kondisi
pengujian.
Dalam penerapan pembelajaran mesin menggunakan Q-
learning, sebagaimana penjelasan pada dasar teori
sebelumnya, terdapat suatu nilai Q yang merupakan reward
akibat pengambilan suatu action dari state tertentu, dengan
suatu nilai tambahan. Nilai ini didapat melalui pengalian
suatu faktor secara rekursif terhadap rangkaian reward pada
agent. Rangkaian reward tersebut mendapatkan referensi
nilai terhadap immediate reward pada goal state.
Sebagaimana penjelasan sebelumnya, goal state bersifat
absorptif sehingga eksplorasi yang mencapai state tersebut
menghentikan eksplorasi agent. Ilustrasi mengenai abstraksi
ini dapat dilihat pada Gambar 1.
Gambar 1: Ilustrasi action (tanda panah)terhadap setiap state (persegi).
Agent memiliki susunan informasi mengenai reward untuk
setiap aksi dalam bentuk table entry ̂ yang diperbarui dalam
setiap pembelajaran. Informasi mengenai reward untuk setiap
action dalam state tertentu pada table entry ini diinisiasi
dengan nilai nol. Pembaruan nilai mengacu pada fungsi
Q(s,a) yang telah didefinisikan sebelumnya. Secara ilustrasi,
pembaruan ini diperjelas pada gambar 2.
̂( ) ̂( )
* +
Gambar 2: Pembaruan table entry ̂berdasarkan aksi akanan yang
memindahkan agen R dari S1menuju S2.
Persoalan yang diharapkan dapat diselesaikan oleh sebuah
robot bertipe line follower dalam tugas akhir ini adalah
persoalan pencarian jalur terdekat menuju keadaan akhir
(pathfinding) yang berkaitan dengan pemilhan jalur dalam
sebuah jalur bercabang. Oleh karena itu, implementasi
learning ke dalam program terlebih dahulu perlu diawali
dengan representasi persoalan pathfinding dalam suatu model
reinforcement learning. Persoalan tersebut dalam hal ini
difokuskan pada penyelesaian melalui Q-learning.
G
akanan
7
3
6
6 8
1
10
0
9
0
8
1 8
1
10
0
Keadaan S1 Keadaan S2
R GR G
Anggrahita Bayu Sasmita, et al.
3
4. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Dalam subbab Landasan Teori, telah dijelaskan bahwa
spesifikasi line-follower yang akan digunakan memiliki
kemampuan optimal dalam mendeteksi lajur dan percabangan
empat. Oleh karena itu, representasi model dalam
reinforcement learning pada kasus pathfinding ini dapat
dinyatakan sebagai berikut:
State Set: {s | s = percabangan lajur}
Action Set : {a| a = pemilihan cabang}
Kesesuaian model representasi state-action tersebut
terhadap lajur dapat dilihat pada Gambar 3 dan Gambar 4.
Gambar 3: Contoh jalur (kiri) dan representasi state (lingkaran) terhadap
jalur tersebut (kanan).
Gambar 4: Model state-action terhadap jalur pada Gambar 3
B. Simulasi Eksplorasi
Pembelajaran melalui metode Q-learning dalam persoalan
pathfinding dapat diselesaikan secara episodik. Dalam hal ini,
agent mendapatkan pembaruan untuk keseluruhan nilai ̂
melalui proses pelatihan yang berulang. Di awal
pembelajaran, seluruh nilai ̂ diinisiasi dengan nol.
Pembelajaran dimulai dengan menempatkan agent dalam
state tertentu dan memrogramnya untuk memilih action yang
terdapat pada state tersebut hingga ia mencapai goal state.
Keadaan pada goal state merupakan absorbing state sehingga
agent yang telah mencapai keadaan tersebut dengan segera
menghentikan pemilihan action.
Pada metode reinforcement learning dalam tugas akhir ini,
tahap pembelajaran dilakukan melalui eksplorasi oleh agent.
Agent melakukan eksplorasi lajur dengan metode DFS dan
menyimpan urutan state yang dilalui dari awal hingga
mencapai goal state. Setelah mencapai goal state, nilai
reward dihitung menggunakan faktor untuk seluruh state
yang dilalui secara berkebalikan.
Eksplorasi lajur oleh robot disimulasikan oleh agent
dengan strategi seperti DFS. Penggunaan strategi seperti DFS
ini tidak dilakukan untuk mencari goal state, tetapi untuk
memberikan kepastian bahwa agent melakukan eksplorasi
untuk seluruh kemungkinan jalur menuju goal state. Hal ini
dilakukan untuk menghindari pencarian yang mengakibatkan
pengulangan tanpa kondisi akhir (endless loop). Melalui
strategi ini, agent memilih satu action pada setiap state
hingga menuju goal state atau percabangan buntu. Setelah
keadaan tersebut didapat, maka agent akan mengevaluasi
reward apabila keadaan tersebut adalah goal state serta
melakukan bactracking menuju state sebelumnya. Pada state
tersebut, agent kembali memilih percabangan yang belum
dilalui.
Adapun mengenai tahapan simulasi pembelajaran
dijelaskan menggunakan ilustrasi pada Gambar 5 dan
Gambar 6 yang menggunakan contoh model state-action
seperti pada Gambar 4. Dalam contoh berikut, adalah 0,9.
Gambar 5. Kondisi pre-learning
Pembelajaran Episode I
Posisi Awal : p
Pemilihan Jalur Acak : p q r s goal
Pembaruan Tabel :
I
̂( ) ̂( )
*+
II
̂( ) ̂( )
* +
III
̂( ) ̂( )
* +
a
G
b
G
q
r
s
p goal
0
0
0
0
0
0
0
0
0
0
0
0
0
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
4
5. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
IV
̂( ) ̂( )
* +
Gambar 6. Kondisi pasca pembelajaran episode I
Ilustrasi pada Gambar 5 dan 6 menggambarkan satu
episode eksplorasi yang dilakukan oleh agent dengan lajur
seperti pada Gambar 3 sebagai lingkungan persoalannya
(environment). Eksplorasi dilakukan konvergen hingga
mencapai keadaan akhir. Keadaan tersebut terjadi ketika
agent memiliki informasi reward pada environment-nya
seperti pada Gambar 7.
Gambar.7. Informasi akhir hasil eksplorasi
Simulasi tersebut menunjukkan suatu prosedur pembaruan
nilai ̂ sebagai sekumpulan reward dengan suatu susunan
struktur data berdasarkan state dan action tertentu. Nilai tabel
̂ tersebut menjadi acuan bagi agent dalam melakukan
pencarian jalur. Suatu agent membaca keberadaannya dalam
satu state, kemudian secara deterministik memilih state
berikutnya menggunakan acuan fungsi optimal yang
terpetakan dalam tabel ̂ tersebut.
C. Analisis Kompleksitas pada Eksplorasi
Strategi eksplorasi yang digunakan pada penelitian ini
adalah DFS. Oleh karena itu kompleksitas algoritma
eksplorasi sangat dipengaruhi kompleksitas DFS.
Kompleksitas DFS dalam notasi big-O adalah O(bd
) dengan b
adalah banyaknya pilihan pada satu state dan d adalah
kedalaman persoalan yang dicari penyelesaiannya. Pada
penelitian ini, pencarian menggunakan DFS dilakukan
sebanyak jumlah state (n). Karena percabangan pada
pencarian dibatasi hingga empat pilihan, kompleksitas
algoritma eksplorasi adalah ekponensial yaitu O(n4d
).
Oleh karena pada persoalan ini d ≤ n, maka notasi big-O
algoritma eksplorasi dapat didefinisikan sebagai O(n4n
).
Dengan kata lain, algoritma eksplorasi pada persoalan dalam
tugas akhir ini memiliki kompleksitas eksponensial.
D. Analisis Eksploitasi Pathfinding dengan Informasi
Reward
Eksplorasi reinforcement learning yang dilakukan pada
simulasi menghasilkan table yang menyimpan nilai reward
untuk pasangan state-action. Nilai tersebut menjadi informasi
bagi agent untuk mengambil keputusan dalam memilih
percabangan pada tahap eksploitasi. Nilai reward tersebut
dapat digunakan sebagai informasi heuristik bagi strategi
Greedy Best-First Search. Strategi ini menggunakan fungsi
h(n) untuk mencari action dengan reward terbesar untuk
setiap state. Dalam persoalan pathfinding ini, fungsi h(n)
didefinisikan sebagai berikut:
h(n) = reward terbesar pada state n
Definisi tersebut selaras dengan optimal policy π*
(s).
Melalui definisi tersebut, dalam eksploitasinya, agent akan
mencari action dengan reward terbesar untuk setiap state.
Hal ini sesuai dengan strategi Best-First Search yang
mengambil keputusan berdasarkan estimasi efisiensi terbaik.
E. Analisis Representasi Robot dalam Agen pada Simulasi
Dalam simulator, lajur yang dilalui robot direpresentasikan
dalam matriks. Nilai dari setiap sel matriks menunjukkan titik
tersebut merupakan lajur atau bukan lajur. Lajur terdiri dari
lajur biasa, percabangan, dan goal. Lajur pada percabangan
diberikan atribut khusus yang menunjukkan bahwa posisi
tersebut merupakan sebuah state. Atribut tersebut menjadi
acuan pada Q-Learning. Skema ini dapat dilihat pada
Gambar 8.
3
Gambar 8. Skema matriks simulasi untuk lajur pada Gambar 3
Semua jalur yang keluar dari percabangan tersebut
diidentifikasi sebagai action. Identifikasi tersebut
q
r
s
p goal
0
0
100
0
0
0
0
0
0
090
81
72,9
q
r
s
p goal
100
100
100
81
90
81
90
81
90
90
90
90
90
Anggrahita Bayu Sasmita, et al.
5
6. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
mengakibatkan seluruh pilihan lajur pada cabang tersebut
memiliki nilai reward.
Koordinat pada matriks yang berisi informasi state
disimpan dalam sebuah tabel yang menyimpan semua state
yang terdapat dalam sebuah jalur. Setiap state merupakan
struktur data yang menyimpan informasi posisi koordinat
jalur, posisi sebagai goal, dan semua action yang mungkin
diambil agent pada pada state tersebut. Berdasarkan analisis
mengenai bentuk fisik agent yang hanya mampu
mengidentifikasi empat aksi, maka setiap state yang terdapat
pada sebuah jalur dibatasi penyimpanan action-nya hingga
maksimum empat macam.
Struktur data yang menyimpan nilai terhadap aksi
dipisahkan dengan matriks representasi. Struktur tersebut
menggambarkan asosiasi antara state dan action beserta
reward untuk masing-masing action. Nilai reward pada
setiap action diisi melalui setiap episode agent melakukan
pembelajaran. Struktur tersebut dapat dilihat pada Tabel 1.
TABEL 1
ASOSIASI STATE-ACTION
Nama
State
Posisi
State
(x,y)
Action
Next State
(Nama)
Next
State
(x,y)
Reward
p 1,4
up q 4,1 90
down s 4,7 90
right r 4,4 90
q 4,1
down r 4,4 90
right goal 7,4 100
left p 1,4 81
r 4,4
up q 4,1 90
down s 4,7 90
right goal 7,4 100
left p 1,4 81
s 4,7
up r 4,4 90
right goal 7,4 100
left p 1,4 81
F. Informasi Jarak
Pemberian nilai immediate reward dapat dilakukan dengan
menggunakan nilai jarak yang didapatkan ketika eksplorasi.
Nilai jarak merupakan hasil penghitungan jarak tempuh agent
menuju goal state. Akuisisi ini dapat dilakukan dengan
asumsi bahwa robot dapat dilengkapi dengan pendeteksi
perpindahan menggunakan rotary encoder.
Dari simulasi, immediate reward diberikan nilai nol. Hal
ini bertujuan untuk menunjukkan bahwa reward yang
diperhitungkan secara utama hanya bergantung pada jumlah
state dan nilai reward pada action menuju goal.
Prioritas tertinggi informasi jarak adalah informasi jarak
yang bernilai terkecil. Eksploitasi membutuhkan metode
greedy yang mencari nilai terkecil. Kebutuhan ini terpenuhi
dengan memberikan nilai acuan selisih. Nilai acuan selisih ini
menghasilkan angka besar bila jarak semakin dekat. Angka
besar tersebut dapat diacu dengan fungsi greedy yang sama
dalam memilih nilai reward.
4. PERANCANGAN DAN IMPLEMENTASI
SIMULATOR
A. Mekanisme Simulator
Dalam penelitian ini, implementasi reinforcement learning
dilakukan melalui simulasi dalam program perangkat lunak.
Program ini mendukung implementasi dan pengujian Q-
Learning dalam kasus pencarian jalur sebagaimana dijelaskan
pada bab sebelumnya. Perangkat ini memfasilitasi pengguna
untuk mengubah data lajur menjadi model state-action,
melakukan pembelajaran mesin bagi agent, serta memantau
hasil eksploitasi agent dalam kasus pencarian jalur.
Simulasi yang akan diberikan dalam program ini terdiri
atas empat tahapan. Tahapan-tahapan tersebut yaitu:
1. Konversi jalur-matriks
2. Inisialisasi
3. Eksplorasi (learning)
4. Eksploitasi (solving)
Tahapan pertama adalah konversi jalur-matriks. Tahapan
ini merupakan bagian awal program yang mengubah
representasi jalur dalam file berekstensi .maz menjadi
matriks. Tahapan ini kemudian memberikan umpan-balik
pada pengguna berupa antarmuka jalur tersebut. File yang
digunakan dibuat menggunakan program lain yang
menangani peyuntingan jalur menjadi representasi matriks.
Pada tahapan ini, program juga memberikan respon bagi
input pengguna apabila terdapat initial state yang merupakan
poin start bagi agent pada jalur yang belum terepresentasi.
Tahapan mekanisme berikutnya adalah Inisialisasi.
Tahapan ini merupakan pembacaan program terhadap
representasi matriks untuk menentukan posisi state yang akan
dideteksi agent. Program mendeteksi jalur yang memiliki
percabangan secara terurut indeks matriks. Percabangan akan
dideteksi sebagai state dan disimpan dalam tabel berisi daftar
informasi tersebut.
Penyimpanan state juga disertai adanya deteksi pilihan
jalur pada setiap state. Deteksi ini dilakukan untuk
menyimpan informasi bagi action yang terdapat pada
masing-masing state terhadap state berikutnya. Jalur yang
tidak menjadikan agent bergerak menuju suatu state akan
diisi dengan informasi yang menyatakan bahwa jalur tersebut
diabaikan.
Mekanisme kemudian dilanjutkan pada tahapan Eksplorasi
(learning). Tahapan eksplorasi merupakan tahapan
pembelajaran yang memberikan prosedur program yang
serupa dengan skenario pada bagian III.F. Untuk setiap
episode pembelajaran, agent melakukan penelusuran state
dan memilih salah satu action pada setiap state yang dilalui.
Pemilihan dilakukan menggunakan strategi DFS. Agent
kemudian menyimpan action yang dipilihnya ke dalam suatu
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
6
7. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
stack. Penyimpanan pada stack beserta penelusuran jalur
berhenti ketika agent mencapai goal.
Ketika penelusuran berhenti, informasi pada stack action
di-pop untuk direferensikan program. Program kemudian
mengisi reward berdasarkan fungsi pembelajaran yang
diimplementasikan dalam simulasi ini. Skenario pengisian
reward mengacu pada skenario yang telah ditunjukkan pada
analisis.
Analisis mengenai skenario pembelajaran menunjukkan
bahwa nilai reward yang telah tersimpan tidak bersifat
konstan dan dapat diperbarui apabila agent melakukan
eksplorasi jalur lain. Hal ini mengakibatkan nilai reward
dapat terus diperbarui hingga mencapai konvergensi.
Pembelajaran dapat dilakukan berulang-ulang dengan
parameter iterasi yang kompleks.
Dengan tujuan mempersingkat episode pembelajaran,
maka penelusuran pada tahap eksplorasi disertai batasan-
batasan tertentu untuk mencegah pembelajaran yang tidak
berujung. Batasan-batasan tersebut antara lain:
1. Dalam satu episode, agent tidak memilih jalur yang
telah dilalui sebelumnya.
2. Untuk episode yang berbeda, agent mengacu pada
informasi jalur yang sudah tersedia dan
memprioritaskan pengisian reward yang masih nol.
3. Prioritas eksplorasi dilakukan secara seragam dengan
adanya prioritas pilihan jalur dalam satu episode.
Tahapan yang dilakukan setelah pembelajaran adalah
Exploitasi (solving). Tahapan ini adalah penyelesaian
pencarian jalur oleh agent yang mengacu pada reward yang
didapat dari proses eksplorasi. Pengguna dapat memberikan
masukan posisi robot (agent) bagi program agent akan
mengeksploitasi value function secara mandiri untuk
mencapai goal state.
Batasan program mengakibatkan pengguna hanya dapat
memberikan masukan posisi agent pada koordinat matriks
yang merupakan state. Dengan kata lain, secara nyata, robot
hanya dapat ditempatkan pada posisi awal start point atau
percabangan.
Penempatan agent pada koordinat state memberikan
informasi bagi program mengenai posisi agent. Agent
kemudian menelusuri jalur dan memilih action dengan nilai
reward terbesar ketika melalui setiap state hingga mencapai
goal. Abstraksi pemilihan tersebut dilakukan menggunakan
skema strategi Greedy Best-First Search sebagaimana
penjelasan pada III.D.
B. Pseudocode
5. HASIL PENGUJIAN
Pengujian yang dilakukan memiliki tujuan sebagai berikut:
1. Mengevaluasi kinerja agent setelah diberlakukan
proses pembelajaran mesin.
2. Membandingkan kinerja eksploitasi hasil pembelajaran
mesin dengan eksploitasi metode Depth-First Search
(DFS).
Hasil evaluasi kinerja dibandingkan dengan metode DFS
karena dalam implementasi pembelajaran mesin, eksplorasi
dilakukan secara DFS.
Pengujian tersebut dibatasi dalam beberapa spesifikasi
berikut:
1. Titik start, titik akhir, serta semua titik percabangan
berada dalam graf terhubung.
2. Semua percabangan memiliki tidak lebih dari 4 cabang
(semua titik memiliki tidak lebih dari 4 sisi).
3. Kurva lajur dapat disederhanakan menjadi rangkaian
segiempat.
4. Titik start diambil dari titik yang sudah ditentukan atau
dari titik percabangan.
KAMUS
pathElmt: {elemen representasi matrix}
stateElmt
x:pointElmt
y:pointElmt
actionlist: array [1..4] of action {action yang
dipilih ketika DFS}
{x y adalah posisi pada state}
ALGORITMA
procedure explore (input state:array [1..n] of stateElmt,
Pmatrix: array [1..n] of array [1..n] of pathElmt)
KAMUS LOKAL
xinit,yinit:pointElmt {elemen x dan y pada
posisi state}
i:integer
level:integer
ALGORITMA
level = 0
for i-> 0 to jumlah elemen pada state do
setAgent(state[i].x, state[i].y)
xinit = state[i].x
yinit = state[i].y
repeat
DFS
until
bertemu goal
(mengacu Pmatrix, level
berubah sesuai aras state)
if isGoal(state[i].x,
state[i].y) then
rewarding
until x=xinit dan y=yinit dan level=0
procedure exploit(input state:array [1..n] of stateElmt,
Pmatrix: array [1..n] of array [1..n] of pathElmt,
posisix, posisiy:pointElmt)
KAMUS LOKAL
A: action
ALGORITMA
while not isGoal(posisix,posisiy) do
A: getDirectMax(posisix,posisiy)
doAction(A)
procedure setAgent(input x,y:pointElmt)
{memposisikan Agent pada xy}
procedure doAction(input:action)
{melakukan pergerakan agen}
function isGoal(input x,y:pointElmt) -> boolean
{true bila state pada xy adalah goal}
function getDirectMax(input x,y:pointElmt) ->real
{mengembalikan reward maksimum untuk action pada
state di xy}
Anggrahita Bayu Sasmita, et al.
7
8. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
5. Selang waktu dihitung per-langkah agent dalam
representasi matriks sehingga memiliki satuan yang
sama dengan jumlah langkah perpindahan agent.
6. Posisi x,y dihitung dari ujung kiri-atas matriks.
7. Sel kosong pada dimensi bidang yang melebihi
dimensi masuk dalam penghitungan kordinat matriks.
Adapun pengujian terhadap beberapa lajur dapat dilihat
pada Gambar 9-11 beserta penjelasannya.
Gambar 9. Lajur I -Koordinat goal (x,y): (8,5)
Hasil pengujian lajur I
Eksplorasi: 648 Langkah
Rata-rata tempuh DFS: 12,75 Langkah
Rata-rata tempuh hasil pembelajaran: 5,25 Langkah
Persentase Langkah (DFS : learned): 41,18 %
Gambar 10. Lajur II -Koordinat goal (x,y): (5,7)
Hasil pengujian lajur II
Eksplorasi: 1.872 Langkah
Rata-rata tempuh DFS: 128,67 Langkah
Rata-rata tempuh hasil pembelajaran: 47,33 Langkah
Persentase Langkah (DFS : learned): 36,78 %
Gambar 11. Lajur III -Koordinat goal (x,y): (29,15)
Hasil pengujian lajur III
Eksplorasi: 58.872 Langkah
Rata-rata tempuh DFS: 245,42 Langkah
Rata-rata tempuh hasil pembelajaran: 47,17 Langkah
Persentase Langkah (DFS : learned): 19,22 %
Rata-rata Persentase Langkah:
(41,18 % + 36,78 % + 19,22 %) / 3 = 32,39%
Hasil pengujian di atas menunjukkan peningkatan efisiensi
pada pengambilan langkah pasca implementasi pembelajaran
mesin. Hal tersebut disebabkan simulasi pemilihan jalur
dengan metode DFS dilakukan tanpa dukungan informasi
pada pemilihan aksinya. Hal ini menyebabkan pemilihan
jalur melalui DFS melibatkan proses backtracking yang
mengakibatkan penambahan selang waktu dalam pemilihan
jalurnya. Hal yang serupa tidak terjadi apabila eksploitasi
dilakukan berdasarkan informasi hasil pembelajaran mesin.
Melalui informasi tersebut, agent dapat memilih percabangan
secara greedy berdasarkan reward yang didapat melalui
pembelajaran mesin. Dapat disimpulkan bahwa pemilihan
jalur berdasarkan informasi hasil pembelajaran mesin
memiliki efisiensi yang lebih baik.
Pengujian menunjukkan reduksi penempuhan hingga
32,39%. Jumlah ini berkaitan dengan pembatasan pilihan
jalur hanya pada empat pilihan. Pembelajaran mesin
memberikan informasi pada agent sehingga agent dapat
langsung memilih satu jalur tanpa melakukan pemeriksaan
backtracking pada jalur lainnya. Hal tersebut memberikan
efisiensi bagi waktu dan jarak tempuh agent menuju goal.
Akan tetapi, hasil pengujian tersebut juga menunjukkan
selang waktu yang besar ketika eksplorasi pembelajaran
mesin dilakukan. Hal tersebut disebabkan pemrograman pada
agent untuk melakukan pemilihan pada seluruh kemungkinan
jalur. Pemilihan tersebut dilakukan mengacu pada simulasi
dalam subbab III.3 yang menunjukkan proses akuisisi nilai
reward bagi seluruh kemungkinan action. Dengan demikian,
dalam proses learning, dapat dikatakan bahwa agent
melakukan proses dengan kompleksitas pada worst-case
scenario DFS. Hal ini menyebabkan implementasi
pembelajaran mesin membutuhkan waktu yang jauh lebih
besar dalam proses akuisisi informasi reward yang digunakan
dalam eksploitasi.
6. SIMPULAN DAN SARAN
A. Simpulan
Berdasarkan hasil pengujian, dapat disimpulkan beberapa
hal sebagai berikut:
1. Pembelajaran mesin Q-Learning dapat
diimplementasikan pada penyelesaian persoalan
pathfinding. Implementasi tersebut dapat dilakukan
dengan memodelkan state-action sebagai representasi
terhadap percabangan lajur beserta pilihan jalur
cabangnya. Nilai reward dapat diberikan pada agent
apabila agent tersebut memilih cabang pada jalur
dengan jarak terdekat terhadap goal state.
2. Implementasi pembelajaran mesin ini meningkatkan
efisiensi penempuhan lajur menuju goal state tertentu.
G
G
G
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
8
9. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Secara umum, langkah agent dapat direduksi hingga
32,39%. Informasi tersebut didapatkan dengan
membandingkan terhadap penyelesaian persoalan yang
sama menggunakan metode DFS. Akan tetapi,
implementasi pembelajaran mesin ini memiliki
kerugian berupa kebutuhan waktu yang besar dalam
proses eksplorasinya. Nilai reward untuk setiap action
hanya dapat diperoleh apabila agent telah melakukan
eksplorasi untuk seluruh kemungkinan percabangan.
Apabila eksplorasi dilakukan menggunakan DFS pula,
maka eksplorasi tersebut memiliki kompleksitas
eksponensial pada O(n x 4n
).
B. Saran
Berkaitan dengan tugas akhir ini, dapat dilakukan
pengembangan berikutnya dalam beberapa persoalan:
1. Peningkatan resolusi sensor lajur pada robot dapat
meningkatkan kemampuan robot sebagai agent untuk
memilih lebih dari empat pilihan percabangan.
2. Pemodelan pembelajaran mesin dengan pendekatan
lain yang memungkinkan akuisisi informasi untuk
digunakan dalam metode pathfinding lainnya seperti
A*.
REFERENSI
[1]. Osorio C., Roman, dkk (2006). Intelligent Line Follower Mini Robot
System. International Journal of Computers, Communications &
Control.
[2]. Smart, William D. dan L. P. Kaelbling. (2002). Effective
Reinforcement Learning for Mobile Robot. MIT Computer Science
and Artificial Intelligence Laboratory. Massachusetts Institue of
Technology. MA
[3]. Mitchell, Tom M. Machine Learning. (1997). New York: NY.
McGraw-Hill.
[4]. Rachmatullah, Syawaluddin. (2009). Laporan Perancangan dan
Realisasi Hardware: Robot Penjejak Garis SR2009LF (Line
Following Robot). Program Studi Teknik Elektro, Sekolah Teknik
Elektro dan Informatika, Institut Teknologi Bandung.
[5]. Russel, Stuart J. dan Peter Norvig. (1995). Artificial Intelligence: A
Modern Approach. New Jersey. Prentice-Hall.
Anggrahita Bayu Sasmita, et al.
9