SlideShare a Scribd company logo
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Implementasi Reinforcement Learning pada Simulasi
Penentuan Jalur Robot Bertipe Line-Follower
Anggrahita Bayu Sasmita (13507021), Nur Ulfa Maulidevi (197603092008012010)
Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung,
Jalan Ganeca 10 Bandung, Jawa Barat, Indonesia
if17021@students.if.itb.ac.id
ulfa@informatika.org
Abstrak-- Line-follower merupakan tipe robot yang
diprogram untuk bergerak mengikuti lajur tertentu
sehingga dapat menjadi agent dalam persoalan pencarian
jalur (pathfinding). Hal ini dapat dilakukan dengan
berbagai macam metode baik dengan menggunakan
informasi tertentu maupun tidak. Solusi yang diberikan
dalam menyelesaikan pencarian jalur terdekat ini
menggunakan akuisisi informasi melalui reinforcement
learning, khususnya Q-Learning. Pembelajaran
dilakukan melalui simulasi. Pada simulasi tersebut, agent
melakukan eksplorasi pada lajur tertentu untuk
memperoleh informasi reward. Informasi ini kemudian
digunakan oleh agent dalam eksploitasinya, yaitu memilih
jalur yang paling efektif dalam percabangan lajur.
Eksploitasi agent dilakukan menggunakan metode Greedy
Best First Search yang dimodifikasi. Implementasi
reinforcement learning mengakibatkan peningkatan
efisiensi yang ditunjukkan dengan reduksi penempuhan
lajur menuju goal state sebanyak 32,39%. Reduksi
tersebut dibandingkan dengan pencarian Depth-First
Search. Angka tersebut relatif terhadap rata-rata pilihan
jalur dalam setiap percabangan. Sebagai kesimpulan,
pembelajaran mesin dapat digunakan dalam akuisisi
informasi pada kasus pathfinding. Informasi tersebut
kemudian dapat diacu menggunakan metode pencarian
informed search. Implementasi pembelajaran mesin ini
dapat dikembangkan lagi dalam dua hal. Pengembangan
pertama dapat dilakukan dengan memodifikasi sensor
robot sehingga dapat mengakomodasi pilihan
percabangan yang lebih banyak. Pengembangan
berikutnya dilakukan dalam modifikasi representasi
state-action untuk digunakan sebagai informasi dalam
metode searching lainnya.
Kata kunci-- Line follower, reinforcement learning, Q-
Learning, Greedy Best-First Search, penentuan jalur,
simulasi
1. PENDAHULUAN
A. Latar Belakang
Dalam keseharian aktivitas masyarakat, pemenuhan
kebutuhan suatu produk didukung dengan adanya kegiatan
produksi dalam aktivitas industri. Pemanfaatan teknologi
robot pada kegiatan produksi merupakan salah satu
pendekatan mekanisasi atas persoalan performansi aktivitas
industri yang fluktuatif.
Dalam kajian pembangunannya, robot memiliki tiga aspek
berupa mekanisme gerak, rangkaian elektrik berupa sensor
dan aktuator, serta program yang mengendalikan kerja robot
tersebut. Untuk kasus-kasus tertentu, kerja robot merupakan
suatu aktivitas dengan algoritma tertentu untuk dipetakan
dalam suatu program. Salah satu kasusnya adalah aktivitas
yang melibatkan penyelesaian penentuan jalur (pathfinding).
Salah satu contoh teknologi robot yang dikembangkan
dalam kegiatan industri adalah robot bertipe line-follower.
Robot ini merupakan suatu perangkat yang melakukan
perpindahan berdasarkan masukan berupa deteksi optik
terhadap lajur kontras [1].
Lajur yang menjadi salah satu persoalan pada line-follower
adalah lajur bercabang. Secara pragmatis, metode pencarian
jalur pada line follower merupakan serangkaian percabangan
kondisional (if-then-else). Hal ini mengakibatkan
peningkatan kerumitan bergantung pada jumlah titik
percabangan dan rata-rata jumlah pilihan pada setiap
percabangan [2].
Permasalahan yang mengakibatkan adanya algoritma yang
kompleks dapat diselesaikan melalui pendekatan metode
pembelajaran mesin [2]. Salah satu metode pada
pembelajaran mesin ialah reinforcement learning. Metode ini
merupakan analogi terhadap metode pelatihan yang
menerapkan aspek reward [3]. Metode ini digunakan sebagai
pembelajaran bagi agent untuk menyelesaikan masalah yang
membutuhkan pengetahuan agent terhadap kondisi per-
bagian kasus dalam detil tertentu.
Jurnal Sarjana Institut Teknologi Bandung bidang Teknik Elektro dan Informatika
Volume 1, Number 1, April 2012
1
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
B. Rumusan Masalah
Berdasarkan penjelasan mengenai latar belakang persoalan
tersebut, maka pada penelitian ini terdapat dua rumusan
masalah, yaitu.
1. Bagaimana memodelkan reinforcement learning untuk
adaptasi pathfinding pada line-follower?
2. Apa saja perubahan efisiensi pengambilan langkah
robot, baik keuntungan maupun kerugian, apabila robot
dilengkapi dukungan reinforcement learning
dibandingkan tanpa dukungan tersebut?
C. Tujuan
Kedua rumusan masalah tersebut menjadi dasar bagi
tujuan penelitian ini. Oleh karena itu, terdapat dua poin yang
menjadi tujuan untuk menjawab rumusan masalah di atas.
Poin-pointersebut yaitu:
1. Membangun suatu model pembelajaran mesin
reinforcement learning untuk adaptasi penentuan jalur
pada robot bertipe line follower sebagai alternatif
dalam pembangunan robot tersebut pada sisi
pemrograman.
2. Menguji efisiensi robot line-follower dalam
pengambilan langkah pathfinding, baik keuntungan
maupun kerugian, melalui simulasi dengan
pembandingan terhadap metode pathfinding tanpa
reinforcement learning.
2. LANDASAN TEORI
A. Spesifikasi Line-Follower
Robot bertipe line-follower merupakan suatu mesin
terprogram yang memiliki kemampuan bergerak mengikuti
suatu jalur yang telah ditentukan [1]. Robot ini memiliki
sensor optik sebagai pendeteksi jalur. Adapun deteksi
percabangan membutuhkan konstruksi sensor dalam
morfologi tertentu. Sebagai contoh, sensor yang disusun
cembung terhadap lajur memberikan kemampuan deteksi
percabangan bagi robot [4]. Sensor pada spesifikasi untuk
penelitian ini dibatasi dengan kemampuan membaca hingga
empat pilihan percabangan.
Robot line-follower ini bergerak dengan aktuator yang
terhubung dengan roda. Oleh karena itu, robot ini dapat
dilengkapi dengan rotary encoder sebagai sensor untuk
mengukur jarak tempuh. Sensor ini melakukan pengukuran
secara diskrit. Oleh karena pengukuran diskrit tersebut, maka
robot dalam spesifikasi ini memiliki keterbatasan dalam detil
informasi jarak.
B. Metode Reinforcement Learning
Pembelajaran mesin metode reinforcement learning
menjadi suatu pilihan dalam penentuan pengendalian robot
[2]. Metode ini mengasumsikan bahwa lingkungan terdefinisi
sebagai himpunan keadaan (states) S dengan agen (robot)
memiliki pilihan aksi A dengan jumlah tertentu. Untuk setiap
langkah, yang didefinisikan sebagai pembagian waktu secara
diskrit, agen melakukan pengamatan terhadap keadaan
lingkungan, st ,dan memberikan keluaran berupa aksi, at.
Agen mendapatkan suatu reward, R yang
menunjukkan kualitas aksi yang diberikan agen berdasarkan
ekspektasi pemrogram. Agen kemudian melakukan observasi
ulang terhadap lingkungannya, . Keadaan yang dituju
dari metode pembelajaran ini ialah mendapatkan experience
tuples (st, , , ), dan mendapatkan pembelajaran atas
suatu pemetaan keadaan-keadaan untuk mengukur nilai
jangka panjang pada keadaan tersebut. Pemetaan tersebut
didefinisikan sebagai optimal value function.
Salah satu algoritma reinforcement learning yang dapat
digunakan adalah Q-Learning [3]. Algoritma ini memiliki
optimal value function sebagai berikut:
( ) ( ) ( )
Fungsi tersebut merepresentasikan nilai reward akibat
agent mengambil aksi a dari keadaan s yang mengakibatkan
perpindahan keadaan menjadi s’. Parameter merupakan
discount factor sebagai ukuran terhadap reward yang pada
proses berikutnya. Setelah mendapatkan Q-function yang
optimal, terdapat pertimbangan optimasi π*
(s) yang
merupakan nilai maksimum dari suatu keadaan.
( ) ( )
Nilai Q-function disimpan dalam suatu struktur tabel
dalam indeks yang mengacu pada state dan action. Untuk
setiap waktu robot menghasilkan aksi, experience tuple
dihasilkan dan tabel untuk keadaan s dan aksi a diperbaharui
dengan acuan sebagai berikut:
̂( ) ( ) ̂( )
Dalam pemrograman robot, implementasi reinforcement
learning merupakan dukungan yang mempermudah
hubungan aksi robot terhadap keadaan lingkungan. Suatu
robot dapat memandang sebuah task sebagai fungsi reward
yang lebih terbebas dari bias program dibandingkan melalui
pemetaan kondisional.
Dalam penelitian ini, persoalan penentuan jalur merupakan
suatu persoalan deterministik yang dapat dikategorikan
sebagai exploration problem. Dalam hal ini, agent
membutuhkan tahapan khusus untuk mempelajari lajurnya
dan menyimpan informasi hasil pembelajarannya. Eksplorasi
yang dilakukan sebagai tahapan pembelajaran peta lajur
dilakukan menggunakan strategi pencarian tertentu.
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
2
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
C. Greedy Best-First Search
Strategi pencarian yang diimplementasikan dalam
penyelesaian pencarian jalur pada penelitian ini
menggunakan metode Greedy Best-First Search. Bentuk
sederhana dalam metode ini adalah mencari pengambilan
estimasi langkah terpendek menuju goal state [5]. Fungsi
yang menghitung estimasi tersebut dinamakan fungsi
heuristik yang dilambangkan dengan h:
h(n) = estimasi langkah terpendek menuju goal
Dalam strategi ini, agent diprogram untuk mengambil
keputusan berupa action dengan nilai reward tertentu. Nilai
reward tersebut menjadi informasi bagi agent untuk memilih
action yang mengakibatkan pengambilan langkah terdekat
terhadap goal. Nilai tersebut didapatkan melalui
reinforcement learning dan digunakan untuk diacu sebagai
fungsi heuristik pada strategi pencarian Greedy Best-First
Search.
D. Depth-First Search
Metode pencarian Depth-First Search (DFS) merupakan
metode uninformed search. Hal ini menunjukkan bahwa
pencarian melalui DFS dilakukan tanpa dukungan informasi
nilai apapun, termasuk jumlah langkah menuju goal state.
Dalam metode ini, agent hanya mampu membedakan state
yang berkedudukan sebagai goal dan yang bukan (Russel,
1995).
Apabila dimodelkan melalui graf pohon pencarian, agent
pada metode DFS melakukan pencarian yang terfokus pada
kedalaman aras di setiap titiknya. Apabila agent sudah tidak
bisa lagi mencari lebih dalam sedangkan ia berada pada state
non-goal, agent akan melakukan backtracking menuju state
pada aras lebih rendah. Agent yang melakukan bactracking
melakukan pencarian melalui sisi yang belum dicari pada
titik di aras yang lebih rendah. Ekspansi dilakukan hingga
agent menemukan goal state.
3. ANALISIS SOLUSI
A. Representasi Pathfinding dalam Model Reinforcement
Learning
Persoalan yang diselesaikan melalui pendekatan
pembelajaran mesin reinforcement learning memiliki
sejumlah keadaan yang tertentu (state) yang diperoleh
berdasarkan aksi (action) yang dilakukan agent. Aksi yang
dilakukan disertai dengan nilai reward tertentu bergantung
pada pendekatan penyelesaian masalah. Melalui proses
learning, agent berusaha mencari sejumlah aksi yang
memberikan nilai reward maksimal hingga goal state
tercapai dan agent menghentikan pencarian action. Proses
learning yang dilakukan dapat disederhanakan sebagai entry
nilai bagi tabel state-action-reward yang menjadi model yang
dibangun sebagai acuan fungsi target dalam kondisi
pengujian.
Dalam penerapan pembelajaran mesin menggunakan Q-
learning, sebagaimana penjelasan pada dasar teori
sebelumnya, terdapat suatu nilai Q yang merupakan reward
akibat pengambilan suatu action dari state tertentu, dengan
suatu nilai tambahan. Nilai ini didapat melalui pengalian
suatu faktor secara rekursif terhadap rangkaian reward pada
agent. Rangkaian reward tersebut mendapatkan referensi
nilai terhadap immediate reward pada goal state.
Sebagaimana penjelasan sebelumnya, goal state bersifat
absorptif sehingga eksplorasi yang mencapai state tersebut
menghentikan eksplorasi agent. Ilustrasi mengenai abstraksi
ini dapat dilihat pada Gambar 1.
Gambar 1: Ilustrasi action (tanda panah)terhadap setiap state (persegi).
Agent memiliki susunan informasi mengenai reward untuk
setiap aksi dalam bentuk table entry ̂ yang diperbarui dalam
setiap pembelajaran. Informasi mengenai reward untuk setiap
action dalam state tertentu pada table entry ini diinisiasi
dengan nilai nol. Pembaruan nilai mengacu pada fungsi
Q(s,a) yang telah didefinisikan sebelumnya. Secara ilustrasi,
pembaruan ini diperjelas pada gambar 2.
̂( ) ̂( )
* +
Gambar 2: Pembaruan table entry ̂berdasarkan aksi akanan yang
memindahkan agen R dari S1menuju S2.
Persoalan yang diharapkan dapat diselesaikan oleh sebuah
robot bertipe line follower dalam tugas akhir ini adalah
persoalan pencarian jalur terdekat menuju keadaan akhir
(pathfinding) yang berkaitan dengan pemilhan jalur dalam
sebuah jalur bercabang. Oleh karena itu, implementasi
learning ke dalam program terlebih dahulu perlu diawali
dengan representasi persoalan pathfinding dalam suatu model
reinforcement learning. Persoalan tersebut dalam hal ini
difokuskan pada penyelesaian melalui Q-learning.
G
akanan
7
3
6
6 8
1
10
0
9
0
8
1 8
1
10
0
Keadaan S1 Keadaan S2
R GR G
Anggrahita Bayu Sasmita, et al.
3
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Dalam subbab Landasan Teori, telah dijelaskan bahwa
spesifikasi line-follower yang akan digunakan memiliki
kemampuan optimal dalam mendeteksi lajur dan percabangan
empat. Oleh karena itu, representasi model dalam
reinforcement learning pada kasus pathfinding ini dapat
dinyatakan sebagai berikut:
State Set: {s | s = percabangan lajur}
Action Set : {a| a = pemilihan cabang}
Kesesuaian model representasi state-action tersebut
terhadap lajur dapat dilihat pada Gambar 3 dan Gambar 4.
Gambar 3: Contoh jalur (kiri) dan representasi state (lingkaran) terhadap
jalur tersebut (kanan).
Gambar 4: Model state-action terhadap jalur pada Gambar 3
B. Simulasi Eksplorasi
Pembelajaran melalui metode Q-learning dalam persoalan
pathfinding dapat diselesaikan secara episodik. Dalam hal ini,
agent mendapatkan pembaruan untuk keseluruhan nilai ̂
melalui proses pelatihan yang berulang. Di awal
pembelajaran, seluruh nilai ̂ diinisiasi dengan nol.
Pembelajaran dimulai dengan menempatkan agent dalam
state tertentu dan memrogramnya untuk memilih action yang
terdapat pada state tersebut hingga ia mencapai goal state.
Keadaan pada goal state merupakan absorbing state sehingga
agent yang telah mencapai keadaan tersebut dengan segera
menghentikan pemilihan action.
Pada metode reinforcement learning dalam tugas akhir ini,
tahap pembelajaran dilakukan melalui eksplorasi oleh agent.
Agent melakukan eksplorasi lajur dengan metode DFS dan
menyimpan urutan state yang dilalui dari awal hingga
mencapai goal state. Setelah mencapai goal state, nilai
reward dihitung menggunakan faktor untuk seluruh state
yang dilalui secara berkebalikan.
Eksplorasi lajur oleh robot disimulasikan oleh agent
dengan strategi seperti DFS. Penggunaan strategi seperti DFS
ini tidak dilakukan untuk mencari goal state, tetapi untuk
memberikan kepastian bahwa agent melakukan eksplorasi
untuk seluruh kemungkinan jalur menuju goal state. Hal ini
dilakukan untuk menghindari pencarian yang mengakibatkan
pengulangan tanpa kondisi akhir (endless loop). Melalui
strategi ini, agent memilih satu action pada setiap state
hingga menuju goal state atau percabangan buntu. Setelah
keadaan tersebut didapat, maka agent akan mengevaluasi
reward apabila keadaan tersebut adalah goal state serta
melakukan bactracking menuju state sebelumnya. Pada state
tersebut, agent kembali memilih percabangan yang belum
dilalui.
Adapun mengenai tahapan simulasi pembelajaran
dijelaskan menggunakan ilustrasi pada Gambar 5 dan
Gambar 6 yang menggunakan contoh model state-action
seperti pada Gambar 4. Dalam contoh berikut, adalah 0,9.
Gambar 5. Kondisi pre-learning
Pembelajaran Episode I
Posisi Awal : p
Pemilihan Jalur Acak : p  q  r  s  goal
Pembaruan Tabel :
I
̂( ) ̂( )
*+
II
̂( ) ̂( )
* +
III
̂( ) ̂( )
* +
a
G
b
G
q
r
s
p goal
0
0
0
0
0
0
0
0
0
0
0
0
0
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
4
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
IV
̂( ) ̂( )
* +
Gambar 6. Kondisi pasca pembelajaran episode I
Ilustrasi pada Gambar 5 dan 6 menggambarkan satu
episode eksplorasi yang dilakukan oleh agent dengan lajur
seperti pada Gambar 3 sebagai lingkungan persoalannya
(environment). Eksplorasi dilakukan konvergen hingga
mencapai keadaan akhir. Keadaan tersebut terjadi ketika
agent memiliki informasi reward pada environment-nya
seperti pada Gambar 7.
Gambar.7. Informasi akhir hasil eksplorasi
Simulasi tersebut menunjukkan suatu prosedur pembaruan
nilai ̂ sebagai sekumpulan reward dengan suatu susunan
struktur data berdasarkan state dan action tertentu. Nilai tabel
̂ tersebut menjadi acuan bagi agent dalam melakukan
pencarian jalur. Suatu agent membaca keberadaannya dalam
satu state, kemudian secara deterministik memilih state
berikutnya menggunakan acuan fungsi optimal yang
terpetakan dalam tabel ̂ tersebut.
C. Analisis Kompleksitas pada Eksplorasi
Strategi eksplorasi yang digunakan pada penelitian ini
adalah DFS. Oleh karena itu kompleksitas algoritma
eksplorasi sangat dipengaruhi kompleksitas DFS.
Kompleksitas DFS dalam notasi big-O adalah O(bd
) dengan b
adalah banyaknya pilihan pada satu state dan d adalah
kedalaman persoalan yang dicari penyelesaiannya. Pada
penelitian ini, pencarian menggunakan DFS dilakukan
sebanyak jumlah state (n). Karena percabangan pada
pencarian dibatasi hingga empat pilihan, kompleksitas
algoritma eksplorasi adalah ekponensial yaitu O(n4d
).
Oleh karena pada persoalan ini d ≤ n, maka notasi big-O
algoritma eksplorasi dapat didefinisikan sebagai O(n4n
).
Dengan kata lain, algoritma eksplorasi pada persoalan dalam
tugas akhir ini memiliki kompleksitas eksponensial.
D. Analisis Eksploitasi Pathfinding dengan Informasi
Reward
Eksplorasi reinforcement learning yang dilakukan pada
simulasi menghasilkan table yang menyimpan nilai reward
untuk pasangan state-action. Nilai tersebut menjadi informasi
bagi agent untuk mengambil keputusan dalam memilih
percabangan pada tahap eksploitasi. Nilai reward tersebut
dapat digunakan sebagai informasi heuristik bagi strategi
Greedy Best-First Search. Strategi ini menggunakan fungsi
h(n) untuk mencari action dengan reward terbesar untuk
setiap state. Dalam persoalan pathfinding ini, fungsi h(n)
didefinisikan sebagai berikut:
h(n) = reward terbesar pada state n
Definisi tersebut selaras dengan optimal policy π*
(s).
Melalui definisi tersebut, dalam eksploitasinya, agent akan
mencari action dengan reward terbesar untuk setiap state.
Hal ini sesuai dengan strategi Best-First Search yang
mengambil keputusan berdasarkan estimasi efisiensi terbaik.
E. Analisis Representasi Robot dalam Agen pada Simulasi
Dalam simulator, lajur yang dilalui robot direpresentasikan
dalam matriks. Nilai dari setiap sel matriks menunjukkan titik
tersebut merupakan lajur atau bukan lajur. Lajur terdiri dari
lajur biasa, percabangan, dan goal. Lajur pada percabangan
diberikan atribut khusus yang menunjukkan bahwa posisi
tersebut merupakan sebuah state. Atribut tersebut menjadi
acuan pada Q-Learning. Skema ini dapat dilihat pada
Gambar 8.
3
Gambar 8. Skema matriks simulasi untuk lajur pada Gambar 3
Semua jalur yang keluar dari percabangan tersebut
diidentifikasi sebagai action. Identifikasi tersebut
q
r
s
p goal
0
0
100
0
0
0
0
0
0
090
81
72,9
q
r
s
p goal
100
100
100
81
90
81
90
81
90
90
90
90
90
Anggrahita Bayu Sasmita, et al.
5
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
mengakibatkan seluruh pilihan lajur pada cabang tersebut
memiliki nilai reward.
Koordinat pada matriks yang berisi informasi state
disimpan dalam sebuah tabel yang menyimpan semua state
yang terdapat dalam sebuah jalur. Setiap state merupakan
struktur data yang menyimpan informasi posisi koordinat
jalur, posisi sebagai goal, dan semua action yang mungkin
diambil agent pada pada state tersebut. Berdasarkan analisis
mengenai bentuk fisik agent yang hanya mampu
mengidentifikasi empat aksi, maka setiap state yang terdapat
pada sebuah jalur dibatasi penyimpanan action-nya hingga
maksimum empat macam.
Struktur data yang menyimpan nilai terhadap aksi
dipisahkan dengan matriks representasi. Struktur tersebut
menggambarkan asosiasi antara state dan action beserta
reward untuk masing-masing action. Nilai reward pada
setiap action diisi melalui setiap episode agent melakukan
pembelajaran. Struktur tersebut dapat dilihat pada Tabel 1.
TABEL 1
ASOSIASI STATE-ACTION
Nama
State
Posisi
State
(x,y)
Action
Next State
(Nama)
Next
State
(x,y)
Reward
p 1,4
up q 4,1 90
down s 4,7 90
right r 4,4 90
q 4,1
down r 4,4 90
right goal 7,4 100
left p 1,4 81
r 4,4
up q 4,1 90
down s 4,7 90
right goal 7,4 100
left p 1,4 81
s 4,7
up r 4,4 90
right goal 7,4 100
left p 1,4 81
F. Informasi Jarak
Pemberian nilai immediate reward dapat dilakukan dengan
menggunakan nilai jarak yang didapatkan ketika eksplorasi.
Nilai jarak merupakan hasil penghitungan jarak tempuh agent
menuju goal state. Akuisisi ini dapat dilakukan dengan
asumsi bahwa robot dapat dilengkapi dengan pendeteksi
perpindahan menggunakan rotary encoder.
Dari simulasi, immediate reward diberikan nilai nol. Hal
ini bertujuan untuk menunjukkan bahwa reward yang
diperhitungkan secara utama hanya bergantung pada jumlah
state dan nilai reward pada action menuju goal.
Prioritas tertinggi informasi jarak adalah informasi jarak
yang bernilai terkecil. Eksploitasi membutuhkan metode
greedy yang mencari nilai terkecil. Kebutuhan ini terpenuhi
dengan memberikan nilai acuan selisih. Nilai acuan selisih ini
menghasilkan angka besar bila jarak semakin dekat. Angka
besar tersebut dapat diacu dengan fungsi greedy yang sama
dalam memilih nilai reward.
4. PERANCANGAN DAN IMPLEMENTASI
SIMULATOR
A. Mekanisme Simulator
Dalam penelitian ini, implementasi reinforcement learning
dilakukan melalui simulasi dalam program perangkat lunak.
Program ini mendukung implementasi dan pengujian Q-
Learning dalam kasus pencarian jalur sebagaimana dijelaskan
pada bab sebelumnya. Perangkat ini memfasilitasi pengguna
untuk mengubah data lajur menjadi model state-action,
melakukan pembelajaran mesin bagi agent, serta memantau
hasil eksploitasi agent dalam kasus pencarian jalur.
Simulasi yang akan diberikan dalam program ini terdiri
atas empat tahapan. Tahapan-tahapan tersebut yaitu:
1. Konversi jalur-matriks
2. Inisialisasi
3. Eksplorasi (learning)
4. Eksploitasi (solving)
Tahapan pertama adalah konversi jalur-matriks. Tahapan
ini merupakan bagian awal program yang mengubah
representasi jalur dalam file berekstensi .maz menjadi
matriks. Tahapan ini kemudian memberikan umpan-balik
pada pengguna berupa antarmuka jalur tersebut. File yang
digunakan dibuat menggunakan program lain yang
menangani peyuntingan jalur menjadi representasi matriks.
Pada tahapan ini, program juga memberikan respon bagi
input pengguna apabila terdapat initial state yang merupakan
poin start bagi agent pada jalur yang belum terepresentasi.
Tahapan mekanisme berikutnya adalah Inisialisasi.
Tahapan ini merupakan pembacaan program terhadap
representasi matriks untuk menentukan posisi state yang akan
dideteksi agent. Program mendeteksi jalur yang memiliki
percabangan secara terurut indeks matriks. Percabangan akan
dideteksi sebagai state dan disimpan dalam tabel berisi daftar
informasi tersebut.
Penyimpanan state juga disertai adanya deteksi pilihan
jalur pada setiap state. Deteksi ini dilakukan untuk
menyimpan informasi bagi action yang terdapat pada
masing-masing state terhadap state berikutnya. Jalur yang
tidak menjadikan agent bergerak menuju suatu state akan
diisi dengan informasi yang menyatakan bahwa jalur tersebut
diabaikan.
Mekanisme kemudian dilanjutkan pada tahapan Eksplorasi
(learning). Tahapan eksplorasi merupakan tahapan
pembelajaran yang memberikan prosedur program yang
serupa dengan skenario pada bagian III.F. Untuk setiap
episode pembelajaran, agent melakukan penelusuran state
dan memilih salah satu action pada setiap state yang dilalui.
Pemilihan dilakukan menggunakan strategi DFS. Agent
kemudian menyimpan action yang dipilihnya ke dalam suatu
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
6
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
stack. Penyimpanan pada stack beserta penelusuran jalur
berhenti ketika agent mencapai goal.
Ketika penelusuran berhenti, informasi pada stack action
di-pop untuk direferensikan program. Program kemudian
mengisi reward berdasarkan fungsi pembelajaran yang
diimplementasikan dalam simulasi ini. Skenario pengisian
reward mengacu pada skenario yang telah ditunjukkan pada
analisis.
Analisis mengenai skenario pembelajaran menunjukkan
bahwa nilai reward yang telah tersimpan tidak bersifat
konstan dan dapat diperbarui apabila agent melakukan
eksplorasi jalur lain. Hal ini mengakibatkan nilai reward
dapat terus diperbarui hingga mencapai konvergensi.
Pembelajaran dapat dilakukan berulang-ulang dengan
parameter iterasi yang kompleks.
Dengan tujuan mempersingkat episode pembelajaran,
maka penelusuran pada tahap eksplorasi disertai batasan-
batasan tertentu untuk mencegah pembelajaran yang tidak
berujung. Batasan-batasan tersebut antara lain:
1. Dalam satu episode, agent tidak memilih jalur yang
telah dilalui sebelumnya.
2. Untuk episode yang berbeda, agent mengacu pada
informasi jalur yang sudah tersedia dan
memprioritaskan pengisian reward yang masih nol.
3. Prioritas eksplorasi dilakukan secara seragam dengan
adanya prioritas pilihan jalur dalam satu episode.
Tahapan yang dilakukan setelah pembelajaran adalah
Exploitasi (solving). Tahapan ini adalah penyelesaian
pencarian jalur oleh agent yang mengacu pada reward yang
didapat dari proses eksplorasi. Pengguna dapat memberikan
masukan posisi robot (agent) bagi program agent akan
mengeksploitasi value function secara mandiri untuk
mencapai goal state.
Batasan program mengakibatkan pengguna hanya dapat
memberikan masukan posisi agent pada koordinat matriks
yang merupakan state. Dengan kata lain, secara nyata, robot
hanya dapat ditempatkan pada posisi awal start point atau
percabangan.
Penempatan agent pada koordinat state memberikan
informasi bagi program mengenai posisi agent. Agent
kemudian menelusuri jalur dan memilih action dengan nilai
reward terbesar ketika melalui setiap state hingga mencapai
goal. Abstraksi pemilihan tersebut dilakukan menggunakan
skema strategi Greedy Best-First Search sebagaimana
penjelasan pada III.D.
B. Pseudocode
5. HASIL PENGUJIAN
Pengujian yang dilakukan memiliki tujuan sebagai berikut:
1. Mengevaluasi kinerja agent setelah diberlakukan
proses pembelajaran mesin.
2. Membandingkan kinerja eksploitasi hasil pembelajaran
mesin dengan eksploitasi metode Depth-First Search
(DFS).
Hasil evaluasi kinerja dibandingkan dengan metode DFS
karena dalam implementasi pembelajaran mesin, eksplorasi
dilakukan secara DFS.
Pengujian tersebut dibatasi dalam beberapa spesifikasi
berikut:
1. Titik start, titik akhir, serta semua titik percabangan
berada dalam graf terhubung.
2. Semua percabangan memiliki tidak lebih dari 4 cabang
(semua titik memiliki tidak lebih dari 4 sisi).
3. Kurva lajur dapat disederhanakan menjadi rangkaian
segiempat.
4. Titik start diambil dari titik yang sudah ditentukan atau
dari titik percabangan.
KAMUS
pathElmt: {elemen representasi matrix}
stateElmt
x:pointElmt
y:pointElmt
actionlist: array [1..4] of action {action yang
dipilih ketika DFS}
{x y adalah posisi pada state}
ALGORITMA
procedure explore (input state:array [1..n] of stateElmt,
Pmatrix: array [1..n] of array [1..n] of pathElmt)
KAMUS LOKAL
xinit,yinit:pointElmt {elemen x dan y pada
posisi state}
i:integer
level:integer
ALGORITMA
level = 0
for i-> 0 to jumlah elemen pada state do
setAgent(state[i].x, state[i].y)
xinit = state[i].x
yinit = state[i].y
repeat
DFS
until
bertemu goal
(mengacu Pmatrix, level
berubah sesuai aras state)
if isGoal(state[i].x,
state[i].y) then
rewarding
until x=xinit dan y=yinit dan level=0
procedure exploit(input state:array [1..n] of stateElmt,
Pmatrix: array [1..n] of array [1..n] of pathElmt,
posisix, posisiy:pointElmt)
KAMUS LOKAL
A: action
ALGORITMA
while not isGoal(posisix,posisiy) do
A: getDirectMax(posisix,posisiy)
doAction(A)
procedure setAgent(input x,y:pointElmt)
{memposisikan Agent pada xy}
procedure doAction(input:action)
{melakukan pergerakan agen}
function isGoal(input x,y:pointElmt) -> boolean
{true bila state pada xy adalah goal}
function getDirectMax(input x,y:pointElmt) ->real
{mengembalikan reward maksimum untuk action pada
state di xy}
Anggrahita Bayu Sasmita, et al.
7
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
5. Selang waktu dihitung per-langkah agent dalam
representasi matriks sehingga memiliki satuan yang
sama dengan jumlah langkah perpindahan agent.
6. Posisi x,y dihitung dari ujung kiri-atas matriks.
7. Sel kosong pada dimensi bidang yang melebihi
dimensi masuk dalam penghitungan kordinat matriks.
Adapun pengujian terhadap beberapa lajur dapat dilihat
pada Gambar 9-11 beserta penjelasannya.
Gambar 9. Lajur I -Koordinat goal (x,y): (8,5)
Hasil pengujian lajur I
Eksplorasi: 648 Langkah
Rata-rata tempuh DFS: 12,75 Langkah
Rata-rata tempuh hasil pembelajaran: 5,25 Langkah
Persentase Langkah (DFS : learned): 41,18 %
Gambar 10. Lajur II -Koordinat goal (x,y): (5,7)
Hasil pengujian lajur II
Eksplorasi: 1.872 Langkah
Rata-rata tempuh DFS: 128,67 Langkah
Rata-rata tempuh hasil pembelajaran: 47,33 Langkah
Persentase Langkah (DFS : learned): 36,78 %
Gambar 11. Lajur III -Koordinat goal (x,y): (29,15)
Hasil pengujian lajur III
Eksplorasi: 58.872 Langkah
Rata-rata tempuh DFS: 245,42 Langkah
Rata-rata tempuh hasil pembelajaran: 47,17 Langkah
Persentase Langkah (DFS : learned): 19,22 %
Rata-rata Persentase Langkah:
(41,18 % + 36,78 % + 19,22 %) / 3 = 32,39%
Hasil pengujian di atas menunjukkan peningkatan efisiensi
pada pengambilan langkah pasca implementasi pembelajaran
mesin. Hal tersebut disebabkan simulasi pemilihan jalur
dengan metode DFS dilakukan tanpa dukungan informasi
pada pemilihan aksinya. Hal ini menyebabkan pemilihan
jalur melalui DFS melibatkan proses backtracking yang
mengakibatkan penambahan selang waktu dalam pemilihan
jalurnya. Hal yang serupa tidak terjadi apabila eksploitasi
dilakukan berdasarkan informasi hasil pembelajaran mesin.
Melalui informasi tersebut, agent dapat memilih percabangan
secara greedy berdasarkan reward yang didapat melalui
pembelajaran mesin. Dapat disimpulkan bahwa pemilihan
jalur berdasarkan informasi hasil pembelajaran mesin
memiliki efisiensi yang lebih baik.
Pengujian menunjukkan reduksi penempuhan hingga
32,39%. Jumlah ini berkaitan dengan pembatasan pilihan
jalur hanya pada empat pilihan. Pembelajaran mesin
memberikan informasi pada agent sehingga agent dapat
langsung memilih satu jalur tanpa melakukan pemeriksaan
backtracking pada jalur lainnya. Hal tersebut memberikan
efisiensi bagi waktu dan jarak tempuh agent menuju goal.
Akan tetapi, hasil pengujian tersebut juga menunjukkan
selang waktu yang besar ketika eksplorasi pembelajaran
mesin dilakukan. Hal tersebut disebabkan pemrograman pada
agent untuk melakukan pemilihan pada seluruh kemungkinan
jalur. Pemilihan tersebut dilakukan mengacu pada simulasi
dalam subbab III.3 yang menunjukkan proses akuisisi nilai
reward bagi seluruh kemungkinan action. Dengan demikian,
dalam proses learning, dapat dikatakan bahwa agent
melakukan proses dengan kompleksitas pada worst-case
scenario DFS. Hal ini menyebabkan implementasi
pembelajaran mesin membutuhkan waktu yang jauh lebih
besar dalam proses akuisisi informasi reward yang digunakan
dalam eksploitasi.
6. SIMPULAN DAN SARAN
A. Simpulan
Berdasarkan hasil pengujian, dapat disimpulkan beberapa
hal sebagai berikut:
1. Pembelajaran mesin Q-Learning dapat
diimplementasikan pada penyelesaian persoalan
pathfinding. Implementasi tersebut dapat dilakukan
dengan memodelkan state-action sebagai representasi
terhadap percabangan lajur beserta pilihan jalur
cabangnya. Nilai reward dapat diberikan pada agent
apabila agent tersebut memilih cabang pada jalur
dengan jarak terdekat terhadap goal state.
2. Implementasi pembelajaran mesin ini meningkatkan
efisiensi penempuhan lajur menuju goal state tertentu.
G
G
G
Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower
8
Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012
Secara umum, langkah agent dapat direduksi hingga
32,39%. Informasi tersebut didapatkan dengan
membandingkan terhadap penyelesaian persoalan yang
sama menggunakan metode DFS. Akan tetapi,
implementasi pembelajaran mesin ini memiliki
kerugian berupa kebutuhan waktu yang besar dalam
proses eksplorasinya. Nilai reward untuk setiap action
hanya dapat diperoleh apabila agent telah melakukan
eksplorasi untuk seluruh kemungkinan percabangan.
Apabila eksplorasi dilakukan menggunakan DFS pula,
maka eksplorasi tersebut memiliki kompleksitas
eksponensial pada O(n x 4n
).
B. Saran
Berkaitan dengan tugas akhir ini, dapat dilakukan
pengembangan berikutnya dalam beberapa persoalan:
1. Peningkatan resolusi sensor lajur pada robot dapat
meningkatkan kemampuan robot sebagai agent untuk
memilih lebih dari empat pilihan percabangan.
2. Pemodelan pembelajaran mesin dengan pendekatan
lain yang memungkinkan akuisisi informasi untuk
digunakan dalam metode pathfinding lainnya seperti
A*.
REFERENSI
[1]. Osorio C., Roman, dkk (2006). Intelligent Line Follower Mini Robot
System. International Journal of Computers, Communications &
Control.
[2]. Smart, William D. dan L. P. Kaelbling. (2002). Effective
Reinforcement Learning for Mobile Robot. MIT Computer Science
and Artificial Intelligence Laboratory. Massachusetts Institue of
Technology. MA
[3]. Mitchell, Tom M. Machine Learning. (1997). New York: NY.
McGraw-Hill.
[4]. Rachmatullah, Syawaluddin. (2009). Laporan Perancangan dan
Realisasi Hardware: Robot Penjejak Garis SR2009LF (Line
Following Robot). Program Studi Teknik Elektro, Sekolah Teknik
Elektro dan Informatika, Institut Teknologi Bandung.
[5]. Russel, Stuart J. dan Peter Norvig. (1995). Artificial Intelligence: A
Modern Approach. New Jersey. Prentice-Hall.
Anggrahita Bayu Sasmita, et al.
9

More Related Content

What's hot

Metodologi Penelitian (10) konsep dasar penelitian
Metodologi Penelitian (10) konsep dasar penelitianMetodologi Penelitian (10) konsep dasar penelitian
Metodologi Penelitian (10) konsep dasar penelitian
jayamartha
 
Uses and Gratification Theory
Uses and Gratification TheoryUses and Gratification Theory
Uses and Gratification Theorymankoma2013
 
Rantai Pasokan PT. Carrefour Indonesia.Tbk
Rantai Pasokan PT. Carrefour Indonesia.TbkRantai Pasokan PT. Carrefour Indonesia.Tbk
Rantai Pasokan PT. Carrefour Indonesia.Tbk
Helmiati (Emy)
 
Persepsi konsumen
Persepsi konsumenPersepsi konsumen
Persepsi konsumen
dwie_radet
 
Konsep dasar penelitian
Konsep dasar penelitianKonsep dasar penelitian
Konsep dasar penelitian
Adri Hermawan
 
Makalah Pengujian Hipotesis
Makalah Pengujian HipotesisMakalah Pengujian Hipotesis
Makalah Pengujian Hipotesis
Ghian Velina
 
Pengolahan informasi dan persepsi konsumen
Pengolahan informasi dan persepsi konsumenPengolahan informasi dan persepsi konsumen
Pengolahan informasi dan persepsi konsumendentiiii
 
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
Penny Hutabarat
 
PPT Metode penelitian kuantitatif
PPT Metode penelitian kuantitatifPPT Metode penelitian kuantitatif
PPT Metode penelitian kuantitatif
Nona Zesifa
 
Teori Groupthink
Teori GroupthinkTeori Groupthink
Teori Groupthink
bumnbersatu
 
Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)
Farichah Riha
 
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
Annissa Savira II
 
Machine learning dan data mining
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
Alvian yudha Prawira
 
Requirement Engineering
Requirement EngineeringRequirement Engineering
Requirement Engineering
Febryci Legirian
 
Evolusi kinerja komputer
Evolusi kinerja komputer Evolusi kinerja komputer
Evolusi kinerja komputer
arcah02
 
Manajemen Jasa Tugas Besar TI UB
Manajemen Jasa Tugas Besar TI UBManajemen Jasa Tugas Besar TI UB
Manajemen Jasa Tugas Besar TI UB
Mega Audina
 
Tentang Go-Jek Indonesia
Tentang Go-Jek IndonesiaTentang Go-Jek Indonesia
Tentang Go-Jek Indonesia
Hamdan Haqq
 
Social Learning Theory
Social Learning TheorySocial Learning Theory
Social Learning Theory
mankoma2012
 
Pidato sidang promosi doktor
Pidato sidang promosi doktorPidato sidang promosi doktor
Pidato sidang promosi doktor
Muhammadiyah University of Sukabumi
 
Review Materi Kuliah Perkim
Review Materi Kuliah PerkimReview Materi Kuliah Perkim
Review Materi Kuliah Perkim
Laras Kun Rahmanti Putri
 

What's hot (20)

Metodologi Penelitian (10) konsep dasar penelitian
Metodologi Penelitian (10) konsep dasar penelitianMetodologi Penelitian (10) konsep dasar penelitian
Metodologi Penelitian (10) konsep dasar penelitian
 
Uses and Gratification Theory
Uses and Gratification TheoryUses and Gratification Theory
Uses and Gratification Theory
 
Rantai Pasokan PT. Carrefour Indonesia.Tbk
Rantai Pasokan PT. Carrefour Indonesia.TbkRantai Pasokan PT. Carrefour Indonesia.Tbk
Rantai Pasokan PT. Carrefour Indonesia.Tbk
 
Persepsi konsumen
Persepsi konsumenPersepsi konsumen
Persepsi konsumen
 
Konsep dasar penelitian
Konsep dasar penelitianKonsep dasar penelitian
Konsep dasar penelitian
 
Makalah Pengujian Hipotesis
Makalah Pengujian HipotesisMakalah Pengujian Hipotesis
Makalah Pengujian Hipotesis
 
Pengolahan informasi dan persepsi konsumen
Pengolahan informasi dan persepsi konsumenPengolahan informasi dan persepsi konsumen
Pengolahan informasi dan persepsi konsumen
 
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
Pemasaran Sosial [Sejarah,Definisi, Pemahaman, dan Konsep]
 
PPT Metode penelitian kuantitatif
PPT Metode penelitian kuantitatifPPT Metode penelitian kuantitatif
PPT Metode penelitian kuantitatif
 
Teori Groupthink
Teori GroupthinkTeori Groupthink
Teori Groupthink
 
Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)
 
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
Uncertainty Reduction Theory - Annissa Savira Mankom B Fikom Unpad 2013
 
Machine learning dan data mining
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
 
Requirement Engineering
Requirement EngineeringRequirement Engineering
Requirement Engineering
 
Evolusi kinerja komputer
Evolusi kinerja komputer Evolusi kinerja komputer
Evolusi kinerja komputer
 
Manajemen Jasa Tugas Besar TI UB
Manajemen Jasa Tugas Besar TI UBManajemen Jasa Tugas Besar TI UB
Manajemen Jasa Tugas Besar TI UB
 
Tentang Go-Jek Indonesia
Tentang Go-Jek IndonesiaTentang Go-Jek Indonesia
Tentang Go-Jek Indonesia
 
Social Learning Theory
Social Learning TheorySocial Learning Theory
Social Learning Theory
 
Pidato sidang promosi doktor
Pidato sidang promosi doktorPidato sidang promosi doktor
Pidato sidang promosi doktor
 
Review Materi Kuliah Perkim
Review Materi Kuliah PerkimReview Materi Kuliah Perkim
Review Materi Kuliah Perkim
 

Similar to Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower

1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
ifah62
 
Kuliah-Pertemuan-8-PT.ppt
Kuliah-Pertemuan-8-PT.pptKuliah-Pertemuan-8-PT.ppt
Kuliah-Pertemuan-8-PT.ppt
HohohoHa
 
real time pada lampu lalu lintas
real time pada lampu lalu lintasreal time pada lampu lalu lintas
real time pada lampu lalu lintas
sudartisimatupang
 
Machine Learning Diskusi 13.pdf
Machine Learning Diskusi 13.pdfMachine Learning Diskusi 13.pdf
Machine Learning Diskusi 13.pdf
HendroGunawan8
 
Presentasi Seminar Proposal
Presentasi Seminar ProposalPresentasi Seminar Proposal
Presentasi Seminar Proposal
Daryan Ramadhany
 
04410100251 makalah
04410100251 makalah04410100251 makalah
04410100251 makalah
Arya Ningrat
 
Object Oriented
Object OrientedObject Oriented
Object Oriented
Asep Suhendar
 
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Amran Simamora
 
Klasifikasi Multispektral pada Landsat 7
Klasifikasi Multispektral pada Landsat 7Klasifikasi Multispektral pada Landsat 7
Klasifikasi Multispektral pada Landsat 7
Ririn Indahyani
 
Materi Seminar proposal IoT dan VRP Optimization S2 Binus
Materi Seminar proposal IoT dan VRP Optimization S2 BinusMateri Seminar proposal IoT dan VRP Optimization S2 Binus
Materi Seminar proposal IoT dan VRP Optimization S2 Binus
AgnanZakariyaSoeward1
 
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
faisalpiliang1
 
Materi 2 Konsep Dasar Simulasi.pptx
Materi 2 Konsep Dasar Simulasi.pptxMateri 2 Konsep Dasar Simulasi.pptx
Materi 2 Konsep Dasar Simulasi.pptx
Garnet_Waluyo_18
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
 
Simulasi pelayanan parkir_sepedah_motor
Simulasi pelayanan parkir_sepedah_motorSimulasi pelayanan parkir_sepedah_motor
Simulasi pelayanan parkir_sepedah_motor
Iyan Sulaiman
 
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
sherlyafrilianti
 
Pengambilan keputusan dalam kondisi pasti
Pengambilan keputusan dalam kondisi pastiPengambilan keputusan dalam kondisi pasti
Pengambilan keputusan dalam kondisi pasti
indra wahyudi
 
Its undergraduate-11557-4305100021-paper
Its undergraduate-11557-4305100021-paperIts undergraduate-11557-4305100021-paper
Its undergraduate-11557-4305100021-paper
Dani Ermawan
 
Materi 1.pptx
Materi 1.pptxMateri 1.pptx
Materi 1.pptx
ErlyEkayanti
 
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
Teguh Santoso
 
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
Lailatul Lutfiyah
 

Similar to Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower (20)

1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
1. APLIKASI LOGIKA FUZZY MAMDANI UNTUK PREDIKSI BIAYA OPERASIONAL KENDARAAN (...
 
Kuliah-Pertemuan-8-PT.ppt
Kuliah-Pertemuan-8-PT.pptKuliah-Pertemuan-8-PT.ppt
Kuliah-Pertemuan-8-PT.ppt
 
real time pada lampu lalu lintas
real time pada lampu lalu lintasreal time pada lampu lalu lintas
real time pada lampu lalu lintas
 
Machine Learning Diskusi 13.pdf
Machine Learning Diskusi 13.pdfMachine Learning Diskusi 13.pdf
Machine Learning Diskusi 13.pdf
 
Presentasi Seminar Proposal
Presentasi Seminar ProposalPresentasi Seminar Proposal
Presentasi Seminar Proposal
 
04410100251 makalah
04410100251 makalah04410100251 makalah
04410100251 makalah
 
Object Oriented
Object OrientedObject Oriented
Object Oriented
 
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
Deteksi, pelacakan dan jumlah kendaraan dengan moving average subtraction dan...
 
Klasifikasi Multispektral pada Landsat 7
Klasifikasi Multispektral pada Landsat 7Klasifikasi Multispektral pada Landsat 7
Klasifikasi Multispektral pada Landsat 7
 
Materi Seminar proposal IoT dan VRP Optimization S2 Binus
Materi Seminar proposal IoT dan VRP Optimization S2 BinusMateri Seminar proposal IoT dan VRP Optimization S2 Binus
Materi Seminar proposal IoT dan VRP Optimization S2 Binus
 
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
Penerapan Algoritma Greedy Dalam Menentukan Rute Terpendek Puskesmas (Studi K...
 
Materi 2 Konsep Dasar Simulasi.pptx
Materi 2 Konsep Dasar Simulasi.pptxMateri 2 Konsep Dasar Simulasi.pptx
Materi 2 Konsep Dasar Simulasi.pptx
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiri
 
Simulasi pelayanan parkir_sepedah_motor
Simulasi pelayanan parkir_sepedah_motorSimulasi pelayanan parkir_sepedah_motor
Simulasi pelayanan parkir_sepedah_motor
 
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
Sim, 13, sherly afrilianti, hapzi ali, telecommunication internet & wirel...
 
Pengambilan keputusan dalam kondisi pasti
Pengambilan keputusan dalam kondisi pastiPengambilan keputusan dalam kondisi pasti
Pengambilan keputusan dalam kondisi pasti
 
Its undergraduate-11557-4305100021-paper
Its undergraduate-11557-4305100021-paperIts undergraduate-11557-4305100021-paper
Its undergraduate-11557-4305100021-paper
 
Materi 1.pptx
Materi 1.pptxMateri 1.pptx
Materi 1.pptx
 
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
[A d206-9] pp.41-48-pencarian_jalur_terpendek_untuk_robot_micromouse_dengan
 
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
Visualisasi pergerakan kendaraan bermotor menggunakan metode depth first sear...
 

More from Ratzman III

Tugas Tutorial EKSI4202 Hukum Pajak
Tugas Tutorial EKSI4202 Hukum PajakTugas Tutorial EKSI4202 Hukum Pajak
Tugas Tutorial EKSI4202 Hukum Pajak
Ratzman III
 
Tugas Wajib Tutorial I - EKSI4202 - Hukum Pajak
Tugas Wajib Tutorial I  -  EKSI4202 - Hukum PajakTugas Wajib Tutorial I  -  EKSI4202 - Hukum Pajak
Tugas Wajib Tutorial I - EKSI4202 - Hukum PajakRatzman III
 
Review Artikel Tinjauan Pustaka
Review Artikel Tinjauan PustakaReview Artikel Tinjauan Pustaka
Review Artikel Tinjauan Pustaka
Ratzman III
 
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya IlmiahMICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
Ratzman III
 
Format laporan Tutor Universitas Terbuka 2014
Format laporan Tutor Universitas Terbuka 2014Format laporan Tutor Universitas Terbuka 2014
Format laporan Tutor Universitas Terbuka 2014
Ratzman III
 
Arduino Ch3 : Tilt Sensing Servo Motor Controller
Arduino Ch3 : Tilt Sensing Servo Motor Controller Arduino Ch3 : Tilt Sensing Servo Motor Controller
Arduino Ch3 : Tilt Sensing Servo Motor Controller
Ratzman III
 
Arduino - Ch 2: Sunrise-Sunset Light Switch
Arduino - Ch 2: Sunrise-Sunset Light SwitchArduino - Ch 2: Sunrise-Sunset Light Switch
Arduino - Ch 2: Sunrise-Sunset Light Switch
Ratzman III
 
Arduino - CH 1: The Trick Switch
Arduino - CH 1: The Trick SwitchArduino - CH 1: The Trick Switch
Arduino - CH 1: The Trick Switch
Ratzman III
 
Bab 3 - Kalkulus Relasional
Bab 3 -  Kalkulus RelasionalBab 3 -  Kalkulus Relasional
Bab 3 - Kalkulus Relasional
Ratzman III
 
Bab 2 Aljabar Relasional
Bab 2   Aljabar RelasionalBab 2   Aljabar Relasional
Bab 2 Aljabar Relasional
Ratzman III
 
Bab 1 RDBMS Review
Bab 1   RDBMS ReviewBab 1   RDBMS Review
Bab 1 RDBMS Review
Ratzman III
 
Kisi kisi basis data uts
Kisi kisi basis data utsKisi kisi basis data uts
Kisi kisi basis data utsRatzman III
 
Kisi kisi basis data uts
Kisi kisi basis data utsKisi kisi basis data uts
Kisi kisi basis data uts
Ratzman III
 
Modul my sql tutorial part 6
Modul my sql tutorial part 6Modul my sql tutorial part 6
Modul my sql tutorial part 6Ratzman III
 
Tugas i
Tugas iTugas i
Tugas i
Ratzman III
 
Modul my sql tutorial part 5
Modul my sql tutorial part 5Modul my sql tutorial part 5
Modul my sql tutorial part 5Ratzman III
 

More from Ratzman III (20)

Tugas Tutorial EKSI4202 Hukum Pajak
Tugas Tutorial EKSI4202 Hukum PajakTugas Tutorial EKSI4202 Hukum Pajak
Tugas Tutorial EKSI4202 Hukum Pajak
 
Tugas Wajib Tutorial I - EKSI4202 - Hukum Pajak
Tugas Wajib Tutorial I  -  EKSI4202 - Hukum PajakTugas Wajib Tutorial I  -  EKSI4202 - Hukum Pajak
Tugas Wajib Tutorial I - EKSI4202 - Hukum Pajak
 
Review Artikel Tinjauan Pustaka
Review Artikel Tinjauan PustakaReview Artikel Tinjauan Pustaka
Review Artikel Tinjauan Pustaka
 
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya IlmiahMICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
MICRO TEACHING IDIK4013-Memanfaatkan Pustaka dalam Penulisan Karya Ilmiah
 
Format laporan Tutor Universitas Terbuka 2014
Format laporan Tutor Universitas Terbuka 2014Format laporan Tutor Universitas Terbuka 2014
Format laporan Tutor Universitas Terbuka 2014
 
Arduino Ch3 : Tilt Sensing Servo Motor Controller
Arduino Ch3 : Tilt Sensing Servo Motor Controller Arduino Ch3 : Tilt Sensing Servo Motor Controller
Arduino Ch3 : Tilt Sensing Servo Motor Controller
 
Arduino - Ch 2: Sunrise-Sunset Light Switch
Arduino - Ch 2: Sunrise-Sunset Light SwitchArduino - Ch 2: Sunrise-Sunset Light Switch
Arduino - Ch 2: Sunrise-Sunset Light Switch
 
Arduino - CH 1: The Trick Switch
Arduino - CH 1: The Trick SwitchArduino - CH 1: The Trick Switch
Arduino - CH 1: The Trick Switch
 
Bab 3 - Kalkulus Relasional
Bab 3 -  Kalkulus RelasionalBab 3 -  Kalkulus Relasional
Bab 3 - Kalkulus Relasional
 
Bab 2 Aljabar Relasional
Bab 2   Aljabar RelasionalBab 2   Aljabar Relasional
Bab 2 Aljabar Relasional
 
Bab 1 RDBMS Review
Bab 1   RDBMS ReviewBab 1   RDBMS Review
Bab 1 RDBMS Review
 
Kisi kisi basis data uts
Kisi kisi basis data utsKisi kisi basis data uts
Kisi kisi basis data uts
 
Kisi kisi basis data uts
Kisi kisi basis data utsKisi kisi basis data uts
Kisi kisi basis data uts
 
Modul my sql tutorial part 6
Modul my sql tutorial part 6Modul my sql tutorial part 6
Modul my sql tutorial part 6
 
Nilai lab 01pt3
Nilai lab 01pt3Nilai lab 01pt3
Nilai lab 01pt3
 
Format sap
Format sapFormat sap
Format sap
 
Tugas i
Tugas iTugas i
Tugas i
 
Modul my sql tutorial part 5
Modul my sql tutorial part 5Modul my sql tutorial part 5
Modul my sql tutorial part 5
 
1088
10881088
1088
 
1152
11521152
1152
 

Recently uploaded

Modul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Kimia Kelas 10 Fase E Kurikulum MerdekaModul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
Fathan Emran
 
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdfKisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
indraayurestuw
 
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptxNovel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
NirmalaJane
 
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdfJuknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
HendraSagita2
 
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum MerdekaModul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Fathan Emran
 
Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?
SABDA
 
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
StevanusOkiRudySusan
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
AdePutraTunggali
 
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Fathan Emran
 
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdfIKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
sriwulandari723
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
YuristaAndriyani1
 
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Fathan Emran
 
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptxRPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
YongYongYong1
 
Modul Ajar Statistika Data Fase F kelas
Modul Ajar Statistika Data Fase F  kelasModul Ajar Statistika Data Fase F  kelas
Modul Ajar Statistika Data Fase F kelas
ananda238570
 
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum MerdekaModul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Fathan Emran
 
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptxPPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
AqlanHaritsAlfarisi
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Yayasan Pusat Kajian dan Perlindungan Anak
 
Alur tujuan pembelajaran bahasa inggris kelas x fase e
Alur tujuan pembelajaran bahasa inggris kelas x fase eAlur tujuan pembelajaran bahasa inggris kelas x fase e
Alur tujuan pembelajaran bahasa inggris kelas x fase e
MsElisazmar
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
ssuser4dafea
 
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
tsuroyya38
 

Recently uploaded (20)

Modul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Kimia Kelas 10 Fase E Kurikulum MerdekaModul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Kimia Kelas 10 Fase E Kurikulum Merdeka
 
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdfKisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
 
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptxNovel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
Novel - PERISTIWA YANG MEMBERIKAN TELADAN.pptx
 
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdfJuknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
 
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum MerdekaModul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
 
Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?
 
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
5. Rangkuman Kehadiran Guru di Kelas_SDN 8n Kranji.docx
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
 
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
 
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdfIKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
IKLAN PENERIMAAN GURU SEKUM YPS 2024.pdf
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
 
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
 
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptxRPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
 
Modul Ajar Statistika Data Fase F kelas
Modul Ajar Statistika Data Fase F  kelasModul Ajar Statistika Data Fase F  kelas
Modul Ajar Statistika Data Fase F kelas
 
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum MerdekaModul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
 
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptxPPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
PPT PENGELOLAAN KINERJA PADA PMM SEKOLAH.pptx
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
 
Alur tujuan pembelajaran bahasa inggris kelas x fase e
Alur tujuan pembelajaran bahasa inggris kelas x fase eAlur tujuan pembelajaran bahasa inggris kelas x fase e
Alur tujuan pembelajaran bahasa inggris kelas x fase e
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
 
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
92836246-Soap-Pada-Pasien-Dengan-as-Primer.pdf
 

Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower

  • 1. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower Anggrahita Bayu Sasmita (13507021), Nur Ulfa Maulidevi (197603092008012010) Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung, Jalan Ganeca 10 Bandung, Jawa Barat, Indonesia if17021@students.if.itb.ac.id ulfa@informatika.org Abstrak-- Line-follower merupakan tipe robot yang diprogram untuk bergerak mengikuti lajur tertentu sehingga dapat menjadi agent dalam persoalan pencarian jalur (pathfinding). Hal ini dapat dilakukan dengan berbagai macam metode baik dengan menggunakan informasi tertentu maupun tidak. Solusi yang diberikan dalam menyelesaikan pencarian jalur terdekat ini menggunakan akuisisi informasi melalui reinforcement learning, khususnya Q-Learning. Pembelajaran dilakukan melalui simulasi. Pada simulasi tersebut, agent melakukan eksplorasi pada lajur tertentu untuk memperoleh informasi reward. Informasi ini kemudian digunakan oleh agent dalam eksploitasinya, yaitu memilih jalur yang paling efektif dalam percabangan lajur. Eksploitasi agent dilakukan menggunakan metode Greedy Best First Search yang dimodifikasi. Implementasi reinforcement learning mengakibatkan peningkatan efisiensi yang ditunjukkan dengan reduksi penempuhan lajur menuju goal state sebanyak 32,39%. Reduksi tersebut dibandingkan dengan pencarian Depth-First Search. Angka tersebut relatif terhadap rata-rata pilihan jalur dalam setiap percabangan. Sebagai kesimpulan, pembelajaran mesin dapat digunakan dalam akuisisi informasi pada kasus pathfinding. Informasi tersebut kemudian dapat diacu menggunakan metode pencarian informed search. Implementasi pembelajaran mesin ini dapat dikembangkan lagi dalam dua hal. Pengembangan pertama dapat dilakukan dengan memodifikasi sensor robot sehingga dapat mengakomodasi pilihan percabangan yang lebih banyak. Pengembangan berikutnya dilakukan dalam modifikasi representasi state-action untuk digunakan sebagai informasi dalam metode searching lainnya. Kata kunci-- Line follower, reinforcement learning, Q- Learning, Greedy Best-First Search, penentuan jalur, simulasi 1. PENDAHULUAN A. Latar Belakang Dalam keseharian aktivitas masyarakat, pemenuhan kebutuhan suatu produk didukung dengan adanya kegiatan produksi dalam aktivitas industri. Pemanfaatan teknologi robot pada kegiatan produksi merupakan salah satu pendekatan mekanisasi atas persoalan performansi aktivitas industri yang fluktuatif. Dalam kajian pembangunannya, robot memiliki tiga aspek berupa mekanisme gerak, rangkaian elektrik berupa sensor dan aktuator, serta program yang mengendalikan kerja robot tersebut. Untuk kasus-kasus tertentu, kerja robot merupakan suatu aktivitas dengan algoritma tertentu untuk dipetakan dalam suatu program. Salah satu kasusnya adalah aktivitas yang melibatkan penyelesaian penentuan jalur (pathfinding). Salah satu contoh teknologi robot yang dikembangkan dalam kegiatan industri adalah robot bertipe line-follower. Robot ini merupakan suatu perangkat yang melakukan perpindahan berdasarkan masukan berupa deteksi optik terhadap lajur kontras [1]. Lajur yang menjadi salah satu persoalan pada line-follower adalah lajur bercabang. Secara pragmatis, metode pencarian jalur pada line follower merupakan serangkaian percabangan kondisional (if-then-else). Hal ini mengakibatkan peningkatan kerumitan bergantung pada jumlah titik percabangan dan rata-rata jumlah pilihan pada setiap percabangan [2]. Permasalahan yang mengakibatkan adanya algoritma yang kompleks dapat diselesaikan melalui pendekatan metode pembelajaran mesin [2]. Salah satu metode pada pembelajaran mesin ialah reinforcement learning. Metode ini merupakan analogi terhadap metode pelatihan yang menerapkan aspek reward [3]. Metode ini digunakan sebagai pembelajaran bagi agent untuk menyelesaikan masalah yang membutuhkan pengetahuan agent terhadap kondisi per- bagian kasus dalam detil tertentu. Jurnal Sarjana Institut Teknologi Bandung bidang Teknik Elektro dan Informatika Volume 1, Number 1, April 2012 1
  • 2. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 B. Rumusan Masalah Berdasarkan penjelasan mengenai latar belakang persoalan tersebut, maka pada penelitian ini terdapat dua rumusan masalah, yaitu. 1. Bagaimana memodelkan reinforcement learning untuk adaptasi pathfinding pada line-follower? 2. Apa saja perubahan efisiensi pengambilan langkah robot, baik keuntungan maupun kerugian, apabila robot dilengkapi dukungan reinforcement learning dibandingkan tanpa dukungan tersebut? C. Tujuan Kedua rumusan masalah tersebut menjadi dasar bagi tujuan penelitian ini. Oleh karena itu, terdapat dua poin yang menjadi tujuan untuk menjawab rumusan masalah di atas. Poin-pointersebut yaitu: 1. Membangun suatu model pembelajaran mesin reinforcement learning untuk adaptasi penentuan jalur pada robot bertipe line follower sebagai alternatif dalam pembangunan robot tersebut pada sisi pemrograman. 2. Menguji efisiensi robot line-follower dalam pengambilan langkah pathfinding, baik keuntungan maupun kerugian, melalui simulasi dengan pembandingan terhadap metode pathfinding tanpa reinforcement learning. 2. LANDASAN TEORI A. Spesifikasi Line-Follower Robot bertipe line-follower merupakan suatu mesin terprogram yang memiliki kemampuan bergerak mengikuti suatu jalur yang telah ditentukan [1]. Robot ini memiliki sensor optik sebagai pendeteksi jalur. Adapun deteksi percabangan membutuhkan konstruksi sensor dalam morfologi tertentu. Sebagai contoh, sensor yang disusun cembung terhadap lajur memberikan kemampuan deteksi percabangan bagi robot [4]. Sensor pada spesifikasi untuk penelitian ini dibatasi dengan kemampuan membaca hingga empat pilihan percabangan. Robot line-follower ini bergerak dengan aktuator yang terhubung dengan roda. Oleh karena itu, robot ini dapat dilengkapi dengan rotary encoder sebagai sensor untuk mengukur jarak tempuh. Sensor ini melakukan pengukuran secara diskrit. Oleh karena pengukuran diskrit tersebut, maka robot dalam spesifikasi ini memiliki keterbatasan dalam detil informasi jarak. B. Metode Reinforcement Learning Pembelajaran mesin metode reinforcement learning menjadi suatu pilihan dalam penentuan pengendalian robot [2]. Metode ini mengasumsikan bahwa lingkungan terdefinisi sebagai himpunan keadaan (states) S dengan agen (robot) memiliki pilihan aksi A dengan jumlah tertentu. Untuk setiap langkah, yang didefinisikan sebagai pembagian waktu secara diskrit, agen melakukan pengamatan terhadap keadaan lingkungan, st ,dan memberikan keluaran berupa aksi, at. Agen mendapatkan suatu reward, R yang menunjukkan kualitas aksi yang diberikan agen berdasarkan ekspektasi pemrogram. Agen kemudian melakukan observasi ulang terhadap lingkungannya, . Keadaan yang dituju dari metode pembelajaran ini ialah mendapatkan experience tuples (st, , , ), dan mendapatkan pembelajaran atas suatu pemetaan keadaan-keadaan untuk mengukur nilai jangka panjang pada keadaan tersebut. Pemetaan tersebut didefinisikan sebagai optimal value function. Salah satu algoritma reinforcement learning yang dapat digunakan adalah Q-Learning [3]. Algoritma ini memiliki optimal value function sebagai berikut: ( ) ( ) ( ) Fungsi tersebut merepresentasikan nilai reward akibat agent mengambil aksi a dari keadaan s yang mengakibatkan perpindahan keadaan menjadi s’. Parameter merupakan discount factor sebagai ukuran terhadap reward yang pada proses berikutnya. Setelah mendapatkan Q-function yang optimal, terdapat pertimbangan optimasi π* (s) yang merupakan nilai maksimum dari suatu keadaan. ( ) ( ) Nilai Q-function disimpan dalam suatu struktur tabel dalam indeks yang mengacu pada state dan action. Untuk setiap waktu robot menghasilkan aksi, experience tuple dihasilkan dan tabel untuk keadaan s dan aksi a diperbaharui dengan acuan sebagai berikut: ̂( ) ( ) ̂( ) Dalam pemrograman robot, implementasi reinforcement learning merupakan dukungan yang mempermudah hubungan aksi robot terhadap keadaan lingkungan. Suatu robot dapat memandang sebuah task sebagai fungsi reward yang lebih terbebas dari bias program dibandingkan melalui pemetaan kondisional. Dalam penelitian ini, persoalan penentuan jalur merupakan suatu persoalan deterministik yang dapat dikategorikan sebagai exploration problem. Dalam hal ini, agent membutuhkan tahapan khusus untuk mempelajari lajurnya dan menyimpan informasi hasil pembelajarannya. Eksplorasi yang dilakukan sebagai tahapan pembelajaran peta lajur dilakukan menggunakan strategi pencarian tertentu. Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower 2
  • 3. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 C. Greedy Best-First Search Strategi pencarian yang diimplementasikan dalam penyelesaian pencarian jalur pada penelitian ini menggunakan metode Greedy Best-First Search. Bentuk sederhana dalam metode ini adalah mencari pengambilan estimasi langkah terpendek menuju goal state [5]. Fungsi yang menghitung estimasi tersebut dinamakan fungsi heuristik yang dilambangkan dengan h: h(n) = estimasi langkah terpendek menuju goal Dalam strategi ini, agent diprogram untuk mengambil keputusan berupa action dengan nilai reward tertentu. Nilai reward tersebut menjadi informasi bagi agent untuk memilih action yang mengakibatkan pengambilan langkah terdekat terhadap goal. Nilai tersebut didapatkan melalui reinforcement learning dan digunakan untuk diacu sebagai fungsi heuristik pada strategi pencarian Greedy Best-First Search. D. Depth-First Search Metode pencarian Depth-First Search (DFS) merupakan metode uninformed search. Hal ini menunjukkan bahwa pencarian melalui DFS dilakukan tanpa dukungan informasi nilai apapun, termasuk jumlah langkah menuju goal state. Dalam metode ini, agent hanya mampu membedakan state yang berkedudukan sebagai goal dan yang bukan (Russel, 1995). Apabila dimodelkan melalui graf pohon pencarian, agent pada metode DFS melakukan pencarian yang terfokus pada kedalaman aras di setiap titiknya. Apabila agent sudah tidak bisa lagi mencari lebih dalam sedangkan ia berada pada state non-goal, agent akan melakukan backtracking menuju state pada aras lebih rendah. Agent yang melakukan bactracking melakukan pencarian melalui sisi yang belum dicari pada titik di aras yang lebih rendah. Ekspansi dilakukan hingga agent menemukan goal state. 3. ANALISIS SOLUSI A. Representasi Pathfinding dalam Model Reinforcement Learning Persoalan yang diselesaikan melalui pendekatan pembelajaran mesin reinforcement learning memiliki sejumlah keadaan yang tertentu (state) yang diperoleh berdasarkan aksi (action) yang dilakukan agent. Aksi yang dilakukan disertai dengan nilai reward tertentu bergantung pada pendekatan penyelesaian masalah. Melalui proses learning, agent berusaha mencari sejumlah aksi yang memberikan nilai reward maksimal hingga goal state tercapai dan agent menghentikan pencarian action. Proses learning yang dilakukan dapat disederhanakan sebagai entry nilai bagi tabel state-action-reward yang menjadi model yang dibangun sebagai acuan fungsi target dalam kondisi pengujian. Dalam penerapan pembelajaran mesin menggunakan Q- learning, sebagaimana penjelasan pada dasar teori sebelumnya, terdapat suatu nilai Q yang merupakan reward akibat pengambilan suatu action dari state tertentu, dengan suatu nilai tambahan. Nilai ini didapat melalui pengalian suatu faktor secara rekursif terhadap rangkaian reward pada agent. Rangkaian reward tersebut mendapatkan referensi nilai terhadap immediate reward pada goal state. Sebagaimana penjelasan sebelumnya, goal state bersifat absorptif sehingga eksplorasi yang mencapai state tersebut menghentikan eksplorasi agent. Ilustrasi mengenai abstraksi ini dapat dilihat pada Gambar 1. Gambar 1: Ilustrasi action (tanda panah)terhadap setiap state (persegi). Agent memiliki susunan informasi mengenai reward untuk setiap aksi dalam bentuk table entry ̂ yang diperbarui dalam setiap pembelajaran. Informasi mengenai reward untuk setiap action dalam state tertentu pada table entry ini diinisiasi dengan nilai nol. Pembaruan nilai mengacu pada fungsi Q(s,a) yang telah didefinisikan sebelumnya. Secara ilustrasi, pembaruan ini diperjelas pada gambar 2. ̂( ) ̂( ) * + Gambar 2: Pembaruan table entry ̂berdasarkan aksi akanan yang memindahkan agen R dari S1menuju S2. Persoalan yang diharapkan dapat diselesaikan oleh sebuah robot bertipe line follower dalam tugas akhir ini adalah persoalan pencarian jalur terdekat menuju keadaan akhir (pathfinding) yang berkaitan dengan pemilhan jalur dalam sebuah jalur bercabang. Oleh karena itu, implementasi learning ke dalam program terlebih dahulu perlu diawali dengan representasi persoalan pathfinding dalam suatu model reinforcement learning. Persoalan tersebut dalam hal ini difokuskan pada penyelesaian melalui Q-learning. G akanan 7 3 6 6 8 1 10 0 9 0 8 1 8 1 10 0 Keadaan S1 Keadaan S2 R GR G Anggrahita Bayu Sasmita, et al. 3
  • 4. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 Dalam subbab Landasan Teori, telah dijelaskan bahwa spesifikasi line-follower yang akan digunakan memiliki kemampuan optimal dalam mendeteksi lajur dan percabangan empat. Oleh karena itu, representasi model dalam reinforcement learning pada kasus pathfinding ini dapat dinyatakan sebagai berikut: State Set: {s | s = percabangan lajur} Action Set : {a| a = pemilihan cabang} Kesesuaian model representasi state-action tersebut terhadap lajur dapat dilihat pada Gambar 3 dan Gambar 4. Gambar 3: Contoh jalur (kiri) dan representasi state (lingkaran) terhadap jalur tersebut (kanan). Gambar 4: Model state-action terhadap jalur pada Gambar 3 B. Simulasi Eksplorasi Pembelajaran melalui metode Q-learning dalam persoalan pathfinding dapat diselesaikan secara episodik. Dalam hal ini, agent mendapatkan pembaruan untuk keseluruhan nilai ̂ melalui proses pelatihan yang berulang. Di awal pembelajaran, seluruh nilai ̂ diinisiasi dengan nol. Pembelajaran dimulai dengan menempatkan agent dalam state tertentu dan memrogramnya untuk memilih action yang terdapat pada state tersebut hingga ia mencapai goal state. Keadaan pada goal state merupakan absorbing state sehingga agent yang telah mencapai keadaan tersebut dengan segera menghentikan pemilihan action. Pada metode reinforcement learning dalam tugas akhir ini, tahap pembelajaran dilakukan melalui eksplorasi oleh agent. Agent melakukan eksplorasi lajur dengan metode DFS dan menyimpan urutan state yang dilalui dari awal hingga mencapai goal state. Setelah mencapai goal state, nilai reward dihitung menggunakan faktor untuk seluruh state yang dilalui secara berkebalikan. Eksplorasi lajur oleh robot disimulasikan oleh agent dengan strategi seperti DFS. Penggunaan strategi seperti DFS ini tidak dilakukan untuk mencari goal state, tetapi untuk memberikan kepastian bahwa agent melakukan eksplorasi untuk seluruh kemungkinan jalur menuju goal state. Hal ini dilakukan untuk menghindari pencarian yang mengakibatkan pengulangan tanpa kondisi akhir (endless loop). Melalui strategi ini, agent memilih satu action pada setiap state hingga menuju goal state atau percabangan buntu. Setelah keadaan tersebut didapat, maka agent akan mengevaluasi reward apabila keadaan tersebut adalah goal state serta melakukan bactracking menuju state sebelumnya. Pada state tersebut, agent kembali memilih percabangan yang belum dilalui. Adapun mengenai tahapan simulasi pembelajaran dijelaskan menggunakan ilustrasi pada Gambar 5 dan Gambar 6 yang menggunakan contoh model state-action seperti pada Gambar 4. Dalam contoh berikut, adalah 0,9. Gambar 5. Kondisi pre-learning Pembelajaran Episode I Posisi Awal : p Pemilihan Jalur Acak : p  q  r  s  goal Pembaruan Tabel : I ̂( ) ̂( ) *+ II ̂( ) ̂( ) * + III ̂( ) ̂( ) * + a G b G q r s p goal 0 0 0 0 0 0 0 0 0 0 0 0 0 Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower 4
  • 5. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 IV ̂( ) ̂( ) * + Gambar 6. Kondisi pasca pembelajaran episode I Ilustrasi pada Gambar 5 dan 6 menggambarkan satu episode eksplorasi yang dilakukan oleh agent dengan lajur seperti pada Gambar 3 sebagai lingkungan persoalannya (environment). Eksplorasi dilakukan konvergen hingga mencapai keadaan akhir. Keadaan tersebut terjadi ketika agent memiliki informasi reward pada environment-nya seperti pada Gambar 7. Gambar.7. Informasi akhir hasil eksplorasi Simulasi tersebut menunjukkan suatu prosedur pembaruan nilai ̂ sebagai sekumpulan reward dengan suatu susunan struktur data berdasarkan state dan action tertentu. Nilai tabel ̂ tersebut menjadi acuan bagi agent dalam melakukan pencarian jalur. Suatu agent membaca keberadaannya dalam satu state, kemudian secara deterministik memilih state berikutnya menggunakan acuan fungsi optimal yang terpetakan dalam tabel ̂ tersebut. C. Analisis Kompleksitas pada Eksplorasi Strategi eksplorasi yang digunakan pada penelitian ini adalah DFS. Oleh karena itu kompleksitas algoritma eksplorasi sangat dipengaruhi kompleksitas DFS. Kompleksitas DFS dalam notasi big-O adalah O(bd ) dengan b adalah banyaknya pilihan pada satu state dan d adalah kedalaman persoalan yang dicari penyelesaiannya. Pada penelitian ini, pencarian menggunakan DFS dilakukan sebanyak jumlah state (n). Karena percabangan pada pencarian dibatasi hingga empat pilihan, kompleksitas algoritma eksplorasi adalah ekponensial yaitu O(n4d ). Oleh karena pada persoalan ini d ≤ n, maka notasi big-O algoritma eksplorasi dapat didefinisikan sebagai O(n4n ). Dengan kata lain, algoritma eksplorasi pada persoalan dalam tugas akhir ini memiliki kompleksitas eksponensial. D. Analisis Eksploitasi Pathfinding dengan Informasi Reward Eksplorasi reinforcement learning yang dilakukan pada simulasi menghasilkan table yang menyimpan nilai reward untuk pasangan state-action. Nilai tersebut menjadi informasi bagi agent untuk mengambil keputusan dalam memilih percabangan pada tahap eksploitasi. Nilai reward tersebut dapat digunakan sebagai informasi heuristik bagi strategi Greedy Best-First Search. Strategi ini menggunakan fungsi h(n) untuk mencari action dengan reward terbesar untuk setiap state. Dalam persoalan pathfinding ini, fungsi h(n) didefinisikan sebagai berikut: h(n) = reward terbesar pada state n Definisi tersebut selaras dengan optimal policy π* (s). Melalui definisi tersebut, dalam eksploitasinya, agent akan mencari action dengan reward terbesar untuk setiap state. Hal ini sesuai dengan strategi Best-First Search yang mengambil keputusan berdasarkan estimasi efisiensi terbaik. E. Analisis Representasi Robot dalam Agen pada Simulasi Dalam simulator, lajur yang dilalui robot direpresentasikan dalam matriks. Nilai dari setiap sel matriks menunjukkan titik tersebut merupakan lajur atau bukan lajur. Lajur terdiri dari lajur biasa, percabangan, dan goal. Lajur pada percabangan diberikan atribut khusus yang menunjukkan bahwa posisi tersebut merupakan sebuah state. Atribut tersebut menjadi acuan pada Q-Learning. Skema ini dapat dilihat pada Gambar 8. 3 Gambar 8. Skema matriks simulasi untuk lajur pada Gambar 3 Semua jalur yang keluar dari percabangan tersebut diidentifikasi sebagai action. Identifikasi tersebut q r s p goal 0 0 100 0 0 0 0 0 0 090 81 72,9 q r s p goal 100 100 100 81 90 81 90 81 90 90 90 90 90 Anggrahita Bayu Sasmita, et al. 5
  • 6. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 mengakibatkan seluruh pilihan lajur pada cabang tersebut memiliki nilai reward. Koordinat pada matriks yang berisi informasi state disimpan dalam sebuah tabel yang menyimpan semua state yang terdapat dalam sebuah jalur. Setiap state merupakan struktur data yang menyimpan informasi posisi koordinat jalur, posisi sebagai goal, dan semua action yang mungkin diambil agent pada pada state tersebut. Berdasarkan analisis mengenai bentuk fisik agent yang hanya mampu mengidentifikasi empat aksi, maka setiap state yang terdapat pada sebuah jalur dibatasi penyimpanan action-nya hingga maksimum empat macam. Struktur data yang menyimpan nilai terhadap aksi dipisahkan dengan matriks representasi. Struktur tersebut menggambarkan asosiasi antara state dan action beserta reward untuk masing-masing action. Nilai reward pada setiap action diisi melalui setiap episode agent melakukan pembelajaran. Struktur tersebut dapat dilihat pada Tabel 1. TABEL 1 ASOSIASI STATE-ACTION Nama State Posisi State (x,y) Action Next State (Nama) Next State (x,y) Reward p 1,4 up q 4,1 90 down s 4,7 90 right r 4,4 90 q 4,1 down r 4,4 90 right goal 7,4 100 left p 1,4 81 r 4,4 up q 4,1 90 down s 4,7 90 right goal 7,4 100 left p 1,4 81 s 4,7 up r 4,4 90 right goal 7,4 100 left p 1,4 81 F. Informasi Jarak Pemberian nilai immediate reward dapat dilakukan dengan menggunakan nilai jarak yang didapatkan ketika eksplorasi. Nilai jarak merupakan hasil penghitungan jarak tempuh agent menuju goal state. Akuisisi ini dapat dilakukan dengan asumsi bahwa robot dapat dilengkapi dengan pendeteksi perpindahan menggunakan rotary encoder. Dari simulasi, immediate reward diberikan nilai nol. Hal ini bertujuan untuk menunjukkan bahwa reward yang diperhitungkan secara utama hanya bergantung pada jumlah state dan nilai reward pada action menuju goal. Prioritas tertinggi informasi jarak adalah informasi jarak yang bernilai terkecil. Eksploitasi membutuhkan metode greedy yang mencari nilai terkecil. Kebutuhan ini terpenuhi dengan memberikan nilai acuan selisih. Nilai acuan selisih ini menghasilkan angka besar bila jarak semakin dekat. Angka besar tersebut dapat diacu dengan fungsi greedy yang sama dalam memilih nilai reward. 4. PERANCANGAN DAN IMPLEMENTASI SIMULATOR A. Mekanisme Simulator Dalam penelitian ini, implementasi reinforcement learning dilakukan melalui simulasi dalam program perangkat lunak. Program ini mendukung implementasi dan pengujian Q- Learning dalam kasus pencarian jalur sebagaimana dijelaskan pada bab sebelumnya. Perangkat ini memfasilitasi pengguna untuk mengubah data lajur menjadi model state-action, melakukan pembelajaran mesin bagi agent, serta memantau hasil eksploitasi agent dalam kasus pencarian jalur. Simulasi yang akan diberikan dalam program ini terdiri atas empat tahapan. Tahapan-tahapan tersebut yaitu: 1. Konversi jalur-matriks 2. Inisialisasi 3. Eksplorasi (learning) 4. Eksploitasi (solving) Tahapan pertama adalah konversi jalur-matriks. Tahapan ini merupakan bagian awal program yang mengubah representasi jalur dalam file berekstensi .maz menjadi matriks. Tahapan ini kemudian memberikan umpan-balik pada pengguna berupa antarmuka jalur tersebut. File yang digunakan dibuat menggunakan program lain yang menangani peyuntingan jalur menjadi representasi matriks. Pada tahapan ini, program juga memberikan respon bagi input pengguna apabila terdapat initial state yang merupakan poin start bagi agent pada jalur yang belum terepresentasi. Tahapan mekanisme berikutnya adalah Inisialisasi. Tahapan ini merupakan pembacaan program terhadap representasi matriks untuk menentukan posisi state yang akan dideteksi agent. Program mendeteksi jalur yang memiliki percabangan secara terurut indeks matriks. Percabangan akan dideteksi sebagai state dan disimpan dalam tabel berisi daftar informasi tersebut. Penyimpanan state juga disertai adanya deteksi pilihan jalur pada setiap state. Deteksi ini dilakukan untuk menyimpan informasi bagi action yang terdapat pada masing-masing state terhadap state berikutnya. Jalur yang tidak menjadikan agent bergerak menuju suatu state akan diisi dengan informasi yang menyatakan bahwa jalur tersebut diabaikan. Mekanisme kemudian dilanjutkan pada tahapan Eksplorasi (learning). Tahapan eksplorasi merupakan tahapan pembelajaran yang memberikan prosedur program yang serupa dengan skenario pada bagian III.F. Untuk setiap episode pembelajaran, agent melakukan penelusuran state dan memilih salah satu action pada setiap state yang dilalui. Pemilihan dilakukan menggunakan strategi DFS. Agent kemudian menyimpan action yang dipilihnya ke dalam suatu Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower 6
  • 7. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 stack. Penyimpanan pada stack beserta penelusuran jalur berhenti ketika agent mencapai goal. Ketika penelusuran berhenti, informasi pada stack action di-pop untuk direferensikan program. Program kemudian mengisi reward berdasarkan fungsi pembelajaran yang diimplementasikan dalam simulasi ini. Skenario pengisian reward mengacu pada skenario yang telah ditunjukkan pada analisis. Analisis mengenai skenario pembelajaran menunjukkan bahwa nilai reward yang telah tersimpan tidak bersifat konstan dan dapat diperbarui apabila agent melakukan eksplorasi jalur lain. Hal ini mengakibatkan nilai reward dapat terus diperbarui hingga mencapai konvergensi. Pembelajaran dapat dilakukan berulang-ulang dengan parameter iterasi yang kompleks. Dengan tujuan mempersingkat episode pembelajaran, maka penelusuran pada tahap eksplorasi disertai batasan- batasan tertentu untuk mencegah pembelajaran yang tidak berujung. Batasan-batasan tersebut antara lain: 1. Dalam satu episode, agent tidak memilih jalur yang telah dilalui sebelumnya. 2. Untuk episode yang berbeda, agent mengacu pada informasi jalur yang sudah tersedia dan memprioritaskan pengisian reward yang masih nol. 3. Prioritas eksplorasi dilakukan secara seragam dengan adanya prioritas pilihan jalur dalam satu episode. Tahapan yang dilakukan setelah pembelajaran adalah Exploitasi (solving). Tahapan ini adalah penyelesaian pencarian jalur oleh agent yang mengacu pada reward yang didapat dari proses eksplorasi. Pengguna dapat memberikan masukan posisi robot (agent) bagi program agent akan mengeksploitasi value function secara mandiri untuk mencapai goal state. Batasan program mengakibatkan pengguna hanya dapat memberikan masukan posisi agent pada koordinat matriks yang merupakan state. Dengan kata lain, secara nyata, robot hanya dapat ditempatkan pada posisi awal start point atau percabangan. Penempatan agent pada koordinat state memberikan informasi bagi program mengenai posisi agent. Agent kemudian menelusuri jalur dan memilih action dengan nilai reward terbesar ketika melalui setiap state hingga mencapai goal. Abstraksi pemilihan tersebut dilakukan menggunakan skema strategi Greedy Best-First Search sebagaimana penjelasan pada III.D. B. Pseudocode 5. HASIL PENGUJIAN Pengujian yang dilakukan memiliki tujuan sebagai berikut: 1. Mengevaluasi kinerja agent setelah diberlakukan proses pembelajaran mesin. 2. Membandingkan kinerja eksploitasi hasil pembelajaran mesin dengan eksploitasi metode Depth-First Search (DFS). Hasil evaluasi kinerja dibandingkan dengan metode DFS karena dalam implementasi pembelajaran mesin, eksplorasi dilakukan secara DFS. Pengujian tersebut dibatasi dalam beberapa spesifikasi berikut: 1. Titik start, titik akhir, serta semua titik percabangan berada dalam graf terhubung. 2. Semua percabangan memiliki tidak lebih dari 4 cabang (semua titik memiliki tidak lebih dari 4 sisi). 3. Kurva lajur dapat disederhanakan menjadi rangkaian segiempat. 4. Titik start diambil dari titik yang sudah ditentukan atau dari titik percabangan. KAMUS pathElmt: {elemen representasi matrix} stateElmt x:pointElmt y:pointElmt actionlist: array [1..4] of action {action yang dipilih ketika DFS} {x y adalah posisi pada state} ALGORITMA procedure explore (input state:array [1..n] of stateElmt, Pmatrix: array [1..n] of array [1..n] of pathElmt) KAMUS LOKAL xinit,yinit:pointElmt {elemen x dan y pada posisi state} i:integer level:integer ALGORITMA level = 0 for i-> 0 to jumlah elemen pada state do setAgent(state[i].x, state[i].y) xinit = state[i].x yinit = state[i].y repeat DFS until bertemu goal (mengacu Pmatrix, level berubah sesuai aras state) if isGoal(state[i].x, state[i].y) then rewarding until x=xinit dan y=yinit dan level=0 procedure exploit(input state:array [1..n] of stateElmt, Pmatrix: array [1..n] of array [1..n] of pathElmt, posisix, posisiy:pointElmt) KAMUS LOKAL A: action ALGORITMA while not isGoal(posisix,posisiy) do A: getDirectMax(posisix,posisiy) doAction(A) procedure setAgent(input x,y:pointElmt) {memposisikan Agent pada xy} procedure doAction(input:action) {melakukan pergerakan agen} function isGoal(input x,y:pointElmt) -> boolean {true bila state pada xy adalah goal} function getDirectMax(input x,y:pointElmt) ->real {mengembalikan reward maksimum untuk action pada state di xy} Anggrahita Bayu Sasmita, et al. 7
  • 8. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 5. Selang waktu dihitung per-langkah agent dalam representasi matriks sehingga memiliki satuan yang sama dengan jumlah langkah perpindahan agent. 6. Posisi x,y dihitung dari ujung kiri-atas matriks. 7. Sel kosong pada dimensi bidang yang melebihi dimensi masuk dalam penghitungan kordinat matriks. Adapun pengujian terhadap beberapa lajur dapat dilihat pada Gambar 9-11 beserta penjelasannya. Gambar 9. Lajur I -Koordinat goal (x,y): (8,5) Hasil pengujian lajur I Eksplorasi: 648 Langkah Rata-rata tempuh DFS: 12,75 Langkah Rata-rata tempuh hasil pembelajaran: 5,25 Langkah Persentase Langkah (DFS : learned): 41,18 % Gambar 10. Lajur II -Koordinat goal (x,y): (5,7) Hasil pengujian lajur II Eksplorasi: 1.872 Langkah Rata-rata tempuh DFS: 128,67 Langkah Rata-rata tempuh hasil pembelajaran: 47,33 Langkah Persentase Langkah (DFS : learned): 36,78 % Gambar 11. Lajur III -Koordinat goal (x,y): (29,15) Hasil pengujian lajur III Eksplorasi: 58.872 Langkah Rata-rata tempuh DFS: 245,42 Langkah Rata-rata tempuh hasil pembelajaran: 47,17 Langkah Persentase Langkah (DFS : learned): 19,22 % Rata-rata Persentase Langkah: (41,18 % + 36,78 % + 19,22 %) / 3 = 32,39% Hasil pengujian di atas menunjukkan peningkatan efisiensi pada pengambilan langkah pasca implementasi pembelajaran mesin. Hal tersebut disebabkan simulasi pemilihan jalur dengan metode DFS dilakukan tanpa dukungan informasi pada pemilihan aksinya. Hal ini menyebabkan pemilihan jalur melalui DFS melibatkan proses backtracking yang mengakibatkan penambahan selang waktu dalam pemilihan jalurnya. Hal yang serupa tidak terjadi apabila eksploitasi dilakukan berdasarkan informasi hasil pembelajaran mesin. Melalui informasi tersebut, agent dapat memilih percabangan secara greedy berdasarkan reward yang didapat melalui pembelajaran mesin. Dapat disimpulkan bahwa pemilihan jalur berdasarkan informasi hasil pembelajaran mesin memiliki efisiensi yang lebih baik. Pengujian menunjukkan reduksi penempuhan hingga 32,39%. Jumlah ini berkaitan dengan pembatasan pilihan jalur hanya pada empat pilihan. Pembelajaran mesin memberikan informasi pada agent sehingga agent dapat langsung memilih satu jalur tanpa melakukan pemeriksaan backtracking pada jalur lainnya. Hal tersebut memberikan efisiensi bagi waktu dan jarak tempuh agent menuju goal. Akan tetapi, hasil pengujian tersebut juga menunjukkan selang waktu yang besar ketika eksplorasi pembelajaran mesin dilakukan. Hal tersebut disebabkan pemrograman pada agent untuk melakukan pemilihan pada seluruh kemungkinan jalur. Pemilihan tersebut dilakukan mengacu pada simulasi dalam subbab III.3 yang menunjukkan proses akuisisi nilai reward bagi seluruh kemungkinan action. Dengan demikian, dalam proses learning, dapat dikatakan bahwa agent melakukan proses dengan kompleksitas pada worst-case scenario DFS. Hal ini menyebabkan implementasi pembelajaran mesin membutuhkan waktu yang jauh lebih besar dalam proses akuisisi informasi reward yang digunakan dalam eksploitasi. 6. SIMPULAN DAN SARAN A. Simpulan Berdasarkan hasil pengujian, dapat disimpulkan beberapa hal sebagai berikut: 1. Pembelajaran mesin Q-Learning dapat diimplementasikan pada penyelesaian persoalan pathfinding. Implementasi tersebut dapat dilakukan dengan memodelkan state-action sebagai representasi terhadap percabangan lajur beserta pilihan jalur cabangnya. Nilai reward dapat diberikan pada agent apabila agent tersebut memilih cabang pada jalur dengan jarak terdekat terhadap goal state. 2. Implementasi pembelajaran mesin ini meningkatkan efisiensi penempuhan lajur menuju goal state tertentu. G G G Implementasi Reinforcement Learning pada Simulasi Penentuan Jalur Robot Bertipe Line-Follower 8
  • 9. Prosiding Teknik Elektro & Informatika, Volume 1, Nomor 1, Mei 2012 Secara umum, langkah agent dapat direduksi hingga 32,39%. Informasi tersebut didapatkan dengan membandingkan terhadap penyelesaian persoalan yang sama menggunakan metode DFS. Akan tetapi, implementasi pembelajaran mesin ini memiliki kerugian berupa kebutuhan waktu yang besar dalam proses eksplorasinya. Nilai reward untuk setiap action hanya dapat diperoleh apabila agent telah melakukan eksplorasi untuk seluruh kemungkinan percabangan. Apabila eksplorasi dilakukan menggunakan DFS pula, maka eksplorasi tersebut memiliki kompleksitas eksponensial pada O(n x 4n ). B. Saran Berkaitan dengan tugas akhir ini, dapat dilakukan pengembangan berikutnya dalam beberapa persoalan: 1. Peningkatan resolusi sensor lajur pada robot dapat meningkatkan kemampuan robot sebagai agent untuk memilih lebih dari empat pilihan percabangan. 2. Pemodelan pembelajaran mesin dengan pendekatan lain yang memungkinkan akuisisi informasi untuk digunakan dalam metode pathfinding lainnya seperti A*. REFERENSI [1]. Osorio C., Roman, dkk (2006). Intelligent Line Follower Mini Robot System. International Journal of Computers, Communications & Control. [2]. Smart, William D. dan L. P. Kaelbling. (2002). Effective Reinforcement Learning for Mobile Robot. MIT Computer Science and Artificial Intelligence Laboratory. Massachusetts Institue of Technology. MA [3]. Mitchell, Tom M. Machine Learning. (1997). New York: NY. McGraw-Hill. [4]. Rachmatullah, Syawaluddin. (2009). Laporan Perancangan dan Realisasi Hardware: Robot Penjejak Garis SR2009LF (Line Following Robot). Program Studi Teknik Elektro, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung. [5]. Russel, Stuart J. dan Peter Norvig. (1995). Artificial Intelligence: A Modern Approach. New Jersey. Prentice-Hall. Anggrahita Bayu Sasmita, et al. 9