1. REVIEW JURNAL
Performance Analysis and Comparison of Faster
RCNN, Mask R-CNN and ResNet50 for the
Detection and Counting of Vehicles
Hassam Tahir, Department of Electrical Engineering HITEC University Taxila, Pakistan
Muhammad Shahbaz Khan, Department of Electrical Engineering HITEC University Taxila, Pakistan
Muhammad Owais Tariq, Department of Electrical Engineering Pakistan Institute of Engineering and
Technology Multan, Pakistan
2. ABSTRACT
• Kemacetan lalu lintas merupakan salah satu permasalahan utama perkotaan. Teknik
konvensional yang biasanya digunakan untuk mengendalikan lalu lintas melalui berbagai jenis
sensor kurang tepat dan mahal.
• Solusi cerdas dengan menggunakan algoritma deep learning memberikan hasil yang
menjanjikan dalam hal kinerja yang lebih baik, pengambilan keputusan yang cepat, dan
efektivitas biaya.
• Tiga kerangka kerja Deep Neural Network (DNN) yaitu Faster RCNN, Mask R-CNN, dan
ResNet-50 telah diterapkan dan dibandingkan untuk deteksi kendaraan, klasifikasi dan
penghitungan.
• Dataset : 3200 gambar kendaraan yang berbeda digunakan untuk pelatihan model. Pelatihan
dilakukan di NVIDIA GPU 1060TI 3GB. Sistem yang terlatih diuji pada sistem asli rekaman data
video berdurasi 8 jam untuk dua rute pada lampu lalu lintas.
3. ABSTRACT
• Hasil menunjukkan bahwa akurasi deteksi keseluruhan R-CNN dan Mask R-CNN lebih cepat
>80%, sedangkan deteksi akurasi ResNet-50 adalah >75%. Akurasi penghitungan dari R-CNN
yang lebih cepat, Mask R-CNN, dan ResNet-50 >75%, masing-masing >70% dan >62%.
• Berbagai analisis kesalahan telah dilakukan untuk memvalidasi kinerja yang disebutkan di atas
kerangka kerja. Selain itu, prototipe juga telah dikembangkan dengan menginter koneksikan
hasil Dense Dynamic Network (DNN) dengan Arduino melalui Serial komunikasi.
4. TUJUAN PENELITIAN
• Memberikan solusi yang mudah, lebih akurat dan lebih murah untuk masalah
pengaturan lalu lintas khususnya pada lampu lalu lintas sehingga tidak menyebabkan
kemacetan lalu lintas yang parah selama berjam-jam yang mengakibatkan hilangnya
jam kerja, tertundanya pengiriman bisnis, konsumsi gas yang berlebihan, emisi karbon
berlebih, dll.
5. PENDAHULUAN
• Kemacetan lalu lintas merupakan masalah yang tidak bias dihindari saat ini, terutama di negara-
negara berkembang seperti Pakistan. Kurangnya pemantauan dan pengendalian lalu lintas yang
tepat menyebabkan kemacetan lalu lintas yang parah selama berjam-jam yang mengakibatkan
hilangnya jam kerja, tertundanya pengiriman bisnis, konsumsi gas yang berlebihan, emisi
karbon berlebih, dll. Bagi negara berkembang, permasalahan ini cenderung berdampak serius
pada pertumbuhan ekonomi dan yang paling penting pada kondisi lingkungan.
• Oleh karena itu, sangat diperlukan solusi berkelanjutan dalam pengendalian lalu lintas,
khususnya pada lampu lalu lintas. Tentu saja, sistem kontrol lalu lintas telah diusulkan di masa
lalu tetapi sebagian besar sistem ini berbasis sensor tanpa melibatkan pembelajaran mendalam
atau kecerdasan buatan.
• Solusi yang melibatkan Deep Neural Networks (DNN) lebih berkelanjutan dan memberikan
hasil berbasis keputusan yang akurat dan cepat. Selain itu, kemampuan pembelajaran dan
pelatihan yang berkelanjutan dari sistem ini menjadikannya yang paling cocok untuk masalah
pengendalian lalu lintas.
6. PENDAHULUAN
• Dalam kecerdasan tradisional sistem kontrol lalu lintas, sensor mempunyai kelemahan utama
yaitu keterbatasan data dan respons yang cepat. Baru-baru ini, sistem pemantauan lalu lintas
cerdas menggunakan Jaringan Sensor Nirkabel (WSN) dikembangkan, WSN adalah alat yang
digunakan untuk mengontrol kondisi lalu lintas beberapa jalan. Selain itu, Sistem Manajemen
Lalu Lintas berbasis IoT (Internet of Things) juga telah dilaporkan untuk mengendalikan
pelanggaran lalu lintas dan mengirim data ke pusat kendali melalui internet. Semua system
yang dilaporkan ini melibatkan integrasi sensor yang kompleks yang tidak memberikan
kontribusi terhadap solusi yang cepat dan berkelanjutan
• Sebagai perbandingan, Deep Neural Networks mulai mendapatkan popularitas karena
kemampuannya mengatasi kelemahan algoritma tradisional dan cenderung cocok untuk analisis
data besar dengan lebih sedikit integrasi sensor yang terlibat [3]. Beberapa DNN telah
dikembangkan dan dimodifikasi untuk mendeteksi dan menghitung kendaraan sebagai solusi
yang diusulkan untuk manajemen lalu lintas. Salah satu dari beberapa kerangka kerja yang
dilaporkan adalah Faster R-CNN, yang lebih disukai karena akurasinya yang lebih baik. Berbicara
tentang opsi deteksi yang lebih baik, Hasil Faster R-CNN adalah salah satu yang terbaik [4]
7. PENDAHULUAN
• Makalah ini berfokus pada implementasi dan analisis kinerja tiga kerangka
pembelajaran mendalam yaitu Faster R -CNN, Mask R-CNN dan ResNet-50 untuk
mendeteksi dan menghitung kendaraan pada data asli menggunakan daya rendah, GPU
Nvidia 1060Ti 3Gb.
• Model-model ini dilatih secara terpisah pada kumpulan data yang sama dan diuji pada
video yang direkam secara lokal yang memiliki dua rute untuk mengamati keakuratan
kerangka kerja. Gambar 1 menunjukkan deteksi kendaraan oleh ketiga kerangka yang
dipertimbangkan untuk rekaman video.
8.
9. DATASET
• Dataset tersebut dibentuk secara manual dengan mengambil gambar mobil dan jeep
dengan dimensi berbeda dan juga dari Kaggle. 3200 gambar kendaraan dipilih dari
berbagai sudut.
• Gambar diubah ukurannya menjadi 640x480 piksel. Gambar-gambar itu diberi
keterangan lebih lanjut. File XML dibuat dan dikonversi dalam file CSV yang dapat
diberikan sebagai masukan ke Jaringan Syaraf Tiruan (Neural Network). Waktu rata-rata
adalah 15-16 jam untuk pelatihan kerangka DNN tunggal.
• Sebuah video kendaraan direkam di jalan Grand Trunk, GolraMorr, Rawalpindi. Video
berdurasi 8 jam dari pagi hingga sore hari diambil untuk menentukan setiap dimensi.
Kumpulan data dibagi dalam rute yang berbeda secara spesifik.
11. HARDWARE INTEGRATION
• Untuk pengembangan prototipe, python Shell diintegrasikan dengan
arduino menggunakan komunikasi serial dengan baud rate 96000.
Prototipe juga telah dikembangkan untuk meniru sistem pemantauan lalu
lintas jalur persimpangan dua arah. LED telah digunakan untuk
melambangkan dua sinyal lalu lintas. Data dari kedua sinyal dikendalikan
oleh pengontrol Arduino tunggal.
• Berdasarkan hasil deteksi dan penghitungan, arus lalu lintas terkendali.
Skenario pengujian meliputi; jika jumlah mobil di Sinyal A lebih banyak dari
pada jumlah mobil di Sinyal B, sistem kendali akan menyala Lampu hijau di
Sinyal A. Hal ini mengurangi kemacetan lalu lintas di sinyal dibandingkan
dengan sinyal yang memiliki waktu On/Off tetap
13. HASIL DETEKSI
• Kami melatih berbagai algoritma pembelajaran mendalam yaitu Faster-RCNN, Mask R-CNN dan ResNet-
50, menggunakan 3200 gambar pada GPU NVIDIA GTX1060 TI 3GB dan memperoleh hasil dalam hal
kecepatan deteksi dan akurasi untuk data asli yaitu video yang direkam di Golra interjection titik di GT
Road, Islamabad, Pakistan. Pelatihan dilakukan pada kartu grafis 1060TI. Pelatihan dilakukan
menggunakan Faster R-CNN dengan 41837 iterasi, Mask R-CNN dengan 53130 iterasi dan ResNet-50
dengan 49102 iterasi dengan learning rate 0,001
14. HASIL DETEKSI
Tabel 1. Perbandingan Fast R-CCN, Mask R-CNN dan ResNet-50 perbandingan deteksi
kendaraan yang dilakukan pada frames perdetik
15. PRESISI, RECALL & AKURASI
• Presisi adalah rasio observasi positif yang diprediksi dengan benar
terhadap total observasi positif yang diprediksi,
• Recall/ sedangkan perolehan (atau sensitivitas) adalah pecahan dari
jumlah total kejadian relevan yang benar-benar diambil. Persamaan untuk
menghitung nilai presisi dan recall diberikan pada Persamaan 1 dan 2 [9].
Di sisi lain,
• Akurasi merupakan elemen yang sangat penting, dan dibentuk dengan
membagi prediksi observasi dan total observasi seperti yang ditunjukkan
pada Persamaan 3.
17. PRESISI, PEROLEHAN KEMBALI & AKURASI
Tabel 2. PERBANDINGAN R-CNN LEBIH CEPAT , MASK R-CNN DAN RESNET-50
SEHUBUNGAN DENGAN PRESISI, RECALL Dan AKURASI
R-CNN yang lebih cepat menggantikan akurasi dan presisi dalam memvalidasi hasil deteksi yang disebutkan dalam
Tabel 2. Jika kumpulan data besar disediakan, kemungkinan mask R-CNN menggantikan dua kerangka kerja lainnya
akan lebih besar [2]. Karena lapisan ResNet-50 yang terperinci, manipulasi memerlukan pelatihan yang lebih ketat
untuk mendapatkan hasil.
18. PRESISI, PEROLEHAN KEMBALI & AKURASI
TABEL 3. ANALISIS RINCI FAST R-CNN TERHADAP PENGHITUNGAN KENDARAAN TERUS-MENERUS 8 JAM MELALUI VIDEO DAN KLASIFIKASI KENDARAAN. “TOTAL” MENYATAKAN
JUMLAH KENDARAAN DAN “TERHITUNG” MENYATAKAN JUMLAH KENDARAAN YANG DIHITUNG MELALUI SISTEM
19. PRESISI, PEROLEHAN KEMBALI & AKURASI
TABEL 4. ANALISIS DETAIL MASKER R-CNN TERHADAP PENGHITUNGAN KENDARAAN TERUS-MENERUS 8 JAM MELALUI VIDEO DAN KLASIFIKASI KENDARAAN. MANUAL MEWAKILI
JUMLAH MOBIL YANG DIUSULKAN MEWAKILI JUMLAH KENDARAAN YANG DIHITUNG MELALUI SISTEM
20. PRESISI, PEROLEHAN KEMBALI & AKURASI
TABEL 5. ANALISIS DETAIL RESNET-50 TERHADAP PENGHITUNGAN KENDARAAN TERUS-MENERUS 8 JAM MELALUI VIDEO DAN KLASIFIKASI KENDARAAN. MANUAL MEWAKILI
JUMLAH MOBIL YANG DIUSULKAN MEWAKILI JUMLAH KENDARAAN YANG DIHITUNG MELALUI SISTEM
21. MENGHITUNG HASIL
• Perbandingan Detil Fast R-CNN, Mask R-CNN dan ResNet-50 berdasarkan penghitungan telah
disusun melalui pengamatan lalu lintas 8 jam di GT ROAD, Rawalpindi. Ketidak akuratan sepeda
dan truk telah diketahui karena dalam kumpulan data klasifikasi Mobil dan Jeep ditambahkan
tetapi tidak ada sepeda dan truk sehingga ketika sepeda melewati garis ROI, hal itu
menunjukkan perbedaan dalam keandalan dan truk dihitung lebih dari satu kali karena jaringan
saraf mempertimbangkannya. Memiliki lebih dari satu Jeep. R-CNN yang lebih cepat
menunjukkan akurasi terbaik di antara ketiganya. Seperti Tabel 3 menunjukkan rincian kinerja
R-CNN Lebih Cepat.
• Tabel 4, Mask R-CNN dapat mengungguli pada kumpulan data yang luas. Akurasi R-CNN Lebih
Cepat terus meningkat dengan menurunnya frame per detik, namun penelitian ini dilakukan
pada 30FPS untuk membandingkan skenario yang sama dalam keadaan yang sama tanpa
perbedaan. Perbandingan sepeda yang ditunjukkan
• Tabel 5 menunjukkan variasi akurasi pada titik-titik tertentu. Faster R-CNN berkinerja baik dan
pada beberapa titik dua lainnya berkinerja baik. Namun, faktor tumpang tindih terjadi pada
sepeda dan penghitungan berlebih pada truk, seperti terlihat pada perbandingan akurasi pada
Gambar 6.
22. PRESISI, PEROLEHAN KEMBALI & AKURASI
Gambar 4. Perbandingan grafis Faster R-CNN, Mask R-CNN, ResNet-50 sehubungan dengan klasifikasi manual Mobil. Grafik menunjukkan dengan bertambahnya jumlah mobil dari
pukul 17.00-19.00, akurasi ditingkatkan khususnya dari R-CNN yang Lebih Cepat. Dengan peningkatan akurasi kumpulan data juga meningkat
23. PRESISI, PEROLEHAN KEMBALI & AKURASI
Gambar 5. Perbandingan grafis Faster R-CNN, Mask R-CNN, dan ResNet-50 sehubungan dengan klasifikasi manual Bike. Karena masalah sepeda yang tumpang tindih, akurasi
menurun, dan akurasi DNN yang sensitif lebih terpengaruh.
24. PRESISI, PEROLEHAN KEMBALI & AKURASI
Gambar 6. Perbandingan grafis Faster R-CNN, Mask R-CNN, ResNet-50 sehubungan dengan klasifikasi manual Truk. Akurasi bersifat acak karena truk tidak disertakan dalam
kumpulan data
26. PRESISI, PEROLEHAN KEMBALI & AKURASI
TABEL 6. HASIL LABEL STANDAR NAMA VIDEO JALAN GT YANG MENJELASKAN RUTE DARI SATU TITIK KE TITIK LAIN. JUMLAH TOTAL KENDARAAN STANDAR DIHITUNG UNTUK
DIBANDINGKAN DENGAN SISTEM YANG DIRANCANG UNTUK PERHITUNGAN AKURASI
TABEL 7. HASIL FRAMEWORK R-CNN YANG LEBIH CEPAT DARI VCD. DUA RUTE A DAN B DIHITUNG SECARA TERPISAH DARI SATU UJUNG KE UJUNG LAINNYA
27. PRESISI, PEROLEHAN KEMBALI & AKURASI
TABEL 8. HASIL KERANGKA MASKER R-CNN DARI VCD. DUA RUTE A DAN B DIHITUNG SECARA TERPISAH DARI SATU UJUNG KE UJUNG LAINNYA
TABEL 9. HASIL FRAMEWORK RESNET-50 DARI VCD. DUA RUTE A DAN B DIHITUNG SECARA TERPISAH DARI SATU UJUNG KE UJUNG LAINNYA
28. PRESISI, PEROLEHAN KEMBALI & AKURASI
• Hasil menunjukkan bahwa Fast R-CNN memiliki kemampuan penghitungan
yang lebih baik dibandingkan dua kerangka kerja lainnya untuk kedua rute.
Performa penghitungan Mask R-CNN yang relatif rendah disebabkan
karena performanya lebih baik dengan kumpulan data yang besar.
Meningkatkan kumpulan data secara terpisah untuk Mask R-CNN dapat
meningkatkan akurasi penghitungannya [2]. Selain itu, jumlah kendaraan
yang dihitung dalam kasus truk lebih banyak daripada kendaraan
sebenarnya karena truk tidak dimasukkan dalam kumpulan data
29. ANALISIS KESALAHAN PERHITUNGAN
• Kesalahan memberitahukan ketidak akuratan atau ketidak mampuan
kerangka untuk menghitung jumlah kendaraan dan dihitung dengan
Persamaan Semakin besar kesalahan maka semakin sedikit jumlah
kendaraan yang dihitung dan faktor lain yang menyebabkan masalah yang
tumpang tindih dan terlewati
30. ANALISIS KESALAHAN PERHITUNGAN
• Mean Absolute Error: Fast RCNN, Masker RCNN dan Res-Net50 dilakukan
untuk pemahaman yang lebih baik. Tes gambar 'N' adalah 640 untuk RCNN
Lebih Cepat dan RCNN Mask, dan 1600 untuk ResNet-50 sebagai basis
pelatihan, tetapi penghitungan dilakukan berdasarkan standar 20% untuk
ketiga jaringan seperti yang ditunjukkan pada Tabel 11
31. ANALISIS KESALAHAN PERHITUNGAN
• Mean Occupancy Error for Counting : Berarti Occupancy Error telah
dihitung menggunakan Persamaan 7 [11]. MoE untuk R-CNN Lebih Cepat
lebih baik untuk Mobil tetapi rendah di ResNet- 50 dan Mask R-CNN
seperti yang ditunjukkan pada Tabel 12
32. ANALISIS KESALAHAN PERHITUNGAN
• Real Time Rate : Eksperimen kecepatan dilakukan pada semua kerangka
kerja menggunakan Persamaan 8 [12]. Tabel 13 menunjukkan hasil waktu
berjalan dari kerangka kerja untuk video yang digunakan. Alasan untuk
melakukan eksperimennya adalah kinerja kecepatan harus dijaga tetap
rendah pertimbangan
33. ANALISIS KESALAHAN PERHITUNGAN
TABEL 10. PERHITUNGAN DAN PERBANDINGAN DNN ERROR DENGAN RESPECT KLASIFIKASI DAN FUNGSI PENGHITUNGAN DITERAPKAN PADA LOKAL
TABEL 11. PERBANDINGAN MEAN ABSOLUTE ERROR (MAE) RCNN LEBIH CEPAT , RCNN MASK DAN RESNET-50 TERHADAP SETIAP KELAS MOBIL, SEPEDA DAN TRUK UNTUK
PENGHITUNGAN
34. ANALISIS KESALAHAN PERHITUNGAN
TABEL 12. MEAN OCCUPANCY ERROR R-CNN LEBIH CEPAT , MASK R-CNN
DAN RESNET-50 TERKAIT KLASIFIKASI MOBIL, SEPEDA, DAN TRUK. STANDAR YANG SET UNTUK JUMLAH MOBIL PER ADEGAN YANG DIPILIH ADALAH 10
35. KESIMPULAN
• Dalam pekerjaan ini, tiga kerangka kerja Faster R-CNN, Mask RCNN dan ResNet-50
diimplementasikan dan dibandingkan untuk deteksi dan penghitungan, berdasarkan
klasifikasi kendaraan. Pelatihan dilakukan pada NVIDIA GTX 1060TI 3GB dengan
kecepatan pembelajaran 0,001 untuk ketiga kerangka kerja. Iterasi dari Faster R-CNN,
Mask R-CNN, dan ResNet-50 sebanyak 41.837, 53.130 dan 49.102 masing-masing. Uji
gambar untuk Fast R-CNN dan Mask R-CNN merupakan 20% dari total dataset yaitu 640
gambar. Namun, untuk meningkatkan kinerja ResNet-50, 50% dari total dataset
digunakan untuk gambar uji yaitu 1600 gambar. Gambar uji untuk ResNet-50
ditingkatkan untuk mengurangi gambar awal tingkat kerugian selama sesi pelatihan.
Video berdurasi 8 jam adalah direkam di GolraMor, Rawalpindi, Pakistan. Videonya
kumpulan data diproses untuk menulis frames. Realtime Rate adalah ditentukan dari
jumlah mobil dalam 60 menit pertama video, yang hasilnya masing-masing adalah 1,76,
1,63, dan 1,5 untuk Faster RCNN, Mask R-CNN, dan ResNet-50.
36. KESIMPULAN
• Deteksi adalah digunakan untuk memeriksa keakuratan deteksi dengan pembelajaran mendalam
jaringan sedangkan penghitungan dilakukan untuk memeriksa keandalan jaringan untuk penggunaan
tujuan lalu lintas. Beberapa analisis kesalahan telah dilakukan untuk perbandingan yang tepat dari
ketiganya kerangka kerja yang sedang dipertimbangkan. Presisi rata-rata rata-rata (mAP %) untuk Masker
R-CNN Lebih Cepat R-CNN dan ResNet-50 masing-masing sebesar 76,3%, 74,3% dan 65,76% dan a recall
masing-masing sebesar 76%, 74,35 dan 65,76%. Hasil menunjukkan bahwa R-CNN Lebih Cepat dapat
digunakan secara praktis pengaturan sebagai metode deteksi kendaraan. Penghitungan keakuratan
kerangka kerja yang sedang dipertimbangkan terungkap menjadi 77% untuk R-CNN Lebih Cepat, 70%
untuk Mask R-CNN, dan 62% untuk ResNet-50 untuk GPU berdaya rendah. Akurasinya bisa jadi semakin
meningkat dengan menggunakan GPU yang kuat.
• Beberapa fungsi kerugian termasuk SVM, Softmax Classifier dan penambahan normalisasi batch
diterapkan untuk memeriksa perbaikan dalam kesalahan. Deteksi dan penghitungan analisis kinerja
beserta analisis kesalahan yang dilakukan menunjukkan bahwa Fast R-CNN lebih baik dari pada dua
lainnya terutama untuk pelatihan GPU pemrosesan rendah. Namun, lebih dari itu sejumlah lapisan
ResNet-50 dengan GPU berdaya tinggi dan kumpulan data dalam jumlah besar dapat meningkatkan
kinerja ResNet-50. Penghitungan hasilnya dikirim ke Arduino menggunakan dua master
38. REKOMENDASI
• Perlu adanya perbandingan algoritma lain untuk mengatasi akurasi, presisi dan recall
lebih cepat, bukan hanya dari Faster RCNN, Mask R-CNN And Resnet50 , Ada juga yang
lebih dari ketiga algoritma salah satunya adalah YOLO (You Only Live Once) / Anda
Hanya Hidup Sekali, YOLO adalah algoritma deteksi objek dalam pemrosesan citra dan
video. Fungsi utama algoritma YOLO adalah mendeteksi dan mengklasifikasikan objek
dalam gambar atau video secara real-time