The document provides information about evaluating machine learning models, including:
1) The goals of evaluation are to determine if a model is suitable for use and to measure participant ability to evaluate models.
2) Key metrics for evaluation include accuracy, confusion matrix, and precision and recall. Accuracy is the number of correct predictions divided by total predictions. A confusion matrix shows correct and incorrect predictions for each class.
3) The document discusses evaluation concepts like true/false positives and negatives specifically for binary classification problems with two classes.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas tentang teori graf dan pewarnaan graf. Terdapat definisi pewarnaan titik, bilangan kromatik, beberapa teorema seperti hubungan bilangan kromatik antara graf dan subgrafnya, serta contoh-contoh penerapannya.
Dokumen tersebut membahas tentang definisi dan jenis-jenis graf serta konsep dasar graf seperti simpul, sisi, derajat simpul, dan tetanggaan. Dijelaskan pula contoh-contoh penerapan graf dalam berbagai bidang seperti matematika, kimia, biologi, dan teknik informatika.
Makalah ini membahas tentang Aljabar Linear Elementer yang merupakan rangkuman dari buku karya Howard Anton. Makalah ini terdiri dari bab pendahuluan, sistem persamaan linear dan matriks, determinan, dan penutup. Pembahasan mencakup konsep dasar sistem persamaan linear, eliminasi Gauss, matriks dan operasi matriks, serta determinan.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Dokumen tersebut membahas tentang teori graf dan pewarnaan graf. Terdapat definisi pewarnaan titik, bilangan kromatik, beberapa teorema seperti hubungan bilangan kromatik antara graf dan subgrafnya, serta contoh-contoh penerapannya.
Dokumen tersebut membahas tentang definisi dan jenis-jenis graf serta konsep dasar graf seperti simpul, sisi, derajat simpul, dan tetanggaan. Dijelaskan pula contoh-contoh penerapan graf dalam berbagai bidang seperti matematika, kimia, biologi, dan teknik informatika.
Makalah ini membahas tentang Aljabar Linear Elementer yang merupakan rangkuman dari buku karya Howard Anton. Makalah ini terdiri dari bab pendahuluan, sistem persamaan linear dan matriks, determinan, dan penutup. Pembahasan mencakup konsep dasar sistem persamaan linear, eliminasi Gauss, matriks dan operasi matriks, serta determinan.
Metode pencarian heuristik merupakan teknik untuk meningkatkan efisiensi proses pencarian dalam state space dengan memilih cabang-cabang yang paling mungkin menyebabkan penyelesaian masalah. Metode-metode pencarian heuristik yang dijelaskan meliputi generate and test, hill climbing, best first search, dan simulated annealing.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
Linear regression is a statistical method used to analyze and understand the relationship between two or more variables. It predicts a numeric target variable based on one or more independent variables. Single linear regression uses one independent variable to predict the dependent variable based on a linear equation. The document provides examples of calculating linear regression coefficients and making predictions using the linear regression equation. It also discusses evaluating linear regression models using metrics like MAE, MSE, and RMSE.
Modul ini membahas konsep dasar kongruensi, termasuk definisi, sifat-sifat, dan teorema-teoremanya. Kongruensi merupakan kelanjutan dari keterbagian dan didefinisikan berdasarkan konsep keterbagian. Modul ini juga membahas sistem residu lengkap dan tereduksi serta peranannya dalam teorema Euler, Fermat, dan Wilson.
Analisis regresi linier berganda dilakukan untuk memprediksi jumlah permintaan air bersih berdasarkan pendapatan keluarga, jumlah tanggungan, dan pengeluaran energi. Hasilnya menunjukkan ada hubungan linier antara permintaan air dengan pendapatan dan jumlah tanggungan, tetapi tidak dengan pengeluaran energi. Semua prediktor berpengaruh secara bersama-sama terhadap permintaan air, meskipun hanya pendapatan dan jumlah tanggungan
Dokumen tersebut membahas tentang hubungan antara primal dan dual dalam linear programming. Secara singkat, dokumen menjelaskan bahwa setiap masalah primal memiliki masalah dual terkait, dan solusi optimum primal memberikan solusi optimum dual. Dokumen juga memberikan contoh untuk memahami bentuk standar primal dan dual.
Algoritma K-nearest neighbor (KNN) digunakan untuk klasifikasi dan prediksi dengan menghitung kedekatan antara kasus baru dengan lama berdasarkan bobot fitur. KNN mencari kasus lama terdekat untuk digunakan sebagai solusi kasus baru, dengan kedekatan diukur antara 0-1. Studi kasus menggunakan KNN untuk memprediksi kemungkinan nasabah memiliki masalah pembayaran dengan mempertimbangkan jarak pendidikan dan
This document outlines the preparation and process of classification modeling. It discusses the objectives of the training, which are for participants to be able to prepare for and conduct classification modeling. It describes dividing data into training, validation, and test sets. Other topics covered include determining modeling techniques, setting model parameters, and evaluating model performance using metrics like accuracy for classification tasks. The document provides information about the training, including the competencies, learning outcomes, duration, tools used, and training team.
Dokumen ini membahas tentang uji Z, yaitu salah satu uji statistika yang menggunakan distribusi normal. Uji Z digunakan untuk menguji hipotesis dengan sampel besar dan varians yang diketahui. Dokumen ini menjelaskan pengertian, kriteria penggunaan, rumus, dan contoh soal uji Z dua pihak dan satu pihak beserta analisisnya.
Dokumen tersebut membahas metode posisi palsu untuk menyelesaikan persamaan non-linear. Metode ini mempercepat konvergensi dari metode bagi dua dengan menentukan titik potong garis lurus antara dua titik awal yang memiliki nilai fungsi berlawanan tanda. Langkah-langkahnya meliputi penentuan nilai awal x1 dan x2, kalkulasi x3 berdasarkan rumus, dan penentuan subinterval baru berdasarkan tanda nilai fungsi x1 dan
Makalah ini membahas analisis sistem informasi aplikasi penjualan dan pembelian elektronik berbasis web pada toko Kotakom Bandung. Tujuannya adalah merancang sistem informasi untuk memudahkan transaksi penjualan dan pembelian secara online.
Using machine learning in anti money laundering part 2Naveen Grover
In my desire to learn and understand machine learning, I decided to use an AML use case to see how machine learning can be applied to a real business scenario. These articles would cover various machine learning algorithms like classification, clustering and regression
Metode pencarian heuristik merupakan teknik untuk meningkatkan efisiensi proses pencarian dalam state space dengan memilih cabang-cabang yang paling mungkin menyebabkan penyelesaian masalah. Metode-metode pencarian heuristik yang dijelaskan meliputi generate and test, hill climbing, best first search, dan simulated annealing.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
Linear regression is a statistical method used to analyze and understand the relationship between two or more variables. It predicts a numeric target variable based on one or more independent variables. Single linear regression uses one independent variable to predict the dependent variable based on a linear equation. The document provides examples of calculating linear regression coefficients and making predictions using the linear regression equation. It also discusses evaluating linear regression models using metrics like MAE, MSE, and RMSE.
Modul ini membahas konsep dasar kongruensi, termasuk definisi, sifat-sifat, dan teorema-teoremanya. Kongruensi merupakan kelanjutan dari keterbagian dan didefinisikan berdasarkan konsep keterbagian. Modul ini juga membahas sistem residu lengkap dan tereduksi serta peranannya dalam teorema Euler, Fermat, dan Wilson.
Analisis regresi linier berganda dilakukan untuk memprediksi jumlah permintaan air bersih berdasarkan pendapatan keluarga, jumlah tanggungan, dan pengeluaran energi. Hasilnya menunjukkan ada hubungan linier antara permintaan air dengan pendapatan dan jumlah tanggungan, tetapi tidak dengan pengeluaran energi. Semua prediktor berpengaruh secara bersama-sama terhadap permintaan air, meskipun hanya pendapatan dan jumlah tanggungan
Dokumen tersebut membahas tentang hubungan antara primal dan dual dalam linear programming. Secara singkat, dokumen menjelaskan bahwa setiap masalah primal memiliki masalah dual terkait, dan solusi optimum primal memberikan solusi optimum dual. Dokumen juga memberikan contoh untuk memahami bentuk standar primal dan dual.
Algoritma K-nearest neighbor (KNN) digunakan untuk klasifikasi dan prediksi dengan menghitung kedekatan antara kasus baru dengan lama berdasarkan bobot fitur. KNN mencari kasus lama terdekat untuk digunakan sebagai solusi kasus baru, dengan kedekatan diukur antara 0-1. Studi kasus menggunakan KNN untuk memprediksi kemungkinan nasabah memiliki masalah pembayaran dengan mempertimbangkan jarak pendidikan dan
This document outlines the preparation and process of classification modeling. It discusses the objectives of the training, which are for participants to be able to prepare for and conduct classification modeling. It describes dividing data into training, validation, and test sets. Other topics covered include determining modeling techniques, setting model parameters, and evaluating model performance using metrics like accuracy for classification tasks. The document provides information about the training, including the competencies, learning outcomes, duration, tools used, and training team.
Dokumen ini membahas tentang uji Z, yaitu salah satu uji statistika yang menggunakan distribusi normal. Uji Z digunakan untuk menguji hipotesis dengan sampel besar dan varians yang diketahui. Dokumen ini menjelaskan pengertian, kriteria penggunaan, rumus, dan contoh soal uji Z dua pihak dan satu pihak beserta analisisnya.
Dokumen tersebut membahas metode posisi palsu untuk menyelesaikan persamaan non-linear. Metode ini mempercepat konvergensi dari metode bagi dua dengan menentukan titik potong garis lurus antara dua titik awal yang memiliki nilai fungsi berlawanan tanda. Langkah-langkahnya meliputi penentuan nilai awal x1 dan x2, kalkulasi x3 berdasarkan rumus, dan penentuan subinterval baru berdasarkan tanda nilai fungsi x1 dan
Makalah ini membahas analisis sistem informasi aplikasi penjualan dan pembelian elektronik berbasis web pada toko Kotakom Bandung. Tujuannya adalah merancang sistem informasi untuk memudahkan transaksi penjualan dan pembelian secara online.
Using machine learning in anti money laundering part 2Naveen Grover
In my desire to learn and understand machine learning, I decided to use an AML use case to see how machine learning can be applied to a real business scenario. These articles would cover various machine learning algorithms like classification, clustering and regression
The document provides an overview of machine learning concepts including supervised and unsupervised learning algorithms. It discusses splitting data into training and test sets, training algorithms on the training set, testing algorithms on the test set, and measuring performance. For supervised learning, it describes classification and regression tasks, the bias-variance tradeoff, and how supervised algorithms learn by minimizing a loss function. For unsupervised learning, it discusses clustering, representation learning, dimensionality reduction, and exploratory analysis use cases.
The document discusses various ways to monitor machine learning models to ensure they continue performing well after being deployed. It covers measuring performance of classification, regression, and ranking models using metrics like accuracy, precision, recall, F1 score, and area under the curve. It also discusses monitoring feature quality, detecting data drift, and handling class imbalance to maintain high-performing models over time as real-world data changes.
Computer simulation technique the definitive introduction - harry perrosJesmin Rahaman
The document describes a simulation model of a machine interference problem involving a single repairman and multiple machines. Key aspects of the model include:
1) Machines cycle between operational and broken down states, requiring repair from a single repairman.
2) The status of the system is defined by n, the number of broken machines waiting or being repaired.
3) There are two main events - machines breaking down (arrivals) and being repaired (departures) that change n.
4) Clocks are used to track the time of future arrivals and the next departure to drive the simulation forward by triggering the appropriate event.
Ways to evaluate a machine learning model’s performanceMala Deep Upadhaya
Some of the ways to evaluate a machine learning model’s performance.
In Summary:
Confusion matrix: Representation of the True positives (TP), False positives (FP), True negatives (TN), False negatives (FN)in a matrix format.
Accuracy: Worse happens when classes are imbalanced.
Precision: Find the answer of How much the model is right when it says it is right!
Recall: Find the answer of How many extra right ones, the model missed when it showed the right ones!
Specificity: Like Recall but the shift is on the negative instances.
F1 score: Is the harmonic mean of precision and recall so the higher the F1 score, the better.
Precision-Recall or PR curve: Curve between precision and recall for various threshold values.
ROC curve: Graph is plotted against TPR and FPR for various threshold values.
This document discusses different techniques for selecting machine learning models, including random train/test splitting, resampling methods like k-fold cross-validation and bootstrap, and probabilistic measures. Resampling techniques like k-fold cross-validation estimate error by evaluating models on out-of-sample data. Probabilistic measures consider both a model's performance and complexity, seeking to balance fit and simplicity. Common probabilistic measures mentioned are the Akaike Information Criterion, Bayesian Information Criterion, Minimum Description Length, and Structural Risk Minimization.
Module 4: Model Selection and EvaluationSara Hooker
Delta Analytics is a 501(c)3 non-profit in the Bay Area. We believe that data is powerful, and that anybody should be able to harness it for change. Our teaching fellows partner with schools and organizations worldwide to work with students excited about the power of data to do good.
Welcome to the course! These modules will teach you the fundamental building blocks and the theory necessary to be a responsible machine learning practitioner in your own community. Each module focuses on accessible examples designed to teach you about good practices and the powerful (yet surprisingly simple) algorithms we use to model data.
To learn more about our mission or provide feedback, take a look at www.deltanalytics.org.
This document describes research on developing an Android application to identify apple diseases using image processing techniques. An algorithm was created using OpenCV and Java that takes a picture of an apple, applies grayscale conversion for pre-processing, and uses template matching to identify if the apple has bitter rot, blister spot, or scab. The algorithm had success identifying diseases correctly in 71% of cases, though some diseases were only 33% accurate. Future work to improve accuracy could explore alternative methods like cascade classification and verifying the object is an apple first before detecting diseases. The goal is to create a cost-effective mobile tool for farmers to self-identify diseases without expert help.
Statistical Learning and Model Selection (1).pptxrajalakshmi5921
This document discusses statistical learning and model selection. It introduces statistical learning problems, statistical models, the need for statistical modeling, and issues around evaluating models. Key points include: statistical learning involves using data to build a predictive model; a good model balances bias and variance to minimize prediction error; cross-validation is described as the ideal procedure for evaluating models without overfitting to the test data.
This document discusses computational intelligence and supervised learning techniques for classification. It provides examples of applications in medical diagnosis and credit card approval. The goal of supervised learning is to learn from labeled training data to predict the class of new unlabeled examples. Decision trees and backpropagation neural networks are introduced as common supervised learning algorithms. Evaluation methods like holdout validation, cross-validation and performance metrics beyond accuracy are also summarized.
This document provides an introduction to supervised machine learning. It explains that supervised learning involves training machine learning models using labeled input and output data. This allows the models to predict the correct output for new input data based on the training. Some key applications of supervised learning mentioned include image classification, risk assessment, and fraud detection. The document also outlines the basic steps involved in supervised learning, including collecting labeled training data, selecting an algorithm, training and evaluating the model, and provides examples of common supervised learning algorithms for regression and classification problems.
This document summarizes a presentation on model evaluation given at the 4th annual Valencian Summer School in Machine Learning. It discusses the importance of evaluating models to understand how well they will perform on new data and identify mistakes. Various evaluation metrics are introduced like accuracy, precision, recall, F1 score, and Phi coefficient. The dangers of evaluating on training data are explained, and techniques like train-test splits and cross-validation are recommended to get less optimistic evaluations. Regression metrics like MAE, MSE, and R-squared error are also covered. Different evaluation techniques for specific problem types like imbalanced classification, time series forecasting, and model selection are discussed.
This document provides an overview of a project report on simulating a single server queuing problem. The report includes an introduction to operations research, simulation, and the queuing problem. It discusses the research methodology, which involves defining the problem, developing a simulation model, validating the model, analyzing the data, and presenting findings and recommendations. The goal is to use simulation to provide optimal solutions to the queuing problem under study.
16.modul melakukan deployment model (final) v1 1ArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan 60.000 peserta di bidang teknologi informasi dan komunikasi. Program ini terdiri dari tujuh akademi pelatihan untuk berbagai kelompok sasaran seperti lulusan perguruan tinggi, SMK, guru, dan UMKM.
14. modul ta dts2021 model ann 14 juli 2021-v2ArdianDwiPraba
The document discusses Indonesia's Digital Talent Scholarship Program (DTS) which aims to improve the skills and competitiveness of human resources in information and communication technology.
In 2021, the DTS program targets training 60,000 participants across seven academies focused on areas like coding, entrepreneurship, and regional development. The training is intended to increase the skills and expertise of young workers, civilians, and civil servants in information and communication technologies.
The DTS program since 2018-2019 has already provided certification training to 26,000 recipients in information and communication technology fields. This year's program expansion aims to further develop Indonesia's digital talent and workforce.
The document discusses Indonesia's Digital Talent Scholarship Program which aims to provide training and certification in information and communication technology fields. It aims to train 60,000 participants in 2021 to improve skills and competitiveness in the ICT sector as part of national development priorities. The training program is divided into seven academies covering various ICT topics and target audiences, including recent graduates, vocational school graduates, teachers, the general public, civil servants, and digital entrepreneurs. The training utilizes various online platforms and aims to increase productivity and competitiveness in the era of Industry 4.0.
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan digital 60.000 peserta melalui tujuh akademi pelatihan bidang teknologi informasi, seperti Fresh Graduate Academy, Vocational School Graduate Academy, dan Digital Entrepreneurship Academy. Pelatihan dilaksanakan secara daring dan diharapkan meningkatkan daya saing SDM Indonesia di era Industri 4.0.
Metodologi data science diperlukan untuk mengembangkan sistem intelijen berbasis data secara terstruktur dan berhasil. Beberapa metodologi yang umum digunakan adalah KDD dan SEMMA, yang meliputi proses seleksi data, pra-pemrosesan, pemodelan, dan evaluasi untuk menemukan pola dalam data. Kegagalan proyek sering disebabkan oleh masalah lingkup, kualitas data, model, dan sumber daya manusia. Diperlukan pendekatan mult
Kinetic studies on malachite green dye adsorption from aqueous solutions by A...Open Access Research Paper
Water polluted by dyestuffs compounds is a global threat to health and the environment; accordingly, we prepared a green novel sorbent chemical and Physical system from an algae, chitosan and chitosan nanoparticle and impregnated with algae with chitosan nanocomposite for the sorption of Malachite green dye from water. The algae with chitosan nanocomposite by a simple method and used as a recyclable and effective adsorbent for the removal of malachite green dye from aqueous solutions. Algae, chitosan, chitosan nanoparticle and algae with chitosan nanocomposite were characterized using different physicochemical methods. The functional groups and chemical compounds found in algae, chitosan, chitosan algae, chitosan nanoparticle, and chitosan nanoparticle with algae were identified using FTIR, SEM, and TGADTA/DTG techniques. The optimal adsorption conditions, different dosages, pH and Temperature the amount of algae with chitosan nanocomposite were determined. At optimized conditions and the batch equilibrium studies more than 99% of the dye was removed. The adsorption process data matched well kinetics showed that the reaction order for dye varied with pseudo-first order and pseudo-second order. Furthermore, the maximum adsorption capacity of the algae with chitosan nanocomposite toward malachite green dye reached as high as 15.5mg/g, respectively. Finally, multiple times reusing of algae with chitosan nanocomposite and removing dye from a real wastewater has made it a promising and attractive option for further practical applications.
Recycling and Disposal on SWM Raymond Einyu pptxRayLetai1
Increasing urbanization, rural–urban migration, rising standards of living, and rapid development associated with population growth have resulted in increased solid waste generation by industrial, domestic and other activities in Nairobi City. It has been noted in other contexts too that increasing population, changing consumption patterns, economic development, changing income, urbanization and industrialization all contribute to the increased generation of waste.
With the increasing urban population in Kenya, which is estimated to be growing at a rate higher than that of the country’s general population, waste generation and management is already a major challenge. The industrialization and urbanization process in the country, dominated by one major city – Nairobi, which has around four times the population of the next largest urban centre (Mombasa) – has witnessed an exponential increase in the generation of solid waste. It is projected that by 2030, about 50 per cent of the Kenyan population will be urban.
Aim:
A healthy, safe, secure and sustainable solid waste management system fit for a world – class city.
Improve and protect the public health of Nairobi residents and visitors.
Ecological health, diversity and productivity and maximize resource recovery through the participatory approach.
Goals:
Build awareness and capacity for source separation as essential components of sustainable waste management.
Build new environmentally sound infrastructure and systems for safe disposal of residual waste and replacing current dumpsites which should be commissioned.
Current solid waste management situation:
The status.
Solid waste generation rate is at 2240 tones / day
collection efficiently is at about 50%.
Actors i.e. city authorities, CBO’s , private firms and self-disposal
Current SWM Situation in Nairobi City:
Solid waste generation – collection – dumping
Good Practices:
• Separation – recycling – marketing.
• Open dumpsite dandora dump site through public education on source separation of waste, of which the situation can be reversed.
• Nairobi is one of the C40 cities in this respect , various actors in the solid waste management space have adopted a variety of technologies to reduce short lived climate pollutants including source separation , recycling , marketing of the recycled products.
• Through the network, it should expect to benefit from expertise of the different actors in the network in terms of applicable technologies and practices in reducing the short-lived climate pollutants.
Good practices:
Despite the dismal collection of solid waste in Nairobi city, there are practices and activities of informal actors (CBOs, CBO-SACCOs and yard shop operators) and other formal industrial actors on solid waste collection, recycling and waste reduction.
Practices and activities of these actor groups are viewed as innovations with the potential to change the way solid waste is handled.
CHALLENGES:
• Resource Allocation.
ENVIRONMENT~ Renewable Energy Sources and their future prospects.tiwarimanvi3129
This presentation is for us to know that how our Environment need Attention for protection of our natural resources which are depleted day by day that's why we need to take time and shift our attention to renewable energy sources instead of non-renewable sources which are better and Eco-friendly for our environment. these renewable energy sources are so helpful for our planet and for every living organism which depends on environment.
Presented by The Global Peatlands Assessment: Mapping, Policy, and Action at GLF Peatlands 2024 - The Global Peatlands Assessment: Mapping, Policy, and Action
Climate Change All over the World .pptxsairaanwer024
Climate change refers to significant and lasting changes in the average weather patterns over periods ranging from decades to millions of years. It encompasses both global warming driven by human emissions of greenhouse gases and the resulting large-scale shifts in weather patterns. While climate change is a natural phenomenon, human activities, particularly since the Industrial Revolution, have accelerated its pace and intensity
Optimizing Post Remediation Groundwater Performance with Enhanced Microbiolog...Joshua Orris
Results of geophysics and pneumatic injection pilot tests during 2003 – 2007 yielded significant positive results for injection delivery design and contaminant mass treatment, resulting in permanent shut-down of an existing groundwater Pump & Treat system.
Accessible source areas were subsequently removed (2011) by soil excavation and treated with the placement of Emulsified Vegetable Oil EVO and zero-valent iron ZVI to accelerate treatment of impacted groundwater in overburden and weathered fractured bedrock. Post pilot test and post remediation groundwater monitoring has included analyses of CVOCs, organic fatty acids, dissolved gases and QuantArray® -Chlor to quantify key microorganisms (e.g., Dehalococcoides, Dehalobacter, etc.) and functional genes (e.g., vinyl chloride reductase, methane monooxygenase, etc.) to assess potential for reductive dechlorination and aerobic cometabolism of CVOCs.
In 2022, the first commercial application of MetaArray™ was performed at the site. MetaArray™ utilizes statistical analysis, such as principal component analysis and multivariate analysis to provide evidence that reductive dechlorination is active or even that it is slowing. This creates actionable data allowing users to save money by making important site management decisions earlier.
The results of the MetaArray™ analysis’ support vector machine (SVM) identified groundwater monitoring wells with a 80% confidence that were characterized as either Limited for Reductive Decholorination or had a High Reductive Reduction Dechlorination potential. The results of MetaArray™ will be used to further optimize the site’s post remediation monitoring program for monitored natural attenuation.
Improving the viability of probiotics by encapsulation methods for developmen...Open Access Research Paper
The popularity of functional foods among scientists and common people has been increasing day by day. Awareness and modernization make the consumer think better regarding food and nutrition. Now a day’s individual knows very well about the relation between food consumption and disease prevalence. Humans have a diversity of microbes in the gut that together form the gut microflora. Probiotics are the health-promoting live microbial cells improve host health through gut and brain connection and fighting against harmful bacteria. Bifidobacterium and Lactobacillus are the two bacterial genera which are considered to be probiotic. These good bacteria are facing challenges of viability. There are so many factors such as sensitivity to heat, pH, acidity, osmotic effect, mechanical shear, chemical components, freezing and storage time as well which affects the viability of probiotics in the dairy food matrix as well as in the gut. Multiple efforts have been done in the past and ongoing in present for these beneficial microbial population stability until their destination in the gut. One of a useful technique known as microencapsulation makes the probiotic effective in the diversified conditions and maintain these microbe’s community to the optimum level for achieving targeted benefits. Dairy products are found to be an ideal vehicle for probiotic incorporation. It has been seen that the encapsulated microbial cells show higher viability than the free cells in different processing and storage conditions as well as against bile salts in the gut. They make the food functional when incorporated, without affecting the product sensory characteristics.
Evolving Lifecycles with High Resolution Site Characterization (HRSC) and 3-D...Joshua Orris
The incorporation of a 3DCSM and completion of HRSC provided a tool for enhanced, data-driven, decisions to support a change in remediation closure strategies. Currently, an approved pilot study has been obtained to shut-down the remediation systems (ISCO, P&T) and conduct a hydraulic study under non-pumping conditions. A separate micro-biological bench scale treatability study was competed that yielded positive results for an emerging innovative technology. As a result, a field pilot study has commenced with results expected in nine-twelve months. With the results of the hydraulic study, field pilot studies and an updated risk assessment leading site monitoring optimization cost lifecycle savings upwards of $15MM towards an alternatively evolved best available technology remediation closure strategy.
Microbial characterisation and identification, and potability of River Kuywa ...Open Access Research Paper
Water contamination is one of the major causes of water borne diseases worldwide. In Kenya, approximately 43% of people lack access to potable water due to human contamination. River Kuywa water is currently experiencing contamination due to human activities. Its water is widely used for domestic, agricultural, industrial and recreational purposes. This study aimed at characterizing bacteria and fungi in river Kuywa water. Water samples were randomly collected from four sites of the river: site A (Matisi), site B (Ngwelo), site C (Nzoia water pump) and site D (Chalicha), during the dry season (January-March 2018) and wet season (April-July 2018) and were transported to Maseno University Microbiology and plant pathology laboratory for analysis. The characterization and identification of bacteria and fungi were carried out using standard microbiological techniques. Nine bacterial genera and three fungi were identified from Kuywa river water. Clostridium spp., Staphylococcus spp., Enterobacter spp., Streptococcus spp., E. coli, Klebsiella spp., Shigella spp., Proteus spp. and Salmonella spp. Fungi were Fusarium oxysporum, Aspergillus flavus complex and Penicillium species. Wet season recorded highest bacterial and fungal counts (6.61-7.66 and 3.83-6.75cfu/ml) respectively. The results indicated that the river Kuywa water is polluted and therefore unsafe for human consumption before treatment. It is therefore recommended that the communities to ensure that they boil water especially for drinking.
Epcon is One of the World's leading Manufacturing Companies.EpconLP
Epcon is One of the World's leading Manufacturing Companies. With over 4000 installations worldwide, EPCON has been pioneering new techniques since 1977 that have become industry standards now. Founded in 1977, Epcon has grown from a one-man operation to a global leader in developing and manufacturing innovative air pollution control technology and industrial heating equipment.
Improving the Management of Peatlands and the Capacities of Stakeholders in I...
15. modul model evaluasi v 0.6
1.
2. Tujuan Pembelajaran
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu menilai performansi
dari model machine learning.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan
Melakukan Evaluasi Model adalah mampu menghitung berbagai macam pengukuran
performansi model machine learning ke salah satu bahasa pemrograman pada model
yang telah dibuat.
Latar belakang
Evaluasi model machine learning merupakan hal penting sebagai sarana untuk
menentukan apakah model layak digunakan atau tidak. Unit kompetensi ini akan
mengukur kempampuan peserta pelatihan dalam mengevaluasi model machine
learning yang telah dibuat. Penilaian dilakukan dengan mengacu kepada Kriteria Unjuk
Kerja (KUK) dan dilaksanakan di Tempat Uji Kompetensi (TUK), ruang simulasi atau
workshop dengan cara:
1.1. Lisan
1.2. Wawancara
1.3. Tes tertulis
1.4. Demonstrasi
1.5. Metode lain yang relevan.
Deskripsi Pelatihan
Materi ini berisi penjelasan mengenai beberapa cara pengukuran performansi dari
model machine learning dan implementasinya ke salah satu bahasa pemrograman yang
digunakan dalam membangun model.
Kompetensi Dasar
A. Mampu memahami formula pengukuran performansi model machine learning.
B. Mampu mengimplementasikan pengukuran performansi model pada program.
Indikator Hasil Belajar
Dapat melakukan menghitung performansi model machine learning dan
mengimplementasikannya ke bahasa pemrograman yang digunakan dalam membuat
model.
3. INFORMASI PELATIHAN
Akademi Thematic Academy
Mitra Pelatihan Kementerian Komunikasi dan Informatika
Tema Pelatihan Data Scientist: Artificial Intelligence untuk
Dosen dan Instruktur
Sertifikasi • Certificate of Attainment;
• Sertifikat Kompetensi Associate Data
Scientist
Persyaratan Sarana Peserta/spesifikasi device
Tools/media ajar yang akan digunakan
Memiliki laptop/komputer dengan spesifikasi
minimal :
• RAM minimal 2 GB (disarankan 4 GB)
• Laptop dengan 32/64-bit processor
• Laptop dengan Operating System Windows 7,
8, 10, MacOS X atau Linux
• Laptop dengan konektivitas WiFi dan
memiliki Webcam
• Akses Internet Dedicated 126 kbps per
peserta per perangkat
• Memiliki aplikasi Zoom
• Memiliki akun Google Colab
Aplikasi yang akan di gunakan selamat pelatihan Google Colab
Tim Penyusun Ir. Agus Pratondo, S.T., M.T., Ph.D.
INFORMASI PEMBELAJARAN
Unit Kompetensi Materi
pembelajaran
Kegiatan
pembelajaran
Durasi
Pelatihan
Rasio
Praktek : Teori
Sumber
pembelajaran
Menghhitung
performansi model
machine learning
Modul dan
slide untuk
evaluasi
model
Daring/Online Live
Class 2 JP
LMS 4 JP
@45
menit
60:40
Materi Pokok
Konsep perhitungan performansi model dan implementasinya ke bahasa pemrograman
5. EVALUASI MODEL
Pendahuluan
Proses evaluasi model yang telah kita buat merupakan hal penting dalam mengembangkan
model Machine Learning yang baik. Pada bagian ini akan dibahas evaluasi model
khususnya untuk klasifikasi. Proses evaluasi model dapat dilakukan setelah training model
selesai. Evaluasi model menggunakan data evaluasi yang tidak boleh sama dengan data
yang digunakan untuk men-training model. Pengujian dengan data evaluasi ini akan
menghasilkan nilai akurasi sesungguhnya dari sebuah model yang sudah ditraining.
Tetapi, akurasi bukanlah satu-satunya nilai yang diperhatikan dalam melakukan evaluasi
karena bisa saja nilai akurasi yang tinggi menipu akibat dari ketidakseimbangan dataset.
Oleh karena itu diperlukan metrik evaluasi lain yang lebih komprehensif, seperti
Confusion Matrix, Precision, dan Recall.
Akurasi
Secara sederhana, akurasi dapat diperoleh dengan melakukan perbandingan banyaknya
jumlah prediksi yang tepat terhadap sejumlah prediksi yang dilakukan dan dinyatakan
dalam persentase.
𝑎 =
𝑡
𝑛
× 100%
dengan
a adalah akurasi dalam persen,
t adalah jumlah percobaan prediksi benar, dan
n adalah jumlah percobaan.
Untuk evaluasi awal, akurasi dengan pengukuran di atas dapat digunakan sebagai evaluasi
model. Evaluasi lebih lanjut seringkali diperlukan untuk menilai performansi dengan lebih
mendalam. Misalnya, pada pengujian 100 orang yang diduga Covid-19 dengan suatu alat
adalah 90% yang tampakanya cukup tinggi untuk sebuah alat pendeteksi baru. Data yang
sesungguhnya adalah 90 orang negatif dan 10 orang positif dan hasil pengujian dengan
alat baru tersebut adalah 100 orang tersebut dinyatakan negatif. Angka 90 persen menjadi
tidak teralu berarti lagi karena kesalahan yang walaupun hanya 10% namun merupakan
kesalahan fatal. Evaluasi model yang lain yang lebih komprehensif dilakukan dengan
memperhatikan lebih detil data hasil pengujian untuk masing-masing kelas yang akan
dibahas berikutnya.
Confusion Matrix
Confucion matrix merupakan tabulasi detil yang menggambarkan hasil klasifikasi pada
suatu model. Untuk setiap percobaan, hasil klasifikasi dicatat dengan memperhatikan
kelas yang sesungguhnya dengan hasil percobaan yang dilakukan. Berikut ini merupakan
contoh confusion matrix untuk klasifikasi citra buah buahan, dalam hal ini buah mangga,
apel, jambu, dan pear.
6. Kelas Prediksi
mangga apel jambu pear
Kelas
Aktual
mangga 19 3 2 1
apel 1 22 1 1
Jambu 2 2 21 0
Pear 0 1 1 23
Pada contoh tersebut, pengujian terhadap citra mangga dilakukan 25 kali terhadap
sekumpulan data set citra mangga, dimana satu citra mangga tepat diuji satu kali.
Perhatikan area dalam kotak merah pada tabel berikut.
Pada area kotak merah, artinya 25 citra mangga yang diujikan terhadap model alogoritma
klasifikasi berhasil mengidentifikasi 19 citra mangga secara benar, yaitu 19 citra mangga
diidentifikasi sebagai citra mangga. Selanjutnya teradapat kesalahan dalam klasifikasi
yaitu 3 citra mangga diidentifikasi sebagai citra apel, 2 citra mangga diidentifikasi sebagai
citra jambu, dan 1 buah citra mangga diidentifkasi sebagai citra pear. Pada baris tersebut
total percobaan adalah 25 kali dengan 19 percobaan memberikan hasil yang benar dan 6
percobaan memberikan hasil yang salah. Total percobaan pada keseluruhan buah di atas
adalah 100 kali, dengan distribusi citra uji untuk masing-masing buah sebanyak 25 citra
uji.
Tabulasi melalui confision matrix dapat menyajikan akurasi secara lebih baik, walaupun
hasil akurasi akhir tetap berdasarkan kepada banyaknya percobaan valid terhadap total
percobaan yang dilakukan. Hasil klasifikasi yang benar untuk tiap kelas berada tepat di
diagonal matriks. Sedangkan distribusi kesalahan klasifikasi dapat dilihat di bagian selain
diagonal.
Binary Classification Problem
Dalam klasifikasi, sering dijumpai kasus yang memiliki dua kelas saja. Karena hanya dua
kelas maka kasus ini disebut klasifikasi biner (binary classification). Misalnya klasifikasi
pada citra CT scan paru-paru pasien pada pengenalan penyakit Covid-19. Kasus ini hanya
memperediksi dua kelas saja yaitu pasien diprediksi menderita Covid-19 (positif Covid-
19) atau tidak menderita Covid-19 (negatif Covid-19). Klasifikasi semacam ini secara
7. sederhana akan mengkategorisasikan data yang diuji kedalam salah satu dari : kasus
positif atau negatif. Kasus serupa dapat berupa jawaban terhadap klasifikasi : Yes/No,
Bagus/Tidak Bagus, Enak/Tidak Enak, Matang/Tidak Matang, dan sebagainya. Contoh lain
dari model biner adalah pengenalah sebuah objek saja dari kemungkinan banyak objek.
Misalanya klasifikasi citra binatang untuk dikategorikan sebagai citra kucing atau bukan
kucing. Pada kasus terakhir, secara sederhana hasil prediksi dari model akan
menghasilkan keputusan apakah sebuah citra binatang merupakan citra kucing atau
bukan. Pemilihan model pada kasus terakhir juga akan memaksa citra apapun akan
diklasifikasi ke salah satu kelas dari kelas citra kucing atau kelas bukan kucing. Oleh karena
itu, perlu diperhatikan asumsi awal pada model semacam ini, misalnya citra khusus untuk
binatang kucing dan anjing saja, dengan fokus utama klasifikasi adalah mengidentifikasi
kucing. Dengan mengambil fokus binatang kucing, maka prediksi postif berarti kucing
sedangkan negatif adalah bukan kucing.
Pada binary classification, terdapat empat parameter yang dapat diperhatikan untuk
mengevaluasi hasil prediksi dari sebuah model. Empat parameter tersebut adalah:
• True Positive (TP): nilai sesungguhnya adalah positif dan diprediksi postif
• False Positive (FP): nilai sesungguhnya adalah negatif namun diprediksi positif
• True Negative (TN): nilai sesungguhnya adalah negatif dan diprediksi negatif, dan
• False Negative (FN): nilai sesungguhnya adalah positif namun diprediksi negatif.
Pada kasus klasifikasi citra kucing/bukan kucing di atas (perhatikan fokus utama
klasifikasinya, yaitu kucing sehingga positif adalah kucing dan negatif adalah anjing):
True Positive adalah ketika citra yang diuji merupakan foto kucing, kemudian hasil
prediksi model adalah kucing juga. False Positive (FP) adalah ketika citra yang diuji
merupakan foto anjing, tetapi hasil prediksi model adalah kucing. True Negative adalah
ketika citra yang diuji merupakan foto anjing, kemudian hasil prediksi model adalah
anjing juga. False Negative (FN) adalah ketika gambar masukkan merupakan foto kucing,
tetapi hasil prediksi model adalah anjing.
Confusion Matrix Pada Binary Classification
Confusion Matrix merepresentasikan prediksi dengan kondisi sebenarnya dari data yang
dihasilkan oleh model yang telah ditraining. Confusion Matrix akan menggunakan
parameter TP, FP, TN, dan FN dalam representasinya yang secara sederhana apabila
dinyatakan dalam tabel confusion matrix biner adalah sebagai berikut.
Nilai Prediksi
Positive Negative
Nilai
Aktual
Positive True Positive False Negative
Negative False Positive True Negative
Pada kasus prediksi pengenalah Covid-19, kasus False Negative merupakan kasus yang
laing tidak diharapkan. False Negative berarti seseorang sebenarnya menderita Covid-19
namun hasil pengujian menunjukkan negatif. Pada prediksi penyakit dan kebencanaan,
umumnya False Negative merupakan kasus yang paling dihindari (paling ditekan sekecil
mungkin) karena biasanya menyebabkan kerugian besar.
8. Berdasarkan Confusion Matrix, kita dapat menghitung nilai Precision, Recall, dan beberapa
pengukuran lain sebagai berikut.
Precision
Precision adalah rasio dari data positif yang diklasifikasikan bernilai benar terhadap
jumlah total hasil prediksi positif. Berikut adalah persamaan untuk mendapatkan nilai
Precision
𝑝𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
.
Recall
Recall sering disebut juga sebagai True Positive Rate atau Sensitivity. Recall dapat
didefinisikan sebagai rasio dari jumlah data positif yang diprediksi dengan benar (TP)
terhadap jumlah data yang data secara aktual yang bernilai positif. High Recall
menunjukkan kelas dikenali dengan baik (FN rendah), beriku adalah persamaan untuk
mendapkan nilai Recall
𝑟𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
.
Relasi Precision dengan Recall
Nilai Precision dan Recall memiliki makna tentang bagaimana kemampuan memprediksi
dari model yang telah kita buat dengan data training yang telah diberikan, sebagai evaluasi
untuk meningkatkan kemampuan model sudah dibuat. Berikut beberapa contoh
kondisinya:
A. Low Recall, Low Precision
Model yang low recall dan low precision merupakan model yang memiliki kinerja
kurang baik. Baik False Negative (FN) maupun False Positive (FP), yang keduanya
merupakan prediksi dengan hasil yang salah, memiliki nilai yang besar. Model
semacan ini dapat digambarkan melalui diagram sebagai berikut.
Pada kasus klasifikasi kucing di atas, model seperti ini menunjukkan bahwa banyak
citra yang seharusnya kucing diidentifikasi sebagai anjing dan sebaliknya.
B. High Recall, Low Precision
Kondisi memiliki makna bahwa sebagian besar data positif dapat dikenali dengan
baik (FN Rendah), tetapi ada banyak data negatif dikenali sebagai positive (FP).
9. Contoh kasus: Model untuk klasifikasi citra kucing dan bukan kucing. Model dapat
mengklasifikasikan dengan benar banyak gambar kucing sebagai kucing tetapi
banyak juga mengklasifikasikan anjing sebagai kucing.
C. Low Recall, High Precision
Model dapat mengklasifikasi lebih sedikit data bernilai positif (FN tinggi), tetapi
model mengklasifikasikan data positif yang bernilai positif benar-benar bernilai
positif (FP rendah).
Contoh kasus: Model untuk klasifikasi citra kucing dan bukan kucing. Hasil prediksi
model berupa citra kucing, mayoritas adalah benar sebagai citra kucing.
Sayangnya, banyak juga citra yang sebenarnya citra kucing namun diprediksi
sebagai anjing.
D. High Recall, High Precision
10. Model yang diharapakan adalah model yang memiliki Recall maupun Precision
yang tinggi. Kesalahan prediksi baik False Positive maupum False Negative dapat
ditekan seminimal mungkin.
F1-Score
F1-Score menghitung hubungan antara Precision dan Recal yang dinyatakan dengan
rumus
F1𝑆𝑐𝑜𝑟𝑒 = 2
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 • 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
.
Specificity
Specificity dikenal juga sebagai True Negative Rate. Specifity merupakan rasio data yang
diprediksi negatif dengan benar terhadap data aktual yang negatif.
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
𝑇𝑁
𝑇𝑁 + 𝐹𝑃
.
Negative Predictive Value
Negative Predictive Value merupakan rasio data yang diprediksi negatif dengan benar
terhadap data yang diprediksi negatif.
𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑢𝑒 =
𝑇𝑁
𝑇𝑁 + 𝐹𝑁
.
Accuracy
Pada akhirnya, pengukuran model yang paling mendasar tetap diperlukan yaitu akurasi
yang pada kasus klasifikasi biner dapat dirumuskan sebagai:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
.
11. Peta Evaluasi Model untuk Klasifikasi Biner
Berbagai pengukuran performansi pada klasifikasi biner di atas dapat diintisarikan
kedalam tabel berikut.
Nilai Prediksi
Positive Negative
Nilai
Aktual
Positive True Positive (TP) False Negative (FN)
Recall, Sensitivity, True
Positive Rate
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
Negative False Positive(FP) True Negative (TN)
Specificity, True Negative
Rate
𝑇𝑁
𝑇𝑁 + 𝐹𝑃
Precision
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
.
Negative Predictive
Value
𝑇𝑁
𝑇𝑁 + 𝐹𝑁
.
Accuracy
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
Pada latihan berikut, akan digunakan Precison dan Recall sebagai sarana latihan dalam
mengukur performansi model.
Program
Pada modul ini, Google Colab digunakan untuk menjalankan program. Google Colab
memiliki fleksibelitas tinggi sehingga saat ini Google Colab mulai banyak digunakan oleh
para programmer khususnya yang menggunakan bahasa pemograman Python. Google
Colab tidak jauh berbeda dengan Jupyter notebook, hanya saja untuk Google Colab Anda
tidak perlu untuk melakukan instalasi sepanjang Anda memiliki akun Gmail. Anda dapat
mengakses Google dimana saja selama terhubung dengan internet. Tidak hanya simpel
dalam penggunaan saja, Google Colab juga memiliki kelebihan yaitu ketika Anda
menjalankan program Anda di Google Colab, maka Anda menggunakan resource yang telah
disediakan oleh Google Colab. Oleh karena itu, apabila komputer Anda tidak memiliki spek
yang cukup bagus Anda dapat menggunakan Google untuk menggunakan spek super
komputer dari Google. Hanya saja untuk layanan gratis Anda dapat menjalankan program
dengan durasi 12 jam, apabila lebih dari 12 jam Anda perlu membayar. Seperti yang telah
dijelaskan sebelumnya Google Colab memiliki tampilan yang tidak terlalu berbeda dengan
Jupyter notebook. Google Colab dapat menjalankan program untuk setiap cell yang
berbeda, cell ini berguna untuk melakukan tracing atau memahami alur dari sebuah
program. Dalam modul ini informasi akan dijelaskan pada setiap cell yang ada. Program
berikut akan mempraktikkan bagaimana mengevaluasi model yang bertugas
mengklasifikasikan citra, apakah citra tersebut citra kucing atau bukan (anjing). Nilai
postif adalah artinya kucing dan negatif adalah anjing.
12. Source code pada cell ini bertujuan untuk mengambil data foto kucing dan anjing yang
akan digunakan sebagai dataset untuk pembuatan model.
Setiap data yang didownload pada Google Colab apabila path tidak dideklarasikan maka
secara default akan tersimpan di path ‘/tmp/’. Perintah diatas digunakan untuk
melakukan unzip pada file cats_and_dogs_filtered.zip yang telah didownload sebelumnya.
Cara untuk mengecek foldernya Anda dapat mengikuti cara seperti berikut
!wget --no-check-certificate
https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip
-O /tmp/cats_and_dogs_filtered.zip
import os
import zipfile
local_zip = '/tmp/cats_and_dogs_filtered.zip'
zip_ref = zipfile.ZipFile(local_zip, 'r')
zip_ref.extractall('/tmp')
zip_ref.close()
13.
14. Source code berikut untuk mengambil directory dari folder yang nanti-nya akan
digunakan.
Source code ini digunakan untuk menampilkan 10 nama file yang berada pada folder, hal
ini bertujuan untuk memastikan apakah sudah benar data yang kita inginkan sudah
didapat oleh program kita.
train_cat_fnames = os.listdir(train_cats_dir)
print(train_cat_fnames[:10])
train_dog_fnames = os.listdir(train_dogs_dir)
train_dog_fnames.sort()
print(train_dog_fnames[:10])
base_dir = '/tmp/cats_and_dogs_filtered'
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')
train_cats_dir = os.path.join(train_dir, 'cats')
train_dogs_dir = os.path.join(train_dir, 'dogs')
validation_cats_dir = os.path.join(validation_dir, 'cats')
validation_dogs_dir = os.path.join(validation_dir, 'dogs')
15. Dengan menggunakan source code ini dapat mengetahui berapa banyak foto yang
terdapat dalam folder.
Source code digunakan untuk menampilakan gambar sebanyak 4 kesamping dan 4
kebawah.
Source code berikut digunakan untuk menampilkan 8 foto kucing dan anjing pertama.
fig = plt.gcf()
fig.set_size_inches(ncols * 4, nrows * 4)
pic_index += 8
next_cat_pix = [os.path.join(train_cats_dir, fname)
for fname in train_cat_fnames[pic_index-8:pic_index]]
next_dog_pix = [os.path.join(train_dogs_dir, fname)
for fname in train_dog_fnames[pic_index-8:pic_index]]
for i, img_path in enumerate(next_cat_pix+next_dog_pix):
sp = plt.subplot(nrows, ncols, i + 1)
sp.axis('Off')
img = mpimg.imread(img_path)
plt.imshow(img)
plt.show()
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
nrows = 4
ncols = 4
pic_index = 0
print('total training cat images:', len(os.listdir(train_cats_dir)))
print('total training dog images:', len(os.listdir(train_dogs_dir)))
print('total validation cat images:', len(os.listdir(validation_cats_dir)))
print('total validation dog images:', len(os.listdir(validation_dogs_dir)))
16. Code berikut digunakan untuk mengambil library yang akan digunakan untuk membuat
arsitektur model.
from tensorflow.keras import layers
from tensorflow.keras import Model
17. Source code berikut adalah code utama untuk pembuatan arsitektur, dalam model ini
menggunakan input gambar berwarna dengan dimensi 150x150.
Source code diatas digunakan untuk mendeklarasikan parameter-parameter yang akan
digunakan untuk melakukan proses training.
Source code berikut dijalankan hanya apabila Anda ingin mengecek bagaiman arsitektur
dari model yang sudah Anda buat.
from tensorflow.keras.optimizers import RMSprop
model.compile(loss='binary_crossentropy',
optimizer=RMSprop(lr=0.001),
metrics=['acc'])
img_input = layers.Input(shape=(150, 150, 3))
x = layers.Flatten()(img_input)
x = layers.Dense(512, activation='relu')(x)
output = layers.Dense(2, activation='sigmoid')(x)
model = Model(img_input, output)
model.summary()
18. Source code berikut digunakan uuntuk mengambil directory folder foto kucing dan
anjing, serta mendeklarasikan variabel yang akan digunakan untuk menyimpan gambar
dan label.
Source code berikut digunakan untuk meresize ukuran dan menormalisasikan nilai
warna dari setiap gambar kemudian disimpan kedalam variabel yang telah dibuat
sebelumnya. Code juga melakukan penyimpanan label dari setiap foto.
Source code berikut memiliki fungsi yang sama seperti sebelumnya, hanya saja
sebelumnya untuk data latih, sedangkan ini untuk data validasi.
for imagePath in imagePathV:
a = Image.open(imagePath)
image = np.array(a.resize((150,150))) / 255.0
val.append(image)
label = imagePath.split(os.path.sep) [-2]
labelsv.append(label)
from PIL import Image
import numpy as np
for imagePath in imagePathD:
a = Image.open(imagePath)
image = np.array(a.resize((150,150))) / 255.0
data.append(image)
label = imagePath.split(os.path.sep) [-2]
labelsd.append(label)
from imutils import paths
imagePathV = paths.list_images('/tmp/cats_and_dogs_filtered/validation')
imagePathD = paths.list_images('/tmp/cats_and_dogs_filtered/train')
data = []
labelsd = []
val = []
labelsv = []
19. Source code berikut digunakan untuk merubah bentuk label yang sebelumnya berupa
nama kucing atau cat dan anjing atau dog menjadi direpresentasikan dalam bentuk
biner.
Source code berikut berfungsi untuk memisahkan data secara acak sebagai data latih
dan data uji dengan persentase yang telah dapat ditentukan sesuai kebutuhan. Sehingga
dengan menggunakan code berikut Anda tidak perlu memisahkan data untuk training
dan untuk uji, ketika Anda menyiapkan data hanya perlu memisahkan kelasnya saja.
Source code digunakan untuk melakukan process training dan untuk mengevaluasi
model dengan menggunakan data validasi serta menampilkan nilai akurasi yang
didapatkan.
e = 55
b = 32
H=model.fit(trainX, trainY,validation_data=(testX, testY), batch_size=b, epoch
s=e, shuffle=True )
predY=model.predict(testX)
print("n Mengevaluasi Model yang telah ditraining dengan menggunakan data uji
:")
model.evaluate(x=testX, y=testY, batch_size=32)
list_of_metrics_to_plot = ['accuracy']
e = 55
b = 32
H=model.fit(trainX, trainY,validation_data=(testX, testY), batch_size=b, epochs
=e, shuffle=True )
predY=model.predict(testX)
print("n Evaluate the new model against the test set:")
model.evaluate(x=testX, y=testY, batch_size=32)
list_of_metrics_to_plot = ['accuracy']
from sklearn.model_selection import train_test_split
(trainX,testX, trainY, testY) = train_test_split(np.array(data),
np.array(labelsd), test_size=0.2)
print(trainX.shape)
print(testX.shape)
print(labelsd)
lb = LabelBinarizer()
labelsd1 = lb.fit_transform(labelsd)
labelsd = np.hstack((labelsd1, 1 - labelsd1))
labelsd
from sklearn.preprocessing import LabelBinarizer
print(labelsv)
lb = LabelBinarizer()
labelsv1 = lb.fit_transform(labelsv)
labelsv = np.hstack((labelsv1, 1 - labelsv1))
labelsv
20. Kedua source code diatas berfungsi untuk menampilkan grafik dari proses training yang
telah dilakukan, dari kedua grafik berikut kita dapat mengetahui apakah model kita
sudah melakukan proses training dengan benar. Sehingga dapat mengetahui apakah
overfitting ataupun underfitting.
#grafik perbandingan val_acc dengan train_acc
import matplotlib.pyplot as plt
f, ax = plt.subplots()
ax.plot([None] + H.history['acc'], 'o-')
ax.plot([None] + H.history['val_acc'], 'x-')
ax.legend(['Train acc', 'Validation acc'], loc = 0)
ax.set_title('Training/Validation acc per Epoch')
ax.set_xlabel('Epoch')
ax.set_ylabel('acc')
#grafik perbandingan loss train dengan loss val
import matplotlib.pyplot as plt
f, ax = plt.subplots()
ax.plot([None] + H.history['loss'], 'o-')
ax.plot([None] + H.history['val_loss'], 'x-')
ax.legend(['Train Loss', 'Validation Loss'], loc = 0)
ax.set_title('Training/Validation Loss per Epoch')
ax.set_xlabel('Epoch')
ax.set_ylabel('Loss')
21. Source code berfungsi untuk mengolah data validasi dengan data hasil prediksi untuk
membentuk Confusion Matrix.
Source code berikut berfungsi untuk membentuk Confusion Matrix, nilai
direpresentasikan secara arah jarum jam sebagai berikut: TN, FP, TP, dan FN.
Source code berikut digunakan untuk menghitung dan menampilkan Precision serta
Recall.
FP = cm[0,1]
FN = cm[1,0]
TP = cm[1,1]
TN = cm[0,0]
# Sensitivity, hit rate, recall, atau true positive rate
TPR = TP/(TP+FN) #Recall
# Specificity atau true negative rate
TNR = TN/(TN+FP)
# Precision atau positive predictive value
PPV = TP/(TP+FP) #Precision
# Negative predictive value
NPV = TN/(TN+FN)
# Fall out atau false positive rate
FPR = FP/(FP+TN)
# False negative rate
FNR = FN/(TP+FN)
# False discovery rate
FDR = FP/(TP+FP)
# Overall accuracy
ACC = (TP+TN)/(TP+FP+FN+TN)
F1 = 2*((PPV*TPR)/(PPV+TPR))
print("Positi = Kucing, Negatif = Anjing")
print(PPV)
print(TPR)
print(F1)
from sklearn.metrics import multilabel_confusion_matrix
predY[1]
rounded_labels=np.argmax(predY, axis=1)
rounded_labels[1]
rounded_predict=np.argmax(testY, axis=1)
rounded_predict[1]
cm = confusion_matrix(rounded_labels, rounded_predict)
plot_confusion_matrix(cm)
22. Source code berikut dapat langsung memunculkan nilai dari Precision, Recall, dan F-1 Score.
from sklearn.metrics import classification_report
print("[INFO] Mengevaluasi model...")
predictions = model.predict(testX, batch_size=32)
print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1),
target_names=lb.classes_))
23. Tugas Dan Proyek Pelatihan
1. Kuis Modul 15
2. Implementasikan klasifikasikan citra (dari dataset publik) dan evaluasi model yang
dibangun
Link Referensi Modul Lima Belas
Link Pertanyaan Modul Lima Belas
Bahan Tayang
Power Point
Link room Pelatihan dan Jadwal live sesi bersama instruktur
Zoom
Penilaian
Komposisi penilaian Tugas Melakukan Deployment Model: Nilai 100
Target Penyelesaian Modul Pertama
1 hari/sampai 6JP