Jak przygotować dane do uczenia maszynowego? | Ermlab Software

Przygotowanie danych do
uczenia maszynowego
Marek Melzacki

● Pythonista,
● Data Scientist,
● NLP – natural language processing,
● Z wykształcenia mechatronik / mechanik,
● Poza pracą – tancerz, planszówkowicz.
● https://goodwrite.pl,
● Sumaryzacja i anotacja tekstów,
● CoDoCzytania.pl,
● BookScout.pl,
● Inne projekty w zakresie: web, Django, NLP,
data science.
Marek Melzacki

Agenda
1. Krótko o Pythonie
2. Wstęp do przetwarzania danych
3. Proces przygotowania danych pod model
4. Kluczowe kwestie
5. Sekcja Q&A

Python, czyli co syczy w trawie?
● Guido van Rossum – Benevolent Dictator for Life,
● Projekt open source,
● PEPs - Python Enhance Proposals (np. PEP8, PEP484),
● Zen of Python,
● Ważniejsze wersje: 2.7, 3.6+,
● pip – narzędzie do instalowania bibliotek.

Python, czyli co syczy w trawie?
● Paradygmaty programowania (obiektowy, strukturalny, funkcyjny),
● Dynamicznie typowany,
● Interpreter,
● Wszystko jest obiektem,
● Wcięcia zamiast średników i nawiasów.

To przecież proste
Zapisz coś gdzieś
● baza danych
● API
● print
● txt
Weź cokolwiek
● string
● txt
● JPEG
● csv
● XML
● PDF
Zrób coś z tym
● usunięcie polskich znaków
● zliczenie słów
● obrócenie o 90 stopni
● policzenie przychodów
● znalezienie nowych
produktów

To przecież proste: wersja ML
Zapisz coś
gdzieś
Weź cokolwiek
Zrób coś z tym
Ciągły proces na
tych samych
danych, ale inny
etap

● Pozyskanie danych ze źródeł zewnętrznych (csv, html, DB, API, txt, pdf itp.),
● Przekształcenie danych (przeczyszczenie, filtrowanie, statystyki),
● Załadowanie danych do bazy danych / zapis danych (do csv, API, DB).
ETL (Extract, Transform, Load)

Źródło
danych
Źródło
danych
Źródło
danych
Dane w
jednym
formacie
(surowe)
Importer
Adapter
Importer
Adapter
Poznanie
danych
Czyszczenie
i zapis
danych
(czyste)
Przygotowanie
danych do
modelu
01 02 03 04 05 06

● Jakie dane posiadamy?
● Jakie dane są łatwo dostępne?
● W jakiej są postaci, jaki mają format?
● Czy są w jakikolwiek sposób poukładane czy 1 wielki worek?
Etap 1: źródła danych

● Posiadamy różne źródła danych i różny format zapisu,
● W inny sposób wyciągamy dane z API, bazy danych, innej bazy danych, raportu w csv od jednej
firmy, a inaczej od drugiej firmy,
● Mamy bardzo wyspecjalizowany kod, raczej nie wykorzystamy całości do wielu zastosowań.
Etap 2: importery / adaptery

● Posiadamy różne źródła danych i różny format zapisu,
● W inny sposób wyciągamy dane z API, bazy danych, innej bazy danych, raportu w csv
od jednej firmy, a inaczej od drugiej firmy,
● Mamy bardzo wyspecjalizowany kod, raczej nie wykorzystamy całości do wielu
zastosowań.
Etap 3: dane ujednolicone

● Informacje z różnych źródeł zapisane do jednego formatu (struktura plików, csv, json,
json lines, baza danych),
● Kod dzięki temu w następnych etapach będzie uniwersalny,
● Czy nasza struktura danych będzie się łatwo skalować?
● Czy dane są łatwe do zapisu i odczytu?
● Lepiej mieć więcej info niż mniej!
Etap 3: dane ujednolicone

● Poznanie danych,
● Eksploracja danych,
● Statystyki,
● Unikalne elementy według różnych kryteriów,
● Kategoryzowanie w grupy.
Etap 4: poznanie danych

● Wyczyszczenie danych (np. emotikony z tekstu),
● Wykluczenie niepoprawnych / niepasujących danych (np. za małe zdjęcia, tekst),
● Augumentacja danych, jeżeli to potrzebne (modyfikacja w celu zwiększenia liczby danych),
● Przygotowanie datasetów (np. tworzenie błędów w zdaniach, usuwanie kawałka obrazka).
Etap 5: przetwarzanie danych

● Zamiana danych na wektory i macierze,
● Przygotowanie skryptów do trenowania,
● Zaplanowanie eksperymentów,
● Skrypty do walidacji modelu,
● Zapis wyników eksperymentów.
Etap 6: przygotowanie danych,
trening modelu

● Ani jedno, ani drugie!
● Przetwarzanie danych to nie magia ani czary,
● Polega na robieniu wielu małych rzeczy i składaniu je w długie sekwencje zdarzeń.
Data Scientist: mag czy
czarownik?

● Czy dane zbieramy raz czy cyklicznie?
● Czy forma zapisu może się skalować?
● Czy forma zapisu danych jest otwarta na modyfikację?
● Czy zebrane dane są zawsze aktualne?
Zbieranie danych

● Ile czasu trwa napisanie kodu do pobierania danych?
● Jaki jest czas wykonywania skryptu?
● Czy dane są otwarte na modyfikację? - dodanie dodatkowego info
Techniczne

● Jakie dane zbierać, by wyuczyć model?
● Jak analizować dane i określać, które z nich są istotne?
● Jak przygotować dane pod model?
Trenowanie

Dzięki za uwagę!
https://socialshub.net/Marek (mój newsletter, IG, Li)
https://ermlab.com (nasza strona firmowa)

Jak przygotować dane do uczenia maszynowego? | Ermlab Software

Recommended

Recommended

More Related Content

Similar to Jak przygotować dane do uczenia maszynowego? | Ermlab Software

Similar to Jak przygotować dane do uczenia maszynowego? | Ermlab Software (20)

Jak przygotować dane do uczenia maszynowego? | Ermlab Software