SlideShare a Scribd company logo
Talend Open Studio DQ
Tutorial pro kurz 4IZ562
Ing. David Pejčoch
KIZI / FIS VŠE Praha
david@pejcoch.com
2013-05-26
Příklady používají
Common Data
Model pro
vertikálu
Insurance
publikovaný na
www.dataquality.
cz/kbase/
Instalace a spuštění
1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB)
2. Rozzipujte na disk
3. Spusťte TOS_DQ-win32-x86.exe
4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“
Sem se budou
otevírat jednotlivé
záložky
Sem se budou ukládat jednotlivé
analýzy
Knihovna jednotlivých komponent.
Exchange složka představuje sdílené
komponenty v rámci komunity
Nadefinované datové zdroje
Integrovaný help „for Dummies“
Help se zobrazuje v záložce v pravé části úvodního
okna. Neumožňuje přímé spouštění wizardů,
pouze odkazuje na jednotlivé kroky.
Vytvoření připojení k databázi
Připojení k MySQL
Vyplňte příslušný login, heslo, adresu serveru a
název databáze.
Vytvoření nového validačního pravidla
Validace pomocí regex
Analýza frekvencí vzorů
Dotaz nad tabulkou
Definice uloženého dotazu
Popis základních funkčních prvků
• Rules = pouze WHERE klauzule
• Patterns = vzory pro validaci
– pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v
různých složkách podle domén)
– pomocí SQL LIKE klauzule specifické pro různá RDBMS
• Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci
existujícího připojení na databázi)
• Indicators = SQL příkazy s využitím sady předdefinovaných templatů
– Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet
záznamů, které vyhovují SQL LIKE klauzuli
– Pattern Finder = hledání četností vzorů
– Soundex: tabulka četností Soundex hodnot
– ...
Popis funkcionalit v rámci DB Connection
• Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků,
indexů v tabulkách)
• Na úrovni databáze: overview analýza
• Na úrovni seznamu tabulek: porovnání tabulek
• Na úrovni tabulek:
– analýza tabulky pomocí SQL rules,
– column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců
a where podmínky provede analýzu s grafickým výstupem),
– pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z
výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze
vzorů regulární výrazy)
– preview table (přehodí do módu s konzolí pro SQL)
Popis funkcionalit v rámci DB Connection
• Na úrovni sloupce:
– Analýza hodnot z množiny sloupců
– Analýza korelace mezi sloupci
– Analýza kategorií nominální proměnné
– Pattern frequency analysis + další viz na úrovni tabulek

More Related Content

Similar to Talend Open Studio DQ

4311 souborovy system_os_net_ware_1
4311 souborovy system_os_net_ware_14311 souborovy system_os_net_ware_1
4311 souborovy system_os_net_ware_1
pisaceku
 
Symfony vs Nette vs Phalcon
Symfony vs Nette vs PhalconSymfony vs Nette vs Phalcon
Symfony vs Nette vs Phalcon
Vojta Svoboda
 
.NET v SQL Serveru
.NET v SQL Serveru.NET v SQL Serveru
.NET v SQL Serveru
Jan Drozen
 
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve SwiftuJan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
mdevtalk
 
Relační databáze efektivně z pohledu vývojáře
Relační databáze efektivně z pohledu vývojářeRelační databáze efektivně z pohledu vývojáře
Relační databáze efektivně z pohledu vývojáře
Jan Smitka
 
Tv 10 11
Tv 10 11Tv 10 11
Tv 10 11352
 
Tv 06
Tv 06Tv 06
Tv 06352
 
Ověření dat, maticové funkce, kontingenční tabulky
Ověření dat, maticové funkce, kontingenční tabulkyOvěření dat, maticové funkce, kontingenční tabulky
Ověření dat, maticové funkce, kontingenční tabulky
352
 
Jiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchJiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchKISK FF MU
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPI
Jan Lysý
 
Rozšiřitelnost ASP.NET MVC
Rozšiřitelnost ASP.NET MVCRozšiřitelnost ASP.NET MVC
Rozšiřitelnost ASP.NET MVC
topascz
 
Technické výpočty (kombinované studium)
Technické výpočty (kombinované studium)Technické výpočty (kombinované studium)
Technické výpočty (kombinované studium)
352
 
Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16
Martin Bém
 
Jak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache DerbyJak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache Derby
Lukáš Petrlík
 
Revoluce v cloudu: první autonomně řízená databáze na světě
Revoluce v cloudu: první autonomně řízená databáze na světěRevoluce v cloudu: první autonomně řízená databáze na světě
Revoluce v cloudu: první autonomně řízená databáze na světě
MarketingArrowECS_CZ
 
Spring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou TvariSpring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou Tvari
Roman Pichlík
 

Similar to Talend Open Studio DQ (20)

4311 souborovy system_os_net_ware_1
4311 souborovy system_os_net_ware_14311 souborovy system_os_net_ware_1
4311 souborovy system_os_net_ware_1
 
Symfony vs Nette vs Phalcon
Symfony vs Nette vs PhalconSymfony vs Nette vs Phalcon
Symfony vs Nette vs Phalcon
 
R85 Designer
R85 DesignerR85 Designer
R85 Designer
 
R85 Designer Tcl
R85 Designer TclR85 Designer Tcl
R85 Designer Tcl
 
.NET v SQL Serveru
.NET v SQL Serveru.NET v SQL Serveru
.NET v SQL Serveru
 
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve SwiftuJan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
Jan Čislinský: Seznámení se Sourcery aneb Základy metaprogramování ve Swiftu
 
Relační databáze efektivně z pohledu vývojáře
Relační databáze efektivně z pohledu vývojářeRelační databáze efektivně z pohledu vývojáře
Relační databáze efektivně z pohledu vývojáře
 
Tv 10 11
Tv 10 11Tv 10 11
Tv 10 11
 
Tv 06
Tv 06Tv 06
Tv 06
 
Ověření dat, maticové funkce, kontingenční tabulky
Ověření dat, maticové funkce, kontingenční tabulkyOvěření dat, maticové funkce, kontingenční tabulky
Ověření dat, maticové funkce, kontingenční tabulky
 
Jiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchJiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkách
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPI
 
Ms access
Ms accessMs access
Ms access
 
Rozšiřitelnost ASP.NET MVC
Rozšiřitelnost ASP.NET MVCRozšiřitelnost ASP.NET MVC
Rozšiřitelnost ASP.NET MVC
 
Technické výpočty (kombinované studium)
Technické výpočty (kombinované studium)Technické výpočty (kombinované studium)
Technické výpočty (kombinované studium)
 
Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16
 
Jak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache DerbyJak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache Derby
 
Daos
DaosDaos
Daos
 
Revoluce v cloudu: první autonomně řízená databáze na světě
Revoluce v cloudu: první autonomně řízená databáze na světěRevoluce v cloudu: první autonomně řízená databáze na světě
Revoluce v cloudu: první autonomně řízená databáze na světě
 
Spring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou TvariSpring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou Tvari
 

Talend Open Studio DQ

  • 1. Talend Open Studio DQ Tutorial pro kurz 4IZ562 Ing. David Pejčoch KIZI / FIS VŠE Praha david@pejcoch.com 2013-05-26
  • 2. Příklady používají Common Data Model pro vertikálu Insurance publikovaný na www.dataquality. cz/kbase/
  • 3. Instalace a spuštění 1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB) 2. Rozzipujte na disk 3. Spusťte TOS_DQ-win32-x86.exe 4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“
  • 4.
  • 5. Sem se budou otevírat jednotlivé záložky Sem se budou ukládat jednotlivé analýzy Knihovna jednotlivých komponent. Exchange složka představuje sdílené komponenty v rámci komunity Nadefinované datové zdroje
  • 6. Integrovaný help „for Dummies“ Help se zobrazuje v záložce v pravé části úvodního okna. Neumožňuje přímé spouštění wizardů, pouze odkazuje na jednotlivé kroky.
  • 8. Připojení k MySQL Vyplňte příslušný login, heslo, adresu serveru a název databáze.
  • 9.
  • 11.
  • 12.
  • 13.
  • 14.
  • 16.
  • 17.
  • 18.
  • 19.
  • 21.
  • 22.
  • 24.
  • 26.
  • 27. Popis základních funkčních prvků • Rules = pouze WHERE klauzule • Patterns = vzory pro validaci – pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v různých složkách podle domén) – pomocí SQL LIKE klauzule specifické pro různá RDBMS • Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci existujícího připojení na databázi) • Indicators = SQL příkazy s využitím sady předdefinovaných templatů – Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet záznamů, které vyhovují SQL LIKE klauzuli – Pattern Finder = hledání četností vzorů – Soundex: tabulka četností Soundex hodnot – ...
  • 28. Popis funkcionalit v rámci DB Connection • Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků, indexů v tabulkách) • Na úrovni databáze: overview analýza • Na úrovni seznamu tabulek: porovnání tabulek • Na úrovni tabulek: – analýza tabulky pomocí SQL rules, – column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců a where podmínky provede analýzu s grafickým výstupem), – pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze vzorů regulární výrazy) – preview table (přehodí do módu s konzolí pro SQL)
  • 29. Popis funkcionalit v rámci DB Connection • Na úrovni sloupce: – Analýza hodnot z množiny sloupců – Analýza korelace mezi sloupci – Analýza kategorií nominální proměnné – Pattern frequency analysis + další viz na úrovni tabulek