SlideShare a Scribd company logo
Malach: zpracování audiovizuálního archívu
svědectví přeživších holocaustu
Pavel Pecina
pecina@ufal.mff.cuni.cz
Ústav formální a aplikované lingvistiky, MFF UK
NMI 2015, Praha
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 …
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 filmem …
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 filmem a vizí
Vize Stevena Spielberga:
1. shromáždit a zachovat výpovědi
svědků a přeživších holokaustu
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 filmem a vizí
Vize Stevena Spielberga:
1. shromáždit a zachovat výpovědi
svědků a přeživších holokaustu
2. katalogizovat tyto výpovědi a
zpřístupnit je veřejnosti
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 filmem a vizí
Vize Stevena Spielberga:
1. shromáždit a zachovat výpovědi
svědků a přeživších holokaustu
2. katalogizovat tyto výpovědi a
zpřístupnit je veřejnosti
3. šířit jejich obsah za účelem
vzdělávání a boje proti intoleranci
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vše začalo v roce 1993 filmem a vizí
Vize Stevena Spielberga:
1. shromáždit a zachovat výpovědi
svědků a přeživších holokaustu
2. katalogizovat tyto výpovědi a
zpřístupnit je veřejnosti
3. šířit jejich obsah za účelem
vzdělávání a boje proti intoleranci
4. umožnit a zjednodušit získávání
podobných záznamů v budoucnu
2 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
1999 Během 5 let VHF vytvořila největší archív svého druhu na světě
obsahující 52 000 výpovědí svědků holokaustu z 57 zemí.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
1999 Během 5 let VHF vytvořila největší archív svého druhu na světě
obsahující 52 000 výpovědí svědků holokaustu z 57 zemí.
2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD,
zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola).
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
1999 Během 5 let VHF vytvořila největší archív svého druhu na světě
obsahující 52 000 výpovědí svědků holokaustu z 57 zemí.
2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD,
zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola).
2001 NSF financuje projekt Malach na automatické zpracování celého archívu,
řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
1999 Během 5 let VHF vytvořila největší archív svého druhu na světě
obsahující 52 000 výpovědí svědků holokaustu z 57 zemí.
2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD,
zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola).
2001 NSF financuje projekt Malach na automatické zpracování celého archívu,
řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD.
2002 Zřízeny první přístupové body k celému archívu,
využívájí rychlé počítačové sítě Internet 2 a velké mezipaměti.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění
1993 Stephen Spielberg uvádí film Schindlerův seznam,
během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy.
1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF)
s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust.
1999 Během 5 let VHF vytvořila největší archív svého druhu na světě
obsahující 52 000 výpovědí svědků holokaustu z 57 zemí.
2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD,
zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola).
2001 NSF financuje projekt Malach na automatické zpracování celého archívu,
řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD.
2002 Zřízeny první přístupové body k celému archívu,
využívájí rychlé počítačové sítě Internet 2 a velké mezipaměti.
2006 Z VHF se stává USC Shoah Foundation, Inst. for Visual History & Education
s obecnější misí: překonávat předsudky, netoleranci, fanatismus a utrpení, které působí.
3 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
2009 Na Youtube spuštěn kanál USC Shoah Foundation.
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
2009 Na Youtube spuštěn kanál USC Shoah Foundation.
2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK.
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
2009 Na Youtube spuštěn kanál USC Shoah Foundation.
2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK.
2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line.
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
2009 Na Youtube spuštěn kanál USC Shoah Foundation.
2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK.
2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line.
2012 MŠMT financuje projekt AMalach s cílem dál vylepšit zpřístupnění archívu.
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Stručná historie archívu a jeho zpřístupnění (pokrač.)
2008 Počet přístupových míst se zvýšil na 21 po celém světě.
2009 Na Youtube spuštěn kanál USC Shoah Foundation.
2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK.
2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line.
2012 MŠMT financuje projekt AMalach s cílem dál vylepšit zpřístupnění archívu.
2015 Počet přístupových míst se zvýšil na 51 (celkem ve 13 zemích).
4 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie
5 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech
▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov)
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech
▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov)
▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech
▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov)
▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů
▶ 4 500 svědectví podali lidé narozeni v ČR
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Archív vizuální historie (AVH)
▶ spravován Shoah Foundation (nyní součást USC)
▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů
▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích
▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat
▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD
▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech
▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov)
▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů
▶ 4 500 svědectví podali lidé narozeni v ČR
6 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Nahrávky výpovědí
▶ Neupravované, poskytují původní informace.
7 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Nahrávky výpovědí
▶ Neupravované, poskytují původní informace.
▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi
přeživších i v zemi, kam případně emigrovali.
7 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Nahrávky výpovědí
▶ Neupravované, poskytují původní informace.
▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi
přeživších i v zemi, kam případně emigrovali.
▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k
příběhům přeživších.
7 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Nahrávky výpovědí
▶ Neupravované, poskytují původní informace.
▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi
přeživších i v zemi, kam případně emigrovali.
▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k
příběhům přeživších.
▶ Obsahuje i pasáže z exteriéru, např. míst někdejších koncentračních táborů,
ghett, masových hrobů.
7 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Nahrávky výpovědí
▶ Neupravované, poskytují původní informace.
▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi
přeživších i v zemi, kam případně emigrovali.
▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k
příběhům přeživších.
▶ Obsahuje i pasáže z exteriéru, např. míst někdejších koncentračních táborů,
ghett, masových hrobů.
▶ Hlavní skupiny přeživších:
židovští přeživší (4 8848/542), zachránci a poskytovatelé pomoci (1 132/6),
přeživší Romové a Sintové (407/3), osvoboditelé a svědci osvobození (362/1),
političtí vězňové (261/7), přeživší Svědkové Jehovovi (83/0),
účastníci soudních procesů s válečnými zločinci (62/1), přeživší programů
eugeniky (13/0), homosexuální přeživší (6/0).
7 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Podrobná (full–description) katalogizace a anotace
8 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Podrobná (full–description) katalogizace a anotace
Na úrovni celých interview
▶ dotazník vyplněný před interview
▶ jména lidí a míst zmíněná v průběhu interview
▶ volný text sumarizující celé interview
8 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Podrobná (full–description) katalogizace a anotace
Na úrovni celých interview
▶ dotazník vyplněný před interview
▶ jména lidí a míst zmíněná v průběhu interview
▶ volný text sumarizující celé interview
Na úrovni kratších pasáží
▶ hranice tématických pasáží (průměrná délka 3 min
▶ popis obsahu: souhrn + scratchpad
▶ položky z tezauru: jména, témata, místa, časová období
Location–Time Concepts People
Berlin 1939 Employment Josef Stein
Berlin 1939 Family life Gretchen Stein
Anna Stein
Dresden 1939 Relocation
Transportation–rail
Interviewtime
Dresden 1939 Schooling Gunter Wendt
Maria
8 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zběžná (real–time) katalogizace a anotace
9 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zběžná (real–time) katalogizace a anotace
Na úrovni celých interview
▶ dotazník vyplněný před interview
9 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zběžná (real–time) katalogizace a anotace
Na úrovni celých interview
▶ dotazník vyplněný před interview
Průběžné anotace
▶ položky z tezauru přiřazené časovým okamžikům:
jména, témata, místa, časová období
Location–Time Concept People
Berlin 1939
Employment Josef Stein
yY
Family life Gretchen Stein
yY
Anna Stein
yY
Relocation
Interviewtime
Dresden 1939 Transportation–rail
yY
Gunter Wendt
Schooling
Maria
9 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Katalogizační software
10 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Jazyky a země výpovědí (20 nejčastějších)
11 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Jazyky a země výpovědí (20 nejčastějších)
počty výpovědí/jazyky
anglicky 24 872
rusky 7 052
hebrejsky 6 126
francouzsky 1 875
polsky 1 549
španělsky 1 352
holandsky 1 077
maďarsky 1 038
německy 686
bulharsky 645
slovensky 583
česky 573
portugalsky 562
jidiš 527
italsky 433
srbsky 382
chorvatsky 353
ukrajinsky 320
řecky 301
švédsky 266
11 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Jazyky a země výpovědí (20 nejčastějších)
počty výpovědí/jazyky
anglicky 24 872
rusky 7 052
hebrejsky 6 126
francouzsky 1 875
polsky 1 549
španělsky 1 352
holandsky 1 077
maďarsky 1 038
německy 686
bulharsky 645
slovensky 583
česky 573
portugalsky 562
jidiš 527
italsky 433
srbsky 382
chorvatsky 353
ukrajinsky 320
řecky 301
švédsky 266
11 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Jazyky a země výpovědí (20 nejčastějších)
počty výpovědí/jazyky
anglicky 24 872
rusky 7 052
hebrejsky 6 126
francouzsky 1 875
polsky 1 549
španělsky 1 352
holandsky 1 077
maďarsky 1 038
německy 686
bulharsky 645
slovensky 583
česky 573
portugalsky 562
jidiš 527
italsky 433
srbsky 382
chorvatsky 353
ukrajinsky 320
řecky 301
švédsky 266
počty výpovědí/zeměy
Izrael 8 449
Ukrajina 3 427
Kanada 2 815
Austrálie 2 475
Francie 1 650
Polsko 1 371
Holandsko 1 044
Maďarsko 786
Argentina 726
Rusko 674
Německo 668
Slovensko 656
Bulharsko 628
Brazílie 564
Itálie 417
Chorvatsko 327
Švédsko 325
Řecko 303
Moldávie 284
Bělorusko 246
11 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Jazyky a země výpovědí (20 nejčastějších)
počty výpovědí/jazyky
anglicky 24 872
rusky 7 052
hebrejsky 6 126
francouzsky 1 875
polsky 1 549
španělsky 1 352
holandsky 1 077
maďarsky 1 038
německy 686
bulharsky 645
slovensky 583
česky 573
portugalsky 562
jidiš 527
italsky 433
srbsky 382
chorvatsky 353
ukrajinsky 320
řecky 301
švédsky 266
počty výpovědí/zeměy
Izrael 8 449
Ukrajina 3 427
Kanada 2 815
Austrálie 2 475
Francie 1 650
Polsko 1 371
Holandsko 1 044
Maďarsko 786
Argentina 726
Rusko 674
Německo 668
Slovensko 656
Bulharsko 628
Brazílie 564
Itálie 417
Chorvatsko 327
Švédsko 325
Řecko 303
Moldávie 284
Bělorusko 246
11 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
12 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
Cíl:
▶ zjednodušení přístupu k archívu
▶ snížení nákladů na katalogizaci nahrávek
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
Cíl:
▶ zjednodušení přístupu k archívu
▶ snížení nákladů na katalogizaci nahrávek
Úkoly:
1. automatické rozpoznávání spontánní řeči
- doslovný přepis všech rozhovorů
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
Cíl:
▶ zjednodušení přístupu k archívu
▶ snížení nákladů na katalogizaci nahrávek
Úkoly:
1. automatické rozpoznávání spontánní řeči
- doslovný přepis všech rozhovorů
2. strojový překlad doménově specifického tezauru
- tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
Cíl:
▶ zjednodušení přístupu k archívu
▶ snížení nákladů na katalogizaci nahrávek
Úkoly:
1. automatické rozpoznávání spontánní řeči
- doslovný přepis všech rozhovorů
2. strojový překlad doménově specifického tezauru
- tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace
3. automatická detekce témat a přiřazování metadat
- segmentace na tématické pasáže a přiřazování klíčových slov
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Malach
Multilingual Access to Large Spoken Archives
▶ projekt National Science Foundation, USA, 2001–2006
▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006
Cíl:
▶ zjednodušení přístupu k archívu
▶ snížení nákladů na katalogizaci nahrávek
Úkoly:
1. automatické rozpoznávání spontánní řeči
- doslovný přepis všech rozhovorů
2. strojový překlad doménově specifického tezauru
- tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace
3. automatická detekce témat a přiřazování metadat
- segmentace na tématické pasáže a přiřazování klíčových slov
4. systém pro vícejazyčné vyhledávání informací a prohledávání archívu
- založené na (nedokonalých) výsledcích předchozích úloh
13 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Řešitelský tým projektu Malach
IBM T.J. Watson Center, New York, USA
- rozpoznávání mluvené řeči v angličtině
Johns Hopkins University (CLSP), Baltimore, USA
- rozpoznávání mluvené řeči v ostatních jazycích
University of Maryland, College Park, USA
- vyhledávání informací, prohledávání archívu, vytvoření testovací kolekce
Západočeská Univerzita (KKY, FAV), Plzeň, ČR
- rozpoznávání mluvené řeči v češtině a dalších jazycích
Univerzita Karlova v Praze (ÚFAL, MFF), ČR
- jazykové modelování, vyhledávání v mluvené řeči, testování
14 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk)
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk)
▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk)
▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost
odjet [ o d j e t ] Osvětim [ o s v j e t i m ]
[ v o d j e t ] [ o s v e t i m ]
[ o d j e c ] [ v o s v j e t i m ]
[ o d j e c t ] [ o s v j e n č i m ]
[ v o d j e c t ] [ v o s v j e n č i m ]
[ v o d e j e c t ] [ o z v j e t i m ]
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk)
▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost
odjet [ o d j e t ] Osvětim [ o s v j e t i m ]
[ v o d j e t ] [ o s v e t i m ]
[ o d j e c ] [ v o s v j e t i m ]
[ o d j e c t ] [ o s v j e n č i m ]
[ v o d j e c t ] [ v o s v j e n č i m ]
[ v o d e j e c t ] [ o z v j e t i m ]
▶ výsledky měřeny na vzorku ručně přepsaných záznamů
– jako poměr chybně rozpoznaných slov (WER)
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči
▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi)
▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.)
▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk)
▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost
odjet [ o d j e t ] Osvětim [ o s v j e t i m ]
[ v o d j e t ] [ o s v e t i m ]
[ o d j e c ] [ v o s v j e t i m ]
[ o d j e c t ] [ o s v j e n č i m ]
[ v o d j e c t ] [ v o s v j e n č i m ]
[ v o d e j e c t ] [ o z v j e t i m ]
▶ výsledky měřeny na vzorku ručně přepsaných záznamů
– jako poměr chybně rozpoznaných slov (WER)
jazyk WER (%)
angličtina 25.00
čeština 35.51
slovenština 34.49
ruština 45.75
15 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno:
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno: ⁇⁇ ⁇⁇
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Rozpoznávání řeči - ukázka
jméno: Hugo Pavel
narození: 26.12. 1924
země původu: Československo
vyznání (pre): judaismus
vyznání (post): N/A
klíčová slova: hiding/death marches
underground/resistance
Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to
pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu,
pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten
a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se …
Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za
to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude
v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval
se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci
legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil,
a ten prostě každého sem se nepytlačil …
16 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
Vyhledávání v mluvené řeči
▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě.
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
Vyhledávání v mluvené řeči
▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě.
Úlohy rozpoznávání a vyhledávání jsou odděleny
▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči.
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
Vyhledávání v mluvené řeči
▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě.
Úlohy rozpoznávání a vyhledávání jsou odděleny
▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči.
Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání
▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov)
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
Vyhledávání v mluvené řeči
▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě.
Úlohy rozpoznávání a vyhledávání jsou odděleny
▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči.
Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání
▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov)
Chyby rozpoznávání nemusí vadit systému, ale vadí uživatelům
▶ Systém musí odkazovat na pasáže v původních nahrávkách a nikoliv na
jejich autoamtické přepisy.
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Vyhledávání v nahrávkách
Vyhledávání v mluvené řeči
▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě.
Úlohy rozpoznávání a vyhledávání jsou odděleny
▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči.
Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání
▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov)
Chyby rozpoznávání nemusí vadit systému, ale vadí uživatelům
▶ Systém musí odkazovat na pasáže v původních nahrávkách a nikoliv na
jejich autoamtické přepisy.
Segmentace na tématické pasáže je přínosná
▶ Zlepšuje kvalitu vyhledávání i spokojenost uživatele
17 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
automatický
přepis řeči
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
automatický
přepis řeči
→
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
automatický
přepis řeči
→
segmentace
anotace
→
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
yY
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
automatický
přepis řeči
→
segmentace
anotace
→
Berlin 1939 Employment
Josef Stein
yY
Berlin 1939
Family life Gretchen Stein
Anna Stein
yY
Dresden 1939 Relocation
Transportation–rail
yY
Dresden 1939 Schooling Gunter Wendt
Maria
yY
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Zpracování nahrávek
automatický
přepis řeči
→
segmentace
anotace
→
reprezentace
segmentů
→
Berlin 1939 Employment
Josef Stein
yY
Berlin 1939
Family life Gretchen Stein
Anna Stein
yY
Dresden 1939 Relocation
Transportation–rail
yY
Dresden 1939 Schooling Gunter Wendt
Maria
yY
→
→
→
→
18 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Reprezentace segmentů
Segment z anglického interview s podrobnou anotací
doc no 00009-056150.002
interview data Sidonia L., 1930
name Issac L., Cyla L.
manual keyword family businesses, family life, food, Przemysl (Poland)
summary SL describes her parents and their roles in the family business. She
remembers her home and she recalls her responsibilities. …
asr text were to tell us about that my mother’s name was sell us c y l a new and
her maiden name was leap shark l i e b b a c h a r d my mother was a
dress …
auto keyword family businesses, family homes, means of adaptation and survival,
extended family members …
19 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Projekt Amalach
21 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
AMalach
ASR and MT-based Access to a Large Archive of Cultural Heritage
▶ následník projektu Malach
▶ projekt Univerzity Karlovy v Praze a Západočeské univerzity v Plzni
▶ financování Ministerstvem kultury ČR, 2012-2015
Cíle:
1. Vylepšit úspěšnosti rozpoznávání řeči v českých nahrávkách
- chybovost klesla z 28% na 22%
2. Umožnit vyhledávání v „napříč“ jazyky s pomocí strojového překladu
- cross-lingualní vyhledávání dostupné pro CS↔EN
- např. anglické dotazy lze aplikovat na česká data
3. Vytvořit systém pro fonetické vyhledávání
- systém umožňuje „fultextové“ vyhledávání na úrovni fonémů, nikoliv slov
- lze tedy vyhledávat slova, která nejsou ve slovníku
22 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Několik citací na závěr
Doug Greenberg (VHF):
▶ “We don’t edit any of these interviews. It’s completely raw footage taken
directly from interviews with survivors. It will be broadly accessible, but it
won’t be edited.”
▶ “Our mission now is to use the archive in educational settings to overcome
prejudice and bigotry.”
Doug Oard (UMD):
▶ “There’s a lot more oral history than anybody even knows about”.
▶ “It isn’t as good as a human cataloging, but it’s $100 million cheaper.”
▶ “When you develop this type of technology, you open a lot of doors.”
24 / 25
Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr
Odkazy
▶ USC Shoah Foundation
http://sfi.usc.edu/
▶ Kanál Youtube
https://www.youtube.com/user/USCShoahFoundation
▶ VHA Online
http://sfi.usc.edu/watch
▶ Projekt Malach
http://malach.umiacs.umd.edu/
▶ Projekt AMalach
http://ufal.mff.cuni.cz/grants/amalach/
▶ Centrum vizuální historie Malach
http://malach-centrum.cz/
25 / 25

More Related Content

More from New Media Inspiration

NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičkyNMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
New Media Inspiration
 
NMI17 Lenka Holubová – Doba uchazečů o zaměstnance
NMI17 Lenka Holubová – Doba uchazečů o zaměstnanceNMI17 Lenka Holubová – Doba uchazečů o zaměstnance
NMI17 Lenka Holubová – Doba uchazečů o zaměstnance
New Media Inspiration
 
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikacíNMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
New Media Inspiration
 
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri BlitzenNMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
New Media Inspiration
 
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
New Media Inspiration
 
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbuNMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
New Media Inspiration
 
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorůmNMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
New Media Inspiration
 
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkolaNMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
New Media Inspiration
 
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
New Media Inspiration
 
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
New Media Inspiration
 
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem násNMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
New Media Inspiration
 
NMI15 Jan Pospíšil – Machine learning v azure
NMI15 Jan Pospíšil – Machine learning v azureNMI15 Jan Pospíšil – Machine learning v azure
NMI15 Jan Pospíšil – Machine learning v azure
New Media Inspiration
 
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluceNMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
New Media Inspiration
 
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované uměníNMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
New Media Inspiration
 
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdravíNMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
New Media Inspiration
 
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobiluNMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
New Media Inspiration
 
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizikaNMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
New Media Inspiration
 
NMI15 Ján Simkanič – Marketing crowdwritingu
NMI15 Ján Simkanič – Marketing crowdwritinguNMI15 Ján Simkanič – Marketing crowdwritingu
NMI15 Ján Simkanič – Marketing crowdwritingu
New Media Inspiration
 
NMI15 Kateřina Veselovská – Automatická detekce emocí v textu
NMI15 Kateřina Veselovská – Automatická detekce emocí v textuNMI15 Kateřina Veselovská – Automatická detekce emocí v textu
NMI15 Kateřina Veselovská – Automatická detekce emocí v textu
New Media Inspiration
 
NMI15 Jan Šedivý – Rozpoznávání řeči
NMI15 Jan Šedivý – Rozpoznávání řečiNMI15 Jan Šedivý – Rozpoznávání řeči
NMI15 Jan Šedivý – Rozpoznávání řeči
New Media Inspiration
 

More from New Media Inspiration (20)

NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičkyNMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
NMI17 Michal Charvát – Kdo na Facebooku není? Kromě mojí babičky
 
NMI17 Lenka Holubová – Doba uchazečů o zaměstnance
NMI17 Lenka Holubová – Doba uchazečů o zaměstnanceNMI17 Lenka Holubová – Doba uchazečů o zaměstnance
NMI17 Lenka Holubová – Doba uchazečů o zaměstnance
 
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikacíNMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
NMI16 Marek Botha – Sex na počkání aneb svět seznamovacích aplikací
 
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri BlitzenNMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
NMI16 Michal Charvát – Mediální degenerace XYZ – od Saši Hemaly k Teri Blitzen
 
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
NMI16 Tomáš Kleňha – Práce musí bavit aneb chcete mít v týmu parťáky anebo je...
 
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbuNMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
NMI16 Petr Nuska – DSLR revoluce a její vliv na filmovou tvorbu
 
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorůmNMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
NMI16 Josef Slavíček – Jak jsme zpřístupnili chytrý telefon seniorům
 
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkolaNMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
NMI16 Ondřej Šteffl – Potěmkinovy vesnice ve školství a ScioŠkola
 
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
NMI16 Petr Michl – Product placement u YouTuberů aneb Co vše ještě jejich div...
 
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
NMI15 Vít Šisler – Československo 38-89: Design a implementace hry o soudobýc...
 
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem násNMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
NMI15 Petr Dvořák – Neviditelné technologie, aneb kontext v nás i kolem nás
 
NMI15 Jan Pospíšil – Machine learning v azure
NMI15 Jan Pospíšil – Machine learning v azureNMI15 Jan Pospíšil – Machine learning v azure
NMI15 Jan Pospíšil – Machine learning v azure
 
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluceNMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
NMI15 Tereza Simandlová – Otevřená věda - vědecká (r)evoluce
 
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované uměníNMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
NMI15 Alina Matějová – GIF art: Od grafického formátu až po etablované umění
 
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdravíNMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
NMI15 Tomáš Pruša – Úskalí nových technologií ve vztahu ke zdraví
 
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobiluNMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
NMI15 Pavel Ungr – SEO pro mobilní zařízení aneb vaše nalezitelnost v mobilu
 
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizikaNMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
NMI15 Filip Chytrý – Internet věcí a jeho potenciální bezpečnostní rizika
 
NMI15 Ján Simkanič – Marketing crowdwritingu
NMI15 Ján Simkanič – Marketing crowdwritinguNMI15 Ján Simkanič – Marketing crowdwritingu
NMI15 Ján Simkanič – Marketing crowdwritingu
 
NMI15 Kateřina Veselovská – Automatická detekce emocí v textu
NMI15 Kateřina Veselovská – Automatická detekce emocí v textuNMI15 Kateřina Veselovská – Automatická detekce emocí v textu
NMI15 Kateřina Veselovská – Automatická detekce emocí v textu
 
NMI15 Jan Šedivý – Rozpoznávání řeči
NMI15 Jan Šedivý – Rozpoznávání řečiNMI15 Jan Šedivý – Rozpoznávání řeči
NMI15 Jan Šedivý – Rozpoznávání řeči
 

NMI15 Pavel Pecina

  • 1. Malach: zpracování audiovizuálního archívu svědectví přeživších holocaustu Pavel Pecina pecina@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky, MFF UK NMI 2015, Praha
  • 2. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 … 2 / 25
  • 3. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 filmem … 2 / 25
  • 4. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 filmem a vizí Vize Stevena Spielberga: 1. shromáždit a zachovat výpovědi svědků a přeživších holokaustu 2 / 25
  • 5. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 filmem a vizí Vize Stevena Spielberga: 1. shromáždit a zachovat výpovědi svědků a přeživších holokaustu 2. katalogizovat tyto výpovědi a zpřístupnit je veřejnosti 2 / 25
  • 6. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 filmem a vizí Vize Stevena Spielberga: 1. shromáždit a zachovat výpovědi svědků a přeživších holokaustu 2. katalogizovat tyto výpovědi a zpřístupnit je veřejnosti 3. šířit jejich obsah za účelem vzdělávání a boje proti intoleranci 2 / 25
  • 7. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vše začalo v roce 1993 filmem a vizí Vize Stevena Spielberga: 1. shromáždit a zachovat výpovědi svědků a přeživších holokaustu 2. katalogizovat tyto výpovědi a zpřístupnit je veřejnosti 3. šířit jejich obsah za účelem vzdělávání a boje proti intoleranci 4. umožnit a zjednodušit získávání podobných záznamů v budoucnu 2 / 25
  • 8. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 3 / 25
  • 9. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 3 / 25
  • 10. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 3 / 25
  • 11. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 1999 Během 5 let VHF vytvořila největší archív svého druhu na světě obsahující 52 000 výpovědí svědků holokaustu z 57 zemí. 3 / 25
  • 12. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 1999 Během 5 let VHF vytvořila největší archív svého druhu na světě obsahující 52 000 výpovědí svědků holokaustu z 57 zemí. 2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD, zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola). 3 / 25
  • 13. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 1999 Během 5 let VHF vytvořila největší archív svého druhu na světě obsahující 52 000 výpovědí svědků holokaustu z 57 zemí. 2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD, zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola). 2001 NSF financuje projekt Malach na automatické zpracování celého archívu, řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD. 3 / 25
  • 14. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 1999 Během 5 let VHF vytvořila největší archív svého druhu na světě obsahující 52 000 výpovědí svědků holokaustu z 57 zemí. 2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD, zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola). 2001 NSF financuje projekt Malach na automatické zpracování celého archívu, řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD. 2002 Zřízeny první přístupové body k celému archívu, využívájí rychlé počítačové sítě Internet 2 a velké mezipaměti. 3 / 25
  • 15. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění 1993 Stephen Spielberg uvádí film Schindlerův seznam, během natáčení se setkává s lidmi, kteří přežili holokaust, zpracovává jejich příběhy. 1994 Založena nadace Survivors of the Shoah Visual History Foundation (VHF) s cílem zaznamenat a zpřístupnit svědectví lidí, kteří přežili holokaust. 1999 Během 5 let VHF vytvořila největší archív svého druhu na světě obsahující 52 000 výpovědí svědků holokaustu z 57 zemí. 2000 10 % nahrávek manuálně katalogizováno za cenu 8 mil. USD, zpracování jedné výpovědi trvá průměrně 35 hodin (indexace, sumarizace, kontrola). 2001 NSF financuje projekt Malach na automatické zpracování celého archívu, řešitelé: University of Maryland, Johns Hopkins University, IBM; rozpočet 7,5 mil. USD. 2002 Zřízeny první přístupové body k celému archívu, využívájí rychlé počítačové sítě Internet 2 a velké mezipaměti. 2006 Z VHF se stává USC Shoah Foundation, Inst. for Visual History & Education s obecnější misí: překonávat předsudky, netoleranci, fanatismus a utrpení, které působí. 3 / 25
  • 16. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 4 / 25
  • 17. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 2009 Na Youtube spuštěn kanál USC Shoah Foundation. 4 / 25
  • 18. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 2009 Na Youtube spuštěn kanál USC Shoah Foundation. 2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK. 4 / 25
  • 19. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 2009 Na Youtube spuštěn kanál USC Shoah Foundation. 2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK. 2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line. 4 / 25
  • 20. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 2009 Na Youtube spuštěn kanál USC Shoah Foundation. 2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK. 2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line. 2012 MŠMT financuje projekt AMalach s cílem dál vylepšit zpřístupnění archívu. 4 / 25
  • 21. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Stručná historie archívu a jeho zpřístupnění (pokrač.) 2008 Počet přístupových míst se zvýšil na 21 po celém světě. 2009 Na Youtube spuštěn kanál USC Shoah Foundation. 2010 Otevřeno přístupové místo v Praze, Centrum Malach při MFF UK. 2012 Spuštěna služba VHA Online s výběrem 1,000 výpovědí přístupných on-line. 2012 MŠMT financuje projekt AMalach s cílem dál vylepšit zpřístupnění archívu. 2015 Počet přístupových míst se zvýšil na 51 (celkem ve 13 zemích). 4 / 25
  • 22. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie 5 / 25
  • 23. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) 6 / 25
  • 24. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů 6 / 25
  • 25. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích 6 / 25
  • 26. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat 6 / 25
  • 27. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD 6 / 25
  • 28. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD ▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech 6 / 25
  • 29. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD ▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech ▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov) 6 / 25
  • 30. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD ▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech ▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov) ▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů 6 / 25
  • 31. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD ▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech ▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov) ▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů ▶ 4 500 svědectví podali lidé narozeni v ČR 6 / 25
  • 32. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Archív vizuální historie (AVH) ▶ spravován Shoah Foundation (nyní součást USC) ▶ vytvářen během let 1994–1999 za pomoci 2 300 tazatelů a 1 000 kameramanů ▶ obsahuje výpovědi 52 000 svědků holokaustu z 57 zemí ve 32 jazycích ▶ celkem 116 000 hodin VHS záznamů, 135 TB zdigitalizovaných dat ▶ průměrná délka výpovědi 2 h 15 min, náklady na její pořízení 2 000 USD ▶ výpovědi ručně indexovány pomocí tezauru o 60 000 klíčových slovech ▶ 3 000 výpovědí katalogizováno podrobněji (72 mil. slov) ▶ 573 rozhovorů proběhlo v ČR (většina v ČJ) za pomoci 38 tazatelů ▶ 4 500 svědectví podali lidé narozeni v ČR 6 / 25
  • 33. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Nahrávky výpovědí ▶ Neupravované, poskytují původní informace. 7 / 25
  • 34. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Nahrávky výpovědí ▶ Neupravované, poskytují původní informace. ▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi přeživších i v zemi, kam případně emigrovali. 7 / 25
  • 35. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Nahrávky výpovědí ▶ Neupravované, poskytují původní informace. ▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi přeživších i v zemi, kam případně emigrovali. ▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k příběhům přeživších. 7 / 25
  • 36. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Nahrávky výpovědí ▶ Neupravované, poskytují původní informace. ▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi přeživších i v zemi, kam případně emigrovali. ▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k příběhům přeživších. ▶ Obsahuje i pasáže z exteriéru, např. míst někdejších koncentračních táborů, ghett, masových hrobů. 7 / 25
  • 37. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Nahrávky výpovědí ▶ Neupravované, poskytují původní informace. ▶ Pokrývají život před válkou, během války i po ní, život v rodné zemi přeživších i v zemi, kam případně emigrovali. ▶ Zobrazují fotografie, dokumenty i jiné předměty, které se vztahují k příběhům přeživších. ▶ Obsahuje i pasáže z exteriéru, např. míst někdejších koncentračních táborů, ghett, masových hrobů. ▶ Hlavní skupiny přeživších: židovští přeživší (4 8848/542), zachránci a poskytovatelé pomoci (1 132/6), přeživší Romové a Sintové (407/3), osvoboditelé a svědci osvobození (362/1), političtí vězňové (261/7), přeživší Svědkové Jehovovi (83/0), účastníci soudních procesů s válečnými zločinci (62/1), přeživší programů eugeniky (13/0), homosexuální přeživší (6/0). 7 / 25
  • 38. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Podrobná (full–description) katalogizace a anotace 8 / 25
  • 39. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Podrobná (full–description) katalogizace a anotace Na úrovni celých interview ▶ dotazník vyplněný před interview ▶ jména lidí a míst zmíněná v průběhu interview ▶ volný text sumarizující celé interview 8 / 25
  • 40. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Podrobná (full–description) katalogizace a anotace Na úrovni celých interview ▶ dotazník vyplněný před interview ▶ jména lidí a míst zmíněná v průběhu interview ▶ volný text sumarizující celé interview Na úrovni kratších pasáží ▶ hranice tématických pasáží (průměrná délka 3 min ▶ popis obsahu: souhrn + scratchpad ▶ položky z tezauru: jména, témata, místa, časová období Location–Time Concepts People Berlin 1939 Employment Josef Stein Berlin 1939 Family life Gretchen Stein Anna Stein Dresden 1939 Relocation Transportation–rail Interviewtime Dresden 1939 Schooling Gunter Wendt Maria 8 / 25
  • 41. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zběžná (real–time) katalogizace a anotace 9 / 25
  • 42. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zběžná (real–time) katalogizace a anotace Na úrovni celých interview ▶ dotazník vyplněný před interview 9 / 25
  • 43. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zběžná (real–time) katalogizace a anotace Na úrovni celých interview ▶ dotazník vyplněný před interview Průběžné anotace ▶ položky z tezauru přiřazené časovým okamžikům: jména, témata, místa, časová období Location–Time Concept People Berlin 1939 Employment Josef Stein yY Family life Gretchen Stein yY Anna Stein yY Relocation Interviewtime Dresden 1939 Transportation–rail yY Gunter Wendt Schooling Maria 9 / 25
  • 44. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Katalogizační software 10 / 25
  • 45. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Jazyky a země výpovědí (20 nejčastějších) 11 / 25
  • 46. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Jazyky a země výpovědí (20 nejčastějších) počty výpovědí/jazyky anglicky 24 872 rusky 7 052 hebrejsky 6 126 francouzsky 1 875 polsky 1 549 španělsky 1 352 holandsky 1 077 maďarsky 1 038 německy 686 bulharsky 645 slovensky 583 česky 573 portugalsky 562 jidiš 527 italsky 433 srbsky 382 chorvatsky 353 ukrajinsky 320 řecky 301 švédsky 266 11 / 25
  • 47. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Jazyky a země výpovědí (20 nejčastějších) počty výpovědí/jazyky anglicky 24 872 rusky 7 052 hebrejsky 6 126 francouzsky 1 875 polsky 1 549 španělsky 1 352 holandsky 1 077 maďarsky 1 038 německy 686 bulharsky 645 slovensky 583 česky 573 portugalsky 562 jidiš 527 italsky 433 srbsky 382 chorvatsky 353 ukrajinsky 320 řecky 301 švédsky 266 11 / 25
  • 48. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Jazyky a země výpovědí (20 nejčastějších) počty výpovědí/jazyky anglicky 24 872 rusky 7 052 hebrejsky 6 126 francouzsky 1 875 polsky 1 549 španělsky 1 352 holandsky 1 077 maďarsky 1 038 německy 686 bulharsky 645 slovensky 583 česky 573 portugalsky 562 jidiš 527 italsky 433 srbsky 382 chorvatsky 353 ukrajinsky 320 řecky 301 švédsky 266 počty výpovědí/zeměy Izrael 8 449 Ukrajina 3 427 Kanada 2 815 Austrálie 2 475 Francie 1 650 Polsko 1 371 Holandsko 1 044 Maďarsko 786 Argentina 726 Rusko 674 Německo 668 Slovensko 656 Bulharsko 628 Brazílie 564 Itálie 417 Chorvatsko 327 Švédsko 325 Řecko 303 Moldávie 284 Bělorusko 246 11 / 25
  • 49. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Jazyky a země výpovědí (20 nejčastějších) počty výpovědí/jazyky anglicky 24 872 rusky 7 052 hebrejsky 6 126 francouzsky 1 875 polsky 1 549 španělsky 1 352 holandsky 1 077 maďarsky 1 038 německy 686 bulharsky 645 slovensky 583 česky 573 portugalsky 562 jidiš 527 italsky 433 srbsky 382 chorvatsky 353 ukrajinsky 320 řecky 301 švédsky 266 počty výpovědí/zeměy Izrael 8 449 Ukrajina 3 427 Kanada 2 815 Austrálie 2 475 Francie 1 650 Polsko 1 371 Holandsko 1 044 Maďarsko 786 Argentina 726 Rusko 674 Německo 668 Slovensko 656 Bulharsko 628 Brazílie 564 Itálie 417 Chorvatsko 327 Švédsko 325 Řecko 303 Moldávie 284 Bělorusko 246 11 / 25
  • 50. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach 12 / 25
  • 51. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 13 / 25
  • 52. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 Cíl: ▶ zjednodušení přístupu k archívu ▶ snížení nákladů na katalogizaci nahrávek 13 / 25
  • 53. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 Cíl: ▶ zjednodušení přístupu k archívu ▶ snížení nákladů na katalogizaci nahrávek Úkoly: 1. automatické rozpoznávání spontánní řeči - doslovný přepis všech rozhovorů 13 / 25
  • 54. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 Cíl: ▶ zjednodušení přístupu k archívu ▶ snížení nákladů na katalogizaci nahrávek Úkoly: 1. automatické rozpoznávání spontánní řeči - doslovný přepis všech rozhovorů 2. strojový překlad doménově specifického tezauru - tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace 13 / 25
  • 55. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 Cíl: ▶ zjednodušení přístupu k archívu ▶ snížení nákladů na katalogizaci nahrávek Úkoly: 1. automatické rozpoznávání spontánní řeči - doslovný přepis všech rozhovorů 2. strojový překlad doménově specifického tezauru - tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace 3. automatická detekce témat a přiřazování metadat - segmentace na tématické pasáže a přiřazování klíčových slov 13 / 25
  • 56. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Malach Multilingual Access to Large Spoken Archives ▶ projekt National Science Foundation, USA, 2001–2006 ▶ spolufinancován Min. školství, mládeže a tělovýchovy, ČR, 2005–2006 Cíl: ▶ zjednodušení přístupu k archívu ▶ snížení nákladů na katalogizaci nahrávek Úkoly: 1. automatické rozpoznávání spontánní řeči - doslovný přepis všech rozhovorů 2. strojový překlad doménově specifického tezauru - tazaurus vytvořen přímo pro doménu výpovědí během manualní katalogizace 3. automatická detekce témat a přiřazování metadat - segmentace na tématické pasáže a přiřazování klíčových slov 4. systém pro vícejazyčné vyhledávání informací a prohledávání archívu - založené na (nedokonalých) výsledcích předchozích úloh 13 / 25
  • 57. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Řešitelský tým projektu Malach IBM T.J. Watson Center, New York, USA - rozpoznávání mluvené řeči v angličtině Johns Hopkins University (CLSP), Baltimore, USA - rozpoznávání mluvené řeči v ostatních jazycích University of Maryland, College Park, USA - vyhledávání informací, prohledávání archívu, vytvoření testovací kolekce Západočeská Univerzita (KKY, FAV), Plzeň, ČR - rozpoznávání mluvené řeči v češtině a dalších jazycích Univerzita Karlova v Praze (ÚFAL, MFF), ČR - jazykové modelování, vyhledávání v mluvené řeči, testování 14 / 25
  • 58. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči 15 / 25
  • 59. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) 15 / 25
  • 60. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) 15 / 25
  • 61. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) ▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk) 15 / 25
  • 62. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) ▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk) ▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost 15 / 25
  • 63. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) ▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk) ▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost odjet [ o d j e t ] Osvětim [ o s v j e t i m ] [ v o d j e t ] [ o s v e t i m ] [ o d j e c ] [ v o s v j e t i m ] [ o d j e c t ] [ o s v j e n č i m ] [ v o d j e c t ] [ v o s v j e n č i m ] [ v o d e j e c t ] [ o z v j e t i m ] 15 / 25
  • 64. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) ▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk) ▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost odjet [ o d j e t ] Osvětim [ o s v j e t i m ] [ v o d j e t ] [ o s v e t i m ] [ o d j e c ] [ v o s v j e t i m ] [ o d j e c t ] [ o s v j e n č i m ] [ v o d j e c t ] [ v o s v j e n č i m ] [ v o d e j e c t ] [ o z v j e t i m ] ▶ výsledky měřeny na vzorku ručně přepsaných záznamů – jako poměr chybně rozpoznaných slov (WER) 15 / 25
  • 65. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči ▶ doslovný přepis spontánní řeči (nezávislý na řečníkovi) ▶ záznamy technicky poměrně kvalitní (ale s šumy a ruchy apod.) ▶ řešení úlohy stěžuje jazyková kvalita (emoce, stáří, zdravotní stav, jazyk) ▶ specifickým problémem v češtině jsou hovorové výrazy a výslovnost odjet [ o d j e t ] Osvětim [ o s v j e t i m ] [ v o d j e t ] [ o s v e t i m ] [ o d j e c ] [ v o s v j e t i m ] [ o d j e c t ] [ o s v j e n č i m ] [ v o d j e c t ] [ v o s v j e n č i m ] [ v o d e j e c t ] [ o z v j e t i m ] ▶ výsledky měřeny na vzorku ručně přepsaných záznamů – jako poměr chybně rozpoznaných slov (WER) jazyk WER (%) angličtina 25.00 čeština 35.51 slovenština 34.49 ruština 45.75 15 / 25
  • 66. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 67. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 68. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 69. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 70. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 71. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 72. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 73. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 74. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 75. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 76. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 77. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 78. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: ⁇⁇ ⁇⁇ narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 79. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Rozpoznávání řeči - ukázka jméno: Hugo Pavel narození: 26.12. 1924 země původu: Československo vyznání (pre): judaismus vyznání (post): N/A klíčová slova: hiding/death marches underground/resistance Pane Pavle, začal jste historku o srncích a tatínkovi bez hvězdy. Jak to pokračovalo? Bylo, pokračovalo to tím způsobem, že tatínek si sundal hvězdu, pan doktor Jeřáb mu napsali skupinku na Kladně. To bylo báječný doktor, ten a fandila. Náš tatínek se vydal na cestu na Křivoklátsko, aby upekla že sem se … Pochopitelně, že strejda Prošek s tím nechtěl nic mít. Za to byly krutý tresty, za to se tenkrát popravovalo. Takže strejda Prošek nepytlačil a bál se. Tady všude v lesích byli Němci. Střílelo se … a náš táta se vydal na tuhle cestu a ubytoval se mnou slůvko toho v roce sem opravdu podařilo u pytlačit – za pomoci legendární a volal na. To byl pes – vlčák, s kterém dříve Prošek nepytlačil, a ten prostě každého sem se nepytlačil … 16 / 25
  • 80. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách 17 / 25
  • 81. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách Vyhledávání v mluvené řeči ▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě. 17 / 25
  • 82. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách Vyhledávání v mluvené řeči ▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě. Úlohy rozpoznávání a vyhledávání jsou odděleny ▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči. 17 / 25
  • 83. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách Vyhledávání v mluvené řeči ▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě. Úlohy rozpoznávání a vyhledávání jsou odděleny ▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči. Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání ▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov) 17 / 25
  • 84. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách Vyhledávání v mluvené řeči ▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě. Úlohy rozpoznávání a vyhledávání jsou odděleny ▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči. Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání ▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov) Chyby rozpoznávání nemusí vadit systému, ale vadí uživatelům ▶ Systém musí odkazovat na pasáže v původních nahrávkách a nikoliv na jejich autoamtické přepisy. 17 / 25
  • 85. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Vyhledávání v nahrávkách Vyhledávání v mluvené řeči ▶ Zvláštní případ vyhledávání informací, kde informace jsou v mluvené formě. Úlohy rozpoznávání a vyhledávání jsou odděleny ▶ Systém pro vyhledávání je postaven na výstupu rozpoznávače řeči. Vyhledávání je do jisté míry odolné vůčy chybám rozpoznávání ▶ Tolerovatelná míra chybovosti < 40% (nesprávně rozpoznaných slov) Chyby rozpoznávání nemusí vadit systému, ale vadí uživatelům ▶ Systém musí odkazovat na pasáže v původních nahrávkách a nikoliv na jejich autoamtické přepisy. Segmentace na tématické pasáže je přínosná ▶ Zlepšuje kvalitu vyhledávání i spokojenost uživatele 17 / 25
  • 86. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek 18 / 25
  • 87. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek automatický přepis řeči 18 / 25
  • 88. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek automatický přepis řeči → yY yY yY yY yY yY yY yY yY yY yY yY yY 18 / 25
  • 89. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek automatický přepis řeči → segmentace anotace → yY yY yY yY yY yY yY yY yY yY yY yY yY 18 / 25
  • 90. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek automatický přepis řeči → segmentace anotace → Berlin 1939 Employment Josef Stein yY Berlin 1939 Family life Gretchen Stein Anna Stein yY Dresden 1939 Relocation Transportation–rail yY Dresden 1939 Schooling Gunter Wendt Maria yY 18 / 25
  • 91. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Zpracování nahrávek automatický přepis řeči → segmentace anotace → reprezentace segmentů → Berlin 1939 Employment Josef Stein yY Berlin 1939 Family life Gretchen Stein Anna Stein yY Dresden 1939 Relocation Transportation–rail yY Dresden 1939 Schooling Gunter Wendt Maria yY → → → → 18 / 25
  • 92. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Reprezentace segmentů Segment z anglického interview s podrobnou anotací doc no 00009-056150.002 interview data Sidonia L., 1930 name Issac L., Cyla L. manual keyword family businesses, family life, food, Przemysl (Poland) summary SL describes her parents and their roles in the family business. She remembers her home and she recalls her responsibilities. … asr text were to tell us about that my mother’s name was sell us c y l a new and her maiden name was leap shark l i e b b a c h a r d my mother was a dress … auto keyword family businesses, family homes, means of adaptation and survival, extended family members … 19 / 25
  • 93.
  • 94. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Projekt Amalach 21 / 25
  • 95. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr AMalach ASR and MT-based Access to a Large Archive of Cultural Heritage ▶ následník projektu Malach ▶ projekt Univerzity Karlovy v Praze a Západočeské univerzity v Plzni ▶ financování Ministerstvem kultury ČR, 2012-2015 Cíle: 1. Vylepšit úspěšnosti rozpoznávání řeči v českých nahrávkách - chybovost klesla z 28% na 22% 2. Umožnit vyhledávání v „napříč“ jazyky s pomocí strojového překladu - cross-lingualní vyhledávání dostupné pro CS↔EN - např. anglické dotazy lze aplikovat na česká data 3. Vytvořit systém pro fonetické vyhledávání - systém umožňuje „fultextové“ vyhledávání na úrovni fonémů, nikoliv slov - lze tedy vyhledávat slova, která nejsou ve slovníku 22 / 25
  • 96.
  • 97. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Několik citací na závěr Doug Greenberg (VHF): ▶ “We don’t edit any of these interviews. It’s completely raw footage taken directly from interviews with survivors. It will be broadly accessible, but it won’t be edited.” ▶ “Our mission now is to use the archive in educational settings to overcome prejudice and bigotry.” Doug Oard (UMD): ▶ “There’s a lot more oral history than anybody even knows about”. ▶ “It isn’t as good as a human cataloging, but it’s $100 million cheaper.” ▶ “When you develop this type of technology, you open a lot of doors.” 24 / 25
  • 98. Úvod Archív vizuální historie Projekt Malach Projekt Amalach Závěr Odkazy ▶ USC Shoah Foundation http://sfi.usc.edu/ ▶ Kanál Youtube https://www.youtube.com/user/USCShoahFoundation ▶ VHA Online http://sfi.usc.edu/watch ▶ Projekt Malach http://malach.umiacs.umd.edu/ ▶ Projekt AMalach http://ufal.mff.cuni.cz/grants/amalach/ ▶ Centrum vizuální historie Malach http://malach-centrum.cz/ 25 / 25