Gravity developed recommendation systems that improved user engagement for several clients. They won the Netflix Prize competition in 2006 with the best recommendation model. Their system for LiveJasmin increased user engagement metrics by up to 125%. Gravity also provides personalization solutions for international classifieds clients in 7 countries and helped increase user satisfaction and ad revenues for media companies in 5 countries.
This job posting is looking to hire three positions: a Java developer experienced with Hadoop, MapReduce, Spark and Scala as well as GUI development; a data scientist experienced with tools like RapidMiner, SAS, SPSS, Hive, Pig, Python and R; and a DevOps and QA engineer experienced with automation and configuration tools like Jenkins, Hudson, Chef, Puppet, Vagrant, Packer and Docker.
Precognox Informatikai KFT is a Hungarian company specializing in semantic and enterprise search, intelligent text mining, natural language processing, Hadoop, and Java technologies. Some of Precognox's products and services include a Solr-based semantic search engine, a Hadoop-based crawler and data processing platform, and scalable text processing and indexing solutions. Notable customers include the National Institutes of Health, Central European University, and several leading Hungarian job search and translation sites. Precognox has 15 full-time staff and an active trainee program.
Meltwater is a media monitoring company founded in 2001 in Oslo, Norway. It has grown organically with strong revenue growth and profit every year. It now has over 900 employees in 50+ offices globally and over 35,000 customers. Meltwater uses artificial intelligence to analyze over 3 billion online documents daily from 250,000 news sources and social media to provide clients insights into their brand, competitors, industry, and more. Its natural language processing capabilities include language detection, sentiment analysis, named entity recognition, and content categorization in 12 languages.
Gravity developed recommendation systems that improved user engagement for several clients. They won the Netflix Prize competition in 2006 with the best recommendation model. Their system for LiveJasmin increased user engagement metrics by up to 125%. Gravity also provides personalization solutions for international classifieds clients in 7 countries and helped increase user satisfaction and ad revenues for media companies in 5 countries.
This job posting is looking to hire three positions: a Java developer experienced with Hadoop, MapReduce, Spark and Scala as well as GUI development; a data scientist experienced with tools like RapidMiner, SAS, SPSS, Hive, Pig, Python and R; and a DevOps and QA engineer experienced with automation and configuration tools like Jenkins, Hudson, Chef, Puppet, Vagrant, Packer and Docker.
Precognox Informatikai KFT is a Hungarian company specializing in semantic and enterprise search, intelligent text mining, natural language processing, Hadoop, and Java technologies. Some of Precognox's products and services include a Solr-based semantic search engine, a Hadoop-based crawler and data processing platform, and scalable text processing and indexing solutions. Notable customers include the National Institutes of Health, Central European University, and several leading Hungarian job search and translation sites. Precognox has 15 full-time staff and an active trainee program.
Meltwater is a media monitoring company founded in 2001 in Oslo, Norway. It has grown organically with strong revenue growth and profit every year. It now has over 900 employees in 50+ offices globally and over 35,000 customers. Meltwater uses artificial intelligence to analyze over 3 billion online documents daily from 250,000 news sources and social media to provide clients insights into their brand, competitors, industry, and more. Its natural language processing capabilities include language detection, sentiment analysis, named entity recognition, and content categorization in 12 languages.
Hadoop based etl and solr based semantic searchZoltan Varju
This document describes the migration of Jobmonitor.hu's ETL and search systems from a traditional XML file-based architecture to a Hadoop and Apache Solr-based system. It provides background on Precognox as a company specialized in semantic search and text mining solutions. It then outlines the key capabilities and scale of Jobmonitor.hu, and describes the limitations of the previous XML file-based system. The new Hadoop and Solr-based system using HBase for storage is able to better handle the scale and provide new capabilities like historical job ad data and search analytics.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Hadoop based etl and solr based semantic searchZoltan Varju
This document describes the migration of Jobmonitor.hu's ETL and search systems from a traditional XML file-based architecture to a Hadoop and Apache Solr-based system. It provides background on Precognox as a company specialized in semantic search and text mining solutions. It then outlines the key capabilities and scale of Jobmonitor.hu, and describes the limitations of the previous XML file-based system. The new Hadoop and Solr-based system using HBase for storage is able to better handle the scale and provide new capabilities like historical job ad data and search analytics.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
Vincze Veronika: Korpuszok az információkinyerésben
Nyelvi modellek
1. Nyelvi modellek
“Kutya neh´z ugy hazudni, ha az ember nem osmeri az
e ´ ¨
igazs´got”
a
Varj´ Zolt´n
u a
Weblib Kft.
2012-03-12
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 1 / 18
2. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
3. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Chomsky
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
4. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Chomsky
Norvig
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
5. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Chomsky
Norvig
Turing
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
6. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Chomsky
Norvig
Turing
Shannon
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
7. Bevezet´s
e
“Essentially, all models are wrong, but some are useful.”
— George Edward Pelham Box
Chomsky
Norvig
Turing
Shannon
van Benthem
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 2 / 18
8. A vita 1
“Chomsky derided researchers in machine learning who use purely
statistical methods to produce behavior that mimics something in the
world, but who don’t try to understand the meaning of that behavior.
Chomsky compared such researchers to scientists who might study
the dance made by a bee returning to the hive, and who could
produce a statistically based simulation of such a dance without
attempting to understand why the bee behaved that way. ”That’s a
notion of [scientific] success that’s very novel. I don’t know of
anything like it in the history of science,” said Chomsky.”
— Stephen Cass: Unthinking Machines, Technology Review,
http://www.technologyreview.com/computing/37525/?a=f
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 3 / 18
9. A vita 2
“Any natural corpus will be skewed. Some sentences won’t occur
because they are obvious, others because they are false, still others
because they are impolite. The corpus, if natural, will be so wildly
skewed that the description [based upon it] would be no more than a
mere list.”
— Chomsky
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 4 / 18
10. A vita 2
“Any natural corpus will be skewed. Some sentences won’t occur
because they are obvious, others because they are false, still others
because they are impolite. The corpus, if natural, will be so wildly
skewed that the description [based upon it] would be no more than a
mere list.”
— Chomsky
Mennyire lehet reprezentat´ egy korpusz?
ıv
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 4 / 18
11. A vita 2
“Any natural corpus will be skewed. Some sentences won’t occur
because they are obvious, others because they are false, still others
because they are impolite. The corpus, if natural, will be so wildly
skewed that the description [based upon it] would be no more than a
mere list.”
— Chomsky
Mennyire lehet reprezentat´ egy korpusz?
ıv
“I live in New York” sokkal gyakoribb mint az “I live in Dayton Ohio”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 4 / 18
12. A vita 2
“Any natural corpus will be skewed. Some sentences won’t occur
because they are obvious, others because they are false, still others
because they are impolite. The corpus, if natural, will be so wildly
skewed that the description [based upon it] would be no more than a
mere list.”
— Chomsky
Mennyire lehet reprezentat´ egy korpusz?
ıv
“I live in New York” sokkal gyakoribb mint az “I live in Dayton Ohio”
The Unreasonable Effectiveness of Data: “simple models and a lot of
data trump more elaborate models based on less data”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 4 / 18
13. K´t kult´ra
e u
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 5 / 18
14. K´t kult´ra
e u
Hogyan ´
ırhatunk le v´ges eszk¨z¨kkel egy v´gtelen jelens´get?
e o o e e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 5 / 18
15. K´t kult´ra
e u
Hogyan ´
ırhatunk le v´ges eszk¨z¨kkel egy v´gtelen jelens´get?
e o o e e
Modell- ´s rekurzi´elm´let
e o e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 5 / 18
16. K´t kult´ra
e u
Hogyan ´
ırhatunk le v´ges eszk¨z¨kkel egy v´gtelen jelens´get?
e o o e e
Modell- ´s rekurzi´elm´let
e o e
Le´ o statisztika ´s korpusznyelv´szet
ır´ e e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 5 / 18
17. K´t kult´ra
e u
Hogyan ´
ırhatunk le v´ges eszk¨z¨kkel egy v´gtelen jelens´get?
e o o e e
Modell- ´s rekurzi´elm´let
e o e
Le´ o statisztika ´s korpusznyelv´szet
ır´ e e
Algoritmikus tanul´selm´let
a e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 5 / 18
18. Gy¨kerek 1 - Frege
o
“For my money, Gentzen’s natural deduction and Church’s lambda
calculus are on a par with Einstein’s relativity and Dirac’s quantum
physics for elegance and insight.”
— Philip Wadler, Proofs are Programs
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 6 / 18
19. Gy¨kerek 2 - Turing
o
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 7 / 18
20. Gy¨kerek 2 - Turing
o
Colossus: a Turing g´pek els˝ fizikai implement´ci´ja
e o a o
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 7 / 18
21. Gy¨kerek 2 - Turing
o
Colossus: a Turing g´pek els˝ fizikai implement´ci´ja
e o a o
Engima: bayesi´nus statisztikai m´dszerek futnak a Colossus-on
a o
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 7 / 18
22. a o e ´
Inform´ci´elm´let 1. - Attekint´s
e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 8 / 18
23. a o e ´
Inform´ci´elm´let 1. - Attekint´s
e
Nem t´r¨nk ki minden k´rd´sre
eu e e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 8 / 18
24. a o e ´
Inform´ci´elm´let 1. - Attekint´s
e
Nem t´r¨nk ki minden k´rd´sre
eu e e
Mik´pp lehets´ges statisztikailag le´ a nyelvi jelens´geket
e e ırni e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 8 / 18
25. a o e ´
Inform´ci´elm´let 1. - Attekint´s
e
Nem t´r¨nk ki minden k´rd´sre
eu e e
Mik´pp lehets´ges statisztikailag le´ a nyelvi jelens´geket
e e ırni e
Mintav´telez´s vs. stacion´rius ergodikus forr´s
e e a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 8 / 18
26. a o e ´
Inform´ci´elm´let 1. - Attekint´s
e
Nem t´r¨nk ki minden k´rd´sre
eu e e
Mik´pp lehets´ges statisztikailag le´ a nyelvi jelens´geket
e e ırni e
Mintav´telez´s vs. stacion´rius ergodikus forr´s
e e a a
Az indukci´ probl´m´ja
o e a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 8 / 18
27. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
28. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
29. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
“XFOML RXKHRJFFJUJ ZPLWCFWKCYJ FFJEYVKCQSGHYD
QPAAMKBZAACIBZLHJQD”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
30. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
“XFOML RXKHRJFFJUJ ZPLWCFWKCYJ FFJEYVKCQSGHYD
QPAAMKBZAACIBZLHJQD”
Els˝rend˝ k¨zel´ es
o u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
31. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
“XFOML RXKHRJFFJUJ ZPLWCFWKCYJ FFJEYVKCQSGHYD
QPAAMKBZAACIBZLHJQD”
Els˝rend˝ k¨zel´ es
o u o ıt´
“OCRO HLI NMIELWIS EU LL NBNESEBYA TH EEI
ALHENHTTPA OOBTTVA NAH BRL”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
32. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
“XFOML RXKHRJFFJUJ ZPLWCFWKCYJ FFJEYVKCQSGHYD
QPAAMKBZAACIBZLHJQD”
Els˝rend˝ k¨zel´ es
o u o ıt´
“OCRO HLI NMIELWIS EU LL NBNESEBYA TH EEI
ALHENHTTPA OOBTTVA NAH BRL”
M´sodrend˝ k¨zel´ es
a u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
33. Inform´ci´elm´let 2. - stacion´rius ergodikus forr´s 1.
a o e a a
Nulladrend˝ k¨zel´ es
u o ıt´
“XFOML RXKHRJFFJUJ ZPLWCFWKCYJ FFJEYVKCQSGHYD
QPAAMKBZAACIBZLHJQD”
Els˝rend˝ k¨zel´ es
o u o ıt´
“OCRO HLI NMIELWIS EU LL NBNESEBYA TH EEI
ALHENHTTPA OOBTTVA NAH BRL”
M´sodrend˝ k¨zel´ es
a u o ıt´
“ON IE ANTSOUTINYS ARE T INCTORE BE S DEAMY ACHIN D
ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY
TOBE SEACE CTISBE”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 9 / 18
34. Inform´ci´elm´let 3. - stacion´rius ergodikus forr´s 2.
a o e a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 10 / 18
35. Inform´ci´elm´let 3. - stacion´rius ergodikus forr´s 2.
a o e a a
Harmadrend˝ k¨zel´ es
u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 10 / 18
36. Inform´ci´elm´let 3. - stacion´rius ergodikus forr´s 2.
a o e a a
Harmadrend˝ k¨zel´ es
u o ıt´
“IN NO IST LAT WHEY CRATIC FROURE BIRS GRODIC
PONDENOME OF DEMONSTURES OF THE REPTAGIN IS
REGOACTIONA OF CRE”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 10 / 18
37. Inform´ci´elm´let 4. - stacion´rius ergodikus forr´s 3.
a o e a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 11 / 18
38. Inform´ci´elm´let 4. - stacion´rius ergodikus forr´s 3.
a o e a a
Els˝rend˝ sz´szint˝ k¨zel´ es
o u o u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 11 / 18
39. Inform´ci´elm´let 4. - stacion´rius ergodikus forr´s 3.
a o e a a
Els˝rend˝ sz´szint˝ k¨zel´ es
o u o u o ıt´
“REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME
CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO
OF EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE
HAD BE THESE”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 11 / 18
40. Inform´ci´elm´let 4. - stacion´rius ergodikus forr´s 3.
a o e a a
Els˝rend˝ sz´szint˝ k¨zel´ es
o u o u o ıt´
“REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME
CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO
OF EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE
HAD BE THESE”
M´sodrend˝ sz´szint˝ k¨zel´ es
a u o u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 11 / 18
41. Inform´ci´elm´let 4. - stacion´rius ergodikus forr´s 3.
a o e a a
Els˝rend˝ sz´szint˝ k¨zel´ es
o u o u o ıt´
“REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME
CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO
OF EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE
HAD BE THESE”
M´sodrend˝ sz´szint˝ k¨zel´ es
a u o u o ıt´
“THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH
WRITER THAT THE CHARACTER OF THIS POINT IS
THEREFORE ANOTHER METHOD FOR THE LETTERS THAT
THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN
UNEXPECTED”
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 11 / 18
42. Inform´ci´elm´let 5. - stacion´rius ergodikus forr´s 4.
a o e a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 12 / 18
43. Inform´ci´elm´let 5. - stacion´rius ergodikus forr´s 4.
a o e a a
stacion´rius forr´s id˝ben nem v´ltozik, pl. els˝rend˝ k¨zel´ esek
a a o a o u o ıt´
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 12 / 18
44. Inform´ci´elm´let 5. - stacion´rius ergodikus forr´s 4.
a o e a a
stacion´rius forr´s id˝ben nem v´ltozik, pl. els˝rend˝ k¨zel´ esek
a a o a o u o ıt´
id˝sor ´tlag tkp. a relat´ gyakoris´g
o a ıv a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 12 / 18
45. Inform´ci´elm´let 5. - stacion´rius ergodikus forr´s 4.
a o e a a
stacion´rius forr´s id˝ben nem v´ltozik, pl. els˝rend˝ k¨zel´ esek
a a o a o u o ıt´
id˝sor ´tlag tkp. a relat´ gyakoris´g
o a ıv a
osszes´
¨ ıtett ´tlag egy infinit forr´s v´gtelen sorozatot hozhat l´tre
a a e e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 12 / 18
46. Inform´ci´elm´let 5. - stacion´rius ergodikus forr´s 4.
a o e a a
stacion´rius forr´s id˝ben nem v´ltozik, pl. els˝rend˝ k¨zel´ esek
a a o a o u o ıt´
id˝sor ´tlag tkp. a relat´ gyakoris´g
o a ıv a
osszes´
¨ ıtett ´tlag egy infinit forr´s v´gtelen sorozatot hozhat l´tre
a a e e
ergodikus forr´s minden olyan stacion´rius forr´s mely id˝sor ´tlaga ´s
a a a o a e
o
¨sszes´
ıtett ´tlaga megegyezik
a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 12 / 18
47. Inform´ci´elm´let 6. - az indukci´ probl´m´ja
a o e o e a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 13 / 18
48. Inform´ci´elm´let 6. - az indukci´ probl´m´ja
a o e o e a
T¨k mindegy melyik forr´st vizsg´ljuk, hiszen annak id˝sor ´tlaga
o a a o a
megegyezik az ergodikus forr´s ¨sszes´
a o ıtett ´tlag´val
a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 13 / 18
49. Inform´ci´elm´let 6. - az indukci´ probl´m´ja
a o e o e a
T¨k mindegy melyik forr´st vizsg´ljuk, hiszen annak id˝sor ´tlaga
o a a o a
megegyezik az ergodikus forr´s ¨sszes´
a o ıtett ´tlag´val
a a
Ahogy n¨vekszik a vizsg´lt szekvencia hossza, ugy ker¨l¨nk egyre
o a ´ uu
k¨zelebb a forr´s ´tlag´hoz
o a a a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 13 / 18
50. Inform´ci´elm´let 6. - az indukci´ probl´m´ja
a o e o e a
T¨k mindegy melyik forr´st vizsg´ljuk, hiszen annak id˝sor ´tlaga
o a a o a
megegyezik az ergodikus forr´s ¨sszes´
a o ıtett ´tlag´val
a a
Ahogy n¨vekszik a vizsg´lt szekvencia hossza, ugy ker¨l¨nk egyre
o a ´ uu
k¨zelebb a forr´s ´tlag´hoz
o a a a
Nem statisztikai le´ ast kapunk, hanem egy algoritmikus m´dszert arra
ır´ o
hogy gener´ljunk egy k¨zel´ o szekvenci´t
a o ıt˝ a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 13 / 18
51. Modellek
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 14 / 18
52. Modellek
X nyelv´szet, ahol X = kognit´ matematikai, bio, . . .
e ıv,
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 14 / 18
53. Modellek
X nyelv´szet, ahol X = kognit´ matematikai, bio, . . .
e ıv,
T´rsadalomtudom´nyok: a modellek nem le´ o jelleg˝ek, “csak”
a a ır´ u
seg´ a meg´rt´st
ıtik e e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 14 / 18
54. Modellek
X nyelv´szet, ahol X = kognit´ matematikai, bio, . . .
e ıv,
T´rsadalomtudom´nyok: a modellek nem le´ o jelleg˝ek, “csak”
a a ır´ u
seg´ a meg´rt´st
ıtik e e
Robert Aumann: Interactive Epistemology I. & II.
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 14 / 18
55. Zajos csatorna 1
Mi´rt redund´ns a nyelv?
e a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 15 / 18
56. Zajos csatorna 1
Mi´rt redund´ns a nyelv?
e a
Effekt´ k´dol´s probl´m´ja, az inform´ci´nak “´t kell jutnia” a zajos
ıv o a e a a o a
csatorn´n
a
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 15 / 18
57. Zajos csatorna 1
Mi´rt redund´ns a nyelv?
e a
Effekt´ k´dol´s probl´m´ja, az inform´ci´nak “´t kell jutnia” a zajos
ıv o a e a a o a
csatorn´n
a
Hogyan gener´ljuk ´s dek´doljuk az uzenetet?
a e o ¨
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 15 / 18
58. Zajos csatorna 1
Mi´rt redund´ns a nyelv?
e a
Effekt´ k´dol´s probl´m´ja, az inform´ci´nak “´t kell jutnia” a zajos
ıv o a e a a o a
csatorn´n
a
Hogyan gener´ljuk ´s dek´doljuk az uzenetet?
a e o ¨
Milyen episztemol´giai k¨vetkezm´nyei vannak ennek?
o o e
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 15 / 18
59. Zajos csatorna 2
begin
i := 0
while true do
begin read xi ;
send xi until KS KR (xi );
send KS KR (xi ) until KS KR KS KR (xi )
i := i + 1
end
od
end
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 16 / 18
60. Zajos csatorna 3
begin
when KR (x0 ) set i := 0
while true do
begin write xi ;
send KR (xi ) until KR KS KR (xi );
send KR KS KR (xi ) until KR (xi+1 )
i := i + 1
end
od
end
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 17 / 18
62. Dinamikus episztemikus logika
van Bentem: ‘‘One is a lonely number’’.
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 18 / 18
63. Dinamikus episztemikus logika
van Bentem: ‘‘One is a lonely number’’.
tanul´s vs ´rvel´s [learning vs.
a e e reasoning about
knowledge]
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 18 / 18
64. K¨sz¨n¨m a figyelmet
o o o
Keres˝ Vil´g http://kereses.blog.hu/
o a
Sz´m´ og´pes nyelv´szet
a ıt´ e e
http://szamitogepesnyelveszet.blogspot.com/
Twitter: @zoltanvarju
Email: zoltan.varju@weblib.com
Varj´ Zolt´n (Weblib Kft.)
u a Nyelvi modellek 2012-03-12 19 / 18