SlideShare a Scribd company logo
Ekstrakcja atrybutów do DBpedii w różnych językach
Jakość atrybutów vs. jakość artykułu
Liczba haseł w Wikipedii
Ponad 290 wersji
językowych mają
łącznie
42 581 327 haseł
Skrót Język Liczba haseł
EN Angielski 5 290 717
DE Niemiecki 2 001 246
FR Francuzki 1 816 256
RU Rosyjski 1 355 055
PL Polski 1 193 601
UK Ukraiński 662 713
BE Białoruski 123 016
Źródło: https://meta.wikimedia.org/wiki/List_of_Wikipedias (dostęp 22.11.2016)
Klasyfikacja jakości w poszczególnych językach
Nazwa/Język
BE
114 365
DE
1 929 003
EN
5 125 754
FR
1 744 491
PL
1 162 622
RU
1 303 277
UK
628 758
Featured Article (FA) 0,06% 0,13% 0,09% 0,09% 0,06% 0,07% 0,03%
Good Article (GA) 0,10% 0,20% 0,47% 0,14% 0,18% 0,18% 0,09%
Solidny artykuł 0,22%
A-klasa 0,02% 0,09%
B-klasa (Czwórka) 1,75% 1,66% 0,01% 0,37% 0,06%
C-klasa 4,19% 1,38% 0,31%
Start 25,09% 14,03% 0,11% 5,66% 1,40%
Zalążek (stub) 0,50% 50,09% 44,68% 0,14% 7,11% 1,06%
Bez oceny 99,34% 99,68% 18,30% 39,30% 99,50% 85,01% 97,04%
Kolorami zaznaczone grupy klas z różną nazwą, ale podobnymi cechami
Wniosek: dużo artykułów jest nieocenionych
Klasyfikacja jakości w polskiej Wikipedii
Nazwa Dla czytelnika Dla edytora
Artykuł na medal
(FA)
Ukończony. Wyróżniający się artykuł, dogłębnie
traktujący temat. Świetne źródło
encyklopedycznej wiedzy…
Brak konieczności dalszej rozbudowy,
chyba że ukażą się nowe informacje na
dany temat. Dopuszczalne są dalsze
poprawki w tekście…
Dobry Artykuł
(GA)
Przydatne dla prawie wszystkich czytelników.
Dobre potraktowanie tematu. Brak oczywistych
problemów, niedociągnięć, nadmiaru
informacji…
Artykuł wymaga jeszcze trochę pracy, ale
nie jest to konieczne dla pozytywnego
odbioru artykuł…
Czwórka
Przydatny wielu czytelnikom, lecz nie
wszystkim…
Konieczne jest poświęcenie jeszcze sporo
wysiłku na prace nad artykułem…
Start
Przydatny dla niektórych, zapewnia
umiarkowaną ilość informacji, ale wielu
czytelników będzie potrzebowało dodatkowych
źródeł informacji…
Niezbędna jest znacząca ilość edycji;
większość materiału…
Zalążek
Możliwa przydatność dla osoby, która nie ma
żadnego pojęcia co oznacza dany termin…
Każda edycja lub dodatek materiału może
być przydatny…
Automatyczna ocena jakości artykułów Wikipedii
• Kompletność:
• Generalnie artykuły wysokiej jakości są dłuższe [Blumenstock et al. 2008; Stvilia et al. 2005]
• Styl:
• Posiadanie infoboksu, stosunek obrazki/długość [Dang 2016]
• Szablony wskazujące na luki jakości [Anderka, 2013]
• Posiadanie infoboksów [Warncke-Wang. 2015]
• Czytelność:
• Indeks czytelności FOG [Dalip et al., 2009]
• Lepszy artykuł będzie miał więcej informacji faktycznych [Lex et al., 2012]
• Styl i różnorodność używanych słów również wpływa na jakość artykułu [Lipka et al., 2010; Xu et
al., 2011]
• Odpowiednie (fachowe) słownictwo [Cozza 2015]
• Relewancja:
• Popularność artykułu [Lewoniewski et al., 2015]: Liczba odwiedzin, liczba obserwujących
użytkowników etc.
• Grafy powiązań artykułów [Dalip 2016]
• Weryfikowalność:
• Dobre artykuły używają referencji w sposób spójny
0
10
20
30
40
50
60
70
80
90
100
Dlugosc strony (w bajtach)
Informatywnosc1
Informatywnosc2
Liczba edycji za caly czas
Liczba linkow na artykul (wszystkie)
Liczba linkow na artykul ns1
Liczba linkow na artykul ns100
Liczba linkow na artykul ns2
Liczba linkow na artykul ns3
Liczba linkow na artykul ns4
Liczba linkow na artykul ns5
Liczba linkow wewn. (wszystkie)
Liczba linkow wewn. dobrych
Liczba linkow zewn.
Liczba liter
Liczba liter bez szumu 1
Liczba liter bez szumu 2
Liczba obrazkow (wszystkie)
Liczba obrazkow unikatowych 1p
Liczba obrazkow unikatowych 2p
Liczba obrazkow unikatowych 3p
Liczba obrazkow unikatowych 4p
Liczba obrazkow unikatowych 5p
Liczba szablonow (wszystkie)
Liczba szablonow ns10
Liczba szablonow ns828
Liczba unikatowyh anonimowych…
Mediana niezerowych 30 ost dni
Mediana odwiedzin za 30 dni
Mediana odwiedzin za 90 dni
Naglowek 1
Naglowek 2
Odwiedzenia za ost dzien
Ref/Dlugosc
Ref/LiczbaLiter
Referencje unikatowe
Referencje wszystkie
Srednia odwiedzin za 30 dni
Srednia odwiedzin za 90 dni
Suma odwiedzin za 30 dni
Suma odwiedzin za 90 dni
Szum1
Szum2
Unikatowe autorzy za zaly czas
BE DE EN FR PL RU UK
Istotność
parametrów
Istotność parametrów w
metodzie Random Forest
artykułów w różnych
językach Wikipedii
przybinarnej zmiennej
zależnej. Źródło:
Opracowanie własne
WikiRank.net – ocena jakości artykułów Wikipedii
Źródłó: http://wikirank.net/pl/Ratusz_w_Poznaniu
Pytania?
wlodzimierz.lewoniewski@ue.poznan.pl
www.Lewoniewski.info

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

Jakość DBpedii na podstawie oceny Wikipedii

  • 1.
  • 2. Ekstrakcja atrybutów do DBpedii w różnych językach
  • 3. Jakość atrybutów vs. jakość artykułu
  • 4. Liczba haseł w Wikipedii Ponad 290 wersji językowych mają łącznie 42 581 327 haseł Skrót Język Liczba haseł EN Angielski 5 290 717 DE Niemiecki 2 001 246 FR Francuzki 1 816 256 RU Rosyjski 1 355 055 PL Polski 1 193 601 UK Ukraiński 662 713 BE Białoruski 123 016 Źródło: https://meta.wikimedia.org/wiki/List_of_Wikipedias (dostęp 22.11.2016)
  • 5. Klasyfikacja jakości w poszczególnych językach Nazwa/Język BE 114 365 DE 1 929 003 EN 5 125 754 FR 1 744 491 PL 1 162 622 RU 1 303 277 UK 628 758 Featured Article (FA) 0,06% 0,13% 0,09% 0,09% 0,06% 0,07% 0,03% Good Article (GA) 0,10% 0,20% 0,47% 0,14% 0,18% 0,18% 0,09% Solidny artykuł 0,22% A-klasa 0,02% 0,09% B-klasa (Czwórka) 1,75% 1,66% 0,01% 0,37% 0,06% C-klasa 4,19% 1,38% 0,31% Start 25,09% 14,03% 0,11% 5,66% 1,40% Zalążek (stub) 0,50% 50,09% 44,68% 0,14% 7,11% 1,06% Bez oceny 99,34% 99,68% 18,30% 39,30% 99,50% 85,01% 97,04% Kolorami zaznaczone grupy klas z różną nazwą, ale podobnymi cechami Wniosek: dużo artykułów jest nieocenionych
  • 6. Klasyfikacja jakości w polskiej Wikipedii Nazwa Dla czytelnika Dla edytora Artykuł na medal (FA) Ukończony. Wyróżniający się artykuł, dogłębnie traktujący temat. Świetne źródło encyklopedycznej wiedzy… Brak konieczności dalszej rozbudowy, chyba że ukażą się nowe informacje na dany temat. Dopuszczalne są dalsze poprawki w tekście… Dobry Artykuł (GA) Przydatne dla prawie wszystkich czytelników. Dobre potraktowanie tematu. Brak oczywistych problemów, niedociągnięć, nadmiaru informacji… Artykuł wymaga jeszcze trochę pracy, ale nie jest to konieczne dla pozytywnego odbioru artykuł… Czwórka Przydatny wielu czytelnikom, lecz nie wszystkim… Konieczne jest poświęcenie jeszcze sporo wysiłku na prace nad artykułem… Start Przydatny dla niektórych, zapewnia umiarkowaną ilość informacji, ale wielu czytelników będzie potrzebowało dodatkowych źródeł informacji… Niezbędna jest znacząca ilość edycji; większość materiału… Zalążek Możliwa przydatność dla osoby, która nie ma żadnego pojęcia co oznacza dany termin… Każda edycja lub dodatek materiału może być przydatny…
  • 7. Automatyczna ocena jakości artykułów Wikipedii • Kompletność: • Generalnie artykuły wysokiej jakości są dłuższe [Blumenstock et al. 2008; Stvilia et al. 2005] • Styl: • Posiadanie infoboksu, stosunek obrazki/długość [Dang 2016] • Szablony wskazujące na luki jakości [Anderka, 2013] • Posiadanie infoboksów [Warncke-Wang. 2015] • Czytelność: • Indeks czytelności FOG [Dalip et al., 2009] • Lepszy artykuł będzie miał więcej informacji faktycznych [Lex et al., 2012] • Styl i różnorodność używanych słów również wpływa na jakość artykułu [Lipka et al., 2010; Xu et al., 2011] • Odpowiednie (fachowe) słownictwo [Cozza 2015] • Relewancja: • Popularność artykułu [Lewoniewski et al., 2015]: Liczba odwiedzin, liczba obserwujących użytkowników etc. • Grafy powiązań artykułów [Dalip 2016] • Weryfikowalność: • Dobre artykuły używają referencji w sposób spójny
  • 8. 0 10 20 30 40 50 60 70 80 90 100 Dlugosc strony (w bajtach) Informatywnosc1 Informatywnosc2 Liczba edycji za caly czas Liczba linkow na artykul (wszystkie) Liczba linkow na artykul ns1 Liczba linkow na artykul ns100 Liczba linkow na artykul ns2 Liczba linkow na artykul ns3 Liczba linkow na artykul ns4 Liczba linkow na artykul ns5 Liczba linkow wewn. (wszystkie) Liczba linkow wewn. dobrych Liczba linkow zewn. Liczba liter Liczba liter bez szumu 1 Liczba liter bez szumu 2 Liczba obrazkow (wszystkie) Liczba obrazkow unikatowych 1p Liczba obrazkow unikatowych 2p Liczba obrazkow unikatowych 3p Liczba obrazkow unikatowych 4p Liczba obrazkow unikatowych 5p Liczba szablonow (wszystkie) Liczba szablonow ns10 Liczba szablonow ns828 Liczba unikatowyh anonimowych… Mediana niezerowych 30 ost dni Mediana odwiedzin za 30 dni Mediana odwiedzin za 90 dni Naglowek 1 Naglowek 2 Odwiedzenia za ost dzien Ref/Dlugosc Ref/LiczbaLiter Referencje unikatowe Referencje wszystkie Srednia odwiedzin za 30 dni Srednia odwiedzin za 90 dni Suma odwiedzin za 30 dni Suma odwiedzin za 90 dni Szum1 Szum2 Unikatowe autorzy za zaly czas BE DE EN FR PL RU UK Istotność parametrów Istotność parametrów w metodzie Random Forest artykułów w różnych językach Wikipedii przybinarnej zmiennej zależnej. Źródło: Opracowanie własne
  • 9. WikiRank.net – ocena jakości artykułów Wikipedii Źródłó: http://wikirank.net/pl/Ratusz_w_Poznaniu