SlideShare a Scribd company logo
1 of 20
Antiplagiátorské nástroje
pro naše repozitáře
Jan Mach
Vysoká škola ekonomická v Praze
Univerzita Karlova v Praze

23. 10. 2013 Seminář ke zpřístupňování šedé literatury
1.
2.
3.

klonování – vydávání cizí práce, slovo od slova, za vlastní
CTRL-C – vydávání cizí práce za vlastní, s minimálním množstvím úprav
najít/nahradit – změna klíčových slov a frází bez změny podstaty textu

5.
6.
7.
8.
9.

recyklování – využití předchozích textů autora, bez autocitace
hybridní – mixování velmi dobře citovaných zdrojů s necitovanými
míchání zdrojů – kombinace více necitovaných zdrojů do textu
chyba 404 – citace neexistujících zdrojů nebo špatné informace o zdroji
agregace – korektní citování cizích zdrojů, ale téměř bez vlastního
osobního přínosu autorem

10.

re-tweet – korektní citování, ale za využití originálního textu/struktury bez
podstatnějších úprav

Co jeremixování – parafrázování z více zdrojů do jednoho textu
plagiát?
4.

The Plagiarism Spectrum: Tagging 10 Types of Unoriginal Work
10 typů zdrojů,
ze kterých studenti opisují
celkem 50 dokumentů,
z každého věta a odstavec
300 záznamů - fragmentů
textu za použití různých úprav
kopírovaných vět
Použité transformace
• věta se dvěma slovy prohozenými,
• věta s odstraněnou diakritikou,
• věta s jedním slovem nahrazeným slovem
významově blízkým – parafráze slova,
• věta s více slovy nahrazenými slovy
významově blízkými – parafráze věty,
• věta přeložená automaticky
do českého/anglického jazyka
Ověřované hypotézy
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

Hypotéza Thesis
Turnitin Ephorus GooglePl. Průměr
1
12%
40%
2%
56%
28%
Aplikace umí odhalit jeden odstavec zkopírovaný ze zdrojového dokumentu. Aplikaci nevadí
2
14%
42%
6%
46%
27%
případná zalomení řádků, indexy apod. ve zdrojovém nebo testovaném dokumentu.
Pro úspěšnou detekci nevadí, pokud plagiátor přidá/odebere slovo v kopírované větě.
3
100%
100%
0%
0%
50%
Aplikace provádí detekci českých textů nezávisle na diakritice. 80%
4
100%
100%
0%
70%
Pro úspěšnou detekci nevadí, pokud plagiátor parafrázuje jedno slovo ve větě.
5
67%
100%
0%
4%
43%
Pro úspěšnou detekci nevadí, pokud 88%
plagiátor parafrázuje celou větu.
6
0%
na
0%
29%
Pro úspěšnou detekci nevadí, pokud plagiátor přeloží text z/do českého jazyka.
7
0%
0%
0%
0%
0%
Systém Theses.cz by měl v detekci plagiátorství u10%
českých VŠKP dosahovat nejlepších
8
10%
50%
30%
25%
výsledků.
9
0%
0%
0%
0%
0%
U zdroje Anopress bude nalezeno nízké procento z celkového počtu podobností oproti
10
0%
40%
0%
70%
28%
zdrojům volně dostupným na Internetu.
11
50%
0%
80%
38%
Lepších výsledků u EIZ 20%
a Open Access zdrojů dosáhnou nástroje zahraniční oproti českým.
Aplikace umí odhalit jednu větu zkopírovanou ze zdrojového dokumentu.

Velmi dobrých výsledků u webových zdrojů budou dosahovat systémy využívající služeb
webových vyhledávačů.
TURNITIN
O APLIKACI

• 15 jazykových mutací
bez češtiny
• velká databáze textů
• cena dle počtu studentů,
v řádu stovek tisíc Kč
• integrace se systémy
MOODLE apod., bez API
• moduly GradeMark a
PeerMark

VYHODNOCENÍ PODOBNOSTÍ

• zpracování do 30 s
• konfigurovatelná velikost
hledaných podobností,
možnost vyloučení citací
• velmi přehledné a funkční
rozhraní s podobnostmi,
sdružování zdrojů
EPHORUS
O APLIKACI

• aplikaci používá přes
3 000 škol a univerzit,
v ČR 4 školy (FPH na
VŠE)
• rozhraní v češtině
• dle provozovatele
databáze s miliardami
webových stránek,
odevzdanými pracemi,
texty z časopisů aj.

VYHODNOCENÍ PODOBNOSTÍ

• možno definovat min.
procento podobností
• odesílání výsledků
e-mailem, přílohy v PDF
• základní rozhraní
na webu
• chybí deduplikace zdrojů
SYSTÉMY MUNI
O APLIKACI

VYHODNOCENÍ PODOBNOSTÍ

• theses.cz, odevzdej.cz
a repozitar.cz
• přes 30 veřejných i
soukromých škol z ČR a SK
• cena dle počtu studentů
• rozsáhlá databáze
českých VŠ závěrečných
prací, studijních materiálů a
vybraných webových
stránek
• API pro napojení

• zpracování v řádu hodin
• duplicitní dokumenty
• porovnávání dvojic
dokumentů
→ dva seznamy podobností
• chybí celkové procento

nalezených podobností
• zobrazeny podobnosti
pouze od 5 % délky

jednoho z porovnávané
dvojice dokumentů
První seznam obsahuje dokumenty s
délkou podobnosti min. 5 %
zkoumaného souboru.
bakalářská práce o 40 stranách: 2 strany

Druhý seznam doplňuje předchozí
o dokumenty další, ale pouze
s délkou podobnosti min. 5 %
nalezeného souboru.
GooglePlagiarism
O APLIKACI

• vlastní desktopová
aplikace pro osobní
počítače s Windows
• určena pro osobní
analýzy dokumentů
jednotlivcem
• hledání celých vět ve
vyhledávači Google

VYHODNOCENÍ PODOBNOSTÍ

• limitovaný počet
vyhledávání → doba
zpracování v řádu hodin
• výstupem HTML bez
zachování formátování
• vyznačené nalezené věty
a první odpovídající zdroj
Pokud není zachována velikost a
zalomení řádků, je velmi snížena
orientace v textu při kontrole.
Hodnocení ovládání
a funkcí systémů
Hodnocení
doba zpracování
přehlednost výsledků
zobrazení celkové podobnosti
minimální podobnost
cena
integrace s IS školy
deduplikace zdrojů

Thesis

Turnitin

Ephorus GooglePl.

Systém Thesis.cz vyniká
příznivou cenou a možností
integrace s repozitáři.

Aplikace Turnitin exceluje
uživatelským rozhraním
a dostupnými funkcemi,
ale je drahá a nelze ji
snadno zaintegrovat.
Systém Ephorus by byl
dobrým kompromisem mezi
Thesis a Turnitin, ale …
Počet nalezených dokumentů
podle zdroje
Kategorie
wikipedia.cz
wikipedia.org (en)
VŠKP (cz)
VŠKP (en)
NDLTD
Anopress
Arxive.org
Google.cz (cz)
Google.com (en)
EIZ
Celkem

Korpus
5
5
5
5
5
5
5
5
5
5
50

Thesis
3
1
1
0
0
0
0
2
0
0
7

Turnitin
5
3
2
3
0
0
1
3
2
3
22

Ephorus GooglePl. Průměr
2
5
3,75
2
5
2,75
1
1
1,25
0
2
1,25
0
1
0,25
0
0
0
0
3
1
0
5
2,5
0
3
1,25
0
4
1,75
5
29
15,75

Kategorie
wikipedia.cz
wikipedia.org (en)
VŠKP (cz)
VŠKP (en)
NDLTD
Anopress
Arxive.org
Google.cz (cz)
Google.com (en)
EIZ
Průměr

Korpus
100%
100%
100%
100%
100%
100%
100%
100%
100%
100%
100%

Thesis
60%
20%
20%
0%
0%
0%
0%
40%
0%
0%
14%

Turnitin
100%
60%
40%
60%
0%
0%
20%
60%
40%
60%
44%

Ephorus GooglePl. Průměr
40%
100%
75%
40%
100%
55%
20%
20%
25%
0%
40%
25%
0%
20%
5%
0%
0%
0%
0%
60%
20%
0%
100%
50%
0%
60%
25%
0%
80%
35%
10%
58%
32%

Nízký počet dokumentů
nalezených systémem
Ephorus.
Dokumenty z Anopressu
nebyly nalezeny žádným
systémem.
Nejvíce dokumentů nalezly
systémy Turnitin a
GooglePlagiarism.
Počet nalezených dokumentů
podle jazyka dokumentu
Jazyk
česky
anglicky
slovensky
Celkem
Jazyk
česky
anglicky
slovensky

Korpus
19
30
1
50
Korpus
100%
100%
100%

Thesis
6
1
0
7
Thesis
32%
3%
0%

Turnitin
10
12
0
22
Turnitin
53%
40%
0%

Ephorus GooglePl. Průměr
3
11
7,5
2
18
8,25
0
0
0
5
29
15,75
Ephorus GooglePl. Průměr
16%
58%
39%
7%
60%
28%
0%
0%
0%

Systém Theses.cz nalezl
průměrný počet českých
dokumentů, u anglických
dokumentů dosáhl výsledků
nejhorších.

Stále však v celku více než
Ephorus. Snížení 5%
hranice by úspěšnosti
Theses.cz výrazně pomohlo!
Počet nalezených záznamů
podle typu úprav
– podezření na plagiátorství
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Celkem

Korpus
50
50
50
19
31
50
50
300

Thesis
6
7
6
5
0
4
0
28

Turnitin
20
21
20
9
10
20
0
100

Ephorus GooglePl. Průměr
1
28
13,75
3
23
13,5
1
0
6,75
1
8
5,75
0
0
2,5
1
1
6,5
1
0
0,25
8
60
49,00

Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Průměr

Korpus
100%
100%
100%
100%
100%
100%
100%
100%

Thesis
12%
14%
12%
26%
0%
8%
0%
10%

Turnitin
40%
42%
40%
47%
32%
40%
0%
35%

Ephorus GooglePl. Průměr
2%
56%
28%
6%
46%
27%
2%
0%
14%
5%
42%
30%
0%
0%
8%
2%
2%
13%
2%
0%
1%
3%
21%
17%

Hledání celých vět v aplikaci
GooglePlagiarism
nedetekuje úpravy textu.
Systém Ephorus detekoval
pouze 8 zkopírovaných
pasáží textu, především ale
jen typu rozepsání zkratky.
Počet nalezených záznamů
podle typu úprav
– důkazy plagiátorství
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Celkem

Korpus
50
50
50
19
31
50
50
300

Thesis
5
6
1
4
0
3
0
19

Turnitin
8
10
7
6
2
8
0
41

Ephorus GooglePl. Průměr
0
25
9,5
1
9
6,5
0
0
2
0
7
4,25
0
0
0,5
0
1
3
0
0
0
1
42
25,75

Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Průměr

Korpus
100%
100%
100%
100%
100%
100%
100%
100%

Thesis
10%
12%
2%
21%
0%
6%
0%
7%

Turnitin
16%
20%
14%
32%
6%
16%
0%
15%

Ephorus GooglePl. Průměr
0%
50%
19%
2%
18%
13%
0%
0%
4%
0%
37%
22%
0%
0%
2%
0%
2%
6%
0%
0%
0%
0%
15%
9%

Systém Ephorus
ve skutečnosti jen jednou
nalezl dokument jasně
prokazující plagiátorství.
Zatím žádný ze systémů
neumí vyhledat přeložený
text.
Věty bez úprav vyhledává
nejlépe GooglePlagiarism,
věty s úpravami nejlépe
Turnitin.
Závěrečné shrnutí
Aplikace Turnitin dosahuje velmi dobrých výsledků,
ale je velmi drahá.
Aplikace Ephorus vyhledávala
duplicity v testovacím korpusu nedostatečně.
Aplikace Theses.cz je dobrým kompromisem mezi
cenou a schopnostmi. Zlepšením by bylo
odstranění 5% limitu na délku podobnosti.
Vyhledáváním zdrojů online v GooglePlagiarism je
velmi účinné na detekci zkopírovaných textů.
Detailní výsledky testu naleznete ve sborníku
Semináře ke zpřístupňování šedé literatury 2013
http://nusl.techlib.cz/sbornik/

Jan Mach
machj@vse.cz

More Related Content

Similar to Antiplagiátorské nástroje pro naše repozitáře

Vyhledávání literatury k diplomové práci a správa citací
Vyhledávání literatury k diplomové práci a správa citacíVyhledávání literatury k diplomové práci a správa citací
Vyhledávání literatury k diplomové práci a správa citacíÚstřední knihovna FF MU
 
Vyhledavani_cviceni_technik
Vyhledavani_cviceni_technikVyhledavani_cviceni_technik
Vyhledavani_cviceni_technikKnihovnaUTB
 
Elektronické informační zdroje v práci doktorandů
Elektronické informační zdroje v práci doktorandů Elektronické informační zdroje v práci doktorandů
Elektronické informační zdroje v práci doktorandů Ústřední knihovna FF MU
 
Petr Hamerník: Textová analytika v mobilních aplikacích
Petr Hamerník: Textová analytika v mobilních aplikacíchPetr Hamerník: Textová analytika v mobilních aplikacích
Petr Hamerník: Textová analytika v mobilních aplikacíchmdevtalk
 
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)eeeliska
 
Trendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůTrendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůkadlec
 
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.Ústřední knihovna FF MU
 
Průvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaPrůvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaÚstřední knihovna FF MU
 
Vyhledavani_cviceni
Vyhledavani_cviceniVyhledavani_cviceni
Vyhledavani_cviceniKnihovnaUTB
 
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)Ústřední knihovna FF MU
 
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumPrůvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumÚstřední knihovna FF MU
 

Similar to Antiplagiátorské nástroje pro naše repozitáře (20)

Odborné informace onlie
Odborné informace onlie Odborné informace onlie
Odborné informace onlie
 
Vyhledávání literatury k diplomové práci a správa citací
Vyhledávání literatury k diplomové práci a správa citacíVyhledávání literatury k diplomové práci a správa citací
Vyhledávání literatury k diplomové práci a správa citací
 
Vyhledavani_cviceni_technik
Vyhledavani_cviceni_technikVyhledavani_cviceni_technik
Vyhledavani_cviceni_technik
 
Patenty
PatentyPatenty
Patenty
 
Elektronické informační zdroje v práci doktorandů
Elektronické informační zdroje v práci doktorandů Elektronické informační zdroje v práci doktorandů
Elektronické informační zdroje v práci doktorandů
 
Vyhledávání odborných informací
Vyhledávání odborných informacíVyhledávání odborných informací
Vyhledávání odborných informací
 
Petr Hamerník: Textová analytika v mobilních aplikacích
Petr Hamerník: Textová analytika v mobilních aplikacíchPetr Hamerník: Textová analytika v mobilních aplikacích
Petr Hamerník: Textová analytika v mobilních aplikacích
 
EIZ v práci doktorandů
EIZ v práci doktorandůEIZ v práci doktorandů
EIZ v práci doktorandů
 
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
 
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
 
Trendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůTrendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémů
 
Eiz pro pedagogiku (podzim2012)
Eiz pro pedagogiku (podzim2012)Eiz pro pedagogiku (podzim2012)
Eiz pro pedagogiku (podzim2012)
 
COinS
COinS COinS
COinS
 
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.
Práce s elektronickými informační zdroji pro Sdružená uměnovědná studia II.
 
Průvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaPrůvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studia
 
Vyhledavani_cviceni
Vyhledavani_cviceniVyhledavani_cviceni
Vyhledavani_cviceni
 
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)
Pruvodce EIZ aneb kvalitní zdroje pro vaše studium (jaro 2012)
 
Sci verse (Lucie Vavříková)
Sci verse (Lucie Vavříková)Sci verse (Lucie Vavříková)
Sci verse (Lucie Vavříková)
 
Průvodce online katalogy (podzim 2011)
Průvodce online katalogy (podzim 2011)Průvodce online katalogy (podzim 2011)
Průvodce online katalogy (podzim 2011)
 
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumPrůvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
 

Recently uploaded

Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyProject Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyTaste
 
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Taste
 
Martina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenMartina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenÚISK FF UK
 
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíProject Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíTaste
 
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Taste
 
Project Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceProject Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceTaste
 
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Taste
 
Project Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektůProject Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektůTaste
 

Recently uploaded (8)

Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyProject Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
 
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
 
Martina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenMartina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihoven
 
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíProject Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
 
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
 
Project Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceProject Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizace
 
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
 
Project Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektůProject Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektů
 

Antiplagiátorské nástroje pro naše repozitáře

  • 1. Antiplagiátorské nástroje pro naše repozitáře Jan Mach Vysoká škola ekonomická v Praze Univerzita Karlova v Praze 23. 10. 2013 Seminář ke zpřístupňování šedé literatury
  • 2. 1. 2. 3. klonování – vydávání cizí práce, slovo od slova, za vlastní CTRL-C – vydávání cizí práce za vlastní, s minimálním množstvím úprav najít/nahradit – změna klíčových slov a frází bez změny podstaty textu 5. 6. 7. 8. 9. recyklování – využití předchozích textů autora, bez autocitace hybridní – mixování velmi dobře citovaných zdrojů s necitovanými míchání zdrojů – kombinace více necitovaných zdrojů do textu chyba 404 – citace neexistujících zdrojů nebo špatné informace o zdroji agregace – korektní citování cizích zdrojů, ale téměř bez vlastního osobního přínosu autorem 10. re-tweet – korektní citování, ale za využití originálního textu/struktury bez podstatnějších úprav Co jeremixování – parafrázování z více zdrojů do jednoho textu plagiát? 4. The Plagiarism Spectrum: Tagging 10 Types of Unoriginal Work
  • 3. 10 typů zdrojů, ze kterých studenti opisují celkem 50 dokumentů, z každého věta a odstavec 300 záznamů - fragmentů textu za použití různých úprav kopírovaných vět
  • 4. Použité transformace • věta se dvěma slovy prohozenými, • věta s odstraněnou diakritikou, • věta s jedním slovem nahrazeným slovem významově blízkým – parafráze slova, • věta s více slovy nahrazenými slovy významově blízkými – parafráze věty, • věta přeložená automaticky do českého/anglického jazyka
  • 5. Ověřované hypotézy 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hypotéza Thesis Turnitin Ephorus GooglePl. Průměr 1 12% 40% 2% 56% 28% Aplikace umí odhalit jeden odstavec zkopírovaný ze zdrojového dokumentu. Aplikaci nevadí 2 14% 42% 6% 46% 27% případná zalomení řádků, indexy apod. ve zdrojovém nebo testovaném dokumentu. Pro úspěšnou detekci nevadí, pokud plagiátor přidá/odebere slovo v kopírované větě. 3 100% 100% 0% 0% 50% Aplikace provádí detekci českých textů nezávisle na diakritice. 80% 4 100% 100% 0% 70% Pro úspěšnou detekci nevadí, pokud plagiátor parafrázuje jedno slovo ve větě. 5 67% 100% 0% 4% 43% Pro úspěšnou detekci nevadí, pokud 88% plagiátor parafrázuje celou větu. 6 0% na 0% 29% Pro úspěšnou detekci nevadí, pokud plagiátor přeloží text z/do českého jazyka. 7 0% 0% 0% 0% 0% Systém Theses.cz by měl v detekci plagiátorství u10% českých VŠKP dosahovat nejlepších 8 10% 50% 30% 25% výsledků. 9 0% 0% 0% 0% 0% U zdroje Anopress bude nalezeno nízké procento z celkového počtu podobností oproti 10 0% 40% 0% 70% 28% zdrojům volně dostupným na Internetu. 11 50% 0% 80% 38% Lepších výsledků u EIZ 20% a Open Access zdrojů dosáhnou nástroje zahraniční oproti českým. Aplikace umí odhalit jednu větu zkopírovanou ze zdrojového dokumentu. Velmi dobrých výsledků u webových zdrojů budou dosahovat systémy využívající služeb webových vyhledávačů.
  • 6. TURNITIN O APLIKACI • 15 jazykových mutací bez češtiny • velká databáze textů • cena dle počtu studentů, v řádu stovek tisíc Kč • integrace se systémy MOODLE apod., bez API • moduly GradeMark a PeerMark VYHODNOCENÍ PODOBNOSTÍ • zpracování do 30 s • konfigurovatelná velikost hledaných podobností, možnost vyloučení citací • velmi přehledné a funkční rozhraní s podobnostmi, sdružování zdrojů
  • 7.
  • 8. EPHORUS O APLIKACI • aplikaci používá přes 3 000 škol a univerzit, v ČR 4 školy (FPH na VŠE) • rozhraní v češtině • dle provozovatele databáze s miliardami webových stránek, odevzdanými pracemi, texty z časopisů aj. VYHODNOCENÍ PODOBNOSTÍ • možno definovat min. procento podobností • odesílání výsledků e-mailem, přílohy v PDF • základní rozhraní na webu • chybí deduplikace zdrojů
  • 9.
  • 10. SYSTÉMY MUNI O APLIKACI VYHODNOCENÍ PODOBNOSTÍ • theses.cz, odevzdej.cz a repozitar.cz • přes 30 veřejných i soukromých škol z ČR a SK • cena dle počtu studentů • rozsáhlá databáze českých VŠ závěrečných prací, studijních materiálů a vybraných webových stránek • API pro napojení • zpracování v řádu hodin • duplicitní dokumenty • porovnávání dvojic dokumentů → dva seznamy podobností • chybí celkové procento nalezených podobností • zobrazeny podobnosti pouze od 5 % délky jednoho z porovnávané dvojice dokumentů
  • 11. První seznam obsahuje dokumenty s délkou podobnosti min. 5 % zkoumaného souboru. bakalářská práce o 40 stranách: 2 strany Druhý seznam doplňuje předchozí o dokumenty další, ale pouze s délkou podobnosti min. 5 % nalezeného souboru.
  • 12. GooglePlagiarism O APLIKACI • vlastní desktopová aplikace pro osobní počítače s Windows • určena pro osobní analýzy dokumentů jednotlivcem • hledání celých vět ve vyhledávači Google VYHODNOCENÍ PODOBNOSTÍ • limitovaný počet vyhledávání → doba zpracování v řádu hodin • výstupem HTML bez zachování formátování • vyznačené nalezené věty a první odpovídající zdroj
  • 13. Pokud není zachována velikost a zalomení řádků, je velmi snížena orientace v textu při kontrole.
  • 14. Hodnocení ovládání a funkcí systémů Hodnocení doba zpracování přehlednost výsledků zobrazení celkové podobnosti minimální podobnost cena integrace s IS školy deduplikace zdrojů Thesis Turnitin Ephorus GooglePl. Systém Thesis.cz vyniká příznivou cenou a možností integrace s repozitáři. Aplikace Turnitin exceluje uživatelským rozhraním a dostupnými funkcemi, ale je drahá a nelze ji snadno zaintegrovat. Systém Ephorus by byl dobrým kompromisem mezi Thesis a Turnitin, ale …
  • 15. Počet nalezených dokumentů podle zdroje Kategorie wikipedia.cz wikipedia.org (en) VŠKP (cz) VŠKP (en) NDLTD Anopress Arxive.org Google.cz (cz) Google.com (en) EIZ Celkem Korpus 5 5 5 5 5 5 5 5 5 5 50 Thesis 3 1 1 0 0 0 0 2 0 0 7 Turnitin 5 3 2 3 0 0 1 3 2 3 22 Ephorus GooglePl. Průměr 2 5 3,75 2 5 2,75 1 1 1,25 0 2 1,25 0 1 0,25 0 0 0 0 3 1 0 5 2,5 0 3 1,25 0 4 1,75 5 29 15,75 Kategorie wikipedia.cz wikipedia.org (en) VŠKP (cz) VŠKP (en) NDLTD Anopress Arxive.org Google.cz (cz) Google.com (en) EIZ Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% Thesis 60% 20% 20% 0% 0% 0% 0% 40% 0% 0% 14% Turnitin 100% 60% 40% 60% 0% 0% 20% 60% 40% 60% 44% Ephorus GooglePl. Průměr 40% 100% 75% 40% 100% 55% 20% 20% 25% 0% 40% 25% 0% 20% 5% 0% 0% 0% 0% 60% 20% 0% 100% 50% 0% 60% 25% 0% 80% 35% 10% 58% 32% Nízký počet dokumentů nalezených systémem Ephorus. Dokumenty z Anopressu nebyly nalezeny žádným systémem. Nejvíce dokumentů nalezly systémy Turnitin a GooglePlagiarism.
  • 16. Počet nalezených dokumentů podle jazyka dokumentu Jazyk česky anglicky slovensky Celkem Jazyk česky anglicky slovensky Korpus 19 30 1 50 Korpus 100% 100% 100% Thesis 6 1 0 7 Thesis 32% 3% 0% Turnitin 10 12 0 22 Turnitin 53% 40% 0% Ephorus GooglePl. Průměr 3 11 7,5 2 18 8,25 0 0 0 5 29 15,75 Ephorus GooglePl. Průměr 16% 58% 39% 7% 60% 28% 0% 0% 0% Systém Theses.cz nalezl průměrný počet českých dokumentů, u anglických dokumentů dosáhl výsledků nejhorších. Stále však v celku více než Ephorus. Snížení 5% hranice by úspěšnosti Theses.cz výrazně pomohlo!
  • 17. Počet nalezených záznamů podle typu úprav – podezření na plagiátorství Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Celkem Korpus 50 50 50 19 31 50 50 300 Thesis 6 7 6 5 0 4 0 28 Turnitin 20 21 20 9 10 20 0 100 Ephorus GooglePl. Průměr 1 28 13,75 3 23 13,5 1 0 6,75 1 8 5,75 0 0 2,5 1 1 6,5 1 0 0,25 8 60 49,00 Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% Thesis 12% 14% 12% 26% 0% 8% 0% 10% Turnitin 40% 42% 40% 47% 32% 40% 0% 35% Ephorus GooglePl. Průměr 2% 56% 28% 6% 46% 27% 2% 0% 14% 5% 42% 30% 0% 0% 8% 2% 2% 13% 2% 0% 1% 3% 21% 17% Hledání celých vět v aplikaci GooglePlagiarism nedetekuje úpravy textu. Systém Ephorus detekoval pouze 8 zkopírovaných pasáží textu, především ale jen typu rozepsání zkratky.
  • 18. Počet nalezených záznamů podle typu úprav – důkazy plagiátorství Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Celkem Korpus 50 50 50 19 31 50 50 300 Thesis 5 6 1 4 0 3 0 19 Turnitin 8 10 7 6 2 8 0 41 Ephorus GooglePl. Průměr 0 25 9,5 1 9 6,5 0 0 2 0 7 4,25 0 0 0,5 0 1 3 0 0 0 1 42 25,75 Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% Thesis 10% 12% 2% 21% 0% 6% 0% 7% Turnitin 16% 20% 14% 32% 6% 16% 0% 15% Ephorus GooglePl. Průměr 0% 50% 19% 2% 18% 13% 0% 0% 4% 0% 37% 22% 0% 0% 2% 0% 2% 6% 0% 0% 0% 0% 15% 9% Systém Ephorus ve skutečnosti jen jednou nalezl dokument jasně prokazující plagiátorství. Zatím žádný ze systémů neumí vyhledat přeložený text. Věty bez úprav vyhledává nejlépe GooglePlagiarism, věty s úpravami nejlépe Turnitin.
  • 19. Závěrečné shrnutí Aplikace Turnitin dosahuje velmi dobrých výsledků, ale je velmi drahá. Aplikace Ephorus vyhledávala duplicity v testovacím korpusu nedostatečně. Aplikace Theses.cz je dobrým kompromisem mezi cenou a schopnostmi. Zlepšením by bylo odstranění 5% limitu na délku podobnosti. Vyhledáváním zdrojů online v GooglePlagiarism je velmi účinné na detekci zkopírovaných textů.
  • 20. Detailní výsledky testu naleznete ve sborníku Semináře ke zpřístupňování šedé literatury 2013 http://nusl.techlib.cz/sbornik/ Jan Mach machj@vse.cz