Antiplagiátorské nástroje pro naše repozitáře
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Antiplagiátorské nástroje pro naše repozitáře

on

  • 357 views

Prezentace rozsáhlého testu antiplagiátorských nástrojů Turnitin, Ephorus, Theses.cz a vlastního řešení na bázi Google, zpracovaného v rámci doktorského studia na ÚISK FF UK.

Prezentace rozsáhlého testu antiplagiátorských nástrojů Turnitin, Ephorus, Theses.cz a vlastního řešení na bázi Google, zpracovaného v rámci doktorského studia na ÚISK FF UK.

Statistics

Views

Total Views
357
Views on SlideShare
332
Embed Views
25

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 25

http://www.scoop.it 25

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Antiplagiátorské nástroje pro naše repozitáře Presentation Transcript

  • 1. Antiplagiátorské nástroje pro naše repozitáře Jan Mach Vysoká škola ekonomická v Praze Univerzita Karlova v Praze 23. 10. 2013 Seminář ke zpřístupňování šedé literatury
  • 2. 1. 2. 3. klonování – vydávání cizí práce, slovo od slova, za vlastní CTRL-C – vydávání cizí práce za vlastní, s minimálním množstvím úprav najít/nahradit – změna klíčových slov a frází bez změny podstaty textu 5. 6. 7. 8. 9. recyklování – využití předchozích textů autora, bez autocitace hybridní – mixování velmi dobře citovaných zdrojů s necitovanými míchání zdrojů – kombinace více necitovaných zdrojů do textu chyba 404 – citace neexistujících zdrojů nebo špatné informace o zdroji agregace – korektní citování cizích zdrojů, ale téměř bez vlastního osobního přínosu autorem 10. re-tweet – korektní citování, ale za využití originálního textu/struktury bez podstatnějších úprav Co jeremixování – parafrázování z více zdrojů do jednoho textu plagiát? 4. The Plagiarism Spectrum: Tagging 10 Types of Unoriginal Work
  • 3. 10 typů zdrojů, ze kterých studenti opisují celkem 50 dokumentů, z každého věta a odstavec 300 záznamů - fragmentů textu za použití různých úprav kopírovaných vět
  • 4. Použité transformace • věta se dvěma slovy prohozenými, • věta s odstraněnou diakritikou, • věta s jedním slovem nahrazeným slovem významově blízkým – parafráze slova, • věta s více slovy nahrazenými slovy významově blízkými – parafráze věty, • věta přeložená automaticky do českého/anglického jazyka
  • 5. Ověřované hypotézy 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hypotéza Thesis Turnitin Ephorus GooglePl. Průměr 1 12% 40% 2% 56% 28% Aplikace umí odhalit jeden odstavec zkopírovaný ze zdrojového dokumentu. Aplikaci nevadí 2 14% 42% 6% 46% 27% případná zalomení řádků, indexy apod. ve zdrojovém nebo testovaném dokumentu. Pro úspěšnou detekci nevadí, pokud plagiátor přidá/odebere slovo v kopírované větě. 3 100% 100% 0% 0% 50% Aplikace provádí detekci českých textů nezávisle na diakritice. 80% 4 100% 100% 0% 70% Pro úspěšnou detekci nevadí, pokud plagiátor parafrázuje jedno slovo ve větě. 5 67% 100% 0% 4% 43% Pro úspěšnou detekci nevadí, pokud 88% plagiátor parafrázuje celou větu. 6 0% na 0% 29% Pro úspěšnou detekci nevadí, pokud plagiátor přeloží text z/do českého jazyka. 7 0% 0% 0% 0% 0% Systém Theses.cz by měl v detekci plagiátorství u10% českých VŠKP dosahovat nejlepších 8 10% 50% 30% 25% výsledků. 9 0% 0% 0% 0% 0% U zdroje Anopress bude nalezeno nízké procento z celkového počtu podobností oproti 10 0% 40% 0% 70% 28% zdrojům volně dostupným na Internetu. 11 50% 0% 80% 38% Lepších výsledků u EIZ 20% a Open Access zdrojů dosáhnou nástroje zahraniční oproti českým. Aplikace umí odhalit jednu větu zkopírovanou ze zdrojového dokumentu. Velmi dobrých výsledků u webových zdrojů budou dosahovat systémy využívající služeb webových vyhledávačů.
  • 6. TURNITIN O APLIKACI • 15 jazykových mutací bez češtiny • velká databáze textů • cena dle počtu studentů, v řádu stovek tisíc Kč • integrace se systémy MOODLE apod., bez API • moduly GradeMark a PeerMark VYHODNOCENÍ PODOBNOSTÍ • zpracování do 30 s • konfigurovatelná velikost hledaných podobností, možnost vyloučení citací • velmi přehledné a funkční rozhraní s podobnostmi, sdružování zdrojů
  • 7. EPHORUS O APLIKACI • aplikaci používá přes 3 000 škol a univerzit, v ČR 4 školy (FPH na VŠE) • rozhraní v češtině • dle provozovatele databáze s miliardami webových stránek, odevzdanými pracemi, texty z časopisů aj. VYHODNOCENÍ PODOBNOSTÍ • možno definovat min. procento podobností • odesílání výsledků e-mailem, přílohy v PDF • základní rozhraní na webu • chybí deduplikace zdrojů
  • 8. SYSTÉMY MUNI O APLIKACI VYHODNOCENÍ PODOBNOSTÍ • theses.cz, odevzdej.cz a repozitar.cz • přes 30 veřejných i soukromých škol z ČR a SK • cena dle počtu studentů • rozsáhlá databáze českých VŠ závěrečných prací, studijních materiálů a vybraných webových stránek • API pro napojení • zpracování v řádu hodin • duplicitní dokumenty • porovnávání dvojic dokumentů → dva seznamy podobností • chybí celkové procento nalezených podobností • zobrazeny podobnosti pouze od 5 % délky jednoho z porovnávané dvojice dokumentů
  • 9. První seznam obsahuje dokumenty s délkou podobnosti min. 5 % zkoumaného souboru. bakalářská práce o 40 stranách: 2 strany Druhý seznam doplňuje předchozí o dokumenty další, ale pouze s délkou podobnosti min. 5 % nalezeného souboru.
  • 10. GooglePlagiarism O APLIKACI • vlastní desktopová aplikace pro osobní počítače s Windows • určena pro osobní analýzy dokumentů jednotlivcem • hledání celých vět ve vyhledávači Google VYHODNOCENÍ PODOBNOSTÍ • limitovaný počet vyhledávání → doba zpracování v řádu hodin • výstupem HTML bez zachování formátování • vyznačené nalezené věty a první odpovídající zdroj
  • 11. Pokud není zachována velikost a zalomení řádků, je velmi snížena orientace v textu při kontrole.
  • 12. Hodnocení ovládání a funkcí systémů Hodnocení doba zpracování přehlednost výsledků zobrazení celkové podobnosti minimální podobnost cena integrace s IS školy deduplikace zdrojů Thesis Turnitin Ephorus GooglePl. Systém Thesis.cz vyniká příznivou cenou a možností integrace s repozitáři. Aplikace Turnitin exceluje uživatelským rozhraním a dostupnými funkcemi, ale je drahá a nelze ji snadno zaintegrovat. Systém Ephorus by byl dobrým kompromisem mezi Thesis a Turnitin, ale …
  • 13. Počet nalezených dokumentů podle zdroje Kategorie wikipedia.cz wikipedia.org (en) VŠKP (cz) VŠKP (en) NDLTD Anopress Arxive.org Google.cz (cz) Google.com (en) EIZ Celkem Korpus 5 5 5 5 5 5 5 5 5 5 50 Thesis 3 1 1 0 0 0 0 2 0 0 7 Turnitin 5 3 2 3 0 0 1 3 2 3 22 Ephorus GooglePl. Průměr 2 5 3,75 2 5 2,75 1 1 1,25 0 2 1,25 0 1 0,25 0 0 0 0 3 1 0 5 2,5 0 3 1,25 0 4 1,75 5 29 15,75 Kategorie wikipedia.cz wikipedia.org (en) VŠKP (cz) VŠKP (en) NDLTD Anopress Arxive.org Google.cz (cz) Google.com (en) EIZ Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% Thesis 60% 20% 20% 0% 0% 0% 0% 40% 0% 0% 14% Turnitin 100% 60% 40% 60% 0% 0% 20% 60% 40% 60% 44% Ephorus GooglePl. Průměr 40% 100% 75% 40% 100% 55% 20% 20% 25% 0% 40% 25% 0% 20% 5% 0% 0% 0% 0% 60% 20% 0% 100% 50% 0% 60% 25% 0% 80% 35% 10% 58% 32% Nízký počet dokumentů nalezených systémem Ephorus. Dokumenty z Anopressu nebyly nalezeny žádným systémem. Nejvíce dokumentů nalezly systémy Turnitin a GooglePlagiarism.
  • 14. Počet nalezených dokumentů podle jazyka dokumentu Jazyk česky anglicky slovensky Celkem Jazyk česky anglicky slovensky Korpus 19 30 1 50 Korpus 100% 100% 100% Thesis 6 1 0 7 Thesis 32% 3% 0% Turnitin 10 12 0 22 Turnitin 53% 40% 0% Ephorus GooglePl. Průměr 3 11 7,5 2 18 8,25 0 0 0 5 29 15,75 Ephorus GooglePl. Průměr 16% 58% 39% 7% 60% 28% 0% 0% 0% Systém Theses.cz nalezl průměrný počet českých dokumentů, u anglických dokumentů dosáhl výsledků nejhorších. Stále však v celku více než Ephorus. Snížení 5% hranice by úspěšnosti Theses.cz výrazně pomohlo!
  • 15. Počet nalezených záznamů podle typu úprav – podezření na plagiátorství Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Celkem Korpus 50 50 50 19 31 50 50 300 Thesis 6 7 6 5 0 4 0 28 Turnitin 20 21 20 9 10 20 0 100 Ephorus GooglePl. Průměr 1 28 13,75 3 23 13,5 1 0 6,75 1 8 5,75 0 0 2,5 1 1 6,5 1 0 0,25 8 60 49,00 Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% Thesis 12% 14% 12% 26% 0% 8% 0% 10% Turnitin 40% 42% 40% 47% 32% 40% 0% 35% Ephorus GooglePl. Průměr 2% 56% 28% 6% 46% 27% 2% 0% 14% 5% 42% 30% 0% 0% 8% 2% 2% 13% 2% 0% 1% 3% 21% 17% Hledání celých vět v aplikaci GooglePlagiarism nedetekuje úpravy textu. Systém Ephorus detekoval pouze 8 zkopírovaných pasáží textu, především ale jen typu rozepsání zkratky.
  • 16. Počet nalezených záznamů podle typu úprav – důkazy plagiátorství Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Celkem Korpus 50 50 50 19 31 50 50 300 Thesis 5 6 1 4 0 3 0 19 Turnitin 8 10 7 6 2 8 0 41 Ephorus GooglePl. Průměr 0 25 9,5 1 9 6,5 0 0 2 0 7 4,25 0 0 0,5 0 1 3 0 0 0 1 42 25,75 Úprava jedna věta jeden odstavec prohození slova bez diakritiky parafráze věty parafráze slova překlad Průměr Korpus 100% 100% 100% 100% 100% 100% 100% 100% Thesis 10% 12% 2% 21% 0% 6% 0% 7% Turnitin 16% 20% 14% 32% 6% 16% 0% 15% Ephorus GooglePl. Průměr 0% 50% 19% 2% 18% 13% 0% 0% 4% 0% 37% 22% 0% 0% 2% 0% 2% 6% 0% 0% 0% 0% 15% 9% Systém Ephorus ve skutečnosti jen jednou nalezl dokument jasně prokazující plagiátorství. Zatím žádný ze systémů neumí vyhledat přeložený text. Věty bez úprav vyhledává nejlépe GooglePlagiarism, věty s úpravami nejlépe Turnitin.
  • 17. Závěrečné shrnutí Aplikace Turnitin dosahuje velmi dobrých výsledků, ale je velmi drahá. Aplikace Ephorus vyhledávala duplicity v testovacím korpusu nedostatečně. Aplikace Theses.cz je dobrým kompromisem mezi cenou a schopnostmi. Zlepšením by bylo odstranění 5% limitu na délku podobnosti. Vyhledáváním zdrojů online v GooglePlagiarism je velmi účinné na detekci zkopírovaných textů.
  • 18. Detailní výsledky testu naleznete ve sborníku Semináře ke zpřístupňování šedé literatury 2013 http://nusl.techlib.cz/sbornik/ Jan Mach machj@vse.cz