Your SlideShare is downloading. ×
ONGERUBRICEERD
ONGERUBRICEERD
Brassersplein 2
Po stbus 5050
2600 G B Delft
w w w .tno .nl
T +31 15 28 5 7 0 00
F +31 15 28...
ONGERUBRICEERD
2 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 3 / 114
Samenvatting
Dit rapport bevat een breedteverkenning in het ka...
ONGERUBRICEERD
4 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Onderstaand figuur presenteert de relaties tussen de besproken...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 5 / 114
Inhoudsopgave
Samenvatting.......................................
ONGERUBRICEERD
6 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
8 Herkennen van tekst in beeld en video (OCR)....................
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 7 / 114
1 Inleiding
Dit rapport bevat een breedteverkenning in het kad...
ONGERUBRICEERD
8 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
• Fingerprinting: Een korte representatie van de inhoud van ee...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 9 / 114
Denk bijvoorbeeld aan het herkennen van kentekenplaten van aut...
ONGERUBRICEERD
10 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 11 / 114
2 Technologische achtergrond
In dit rapport komt een groot aa...
ONGERUBRICEERD
12 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Figuur 2-1 Eerste stap bij identificatie: het vullen van de d...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 13 / 114
Figuur 2-3 Illustratie van verificatie (één-op-één vergelijki...
ONGERUBRICEERD
14 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
2 Het herkennen van een concept (interpretatie/detectie van/i...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 15 / 114
De termen Recall en Precision komen uit de Information Retrie...
ONGERUBRICEERD
16 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 17 / 114
3 Herkennen van bestanden of delen daarvan
Dit hoofdstuk besc...
ONGERUBRICEERD
18 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Het is mogelijk dat een hash functie twee verschillende items...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 19 / 114
3.2 Fingerprinting
Fingerprinting is een methode om bestanden...
ONGERUBRICEERD
20 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
• Het automatisch metadateren van audio collecties
Veel mense...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 21 / 114
4 Efficiënte representatie van de features
De kenmerken uit i...
ONGERUBRICEERD
22 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Tabel 3-1 Overzicht van aanbieders van audio fingerprinting t...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 23 / 114
3.2.2 Beeld en video fingerprinting
3.2.2.1 Inleiding
Beeld e...
ONGERUBRICEERD
24 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
3.2.2.3 Werkingsprincipes
Video fingerprinting technieken zij...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 25 / 114
3.2.2.5 Het spelersveld
Er zijn een flink aantal Europese en ...
ONGERUBRICEERD
26 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
TRECVID CBCD meet de kwaliteit van systemen op basis van drie...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 27 / 114
3.2.3 Tekst fingerprinting
3.2.3.1 Inleiding
Onderzoek sugger...
ONGERUBRICEERD
28 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
In het kader van historisch of forensisch onderzoek kan het b...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 29 / 114
Applicaties die bijna-identieke documenten detectie werken al...
ONGERUBRICEERD
30 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
• Opsporen van plagiaat
Bijna-identieke document detectie wor...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 31 / 114
3.3 Watermarking
3.3.1 Inleiding
Een watermerk is een methode...
ONGERUBRICEERD
32 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Als er te veel of te grote wijzigingen worden aangebracht in ...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 33 / 114
• Het aanbrengen van copyright gegevens
Hierbij stopt iemand ...
ONGERUBRICEERD
34 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Echter, op een zeker moment moet de content ontcijferd worden...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 35 / 114
Indien dit het geval is, zal de detector een hoge correlatiew...
ONGERUBRICEERD
36 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
Zoals gezegd is de performance zeer sterk afhankelijk van de ...
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 37 / 114
Tabel 3-3-4 Overzicht van enkele aanbieders van watermerk pro...
ONGERUBRICEERD
38 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
ONGERUBRICEERD
ONGERUBRICEERD | TNO-rappo rt| 35264 39 / 114
4 Versturen van geheime boodschappen (steganografie) en
de de...
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961
Upcoming SlideShare
Loading in...5
×

Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961

1,202

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,202
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Tno rapport-herkenning-van-digitale-informatie-definitief-31-maart-2010-ananiem tcm126-443961"

  1. 1. ONGERUBRICEERD ONGERUBRICEERD Brassersplein 2 Po stbus 5050 2600 G B Delft w w w .tno .nl T +31 15 28 5 7 0 00 F +31 15 28 5 7 0 57 info -ic t@ tno .nl TNO-rapport Herkenning van Digitale Informatie Datum 31 maart 2010 Auteur(s) Reviewer Opdrachtgever NCTb Projectnummer 035.33396 Rubricering rapport Ongerubriceerd Titel Ongerubriceerd Samenvatting Ongerubriceerd Rapporttekst Ongerubriceerd Bijlagen Ongerubriceerd Aantal pagina's 115 (incl. bijlagen) Aantal bijlagen 1 Alle rechten voorbehouden. Niets uit dit rapport mag worden vermenigvuldigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze dan ook, zonder voorafgaande schriftelijke toestemming van TNO. Indien dit rapport in opdracht werd uitgebracht, wordt voor de rechten en verplichtingen van opdrachtgever en opdrachtnemer verwezen naar de Algemene Voorwaarden voor onderzoeksopdrachten aan TNO, dan wel de betreffende terzake tussen de partijen gesloten overeenkomst. Het ter inzage geven van het TNO-rapport aan direct belanghebbenden is toegestaan. © 2010 TNO
  2. 2. ONGERUBRICEERD 2 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
  3. 3. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 3 / 114 Samenvatting Dit rapport bevat een breedteverkenning in het kader van het onderzoeksprogramma ‘Herkenning Digitale Informatie en Fingerprinting (HDIeF)’, dat de komende jaren zal lopen bij de NCTb. Op basis van dit rapport kunnen keuzes worden gemaakt voor de richting binnen het programma. Als zodanig vormt het één van de startpunten van het programma. Het herkennen van digitale informatie heeft betrekking op het ontdekken van relevante informatie in digitale data. Deze data kan bestaan uit verschillende modaliteiten zoals audio, beeld, video en tekst fragmenten, maar ook logdata van bijvoorbeeld internet verkeer. De enorme hoeveelheid informatie die vandaag de dag wordt gecreëerd en uitgewisseld, vooral dankzij het internet, maakt het ontdekken van relevante informatie tot het vinden van een speld in een hooiberg. Dit rapport beschrijft een aantal toepassingen van automatische herkenning van digitale informatie: • (Bijna)-identieke bestanden of delen daarvan • Verborgen boodschappen • Personen • Verdacht gedrag • Objecten, zoals logo’s of auto’s • Tekst in beeld/video • Opvallend internet-/netwerkverkeer • Netwerken van personen (sociale netwerken) • Taaluitingen Per toepassing worden één of meerdere technologieën beschreven. Per technologie worden de volgende aspecten beschreven: • Werkingsprincipes • Toepassingen • Spelersveld • Publieke benchmarks en prestaties • Uitdagingen en beperkingen van de techniek De technologieën die beschreven zijn in dit rapport zijn grofweg onder te verdelen in drie categorieën: 1 Het herkennen van een specifiek voorbeeld of item (identificatie/verificatie van bestand, fragment, persoon, object, etc.) 2 Het herkennen van een specifiek concept (interpretatie/detectie van multimedia content) 3 Het leggen van verbanden tussen materiaal (content linking, N-op-N relaties)
  4. 4. ONGERUBRICEERD 4 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Onderstaand figuur presenteert de relaties tussen de besproken toepassingen om iets (‘wat’) ergens in te herkennen (’waarin/waarvandaan’), met een bepaalde technologie (‘waarmee’). Met als doel: het herkennen van digitale informatie. De figuur is op groter formaat in Bijlage A opgenomen. Herkenning van digitale informatie Doel Wat Waarin Hoe Objec ten, z o als lo g o ’s, auto ty pes, lo c aties, eig ennam en, etc . Identiteitvan Perso nen Verbo rg en bo o d- sc happen Bekende bestanden G ebruikte o pnam e apparatuur Netw erken van (c rim inele) perso nen Tekstin beeld/video W eblo g s Online (Hy ves, Tw itter LinkedIN, F ac eBo o k) So c iale netw erk analy se Video /fo to c am era o f m o biel PRNU Steg ano g rafie / Steg analy se Optic alc harac ter rec o g nitio n (OCR) Lo g data van Netw erk verkeer Deep Pac ket Inspec tio n Verdac htg edrag / Radic alisering Beelden van o bservatie- c am era’s Spreker herkenning G espro ken c o ntent(bv. telefo o ntaps) G ez ic ht in beeld G ez ic ht identific atie Lic haam skenm erken in beeld Num m erbo rden van auto ’s Optic alc harac ter rec o g nitio n (OCR) SIF T/SURF features In beeld- m ateriaal o p hetinternet Audio /M uz iek Tekstbestanden M isbruik beeldm ateriaal Illeg ale video o p Y o uTube o f in beslag g eno m en harde sc hijf Audio fing erprinting Kleding in beeld Bew eg ing s- identific atie W aterm arking Video - fing erprinting Tekst fing erprinting Dig itaal beeldm ateriaal Nam ed entity rec o g nitio n Auteursc haps- herkenning Sentim entherkenning Spraak herkenning Audio kanaal Tekst Teksto p hetw eb G edrag s- herkenning (g ew eld, ag ressie, etc ) SIF T/SURF features Em o tieherkenning (bo o sheid, etc ) Leeftijd herkenning Do o r- z o ekbaar m aken AV m ateriaal G elo g de o bservaties Netw erk analy se to o ls Relevante do c um enten G ro te ho eveelheden do c um enten Taalherkenning G eperso naliseerd filteren Taaltec hno lo g ie Onderw erpsc lassific atie De belangrijkste conclusies van dit rapport zijn: • Bestaande technologie is geoptimaliseerd voor een bepaald gebruik; een nieuw toepassingsdomein legt nieuwe eisen op aan de technologie en is daarmee niet per definitie (direct) toepasbaar. • Technologie die geïntegreerd is in commerciële producten is niet per definitie beschikbaar voor onderzoek en projectuitvoering. • Een technologische innovatie is nog geen praktische oplossing die grootschalig uitgerold kan worden. • (Gebrek aan) interoperabiliteit tussen verschillende patijen kan innovatieve oplossingen in de weg staan. De belangrijkste aanbevelingen voor succesvolle toepassing van technologie voor herkenning digitale informatie zijn: • Wederzijds begrip tussen experts en stakeholders moet gestimuleerd worden. • Met nieuwe technologie Proof of Concepts uitvoeren die aansluiten bij het toepassingsdomein • Met mature technologie benchmarks uitvoeren die aansluiten bij het toepassingsdomein • Synergie tussen technologieën benutten door slimme combinaties van technologieën en modaliteiten
  5. 5. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 5 / 114 Inhoudsopgave Samenvatting.................................................................................................................. 3 1 Inleiding.......................................................................................................................... 7 1.1 Opbouw van dit rapport................................................................................................... 7 1.2 Scope van dit rapport....................................................................................................... 9 2 Technologische achtergrond ....................................................................................... 11 2.1 Manieren om een technologie te gebruiken................................................................... 11 2.2 Indeling van technieken................................................................................................. 13 2.3 Kwaliteitsaspecten ......................................................................................................... 14 3 Herkennen van bestanden of delen daarvan ............................................................. 17 3.1 Hashing.......................................................................................................................... 17 3.2 Fingerprinting ................................................................................................................ 19 3.3 Watermarking ................................................................................................................ 31 4 Versturen van geheime boodschappen (steganografie) en de detectie daarvan (steganalyse) ................................................................................................................. 39 4.1 Inleiding......................................................................................................................... 39 4.2 Werkingsprincipes ......................................................................................................... 39 4.3 Watermerken versus steganografie................................................................................ 41 4.4 Steganalyse .................................................................................................................... 42 4.5 Uitdagingen.................................................................................................................... 43 4.6 Het spelersveld............................................................................................................... 43 4.7 Referenties..................................................................................................................... 43 5 Herkennen van de gebruikte foto- of videocamera................................................... 45 5.1 Inleiding......................................................................................................................... 45 5.2 Beperkingen van de techniek......................................................................................... 45 5.3 Werkingsprincipes ......................................................................................................... 45 5.4 Toepassingen ................................................................................................................. 50 5.5 Het spelersveld............................................................................................................... 50 5.6 Publieke benchmarks en performance ........................................................................... 50 5.7 Uitdagingen.................................................................................................................... 51 5.8 Referenties..................................................................................................................... 51 6 Herkenning van personen ........................................................................................... 53 6.1 Spreker identificatie in audio......................................................................................... 53 6.2 Gezichtsherkenning ....................................................................................................... 61 6.3 Persoonsherkenning op basis van 3D lichaamsmaten.................................................... 67 6.4 Personen volgen op basis van uiterlijke kenmerken ...................................................... 71 6.5 Persoonsidentificatie op basis van beweging................................................................. 73 6.6 Herkenning van afwijkend of verdacht gedrag.............................................................. 75 7 Herkenning van objecten ............................................................................................ 77 7.1 Objectherkenning met SIFT of SURF features.............................................................. 77 7.2 Autotypeherkenning....................................................................................................... 77 7.3 Logoherkenning............................................................................................................. 81
  6. 6. ONGERUBRICEERD 6 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 8 Herkennen van tekst in beeld en video (OCR).......................................................... 85 8.1 Inleiding......................................................................................................................... 85 8.2 Toepassingen ................................................................................................................. 85 8.3 Werking OCR technologie............................................................................................. 86 8.4 Het spelersveld............................................................................................................... 88 8.5 Referenties..................................................................................................................... 90 9 Analyseren van netwerkverkeer: Deep Packet Inspection....................................... 91 9.1 Inleiding......................................................................................................................... 91 9.2 Toepassingen ................................................................................................................. 91 9.3 Beperkingen van de techniek......................................................................................... 92 9.4 Werkingsprincipes ......................................................................................................... 93 9.5 Het spelersveld............................................................................................................... 94 9.6 Publieke benchmarks..................................................................................................... 95 10 Taal technologie ........................................................................................................... 97 10.1 Inleiding......................................................................................................................... 97 10.2 Werkingsprincipes ......................................................................................................... 97 10.3 Beperkingen van de techniek......................................................................................... 98 10.4 Toepassingen ................................................................................................................. 99 10.5 Het spelersveld............................................................................................................. 100 10.6 Publieke benchmarks en performance ......................................................................... 100 10.7 Referenties................................................................................................................... 101 11 Analyse van sociale netwerken ................................................................................. 103 11.1 Inleiding....................................................................................................................... 103 11.2 Werkingsprincipes ....................................................................................................... 104 11.3 Het spelersveld............................................................................................................. 106 11.4 Publieke benchmarks en performance ......................................................................... 106 11.5 Referenties................................................................................................................... 106 12 Conclusies................................................................................................................... 109 13 Ondertekening............................................................................................................ 113 Bijlage(n) A Schematisch overzicht herkenning van digitale informatie
  7. 7. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 7 / 114 1 Inleiding Dit rapport bevat een breedteverkenning in het kader van het onderzoeksprogramma ‘Herkenning Digitale Informatie en Fingerprinting (HDIeF)’, dat de komende jaren zal lopen bij de NCTb. Het herkennen van digitale informatie heeft betrekking op het ontdekken van relevante informatie in digitale data. Deze data kan bestaan uit verschillende modaliteiten zoals audio, beeld, video en tekst fragmenten, maar ook logdata van bijvoorbeeld internet verkeer. De enorme hoeveelheid informatie die vandaag de dag wordt gecreëerd en uitgewisseld, met name dankzij het internet, maakt het ontdekken van relevante informatie tot het vinden van een speld in een hooiberg. Er is daarom een behoefte aan technologie die orde brengt in deze digitale chaos. Technologie die relevante informatie uit een database haalt, verbanden legt tussen een veelheid aan digitale bestanden, personen en objecten in die bestanden. Dit is essentieel in de strijd tegen cybercrime en opsporing van bepaalde strafbare feiten. Het is de verwachting dat in dit programma onderzoek en ontwikkeling zullen plaatsvinden, gericht op verbetering en vergroting van de toepasbaarheid van deze technologie. Dit rapport beschrijft een breed scala aan technologieën. Doel is in kaart te brengen wat er is, wat er kan en hoe de toepasbaarheid is. Dit rapport gaat in op technologische aspecten. Op het moment van schrijven is het nog onduidelijk wat de exacte toepassingsscenario’s zullen zijn. 1.1 Opbouw van dit rapport In dit rapport komen een aantal toepassingen aan de orde; iedere toepassing wordt in een apart hoofdstuk beschreven. Voor iedere toepassing is één of meerdere technologieën beschikbaar. Van elke technologie wordt de globale werking en haar toepassing uitgelegd. Waar bekend worden performance indicators en de beperkingen van die technologie toegelicht. Tevens wordt waar mogelijk een indicatie gegeven wie de aanbieders en/of de experts zijn per technologie. De technieken kunnen op verschillende wijze worden gebruikt. Ze kunnen worden gebruikt om content te verifiëren of te identificeren, om data te interpreteren of juist informatie te detecteren. Tenslotte kan deze technologie worden ingezet om verbanden te leggen tussen stukken content. Hoofdstuk 2 zet de verschillende wijzen van gebruik op een rij. Hoofdstuk 3 beschrijft een drietal technologieën om digitale bestanden of fragmenten daarvan te kunnen herkennen: • Hashing: Een cryptografisch algoritme berekent op basis van de inhoud van een digitaal bestand een korte code die kenmerkend is voor dit bestand. Op basis van deze hash-waarde kan dit bestand snel herkend worden. Het maakt niet uit wat voor soort bestand het is. Nadeel is, dat het veranderen van één enkele pixel van een foto leidt tot een compleet andere hash waarde.
  8. 8. ONGERUBRICEERD 8 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 • Fingerprinting: Een korte representatie van de inhoud van een bestand gebaseerd kenmerken die aansluiten bij de manier waarop mensen de inhoud van audio- visueel waarnemen of tekstbestand interpreteren. Hiermee kunnen delen of fragmenten van bestanden herkend worden. Deze technologie is robuust tegen kleine wijzigingen van de inhoud, doordat hij is geoptimaliseerd voor iedere modaliteit (tekst, audio, video). Er is niet één techniek die voor iedere modaliteit gebruikt kan worden voor zowel audio, video, tekst of data. Voor iedere modaliteit zijn specifieke varianten ontwikkeld. • Watermarking: Een indicator die toegevoegd is aan een specifiek bestand. Deze technologie is robuust tegen een aantal wijzigingen van de content. Vervolgens is het nog steeds mogelijk de indicator uit te lezen, zodat bijvoorbeeld de originele bron aangetoond kan worden. Hoofdstuk 4 beschrijft steganografie en steganalyse. Steganografie is technologie voor het geheim versturen van boodschappen. Doel van deze technologie is om te communiceren zonder dat een buitenstaander doorheeft dát er gecommuniceerd wordt. Steganalyse is hier sterk aan gerelateerd. Dit heeft betrekking op de detectie van verborgen boodschappen in communicatie. Dit laatste kan relevant zijn in het kader van de strijd tegen terrorisme en criminele activiteiten. Iedere sensor chip in een camera is uniek door imperfecties in het fabricageproces. Dit laat een uniek patroon achter in het geproduceerde beeldmateriaal. Hoofdstuk 5 beschrijft de principes die gebruikt kunnen worden om foto’s en video materiaal te herleiden tot de camera, die gebruikt is voor het maken van de opnames. Ieder mens is ook uniek, en kan op basis van unieke kenmerken geïdentificeerd worden. Hoofdstuk 6 presenteert diverse technieken om personen in audio visueel materiaal te herkennen: • Sprekerherkenning: herkenning van een individu op basis van kenmerken in het spraaksignaal, • Gezichtsherkenning: herkenning van een individu op basis van zijn gezicht in een beeld, • Herkenning op basis van kleding, • Herkenning op basis van karakteristieke gedragskenmerken, • Herkenning op basis van lichaamsverhoudingen. In hetzelfde hoofdstuk wordt ook kort stilgestaan bij het herkennen van verdacht of afwijkend gedrag in camera beelden op basis van de geïntroduceerde technieken. In het kader van het programma kan het relevant zijn om bepaalde objecten te herkennen in beeldmateriaal. In hoofdstuk 7 worden staan een tweetal toepassingen centraal: • Herkenning van het type auto’s, • Herkenning van logo’s. De onderliggende technologie kan ook andere soorten objecten herkennen. Belangrijk is dat het gaat om het herkennen van structuren en vormen op een plat vlak. Deze informatie kan in beeld onder verschillende hoeken en oriëntaties herkend worden. Een veelvoorkomend probleem is het extraheren van tekst uit beeldmateriaal. Dit staat bekend als Optical Character Recognition (OCR) en wordt beschreven in hoofdstuk 8.
  9. 9. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 9 / 114 Denk bijvoorbeeld aan het herkennen van kentekenplaten van auto’s. Een aanverwant probleem is het extraheren van tekst uit een audio signaal (spraakherkenning); daar wordt in dit rapport niet nader op ingegaan. In het kader van cybercrime is het belangrijk om activiteiten te monitoren op het internet. Hoofdstuk 9 belicht een techniek om verkeersstromen op het internet te analyseren: Deep Packet Inspection (DPI). Hoofdstuk 10 schetst het brede veld van taal technologie, dat zich richt op de automatische analyse van ongestructureerde tekst. Deze technologie wordt vaak ingezet om de hoeveelheid tekst die handmatig geïnterpreteerd moet worden te minimaliseren. Tenslotte wordt het in kaart brengen van sociale netwerken beschreven in hoofdstuk 11. ‘Sociaal netwerk’ is een breder begrip dan de bekende netwerken zoals Hyves en LinkedIn. Hierbij kan ook gedacht worden aan een extremistisch netwerk, waarbij de deelnemers een gedeeld doel hebben. Centraal staan de structuur van het netwerk en het aan elkaar relateren van informatie in het sociale netwerk. Bijvoorbeeld het herkennen van korte schriftelijke uitingen onder diverse pseudoniemen die toegeschreven kunnen worden aan dezelfde auteur. 1.2 Scope van dit rapport Dit rapport beperkt zich tot de enkele technologische aspecten van de genoemde toepassingen en technologieën. Aspecten die te maken hebben met de grootschalige toepassing van de technologieën is buiten beschouwing gelaten. Het ongecontroleerd toepassen van deze intelligente technologie op data kan leiden tot schending van privacy. Dit aspect is belangrijk en daar zal ook binnen het HDIeF programma aandacht voor zijn, maar staat ook buiten de scope van dit rapport.
  10. 10. ONGERUBRICEERD 10 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
  11. 11. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 11 / 114 2 Technologische achtergrond In dit rapport komt een groot aantal technologieën aan de orde. Dit hoofdstuk heeft tot doel een aantal technische achtergrond concepten nader toe te lichten. In het algemeen kunnen de technieken, die in dit rapport aan de orde komen, op een aantal verschillende manieren worden gebruikt. Deze worden beschreven in hoofdstuk 2.1. Iedere herkenningstechnologie kent zijn beperkingen en maakt fouten. Hoofdstuk 2.2 maakt het onderscheid tussen technieken die een specifiek item herkennen (bijvoorbeeld het gezicht van persoon X), en technieken die een detectie doen (herkenning dat er een gezicht in beeld is) of een concept herkennen (bijv. een bepaald soort sentiment). In hoofdstuk 2.3 komen enkele criteria aan de orde om de prestatie van een technologie, of een specifieke configuratie of implementatie daarvan, uit te drukken. 2.1 Manieren om een technologie te gebruiken De in dit rapport beschreven identificatie technologieën kunnen voor een aantal typische scenario’s worden ingezet. Deze paragraaf behandelt de belangrijkste ervan, met als voorbeelddomein het herkennen van personen op videobeelden. 2.1.1 Identificatie Identificatie is het kenbaar maken van de identiteit van een persoon. Identificatie geeft antwoord op de vraag: ‘wie is het?’. In de context van persoonsidentificatie op (video)beelden is identificatie het proces waarbij een afbeelding van een nog onbekend persoon vergeleken wordt met alle in een database aanwezige afbeeldingen van personen en hun gegevens. Als de gegeven persoon voorkomt in die database, kan het systeem de gegevens van die persoon (zoals naam, adres, etc.) opleveren. Indien de persoon niet bekend is in het systeem zal het systeem dit ook moeten aangeven. Zoals uit deze omschrijving blijkt, is er sprake van twee stappen. In de eerste stap wordt een collectie opgebouwd van bekend materiaal (bekende personen, bekend video materiaal etc.). Zie ook onderstaande figuur. Deze worden, voor zover mogelijk (afhankelijk van de toepassing), voorzien van beschrijvingen. Dit gebeurt vaak handmatig, maar kan soms ook (semi-) automatisch, uiteraard weer afhankelijk van de toepassing. In veel van de technieken wordt niet het ruwe materiaal gebruikt voor herkenning, maar een afgeleide daarvan (bijv. hash, fingerprint, kenmerken van het gezicht). Dit wordt in de figuur samengevat in de stap bewerking. Voor herkenning hoeft niet altijd het oorspronkelijke materiaal (audio-visueel signaal, pasfoto, etc.) opgeslagen te worden. In veel toepassingen is dit echter wel aan te raden, o.a. om te zorgen dat er later nog op een andere technologie kan worden overgestapt.
  12. 12. ONGERUBRICEERD 12 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Figuur 2-1 Eerste stap bij identificatie: het vullen van de database met de bekende items, afgeleide kenmerken en modellen, en de bijbehorende metadata. In de tweede stap wordt het te identificeren materiaal vergeleken met het materiaal in de database, en geeft het systeem gegevens terug over het geïdentificeerde materiaal, indien succesvol. Dit wordt geïllustreerd in onderstaande figuur. Figuur 2-2 Tweede stap bij identificatie: het identificeren van een onbekend item aan de hand van een database met bekende items. 2.1.2 Verificatie Bij verificatie wordt nagegaan of een persoon daadwerkelijk degene is die hij beweert dat hij is. In de context van video wordt bij verificatie een vooraf opgeslagen afbeelding van de persoon en de bijbehorende gegevens opgevraagd en automatisch (of met het menselijk oog) vergeleken met de persoon in kwestie. Verificatie geeft antwoord op de vraag: ‘is hij/zij persoon X?’ Verificatie is een één-op-één vergelijking. Hier komt geen database aan te pas. Onderstaande figuur illustreert het verificatie scenario. De stap bewerking kan bijvoorbeeld bevatten: het berekenen van een hash, een fingerprint, een ruispatroon van een camera etc.
  13. 13. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 13 / 114 Figuur 2-3 Illustratie van verificatie (één-op-één vergelijking). 2.1.3 Linking Linking is een vorm van organiseren van alle beschikbare data, waarbij gelijksoortige data aan elkaar wordt gerelateerd. In de context van videobeelden worden bijvoorbeeld in een grote database van video’s groepen gemaakt van gelijksoortige video’s. Gelijksoortig kan betekenen dat er de beelden op elkaar lijken, of dat de beelden op dezelfde locatie zijn genomen, of dat er dezelfde persoon op de beelden te zien is. Het maakt het mogelijk om bij een gegeven video gemakkelijk gelijksoortige video’s op te leveren en kan als basis dienen voor een tool waarmee door een collectie kan worden ‘gebrowsed’. 2.1.4 Zoeken Zoeken is het proces waarbij een gebruiker een aantal criteria opgeeft (de ‘query’) en het systeem alle data (documenten, video’s) teruggeeft die aan die criteria voldoen. Een gebruiker kan bijvoorbeeld vragen om alle video’s die op een bepaalde datum op een bepaalde locatie genomen zijn. Het systeem controleert alle in de database aanwezige video’s volgens deze criteria, en geeft de video’s die eraan voldoen terug aan de gebruiker. 2.1.5 Filteren Filteren is het verwijderen van data uit een collectie volgens een vast of door de gebruiker gegeven criterium. Filteren is bijvoorbeeld nuttig wanneer een zoekvraag (zie vorige paragraaf) teveel resultaten oplevert. Een systeem kan dan alle video’s van voor een bepaalde datum bij voorbaat uitsluiten en niet als onderdeel van het resultaat teruggeven. 2.2 Indeling van technieken De technieken die in dit rapport besproken worden, kunnen grofweg in drie categorieën worden verdeeld. 1 Het herkennen van een specifiek item (identificatie/verificatie van bestand, fragment, persoon, object, etc.) Hieronder kunnen we technieken zoals hashing, fingerprinting, watermarking, logo herkenning etc. vatten. Belangrijk is dat met deze technieken uitsluitend items kunnen worden herkend die al eerder zijn voorgelegd aan het systeem. Doorgaans worden dit soort technieken dan ook gebruikt om twee items te vergelijken (verificatie, dwz. 1-op-1 vergelijking), of in combinatie met een database die de items bevat die herkend moeten worden (identificatie, dwz. 1-op-N vergelijking).
  14. 14. ONGERUBRICEERD 14 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 2 Het herkennen van een concept (interpretatie/detectie van/in multimedia content) Hierbij wordt niet een specifiek item herkend, maar een concept. Een voorbeeld is het herkennen van het concept ‘stoel’, in plaats van een specifieke stoel. Deze benadering vereist een model voor het te herkennen van concept. De complexiteit van het concept is bepalend in hoeverre het mogelijk is om een model te ontwikkelen. Een generiek concept herkennen zoals een ‘stoel’ is erg lastig. Daarentegen het detecteren van een gezicht gaat vrij goed. De uitkomst is de locatie van het gezicht in een beeld. Vervolgens kan met gezichtsidentificatie bepaald worden bij welk individu het gezicht hoort. Tenslotte zijn er veel succesvolle voorbeelden (bijv. sentiment) uit het tekstuele domein (zie ook hoofdstuk 10 en 11). 3 Het leggen van verbanden tussen materiaal (content linking, N-op-N relaties) Hierbij worden verbanden gelegd tussen items in een collectie materiaal. Een voorbeeld is het groeperen van foto’s op basis van welk persoon er op staat. Hierbij kan gebruik gemaakt worden van de technieken die in dit rapport beschreven zijn. De uitdaging is de strategie voor het linken van content. Hoe bepaal je op basis van welke kenmerken je gaat groeperen, hoe betrek je de gebruiker op een efficiënte wijze bij dit proces etc. We rekenen ook de technieken voor sociale netwerk analyse onder deze noemer. De technieken die in één van bovengenoemde categorieën valt kan op verschillende wijzen worden gebruikt, zoals beschreven in hoofdstuk 2.1. 2.3 Kwaliteitsaspecten Een automatisch systeem maakt altijd fouten. Er zijn twee typen fouten: iemand zal onterecht worden herkend, of juist niet worden herkend. De mate waarin een systeem deze type van fouten maakt kan uitgedrukt worden in de volgende twee begrippen: False Positive Rate (FPR) of False Accept Rate (FAR) is, in de context van paragraaf 2.1.2, de kans dat een persoon ten onrechte herkend wordt in een video: het systeem beweert dat de persoon in de video is te zien, terwijl dit in werkelijkheid niet het geval is. False Negative Rate (FNR) of False Rejection Rate (FRR) is, in de context van paragraaf 2.1.2, de kans dat een persoon ten onrechte niet wordt herkend in een video: het systeem beweert dat de persoon niet te zien is in de video terwijl hij/zij in werkelijkheid wel op de video te zien is. Automatische herkenning zal doorgaans gepaard gaan met een indicatie hoe zeker het systeem is dat de herkenning correct (of relevant) is. Dit kan uitgedrukt worden in een getal, de zgn. confidence score; hoe hoger de confidence score, des te zekerder is het systeem dat de herkenning klopt. In de context van paragraaf 2.1.2 zal de herkenning alleen succesvol zijn indien de confidence score hoger is dan een bepaalde drempel waarde. Als een hoge drempel wordt gehanteerd, zal alleen de meest zekere herkenning worden geaccepteerd. Indien een lage drempel wordt gehanteerd zullen bijna alle herkenningen worden geaccepteerd. Afhankelijk van de instelling van het systeem – drempelwaarde tov. confidence score – zal de nadruk komen te liggen op een van beide fouten.
  15. 15. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 15 / 114 De termen Recall en Precision komen uit de Information Retrieval en zijn waardevolle kwaliteitsindicatoren in de context van paragraaf 2.1.4 waarin met een systeem naar video’s kan worden gezocht waarop een gegeven persoon te zien is. Precision is de verhouding tussen het aantal relevante resultaten (documenten, treffers), en het totaal aantal resultaten dat door het systeem is teruggeven. In de context van paragraaf 2.1.4 is Precision het door het systeem teruggeven aantal video’s waarop een gegeven persoon daadwerkelijk te zien is, gedeeld door het totaal aantal video’s dat wordt teruggegeven. Bij een lage Precision is in veel van de teruggegeven video’s de persoon niet te zien en is er dus sprake van veel irrelevante resultaten. Bij een hoge precision is in (bijna) alle teruggegeven video’s de persoon te zien en is er dus sprake van weinig of geen irrelevante resultaten. Recall is de verhouding tussen het aantal relevante gevonden documenten, en het totaal aantal relevante documenten, dat er mogelijk zijn. In de context van paragraaf 2.1.4 is Recall de verhouding tussen het aantal video’s dat door het systeem wordt teruggegeven waarin een gegeven persoon voorkomt, en het totaal aantal video’s in de gehele collectie waarin de persoon voorkomt. Een lage Recall betekent dat het systeem slechts enkele van de video’s waarop een persoon te zien is teruggeeft. Een hoge Recall betekent dat (bijna) alle video’s waarop de persoon te zien is wordt teruggegeven. Detectiesnelheid wordt bepaald door de tijd dat een systeem nodig heeft om tot resultaat te komen. Bijvoorbeeld in het geval van toegangscontrole: bij verificatie van personen bij binnenkomst van een voetbalstadion is het wenselijk dat het systeem voldoende snel werkt om congestie (en irritatie) te voorkomen. Snelheid is een relevant evaluatie criterium voor elk van de scenario’s in paragraaf 2.1. In veel gevallen zal er sprake zijn van een trade-off tussen snelheid en kwaliteit. In het algemeen kan worden aangenomen dat systemen met een hoge recall en een lage FPR en FNR zijn trager dan systemen die minder goed scoren op deze indicatoren. Veel van de technieken in dit rapport herkennen informatie die het systeem eerder gezien heeft. Kortom, herkenning op basis van referentiemateriaal. De volgende aspecten zijn van invloed op de herkenningskwaliteit: • Kwaliteit van het referentiemateriaal en het te herkennen materiaal De kwaliteit van het materiaal in de database en van het te herkennen materiaal bepaalt voor een groot deel de kwaliteit van de herkenning. Uiteraard geldt in meer of mindere mate: hoe beter de kwaliteit, hoe beter de te verwachten herkenning zal zijn. Denk bij kwaliteit aan beeld resolutie, opname condities, etc. • De lengte van het te herkennen materiaal in de database Kortere fragmenten (tekst, audio, video) zijn lastiger te beoordelen en leveren mindere kwaliteit identificatie of interpretatie op. • Aantal items dat onderscheiden moet kunnen worden Hoe minder items het systeem uit elkaar moet kunnen houden, des te eenvoudiger het wordt. De praktijk laat zien dat het wenselijk is om relevante items te herkennen in grote hoeveelheden content.
  16. 16. ONGERUBRICEERD 16 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
  17. 17. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 17 / 114 3 Herkennen van bestanden of delen daarvan Dit hoofdstuk beschrijft een drietal technieken om bestanden te herkennen. • Een hash is een korte digitale representatie van een digitaal item. Als de bits en bytes van twee bestanden identiek zijn, zijn de hash waardes dat ook. Als er ook maar één bit verschillend is tussen de bestanden, dan zijn de hash waardes compleet verschillend. • In sommige toepassingen is het niet nodig om precies hetzelfde item te vinden, maar gaat het juist om het vinden van gelijksoortige items, waarbij bij items hetzelfde bronmateriaal bevatten. Denk hierbij aan een video waar een logo in geplaatst is, of die omgezet is naar een ander bestandsformaat. Fingerprinting is een techniek waarmee dat kan. In tegenstelling tot een hash is een fingerprint bestand tegen (beperkte) wijzigingen in de inhoud van een bestand. Er bestaan fingerprinting technieken voor audio, beeld en video, en tekst. Een fingerprint is dus een compacte representatie afgeleid van de content. • Een hash en een fingerprint zijn een directe afgeleide van een digitaal item. Soms kan het echter belangrijk zijn om twee items die niet op basis van hun fingerprint zouden kunnen worden onderscheiden toch uit elkaar te kunnen houden. Watermarking is een techniek om boodschappen te verbergen in audiovisuele bestanden. Hiermee kunnen dus in potentie wel twee bestanden met gelijke inhoud, maar verschillend watermerk, van elkaar worden onderscheiden. Dit is echter alleen mogelijk indien een watermerk met dit doel in een bestand is aangebracht. 3.1 Hashing 3.1.1 Inleiding Een hash is een korte representatie van een (mogelijk erg groot) digitaal item (video, bestand, document, etc.) Een hash kan gebruikt worden om op een efficiënte manier te achterhalen of twee items identiek aan elkaar zijn. Identieke items hebben namelijk dezelfde hashes. Als een item ook maar 1 bit verschilt van een ander item zal de hash van het ene item verschillen van die van de ander. In plaats van een item bit-voor-bit te vergelijken met een ander item, kan daarom gekeken worden of de hashes van de twee items identiek zijn, om zo op een efficiënte manier te bepalen of de twee items gelijk aan elkaar zijn. 3.1.2 Beperkingen van de techniek Zodra ook maar 1 bit verandert, levert de hash functie een compleet andere uitkomst. Hash functies kunnen daarom niet worden gebruikt om twee items te vergelijken die nagenoeg hetzelfde zijn. Als twee foto’s slechts in één pixel verschillend zijn, zullen ze niet aan elkaar gerelateerd kunnen worden door middel van een hash functie. Hiervoor bieden fingerprinting technieken (zie Hoofdstuk 3.2) uitkomst. 3.1.3 Werkingsprincipes Een hash functie is een procedure of wiskundige functie die, gegeven een item, een waarde teruggeeft die als hash kan dienen. Die waarde is vaak een gewoon getal, typisch vele malen kleiner in omvang (benodigde geheugenruimte) als het oorspronkelijke item. Een dergelijke waarde wordt 'hash' genoemd (zie boven) of ook wel 'hash waarde', 'hash code', of 'hash sum'.
  18. 18. ONGERUBRICEERD 18 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Het is mogelijk dat een hash functie twee verschillende items dezelfde hash waarde geeft, simpelweg omdat een hash in het algemeen korter is dan een item, en het aantal mogelijke hash waarden kleiner is dan het aantal mogelijke items. Als dat gebeurd is er sprake van een 'collision'. Goede hash functies verspreiden de items evenwichtig over het aantal mogelijke hash waarden om zo de kans op een collision te verkleinen. Voorbeelden van hash functies zijn Pearson hash functie [1], FNV (ook wel 'Fowler/Noll/Vo' genoemd) [2] en de Bernstein Hash. Als de complete set van items vantevoren vast staat kan een 'perfecte' hash functie worden gemaakt. Bij een perfecte hash functie zal nooit collision optreden: geen enkele combinatie van 2 items heeft dezelfde hash. Als de hash functie de items 'mapt' op een aaneengesloten range integers, wordt deze 'minimal' genoemd. Een 'minimal perfect hash functie' geeft bijvoorbeeld hashes van 0 tot n-1, met n het aantal items. Een functie die de maanden (januari, februari, .., december) mapt op de getallen 0 tot 11 is een voorbeeld van een minimal perfect hash functie. De meest bekende hash functies zoals MD5 en SHA-1 komen voort uit de cryptografie. Dit type functie is in staat om een item (video, document) van willekeurig lengte om te zetten naar een hash van vaste lengte door het item te verdelen in een vaststaand aantal blokken, en deze vervolgens individueel om te zetten naar een verkorte versie. Een hash code is typisch een 32 of een 64 bits code die wordt berekend over de inhoud van een document. De kans op een collision is extreem klein en hangt af van de lengte van de hash code. Voor dit type hash functie geldt dat voor een 32-bit hash code de kans op een collision gelijk is aan 2-32 = 2,3 10-10 3.1.4 Toepassingen Hash functies kunnen worden gebruikt om snel items terug te vinden. Door de hash als index in een database tabel te gebruiken kan, gegeven een item, snel worden bekeken of het betreffende item al in de database aanwezig is. Cryptografische hash functies kan ook gebruikt worden om de integriteit van een digitaal item vast te stellen. 3.1.5 Referenties [1] Peter K. Pearson, Fast Hashing of Variable-Length Text Strings, Communications of the ACM 33(6), 677 (1990) [2] http://www.isthe.com/chongo/tech/comp/fnv/index.html
  19. 19. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 19 / 114 3.2 Fingerprinting Fingerprinting is een methode om bestanden of fragmenten te herkennen, die robuust is tegen (beperkte) wijzigingen in het bestand of fragment. In tegenstelling tot de hashes die in hoofdstuk 3.1 besproken zijn, verandert een fingerprint niet volledig wanneer er kleine wijzigingen in het bestand of fragment worden aangebracht. Indien een enkele pixel van een foto verandert de hash waarde volledig, terwijl de fingerprint nagenoeg hetzelfde blijft. Deze eigenschap van een fingerprint is uitermate belangrijk, omdat eenzelfde audio, beeld of videobestand op talloze verschillende wijze gepresenteerd kan worden. De bijhorende hashes zullen verschillend zijn; dit beperkt de toepasbaarheid van hashes. Het zoeken naar fingerprints die horen bij (bijna)-identieke bestanden is echter veel tijdrovender. Neem het identificatie scenario (hoofdstuk 2.1.1, figuur 2-2). Hierbij wordt bijvoorbeeld een onbekend videofragment herkend op basis van zijn fingerprint. Er moet nu niet alleen gezocht worden naar bekende video fingerprints die identiek zijn aan de fingerprint van het onbekende fragment, maar ook naar fragmenten die hier genoeg op lijken. Bij een hash kan alleen gezocht worden op hashes die identiek zijn; dit is eenvoudiger en dus sneller, maar biedt veel minder mogelijkheden. Bij de berekening van een fingerprint wordt rekening gehouden met de manier waarop een mens beelden waarneemt. Dit gebeurt om een inschatting te maken wat de perceptueel meest belangrijke kenmerken zijn van een audio-visueel bestand. Er bestaan fingerprinting technieken die specifiek ontwikkeld zijn voor audio, voor beeld/video, en voor tekst. Deze technieken worden elk in een aparte sectie behandeld. 3.2.1 Audio fingerprinting Een audio fingerprint is een compacte representatie die is afgeleid van de inhoud van het audio signaal. Een audio fingerprint kan gebruikt worden om een audio signaal snel te vergelijken met al bekende audio signalen. Ontwikkelingen op het gebied van digitale audio, en daarmee het illegaal kopiëren en verspreiden van audio, zijn de drijvende kracht geweest achter het onderzoek naar audio fingerprinting. 3.2.1.1 Toepassingen Bekende toepassingen zijn: • Detecteren van reclame uitzendingen (broadcast monitoring) Er gaat veel geld om in advertenties. Wie betaalt voor het uitzenden van een advertentie bijvoorbeeld op de TV of radio, wil ook weten dat zijn advertentie uitgezonden is. Dit kan door een watermerk in de reclame aan te brengen. Broadcast monitoring systemen analyseren automatisch een aantal radio of TV zenders, en zoeken naar watermerken in de uitgezonden reclames. In geval van TV zenders kan uiteraard ook gebruik gemaakt worden van video fingerprinting. Watermarking is een alternatieve technologie die voor broadcast monitoring gebruikt kan worden. • Muziekherkenning met mobiele telefoon Met deze dienst kan een gebruiker een stuk muziek dat bijvoorbeeld op de radio speelt laten identificeren door een stukje op te nemen en door te sturen naar een website. De dienst stuurt een bericht terug met daarin de informatie over het nummer, de artiest, album etc. Bekende voorbeelden zijn TrackID op SonyEricsson toestellen en Shazam op de Apple iPhone.
  20. 20. ONGERUBRICEERD 20 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 • Het automatisch metadateren van audio collecties Veel mensen hebben al hun audio digitaal, en downloaden ook steeds weer nieuw materiaal. Al met al kunnen dit onoverzichtelijke collecties worden. Er zijn wel programma’s om deze collecties te beheren maar die werken op basis van metadata zoals de artiest, naam van het liedje etc. Met audio fingerprinting kan alle relevante metadata via internet worden opgevraagd. Voordeel is dat alle metadata consistent is. • Het uitlijnen van video materiaal van de dezelfde gebeurtenis Bij veel gebeurtenissen worden er diverse opnamen gemaakt. In deze toepassing worden al deze losse opnamen in de tijd op elkaar uitgelijnd op basis van het audio signaal. Dit kan door de audio fingerprints van de opnames met elkaar te vergelijken. • Het weren van audio/video materiaal van websites middels een zwarte lijst Er bestaan vele websites waarop gebruikers hun eigen content kunnen uploaden. Het bekendste voorbeeld is YouTube. Het blijkt echter dat veel van de content die ge-upload wordt commercieel geproduceerde content is. Om te voorkomen dat de auteursrechten geschonden worden, kan een dergelijke website een zwarte lijst aanleggen met content die niet op de website terecht mag komen. Een dergelijk filter kan werken op basis van audio en/of video fingerprinting. Bij het uploaden wordt een fingerprint berekend en vergeleken met de fingerprints op de zwarte lijst. 3.2.1.2 Werkingsprincipes Er zijn vele audio fingerprinting methodes bekend uit de wetenschappelijke literatuur. Een goed overzicht van de verschillende audio fingerprinting technieken is te vinden in een survey van Cano et al. [1]. Enkele bekende systemen worden beschreven in Haitsma et al. [2], Wang [3], Audio Magic [4], Baluja et al. [5], Cano et al. [6], Burges et al. [7]. Op hoofdlijnen werken deze systemen als volgt. 1 Het signaal wordt eerst teruggebracht naar een eenvoudigere representatie. Bijvoorbeeld mono op een lage sample frequentie. De fijne details van het signaal zoals de hoogste frequenties gaan hierbij verloren. Dit is ook de bedoeling. Vaak is een audio signaal verstoord door bijvoorbeeld compressie, ruis, of opname op een mobiele telefoon. De details zijn dan onbetrouwbaar om herkenning op te baseren, terwijl de grote lijnen naar verhouding het minst aangetast zijn. 2 Het audio signaal wordt in korte, overlappende segmenten verdeeld. In de literatuur staat zo’n segment bekend als een frame. De typische lengte van een audio frame varieert van 32 tot 500 ms, afhankelijk van het algoritme. De overlap tussen de frames varieert van 50-98%. 3 Op ieder frame wordt een of meerdere features (kenmerken) berekend. Meestal gebeurt dit in het frequentie domein. Dit is zeer sterk gerelateerd aan de manier waarop mensen geluid waarnemen. De diverse algoritmes verschillen onderling het meest in welke features gekozen worden om de fingerprint uit te berekenen. Veel gebruikte features zijn gebaseerd op de hoeveelheid energie in bepaalde frequentiebanden, de vorm van het frequentiespectrum, de locatie van pieken in het frequentie spectrum, of statistische eigenschappen van het frequentie spectrum. Meestal ligt de keuze voor de features vast. Sommige systemen kunnen echter getraind worden om een geoptimaliseerde set features te leren.
  21. 21. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 21 / 114 4 Efficiënte representatie van de features De kenmerken uit ieder frame, of een selectie daarvan, worden efficiënt gerepresenteerd. De representatie van de kenmerken van een enkele frame wordt een sub-fingerprint. In de meeste methodes bestaat een fingerprint uit een aaneenschakeling van sub- fingerprints. De fingerprint van een lang liedje is groter, dan die van een kort liedje. De grootte van een fingerprint van dus het best worden uitgedrukt in het aantal bits of bytes per seconde. Deze grootte varieert typisch van enkele bytes tot enkele kilobits per seconde. Er zijn ook algoritmes bekend die de fingerprint representeren als een serie getallen van vaste lengte, ongeacht de lengte van het audio signaal. Net zoals een hash waarde een vaste lengte heeft. Dit blijkt echter niet goed te werken voor audio fingerprinting. Bij een audio, maar ook een beeld- of video-, fingerprinting systeem zijn diverse trade- offs aan te wijzen. Twee belangrijke zijn de robuustheid van het systeem tegen de verstoringen in het audio signaal, en het vermogen om verschillende fingerprints uit elkaar te houden. Ook hier zijn de in hoofdstuk 2 geïntroduceerde FRR en FAR van toepassing. Wanneer we spreken over een systeem dat robuust is tegen verstoringen bedoelen we een de methode voor herkenning bestand is tegen bepaalde variaties is het signaal. Alle bovengenoemde stappen hebben als doel om de robuustheid tegen verstoringen te vergroten, de unieke karakteristieken van het audio signaal te benadrukken, perceptueel irrelevante delen van het signaal buiten beschouwing te laten en de representatie zo compact mogelijk te maken. 3.2.1.3 Publieke benchmarks en prestaties Er zijn geen publieke benchmarks bekend voor audio fingerprinting. In de TRECVID Content-Based Copy Detection (CBCD) taak is audio fingerprinting meegenomen als onderdeel van video fingerprinting (zie: Hoofdstuk 3.2.3, video fingerprinting). Vaak wordt gesteld dat audio fingerprinting robuuster is dan video fingerprinting. Hoewel dit sterk afhankelijk is van de toepassing, is het doorgaans eenvoudiger om een onderscheidende fingerprint voor audio te ontwerpen die robuust is tegen de gangbare verstoringen dan voor video. 3.2.1.4 Uitdagingen De meeste audio fingerprinting systemen hebben in meer of mindere mate moeite met verstoringen die voortkomen uit het versneld of vertraagd uitspelen van het audio signaal. In commerciële toepassingen komt dit type verstoringen vrij vaak voor. Radio DJs spelen liedjes vaak net iets sneller omdat ze dat aansprekender vinden; of reclames worden net iets sneller uitgespeeld omdat er dat een extra reclame kan worden uitgezonden. 3.2.1.5 Het spelersveld Diverse bedrijven bieden audio fingerprinting technologie aan, of diensten die gebruik maken van audio fingerprinting. De volgende tabel geeft een beknopte selectie.
  22. 22. ONGERUBRICEERD 22 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Tabel 3-1 Overzicht van aanbieders van audio fingerprinting technologie en diensten. Aanbieder Website Civolution http://www.civolution.com Gracenote http://www.gracenote.com Shazam http://www.shazam.com Audible Magic http://www.audiblemagic.com Mufin http://www.mufin.com Auditude http://www.auditude.com Er vindt relatief weinig vernieuwend onderzoek naar audio fingerprinting plaats. In de universitaire wereld is Universiteit KAIST in Seoul actief. Ook enkele corporate research labs zijn actief; naast bovengenoemde bedrijven is Google Labs actief in dit veld. 3.2.1.6 Referenties [1] P. Cano, E. Batlle, T. Kalker, and J. Haitsma. A review of audio fingerprinting. Journal of VLSI Signal Processing, vol 41, issue 3, 271 - 284, November 2005. [2] J. Haitsma and T. Kalker. A highly robust audio fingerprinting system. In 3rd International Conference on Music Information Retrieval (ISMIR), October 2002. [3] A. Wang. An industrial strength audio search algorithm. In 4th Int. Conf. on Music Information Retrieval (ISMIR), October 2003. [4] E. H. Wold, T. L. Blum, D. F. Keislar, and J. A. Wheaton. Method and apparatus for creating a unique audio signature, November 2000. [5] S. Baluja and M. Covell. Audio fingerprinting: Combining computer vision & data stream processing. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), volume 2, pages 213 – 216, April 2007. [6] P. Cano, E. Batlle, H. Mayer, and H. Neuschmied. Robust sound modelling for song detection in broadcast audio. In Proc. 112th Int. AES Conv, 2002. [7] C. J. C. Burges, J. C. Platt, and S. Jana. Distortion discriminant analysis for audio fingerprinting. IEEE Transactions on Speech and Audio Processing, 11(3):165 – 174, May 2003.
  23. 23. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 23 / 114 3.2.2 Beeld en video fingerprinting 3.2.2.1 Inleiding Beeld en Video fingerprinting is een techniek die ingezet kan worden om kopieën van beeld- of videomateriaal op te sporen. De techniek werkt alleen op digitaal videomateriaal. Video fingerprinting is gebaseerd op een vorm van robuuste hashing, waarbij videomateriaal dat perceptueel wordt geïdentificeerd als zijnde afkomstig van hetzelfde originele materiaal een gelijke of vrijwel gelijke hash waarde oplevert. Bij video fingerprinting gaat het nadrukkelijk om algoritmiek die kijkt naar de inhoud van de videoframes en die op een robuuste manier met elkaar vergelijkt. Video fingerprinting technieken moeten dus typisch kunnen omgaan met zaken zoals re- encoding, veranderde resolutie, frame rate aanpassing het plaatsen van een logo etc. Ontwikkelingen in dit domein zijn vooral gestimuleerd door de media wereld, die er belang bij heeft verspreiding van illegale kopieën van videomateriaal tegen te gaan. Naast verschillen in cliplengte en aan te treffen transformaties, verschillen de genoemde toepassingsscenario’s ook in de eisen die worden gesteld aan systemen. De volumes van referentie en testmateriaal kunnen sterk verschillen. Als een systeem een groot volume aan referentie en testmateriaal real time moet kunnen worden verwerken, heeft dat consequentie voor de keuze van de architectuur en de nauwkeurigheid. In de evaluatie- sectie zal nader worden ingegaan op kwaliteitsmaten, maar op hoofdlijnen is het van belang dat er altijd een inverse afhankelijkheid bestaat tussen ‘false positives’ en ‘false negatives’. Dat betekent dat wanneer het systeem zodanig wordt getuned dat er geen of zeer weinig clips foutief als kopie worden gelabeld, dat er dan relatief veel kopieën zullen worden gemist en omgekeerd. De gewenste balans tussen ‘false positives’ en ‘false negatives’ hangt ook nu weer af van het toepassings-scenario. Met name voor de eerste twee toepassingsscenario’s zijn commerciële producten beschikbaar. Het feit dat de karakteristieken van de verschillende scenario’s zo sterk verschillen betekent dat producten die goed presteren voor een specifieke toepassing niet zo maar kunnen worden ingezet voor een andere toepassing. Bepaalde systemen werken bijvoorbeeld niet voor zeer korte clips. 3.2.2.2 Beperkingen van de techniek • Bij het ontwerp van een systeem voor kopiedetectie gebaseerd op video- fingerprinting ontkomt men niet aan het stellen van prioriteiten op het gebied van ‘error rates’ (false positives vs false negatives), snelheid (berekening en matching van fingerprints) en de grootte van fingerprints. • Door kennis van het type van voorkomende transformaties kan een fingerprintingsysteem worden geoptimaliseerd. Hierdoor is zijn soms aanpassingen nodig aan een fingerprinting systeem om het toepasbaar te maken in een ander domein. • Door kennis van het gebruikte fingerprinting algoritme kunnen transformaties worden bedacht die de detectie weten te omzeilen.
  24. 24. ONGERUBRICEERD 24 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 3.2.2.3 Werkingsprincipes Video fingerprinting technieken zijn voor een groot deel gebaseerd op technieken voor het zoeken van kopieën van beelden (still images) en het framework voor temporele analyse dat eerder ontwikkeld is voor audio fingerprinting (zie sectie 3.1). Video fingerprinting systemen hebben in essentie dezelfde structuur als audio fingerprinting systemen. De meest in het oog springende verschillen zijn: feature extractie is niet gebaseerd op het frequentiedomein, maar maakt gebruik van temporele, spatiële, lokale en of globale kenmerken (features), zoals luminantie. Daarbij komt dat geproduceerde video eenvoudig en met grote betrouwbaarheid is te decomponeren in de samenstellende shots. Uitgebreidere informatie over de techniek van video fingerprinting is te vinden in een survey van Law-to et al. [1]. De belangrijkste technologische varianten zijn gebaseerd op globale of juist lokale features. Bij globale features wordt vaak het frame in blokken opgedeeld. Voor ieder blok wordt bijvoorbeeld een gemiddelde grijswaarde berekend die dan weer in de tijd en spatieel gemiddeld wordt. Dergelijke representaties kunnen eenvoudig vertaald worden in compacte bitpatronen. Een compacte representatie is gunstig voor een efficiënte matching. Een dergelijk aanpak reduceert de informatie in een videoframe tot slechts enkele tientallen bits. De aanpak kan toch goed werken voor vooral langere clips. Voor kortere clips lijkt het zinniger om de videoframes met lokale representaties zoals SIFT te coderen. Dergelijke representaties zijn kleur, rotatie en schaal invariant en zijn dus zeer robuust. Een lokale aanpak resulteert echter in minder compacte fingerprints en zal daarom langzamer zijn. 3.2.2.4 Toepassingen Er zijn echter meerdere toepassingen, ieder met eigen karakteristieken [1]: • Detectie illegale kopieën (media) Het gaat vaak om relatief lange clips (bv complete feature films), typische transformaties zijn ‘camcording’ (het filmen van een projectie van een film) en allerlei vormen van re-encoding. • Volgen van advertentiecampagnes op televisiekanalen Het gaat hier om het accuraat volgen of een bepaalde commercial volgens contract on-air is geplaatst. Ook het volgen van de campagnes van de concurrentie is belangrijk, met name om te detecteren of er wijzigingen zijn in de campagne (bijvoorbeeld in prijsstelling). Dit zijn vaak veel kortere clips. Deze toepassing wordt ook vaak geïmplementeerd op basis van watermarking technologie. • Hergebruik van archiefmateriaal in documentaires, actualiteiten rubrieken. De moeilijkheid zit hier in het feit dat het originele materiaal door allerlei post productie technieken (overlays, kaders) moeilijker te onderscheiden is, bijvoorbeeld doordat een presentator op de voorgrond door het beeld loopt, waarop in de achtergrond archiefmateriaal wordt geprojecteerd. Ook moeilijker transformaties zoals picture-in-picture en cropping komen geregeld voor. • Detectie van kinderporno (KP): Specifieke kenmerken van KP zijn: de grote hoeveelheid codecs, veel zeer korte clips, frame drops en logo insertion. Vaak worden compilatiefilms gemaakt van een groot aantal korte clips. Het is dan belangrijk om te onderzoeken welke onderdelen al wel bekend zijn en welke niet.
  25. 25. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 25 / 114 3.2.2.5 Het spelersveld Er zijn een flink aantal Europese en Amerikaanse aanbieders van commerciële systemen en diensten voor kopie-detecties. De systemen/diensten richten zich vooral op het detecteren van kopieën op multimedia portalen zoals YouTube of op het volgen van advertentiecampagnes. Er zijn slechts enkele aanbieders voor niche markten zoals de detectie van KP materiaal. Veel van deze systemen zijn server-based, dat wil zeggen dat fingerprints van het referentiemateriaal gehost worden en dat er een client beschikbaar wordt gesteld waarmee fingerprints kunnen worden gemaakt, die dan vervolgens met de referentiedatabase kunnen worden vergeleken. Research vindt ook plaats bij instituten zoals INRIA in Frankrijk, en TNO. In de academische wereld zijn diverse partijen actief, waaronder in Nederland de TU Delft. Tabel 3-2 Aanbieders van fingerprinting technologie en diensten Aanbieder Website Civolution http://www.civolution.com Ipharro http://www.ipharro.com Audible Magic http://www.audiblemagic.com Advestigo http://www.advestigo.com Ziuz http://www.ziuz.com Auditude http://www.auditude.com Vobile http://www.vobileinc.com Yuvsoft http://www.yuvsoft.com Zeitera http://www.zeitera.com Vidyatel http://www.vidyatel.com Microsoft http://www.microsoft.com Vercury http://www.vercury.com INA http://www.ina-entreprise.com Enswers http://www.enswersinc.com Anvato http://www.anvato.com 3.2.2.6 Publieke benchmarks en performance Er zijn verschillende benchmarks beschikbaar voor content-based kopiedetectie. Movielabs (www.movielabs.com) is een organisatie die video fingerprinting systemen certificeert in opdracht van de grote filmstudio’s. Het betreft hier een gesloten activiteit. In 2007 is er door het EU FP7 network of excellence MUSCLE een kleine benchmark activiteit georganiseerd, dit model is in 2008 en 2009 door TRECVID/NIST in samenwerking met INRIA en TNO verder uitgebreid tot een benchmark met 10 video transformaties en verschillende applicatiescenario’s. In totaal participeerden 20 universitaire groepen in de benchmark. De geteste transformaties bevatten o.a. frame drops, compressie, verandering aspect ratio, camcording, picture-in-picture e.a.. In de TRECVID CBCD benchmark werd naast video fingerprinting ook aandacht besteed aan audio fingerprinting en de combinatie van beiden. Tests werden uitgevoerd met een synthetische dataset, om de robuustheid van fingerprinting algoritmen op een systematische manier te beproeven. Het is echter moeilijk om de resultaten op deze synthetische testdata te extrapoleren naar praktijkcases. Er zijn plannen om in 2010 de TRECVID CBCD nog verder te verfijnen door applicatie profielen te definiëren die beter passen bij de verschillende toepassingen. Op die manier kan beter inzicht worden verkregen in welke aanpak het beste werkt voor welke toepassing.
  26. 26. ONGERUBRICEERD 26 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 TRECVID CBCD meet de kwaliteit van systemen op basis van drie verschillende aspecten [2]: • detection quality wordt gemeten door de “Normalized Detection Cost Rate”, dit is een gewogen gemiddelde van het aantal false positives per uur en de kans date en kopie niet wordt gedetecteerd. • localization accuracy wordt gemeten door het harmonisch gemiddelde te nemen van de precision en recall van de overlap van het door het system gevonden kopiesegment en de “ground truth”. Een ideaal systeem heeft een accuracy van 1 (100%). • processing speed wordt gemeten door de gemiddelde zoektijd per testclip te berekenen. De performance hangt sterk af van toepassing en het materiaal. Afhankelijk van de toepassing is precision of recall belangrijker. Karakteristieken van het materiaal bepalen ook sterk de performance, denk hierbij aan kwaliteit (resolutie, ruis), inhoud (structuur), en hoeveelheid. 3.2.2.7 Uitdagingen De editie 2009 van de TRECVID CBCD benchmark heeft laten zien dat het eenvoudiger is om videomateriaal terug te vinden op basis van (getransformeerde) audio dan op basis van (getransformeerde) video. Dat betekent dat het in de praktijk van belang lijkt om ook het audiokanaal te analyseren bij het zoeken naar kopieën in multimedia. Waar liggen nog kennisvragen of technologische uitdagingen? • Strategie om audio en video fingerprinting te combineren • Effectief om kunnen gaan met zowel lange als zeer korte clips • Robuust omgaan met creatieve post-productie effecten • Kopie detectie op basis van onderdelen van clips (versleuteld, encrypted, deep packet inspection, peer 2 peer) • Ontwikkelen van een realistische benchmark voor de verschillende toepassingsscenario’s • Ontwikkelen van een architectuur om fingerprint systemen van verschillende vendors in een multi laterale omgeving effectief te kunnen benutten. 3.2.2.8 Referenties [1] J. Law-To, L. Chen, A. Joly, I. Laptev, O. Buisson, V. Gouet-Brunet, N. Boujemaa, and F. Stentiford. Video copy detection: a comparative study. In CIVR ’07: Proceedings of the 6th ACM international conference on Image and video retrieval, pages 371–378, New York, NY, USA, 2007. [2] P. Over, G. Awad, T. Rose, J. Fiscus, W. Kraaij, and A. F. Smeaton. Trecvid 2008 - goals, tasks, data, evaluation mechanisms and metrics. In Proceedings of TRECVID 2008, 2009.
  27. 27. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 27 / 114 3.2.3 Tekst fingerprinting 3.2.3.1 Inleiding Onderzoek suggereert dat maar liefst 30% van alle internetpagina’s geheel of gedeeltelijk kopieën zijn van elkaar (ook meerder URL’s voor dezelfde pagina). Niet alleen het internet maar vaak ook documentatie binnen bedrijven en overheid bevatten veel kopieën en documenten die ‘bijna-identiek’ zijn. Het bestaan van dit soort documenten is inherent aan de manier waarop documenten tot stand komen (vaak met meerdere versies) en waarop informatie wordt gerapporteerd (nieuwe informatie wordt toegevoegd aan bestaande documenten). 3.2.3.2 Beperkingen van de techniek Deze methode kan worden gebruikt voor alle talen waarbij documenten kunnen worden opgesplitst in kleinere delen zoals woorden. Het is echter niet mogelijk om documenten uit verschillende talen met elkaar te vergelijken. 3.2.3.3 Werkingsprincipes Er is geen duidelijke definitie over ‘document gelijkheid’ of de manier waarop dit gemeten zou moeten worden. Er zijn verschillende manieren waarop document gelijkheid kan worden gemeten: 1 letterlijke tekst 2 soortgelijke inhoud 3 metadata 4 soortgelijke schrijfstijl Bij gelijkheid op basis van de letterlijke tekst worden alle woorden uit een document gebruikt bij het meten of twee documenten (bijna) identiek zijn. Bij methoden die op deze manier documenten vergelijken zullen twee documenten die 1 woord van elkaar verschillen al niet meer 100% identiek zijn. Voor veel toepassingen gericht op het opsporen van duplicaten is dit de meest natuurlijke maat. Als twee documenten hetzelfde bestandsformaat hebben, dan kan hashing uitkomst bieden. Wanneer dit niet het geval is, of wanneer bijvoorbeeld de opmaak − en dus de bits en bytes van het bestand − anders zijn biedt tekst fingerprinting uitkomst, omdat die alleen op de daadwerkelijke tekst gebaseerd is. Vaak is het de bedoeling om op een meer robuuste manier teksten te vergelijken, zodat teksten die min of meer het zelfde zijn maar niet identiek, toch worden gekoppeld. Een manier om dat te doen is door de belangrijkste inhoudswoorden uit de tekst te extraheren (bijvoorbeeld eigennamen) Op deze manier worden documenten afgebeeld naar een gereduceerde representatie, wat het mogelijk maakt documenten over hetzelfde onderwerp (bijvoorbeeld een aanslag) aan elkaar te linken. Een mogelijkheid om dit proces nog verder te verbeteren is om documenten te representeren door conceptuele labels (“AFGHANISTAN” , “MISSILE ATTACK”, “TALIBAN”). De hierboven beschreven methoden baseren gelijkheid direct of indirect op de inhoud van documenten. Het is echter ook mogelijk om documenten op basis van beschikbare metadata te vergelijken (auteur, titel, datum van publicatie etc.). De mate waarin twee documenten dezelfde metadata bevatten bepaald dan de gelijkheid van documenten. Hierbij wordt er dus niet naar de daadwerkelijke inhoud gekeken waardoor twee totaal verschillende documenten wel als identiek kunnen worden bestempeld.
  28. 28. ONGERUBRICEERD 28 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 In het kader van historisch of forensisch onderzoek kan het belangrijk zijn om te beoordelen of een bepaald stuk tekst met een bepaalde mate van waarschijnlijkheid kan worden toegeschreven aan een bepaald persoon of organisatie. Deze toepassing heet “authorship attribution”, en zal worden besproken in hoofdstuk 10. Bijna-identieke documenten zijn documenten die veel overlap vertonen. Het gaat dan om documenten waarbij iets is toegevoegd of delen zijn veranderd. Aangezien het documenten betreft die niet lettervoorletter hetzelfde zijn kan er geen ‘full-text-hashing’ worden gebruikt om deze documenten te vinden. Het vinden van bijna-identieke documenten is gebaseerd op het vergelijken van substrings uit de documenten die doorzocht worden. Hoe meer substrings twee documenten delen hoe meer de documenten op elkaar lijken (en een hoge kans hebben om bijna-identiek te zijn). De substrings worden gehashd om ze kleiner te maken. De set hash-codes vormt de fingerprint van een document. Er zijn drie aspecten belangrijk voor substring gebaseerde bijna-identieke document detectie 1 Grootte van de substrings: De grootte van substrings heeft invloed op de detectie kwaliteit van bijna-identieke documenten. Het gebruik van grote substrings kan leiden tot veel false-negatives terwijl kleine substrings kan leiden tot veel false- positives. 2 Het aantal substrings: Het aantal substrings heeft invloed op de detectie kwaliteit van bijna-identieke documenten. Gebruik van weinig substrings kan leiden tot veel false-positives 3 De keuze van substrings: Het is belangrijk om de juiste substrings te kiezen. Voorbeelden zijn: positie gebaseerd (bijv. eerste, laatste zin van een paragraaf), frequentie gebaseerd (tf-idf). Onderzoek naar deze aspecten is gedaan door onder andere Brin et al. [1], Broder et al. [2], en Hoad et al. [3]. De meest gebruikte bijna-identieke document detectie methode is gebaseerd op zogenaamde ‘shingles’ overlappende substrings van 3 à 4 woorden. De overlap van de shingles van twee documenten bepaald hoe identiek twee documenten zijn. Twee documenten met hoge mate van overlap (>75%) zijn bijna identiek. De overlap van twee shingle sets wordt doorgaans berekend middels de Jaccard similarity coëfficiënt [4]. Het kan zijn dat een document een ander document geheel bevat. Dit is vaak het geval als een document een uitbreiding is op een ander document. In een dergelijk geval wordt de ‘containment score’ gebruikt in plaats van de Jaccard similarity coëfficiënt [4]. De shingle benadering om bijna-identieke documenten te vinden heeft twee nadelen: 1 De methode is relatief traag doordat documenten eerst moeten worden opgesplitst waarna de ‘overlap’ moet worden uitgerekend. 2 fingerprints (shingle sets) van documenten kunnen groot zijn (afhankelijk van de methode die gebruikt wordt om ze te representeren). De impact van deze nadelen kan echter sterk worden gereduceerd door de methode slim te implementeren en fingerprints te comprimeren. Als de fingerprints van al bekende documenten in een index worden opgeslagen is het mogelijk om zeer snel bijna- identieke documenten te vinden.
  29. 29. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 29 / 114 Applicaties die bijna-identieke documenten detectie werken allemaal ongeveer op dezelfde manier: 1 Er wordt een index/database opgebouwd met fingerprints van bekende documenten 1.1 Documenten worden eerst omgezet naar tekst, hierbij worden de documenten meestal ook gestript van opmaak en afbeeldingen. 1.2 De tekst wordt opgesplitst in shingles en deze worden in de database opgeslagen. 2 Eén of meerdere documenten kunnen aan het systeem worden aangeboden waarna het systeem de overlap tussen het query-document en de documenten in de database uitrekent. 3 Het resultaat is een lijst met documenten en overlap scores. Hoe het resultaat er precies uitziet is sterk afhankelijk van het doel van de applicatie. Als het doel is om bijna-identieke documenten te vinden zal het resultaat bestaan uit alle documenten die meer dan ~85% overlap vertonen met het query-document. In het geval van plagiaat detectie zijn documenten met veel mindere mate van overlap interessant en zullen ook getoond worden. Het krijgen van een lijst met documenten en overlap scores is zelden het doel van de gebruiker. Vaak wil een gebruiker juist inzicht in de overeenkomsten en/of verschillen tussen twee documenten. Voor dit doel bevatten de meeste applicaties de mogelijkheid om de overeenkomsten en verschillen van documenten inzichtelijk te maken, vaak door de verschillende stukken tekst een andere kleur te geven. Er zijn ook veel losse tools die deze (zogenaamde diff) functionaliteit hebben. Door middel van bijna-identieke document detectie wordt aangegeven of een nieuw document lijkt op een al eerder gezien document. Met speciale software kunnen vervolgens de verschillen (of juist de overeenkomsten) tussen de documenten aan de gebruiker worden getoond. Figuur 3-1: Visualisatie van de overeenkomsten en verschillen tussen twee teksten. 3.2.3.4 Toepassingen Het vinden van (bijna) identieke documenten wordt in verschillende sectoren en voor verschillende redenen toegepast. De belangrijkste toepassingen zijn:
  30. 30. ONGERUBRICEERD 30 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 • Opsporen van plagiaat Bijna-identieke document detectie wordt ook veel gebruikt om plagiaat op te sporen. Dit wordt dan met name gebruikt bij digitale bibliotheken en in het onderwijs. Grote onderwijsondersteunende pakketten zoals Blackboard hebben vaak ook plagiaatdetectie functionaliteit om te controleren of ingeleverd werk authentiek is. Hierbij wordt ingeleverd werk vaak onderling vergeleken; werk dat bepaalde overlap vertoond kan door de docent worden gecontroleerd op plagiaat. Er zijn ook systemen die ingeleverd werk vergelijken met verslagen etc. die op het internet te vinden zijn. • Ondersteuning van informatie analisten Bijna-identieke document detectie wordt ook gebruikt door analisten die dagelijks veel documenten moeten doornemen. Een deel van deze documenten kan bijna- identiek zijn; in dergelijke gevallen is eigenlijk alleen het verschil met al eerder bekeken documenten interessant. Een concreet voorbeeld is het volgen van de berichten van persbureaus over een bepaald onderwerp. Eerder geschreven teksten worden vaak aangepast, uitgebreid en opnieuw uitgebracht. Dan zijn alleen de veranderingen (bijvoorbeeld hoeveelheid slachtoffers) interessant en is het niet nodig om de gehele tekst nogmaals door te moeten nemen. • Besparen van opslag capaciteit voor zoekmachines of bedrijven Zoekmachines en bedrijven of instanties die grote archieven bijhouden gebruiken bijna-identieke document detectie voornamelijk om opslag capaciteit te besparen. Doordat minder informatie wordt opgeslagen kan ook het zoeken worden versneld. 3.2.3.5 Het spelersveld Onderstaande tabel biedt een kort overzicht van enkele bestaande producten en bijbehorende aanbieders. Tabel 3-3 Overzicht van enkele tekst fingerprinting producten en bijbehorende aanbieders Product Aanbieder Website Equivio Equivio http://www.equivio.com WCopyfind University of Virgina http://www.plagiarism.phys.virginia.edu/ Wsoftware.html Investigator CFL Software Limited http://http://cflsoftware.com/?page_id=10 Intellexir Categorizer EffectiveSoft http://comparator.intellexer.com Doc Cop DocCop http://www.doccop.com NDmetric Ontrack Engenium http://www.krollontrack.com/ndmetric/ 3.2.3.6 Referenties [1] S. Brin, J. Davis, and H. Garcia-Molina. Copy detection mechanisms for digital documents. In Proceedings of the Special Interest Group on Management of Data (SIGMOD 1995), pages 398–409. ACM Press, May 1995. [2] A. Z. Broder, S. C. Glassman, M. S. Manasse, and G. Zweig. Syntactic clustering of the web. In Proceedings of WWW6 ’97, pages 391–404. Elsevier Science, April 1997 [3] T. Hoad and J. Zobel. Methods for identifying versioned and plagiarized documents. In Journal of the American Society or Information Science and Technology, Vol 54, I 3, 2003. [4] P.-N. Tan, M. Steinbach and V. Kumar. Introduction to data mining, Addison Wesley, ISBN 0-321-32136-7, 2006.
  31. 31. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 31 / 114 3.3 Watermarking 3.3.1 Inleiding Een watermerk is een methode om een boodschap onwaarneembaar te verbergen in een audio visueel bestand. Meestal wordt watermarking echter gebruikt om een identificatie nummer onwaarneembaar aan te brengen. De boodschap is echter wel detecteerbaar met een speciale watermerk detector (speciaal stuk software of hardware) die specifiek is voor de gebruikte watermerk methode. In dit opzicht is een digitaal watermerk vergelijkbaar met een watermerk zoals dit in bankbiljetten voorkomt; het valt niet op bij gewoon gebruik, maar door het tegen het licht te houden wordt het zichtbaar. Een watermerk wordt aangebracht in de content door kleine, door een gebruiker niet waarneembare, wijzigingen aan te brengen in de content zelf. Voor de meeste toepassingen mag het watermerk niet direct waarneembaar zijn, omdat dit de kwaliteit – en daarmee de waarde – van het audio-visuele materiaal omlaag haalt. Dit in tegenstelling tot informatie die naast de content zelf wordt opgeslagen, bijvoorbeeld in een file header. Er bestaan watermerken voor o.a. audio, video, beeld. In de wetenschappelijke literatuur wordt ook het watermerken van andere objecten, zoals tekst en 3D modellen besproken, maar dit is meer academisch van aard. Een goed overzicht van de state-of- the-art is beschreven in [1]. Een watermerk wordt in bijv. een video bestand verborgen. Dit heet embedding. Op een later moment wordt het watermerk gedetecteerd door een watermerk detector. Tussen het moment van aanbrengen van het watermerk, en het detecteren ervan, is de content – en daarmee het watermerk – vaak veranderd, bijvoorbeeld doordat het opnieuw gecodeerd is, geprint en opnieuw gescand, etc. Het watermerk wordt doorgaans zo ontworpen dat het bestand is tegen de meest voorkomende verstoringen. Het watermerk is dan in veel gevallen nog detecteerbaar, Dat de representatie van de content ten tijde van watermerkdetectie gewijzigd is kan vele oorzaken hebben. Het signaal is in de tussentijd bewerkt, bijvoorbeeld gecomprimeerd; of verstuurd over een kanaal waarin het signaal verstoord wordt, bijvoorbeeld een draadloos medium; of uitgespeeld en in een andere vorm weer opgenomen, bijvoorbeeld iemand die een analoge televisie uitzending opneemt in digitale vorm. Als we kijken naar de detectie van het watermerk in de content zijn er twee soorten watermerk detectoren te onderscheiden: 1 Geïnformeerde detector In sommige applicaties zal de originele, ongewatermerkte, content beschikbaar zijn bij de watermerk detector. 2 Blinde detector In veel gevallen is het originele ongewatermerkte signaal niet beschikbaar bij de detector. Hierdoor is de toepasbaarheid van een dergelijke detector veel groter. Bij de detectie kan dan echter geen gebruik gemaakt worden voor voorkennis over het signaal, waarover later meer.
  32. 32. ONGERUBRICEERD 32 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Als er te veel of te grote wijzigingen worden aangebracht in de content zal het watermerk zichtbaar worden; dit is niet de bedoeling. Er is dus een spanningsveld (trade-off) tussen de hoeveelheid informatie in het watermerk, de robuustheid van het watermerk tegen verstoringen in de content, en de waarneembaarheid van het watermerk. Er zijn dus belangrijke trade-offs tussen de volgende eigenschappen van het watermerk systeem. Waar het accent op komt te liggen hangt af van de toepassing. 1 Grootte van de watermerk boodschap (data payload) Het aantal bits aan informatie dat door middel van een watermerk in de content is aangebracht. 2 Waarneembaarheid van het watermerk in de content (fidelity) Een watermerk moet onwaarneembaar worden aangebracht in de content. 3 Detecteerbaarheid van het watermerk na bewerkingen of verstoringen in de content (robuustheid) In veel toepassingen moet een watermerk bestand zijn tegen verstoringen van de content. Deze verstoringen kunnen het gevolg zijn van allerlei bewerkingen op de content, zoals compressie, beeldverbetering, uitsnedes maken, verkleinen van het beeld etc. Tegen welke verstoringen, en in welke mate, het watermerk robuust moet zijn is afhankelijk van de toepassing. In veel toepassingen moet het watermerk robuust zijn tegen diverse verstoringen van de content. Echter, in sommige toepassingen is het juist de bedoeling dat het watermerk niet robuust is, maar dat het watermerk verdwijnt (ondetecteerbaar wordt) als de content bewerkt wordt. 4 De kans op een onterechte detectie van een watermerk (false positive rate) Er bestaat altijd een kans dat een watermerk gedetecteerd wordt in content waar geen watermerk in zit. Dit wordt een false positive genoemd. Hoe vaak dit gemiddeld voorkomt wordt de false positive rate genoemd. Zoals in iedere detector bestaat er een uitruil tussen de false positive rate en het aantal gemiste detecties. Een verlaging van de false positive rate gaat doorgaans gepaard met een verhoging van het aantal gemiste detecties. 5 Granulariteit De kleinste eenheid waarin nog betrouwbaar een watermerk gedetecteerd kan worden. Bijvoorbeeld het aantal seconden audio dat je nodig hebt om een watermerk te kunnen detecteren. Voordat de boodschap in de vorm van een watermerk in de content wordt aangebracht, zal deze vaak extra beschermd worden met foutverbeterende codes. Hierdoor wordt de kans dat de inhoud van het watermerk, bijvoorbeeld een identificatienummer, verkeerd wordt afgelezen door de detector kleiner. Mocht de boodschap vertrouwelijk zijn, dan kan ook encryptie worden toegepast. 3.3.2 Toepassingen Bekende toepassingen van watermerken zijn: • Detecteren van reclame uitzendingen (broadcast monitoring) Er gaat veel geld om in advertenties. Wie betaalt voor het uitzenden van een advertentie bijvoorbeeld op de TV of radio, wil ook weten dat zijn advertentie uitgezonden is. Dit kan door een watermerk in de reclame aan te brengen. Broadcast monitoring systemen analyseren automatisch een aantal radio of TV zenders, en zoeken naar watermerken in de uitgezonden reclames. Voor deze toepassing wordt ook audio of video fingerprinting gebruikt.
  33. 33. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 33 / 114 • Het aanbrengen van copyright gegevens Hierbij stopt iemand een watermerk in een signaal om aan te geven of aan te kunnen tonen, dat hij de rechten op de content heeft. • Het watermerk triggert een toepassing in een apparaat (device control) Hierbij is het watermerk de trigger voor een apparaat om een bepaalde actie uit te voren. Zo zijn er bedrijven die een watermerk in reclamefoto’s aanbrengen die bijvoorbeeld in een tijdschrift worden afgedrukt. Als je een foto neemt met je mobieltje van de pagina in het tijdschrift, en je mobieltje is uitgerust met een stuk software met daarin een watermerk detector, dan word je automatisch naar een bepaalde website geleid. • Backwards compatible extra functionaliteit aan bestaande diensten toevoegen Als een voorbeeld van de ‘wet van de remmende voorsprong’ kan het introduceren van nieuwe diensten aan een reeds bestaande dienst gehinderd worden door het succes van de bestaande dienst. Meestal vereisen nieuwe diensten ook nieuwe software en/of hardware. Wanneer ineens nieuwe diensten worden toegevoegd aan het huidige portfolio wordt de dienst ontoegankelijk op bestaande apparatuur. Vaak is daarom een eis dat nieuwe diensten zodanig worden geïntroduceerd dat reeds in gebruik zijnde apparatuur de oude dienst gewoon kan blijven gebruiken, terwijl nieuwe daarvoor geschikte apparaten ook de nieuwe diensten kunnen gebruiken. Een watermerk kan hierbij de nieuwe dienst toevoegen aan het bestaande TV signaal. Een oud apparaat zonder watermerk detector heeft hier geen last van; een nieuw apparaat met watermerk detector kan van de nieuwe extra functionaliteit gebruik maken. • Forensisch watermerk; traceren van content transacties Hierbij krijgt iedere kopie van de content zijn eigen, unieke watermerk. Wanneer een nieuwe bioscoopfilm aan recensenten wordt toegestuurd om te beoordelen, kan aan iedere kopie een unieke identificatie nummer worden toegevoegd. Wanneer een kopie op bijvoorbeeld het internet wordt aangetroffen, kan herleid worden welke kopie op het internet terecht is gekomen, en dus waar het lek zit. • Toevoegen van additionele metadata aan content Additionele informatie, zoals de teksten behorend bij een liedje, worden aan het liedje toegevoegd. Indien de afspeel apparatuur met een watermerk detector is uitgerust, kan deze extra informatie worden weergegeven of anderszins gebruikt. • Content authenticatie Bij een foto is het vaak de vraag of de foto (of ander signaal) wel in z’n geheel origineel is, of dat bepaalde elementen zijn verwijderd of toegevoegd. Een digitale handtekening (digital signature) van het beeld, bijvoorbeeld een hash code, blijft alleen intact indien het beeld niet bewerkt is. Echter, een dergelijke digitale handtekening zal altijd los blijven van het beeld, en kan dus worden verwijderd of vervangen. Een watermerk dat juist niet robuust is tegen bewerkingen, maar (lokaal) verdwijnt op plekken waar het beeld gemanipuleerd is, wordt een fragile (letterlijk: breekbaar) watermerk genoemd. In sommige gevallen kan een dergelijk watermerk ook aangeven waar in het beeld de wijzigingen zijn aangebracht. In veel toepassingen is watermerken een onderdeel van een Digital Rights Management (DRM) systeem, naast bijvoorbeeld encryptie. DRM is een generieke term voor een waaier aan technologieën die gebruikt kan worden om de toegang tot, en consumptie van, digitale content en diensten te reguleren. Encryptie kan de content in zijn digitale vorm beschermen door het onleesbaar te maken (versleutelen).
  34. 34. ONGERUBRICEERD 34 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Echter, op een zeker moment moet de content ontcijferd worden om geconsumeerd te kunnen worden; een versleuteld betaal-TV programma moet bijvoorbeeld ontcijferd worden om op TV bekeken te kunnen worden. Vanaf dit moment is het een potentiële prooi voor illegale verspreiding. Wanneer het apparaat dat de content ontcijfert tevens een watermerk toevoegt met een identificatie nummer dat specifiek is voor de Set Top Box dat de content ontcijfert, bijvoorbeeld een serienummer, dan kan de illegaal verspreide content herleid worden tot de STB waar de content is “gelekt”. Een dergelijk watermerk wordt een forensisch watermerk genoemd. In de vakliteratuur wordt ook wel de term fingerprinting gebruikt, maar dit is verwarrend omdat de term fingerprinting meestal voor de eerder in dit rapport beschreven techniek wordt gebruikt. Met een watermerk kan extra informatie aan de content worden toegevoegd. Het watermerk blijft verbonden met de content indien de content geconverteerd wordt naar een analoog signaal. Dit in tegenstelling tot allerlei vormen van metadata dit alleen in digitale vorm beschikbaar zijn. Tevens blijft watermerk met de content verbonden indien de gebruikte encryptie is ontcijferd, bijvoorbeeld om de content af te spelen op een televisie scherm. In tegenstelling tot fingerprinting kunnen verschillende versies van dezelfde content met watermerken van elkaar onderscheiden worden. 3.3.3 Werkingsprincipes Een zeer eenvoudig voorbeeld van een watermerk is het veranderen van de Least Significant Bits (LSB) in een plaatje. Een plaatje bestaat uit een aantal beeldpunten (pixels). Ieder beeldpunt heeft een bepaalde waarde die de grijswaarde of de kleur van het beeldpunt aangeeft; deze waardes kunnen doorgaans in gehele getallen worden uitgedrukt. Door de waarde van een beeldpunt af te ronden naar een even waarde wordt een ‘0’ aangebracht; een oneven waarde van een beeldpunt representeert een ‘1’ in de watermerk boodschap. Hiermee kan dus in theorie een boodschap worden verborgen met een aantal bits gelijk aan het aantal pixels. Echter, een dergelijk watermerk is verre van robuust tegen verstoringen in het beeld. Zo zal compressie naar JPEG het watermerk ondetecteerbaar maken. Er zijn andere watermerk methodes bekend uit de literatuur die vele malen robuuster zijn dan deze methode, maar een lager aantal bits verbergen in de vorm van een watermerk. Een veelgebruikte techniek verbergt de watermerk boodschap in schijnbaar willekeurige (pseudo-) ruispatronen. Dit staat bekend onder de naam spread spectrum watermerken. Zo’n ruispatroon is niet geheel willekeurig, maar wordt door een computer gegenereerd op basis van een sleutel. Het gebruik van een sleutel is hierbij deels vergelijkbaar met cryptografie. De robuustheid van het watermerk tegen een aantal verstoringen kan vergroot worden door het eerste in amplitude te schalen alvorens het bij het originele signaal op te tellen. Hoe sterker het watermerk, hoe beter het watermerk waarneembaar wordt in het signaal. Dit laatste is doorgaans ongewenst. Er zijn verschillende methoden bekend om op vergelijkbare wijze grotere boodschappen in een signaal aan te brengen. Veelal wordt het watermerk niet bij het signaal zelf opgeteld, maar wordt het signaal eerst getransformeerd naar een geschiktere representatie, bijv. een frequentie domein in het geval van audio. Dit doet echter niet af aan het algemene werkingsprincipe. Aan de zijde van de detector wordt hetzelfde ruispatroon gegeneerd. Door het patroon te correleren met het signaal kan bepaald worden of het signaal dit watermerk bevat.
  35. 35. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 35 / 114 Indien dit het geval is, zal de detector een hoge correlatiewaarde meten. Indien het watermerk niet in het beeld gevonden kan worden, zal de detector een late correlatiewaarde meten. Zoals bovenstaand voorbeeld al aangaf, brengt een watermerk kleine wijzigingen aan in het origineel. Door analyse van het origineel kunnen de wijzigingen aangebracht worden op locaties waar deze het minst opvallen. Aan de andere kant, is het belangrijk dat het watermerk aangebracht wordt in de visueel meest belangrijke delen van het origineel: deze zullen namelijk in bewerkingen zoveel mogelijk onaangetast blijven. Bewerkingen moet hier ruim geïnterpreteerd worden; het kan zowel bewuste acties gaan om de inhoud te wijzigen – denk aan logo, ondertitels, knippen-en-plakken, etc. – als om compressie, beeldverbetering, etc. Zo zal JPEG beeldcompressie de (hoogfrequente) details in het beeld laten verdwijnen; als het watermerk in deze hoogfrequente details was aangebracht zal het eveneens uit de content verwijderd worden. In dit voorbeeld is dus sprake van een uitruil tussen de waarneembaarheid van het watermerk met het blote oog, en de robuustheid van het watermerk voor JPEG compressie. Om het watermerk te kunnen detecteren en de boodschap af te kunnen lezen moet eerst bepaald worden waar in het signaal het watermerk gevonden kan worden. Bij een geïnformeerde detector die het originele, ongewatermerkte, signaal tot zijn beschikking heeft is dit eenvoudiger dan bij een blinde detector. De geïnformeerde detector weet namelijk waar het watermerk is aangebracht ten opzichte van de originele content, en kan de overeenkomstige locaties opzoeken in het gewatermerkte signaal. Een blinde detector zal op andere wijze op zoek moeten gaan naar de locatie van het watermerk. Een van de meest uitdagende verstoringen zijn geometrische verstoringen. Denk hierbij bijvoorbeeld aan het schalen van een beeld. Wanneer iemand een bioscoopfilm opneemt met een digitale camera zullen vaak perspectivische vervormingen optreden doordat hij zijn camera net een beetje scheef houdt. Als tweede voorbeeld valt te denken aan kleine subtiele vervormingen die kunnen optreden door het afdrukken en vervolgens weer inscannen van een foto of een document. Het watermerk zal meestal nog steeds in het signaal zitten, maar de preciese locatie van de informatie is gewijzigd op een manier die voor een (blinde) detector niet bekend is. Indien het origineel beschikbaar is bij de detectie kan geprobeerd worden de verstoring ongedaan te maken. Een alternatief voor het ongedaan maken van verstoringen is om het watermerk aan te brengen in een representatie van het signaal die ongevoelig is voor bepaalde verstoringen. In het geval van een bioscoopfilm, kan bijvoorbeeld het watermerk met een lage bitrate gerepresenteerd worden door veranderingen aan te brengen in de gemiddelde intensiteit van een aantal frames. Doordat het beeld in zijn geheel gewijzigd wordt, hebben vervorming van het perspectief en cropping geen invloed op de watermerk detectie. Hoe een watermerk in de praktijk wordt aangebracht hangt uiteraard ook af van het type signaal. Echter, de algemene werkingsprincipes zijn vergelijkbaar. Met name verschilt het type verstoringen waarvoor de menselijke waarneming gevoelig is. Het soort bewerkingen dat typisch plaatsvindt en de hoeveelheid samples die beschikbaar zijn om informatie in te verbergen.
  36. 36. ONGERUBRICEERD 36 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264 Zoals gezegd is de performance zeer sterk afhankelijk van de toepassing, het type signaal (bijvoorbeeld audio/beeld/video) en de keuzes die gemaakt worden in de trade- offs die eerder zijn beschreven. 3.3.4 Beperkingen van de techniek Om te kunnen functioneren, moet er eerst een watermerk in de content worden aangebracht. In bepaalde toepassingen kan de techniek niet worden toepast om reeds bestaande, ongewatermerkte content (legacy content) te herkennen. Met watermarking kan bijvoorbeeld een Beatles liedje op de radio alleen herkend worden, indien er een watermerk in is aangebracht. Er zullen echter altijd ook versies in omloop zijn waar geen watermerk in zit. Fingerprinting biedt dan een alternatief. Daarnaast kunnen onwelwillenden bewust proberen om een watermerk systeem te misleiden of misbruiken. We zullen dit een ‘aanval’ noemen. Bekende aanvallen op watermerk systemen zijn: • Het verwijderen van het watermerk uit het signaal Wanneer er verschillende stukken content, bijvoorbeeld plaatjes, met hetzelfde watermerk beschikbaar zijn kan iemand het watermerk schatten op basis van deze beelden. Door het geschatte watermerk weer van het beeld af te trekken kan het watermerk ondetecteerbaar worden. Als het watermerk bestaat uit een repeterend patroon, bijvoorbeeld een vierkant ter grootte van een aantal pixels in een beeld, kan het watermerk ook geschat worden door de verschillende stukjes van het beeld te middelen. • Ondetecteerbaar maken van het watermerk Zoals eerder opgemerkt, zijn veel watermerken gevoelig voor geometrische vervormingen. Of meer algemeen: verstoringen waarmee de synchronisatie tussen het watermerk en de detector verloren gaat. Het watermerk zit nog wel in de content, maar is voor de detector onvindbaar. Als een gewatermerkte audio signaal een beetje versneld afgespeeld wordt, en de gebruikte audio watermerk methode is hier niet robuust tegen, kan het watermerk door de detector niet gevonden worden. Veelal zal het watermerk weer detecteerbaar worden indien de versnelling ongedaan gemaakt wordt. Hetzelfde geldt voor het corrigeren van vervormingen van het perspectief in de opname wanneer iemand in een bioscoop de gewatermerkte film opneemt met een video camera. • Herhaald proberen het watermerk ondetecteerbaar te maken (oracle attack) Indien iemand de beschikking heeft over de watermerk detector kan deze persoon proberen om het signaal een klein beetje te veranderen en zo het watermerk te verwijderen. Door herhaaldelijk kleine wijzigingen aan te brengen, en steeds te detecteren of het al gelukt is, kan iemand proberen om met zo min mogelijk verstoring het watermerk ondetecteerbaar te maken. Dit wordt een oracle attack genoemd. 3.3.5 Het spelersveld De volgende tabel bevat de namen van enkele bekende leveranciers van watermerk technologie en/of diensten.
  37. 37. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 37 / 114 Tabel 3-3-4 Overzicht van enkele aanbieders van watermerk producten en/of diensten Aanbieder Website Civolution http://www.civolution.com Verimatrix http://www.verimatrix.com Digimarc Corporation http://www.digimarc.com Verance http://www.verance.com MSI http://www.msi.com MarkAny http://www.markany.com Signum http://www.signumtech.com Fraunhofer http://www.fraunhofer.de Enkele van bovengenoemde partijen publiceren met enige regelmaat op wetenschappelijke congressen. In de academische wereld is watermarking nog steeds een actief onderzoeksgebied, hoewel minder dan aan het begin van het millennium. Destijds was er veel aandacht voor watermarking als technologie voor kopieerbeveiling. Wanneer we ons beperken tot Nederland en het Angelsaksische deel van de wereld zijn o.a. University College London, University of Illinois at Urbana Champaign (US), Purdue University (US), en de TU Delft actief in dit veld. 3.3.6 Publieke benchmarks Benchmarks van commerciële watermerk producten zijn voor zover bekend niet publiekelijk beschikbaar. Wel zijn er benchmarking tools in de academische wereld ontwikkeld. Voorbeelden zijn Stirmark, Certimark, WET en Audio WET. De laatste twee zijn online applicaties; voor het gebruik ervan dient toestemming van de betreffende beheerders verkregen worden. 3.3.7 Referenties [1] I.J. Cox et al., ‘Digital Watermarking and Steganography’. Morgan Kaufmann, 2nd edition, ISBN 978-0-12-372585-1, 2008
  38. 38. ONGERUBRICEERD 38 / 114 ONGERUBRICEERD | TNO-rappo rt| 35264
  39. 39. ONGERUBRICEERD ONGERUBRICEERD | TNO-rappo rt| 35264 39 / 114 4 Versturen van geheime boodschappen (steganografie) en de detectie daarvan (steganalyse) 4.1 Inleiding Bij steganografie gaat het om geheime, verborgen communicatie. Het doel is om een boodschap over te brengen, zonder dat iemand doorheeft dat je een boodschap overbrengt. In die zin staat het dus naast cryptografie; daar gaat het er o.a. om dat de boodschap niet leesbaar is voor een derde partij. Het gebruik van cryptografie springt erg in het oog, en het gebruik ervan kan ongewenste aandacht oproepen. Daarnaast verhult cryptografie niet het feit dát er gecommuniceerd wordt. Er zijn technologische varianten die sterk lijken op watermarking. Een watermerk mag vaak niet zichtbaar zijn vanuit het oogpunt van de kwaliteit van de content. Vaak is het juist algemeen bekend dat een signaal een watermerk kan bevatten; dit kan ook misbruik ontmoedigen. Bij steganografie is zelfs dat ongewenst. Gezien het doel van steganografie wordt het met name toegepast door mensen die niet betrapt willen worden. In de publiciteit is de meeste aandacht uitgegaan naar dissidenten in autoritaire regimes, criminelen, of terroristen; de laatste groep met name sinds 11 september 2001. Voor zover bekend zijn er geen statistieken over het gebruik van steganografie. De tegenhanger van steganografie is steganalyse. Deze techniek houdt zich bezig met het detecteren van verborgen boodschappen, met name in digitale bestanden. Indien de aanwezigheid van een boodschap ontdekt wordt, is de steganografie in feite al mislukt en de steganalyse geslaagd. Zodra de communicatie onderschept is kan gepoogd worden de boodschap te begrijpen dan wel te onderscheppen. Vaak echter zal de boodschap vercijferd worden dmv. encryptie. Een actueel overzicht van methodes en literatuur op het gebied van steganografie en steganalyse is te vinden in de boeken [1] en [2]. Steganografie en steganalyse zijn toepasbaar op audio, foto, video en tekst. In de literatuur gaat de meeste aandacht uit naar de toepassing van deze technologieën op beeldmateriaal, zo ook in dit rapport. 4.2 Werkingsprincipes In steganografie worden diverse mogelijkheden om een boodschap te versturen onderscheiden. We illustreren ze hier aan de hand van het scenario dat een boodschap in een foto wordt verborgen: 1 De keuze van de foto representeert de inhoud van de boodschap Vooraf worden afspraken gemaakt over welke boodschap gekoppeld is aan welke foto. In jargon heet dit het codebook. Iedere mogelijke foto heeft dus een bepaalde betekenis, die zowel bij de zender als bij de ontvanger op voorhand bekend moet zijn. Dit is meteen het zwakke punt van deze methode. Er moet op de een of andere manier gecommuniceerd worden wat de betekenis is van iedere foto. Als deze communicatie uitlekt, is de steganografie mislukt. Daarnaast is het aantal verschillende boodschappen wat hiermee gecommuniceerd kan worden in de praktijk vrij laag. Er kan ook voor gekozen worden om een boodschap te versturen die bestaat uit een aantal symbolen, bijvoorbeeld letters. Iedere foto representeert

×