Tartalomgazdagítás (content enrichment)

Tartalomgazdagítás
szövegbányászattal
Linked Open Data felhasználása
ajánlórendszerekben
Dr. Tikk Domonkos, CEO
@domonkostikk

Vázlat
• Ajánlórendszerek és motiváció
• Tartalomgazdagítás szükségessége
• Szemantikus háló alapú technológia
• Hol van szükség szövegbányászatra
Tartalomgazdagítás szövegbányászattal

Ajánlórendszerek és
motiváció

Ajánlórendszerek
• Kollaboratív filtering
 felhasználók tartalmakkal való
interakciói alapján működik
o interakciók hasonlóság
o látens modellek közelsége
• Tartalom alapú szűrés
 tartalmak leírói alapján
működik
o tartalmak hasonlósága
o felhasználó történetére vetítve

Kollaboratív filtering vs. tartalom alapú szűrés
+ pontosabb
+ doménfüggetlen
– indulásnál nem működik
– nehezen magyarázható
+ kevés adat esetén is működik
+ jól magyarázható
– doménfüggő
– pontatlanabb
– bezártság

Motiváció
• Hagyományos tartalom keresési és felfedezési módszerek nem
kielégítőek a mai tartalomrengetegben

Cél
• Műsorinformáció + videotéka információ és felhasználói viselkedés
alapján releváns tartalmak ajánlása

Tartalomgazdagítás

Milyen adatok állnak rendelkezésre?
• Hagyományos TV operátornál
 Mtelekom
 UPC
Adatok: cím, gyártási év, leírás,
rendező, főszereplők, sorozat, stb.
• Videomegosztó oldalak
 Youtube
 Dailymotion
Adatok: cím, feltöltő, leírás,
feltöltés adatai, kategória, hossz,
stb.

A metaadatok függenek az entitás típusától
• A TV programokban különböző entitások vannak jelen:
 Film (The Shining)
 Sorozat (Six Feet Under)
 Rendező (Stanley Kubrick)
 Foci csapat (Manchester United F.C.)
 Különböző sportemberek (Federer – Djokovic)
 Talk-show házigazda (Steven Colbert)
• Doménfüggő a fenti entitásokhoz tartozó metaadatok típusa:
 film: kiadási év, cím, rendező(k), színész(ek) stb.
 színész: név, születési hely és idő, stb.
 TV sorozat: évad, epizód
 Foci csapat: játékosok, székhely stb.

„One size fits all”?

„One size fits all” – miért nem működik
• A metaadatüzlet is 20/80-as elv szerint működik
 Tartalom 20%-a „gazdag” metaadatban (TOP csatornák), 80% csak
a költségeket fedezik
 Ajánlásnak 100%-nak kell lennie a teljes spektrumon!!!
• EPG és videotéka katalógusok más forrásból jönnek, de egységesen
kell kezelni őket
• Más megoldások kellenek a különböző szolgáltatástípusok esetén
 IPTV és OTT megoldások
 Videomegosztó oldalak (felhasználói tartalom)

Hol találhatók a metaadatok?
• A metaadatok különböző ún. Linked Open Data (LOD) adatbázisokban
vannak:
 Filmek: Freebase, IMDB, LinkedMDB, TheTVDB
 Sport: Freebase, DBPedia
 Személyek: DBpedia, Freebase
 Zene: Magnatune, Musicbrainz
 Termékek: POD (Product Open Data)

Szemantikus háló alapú
technológia

Gravity Metaadat architektúra
• Fő tulajdonságok
 TV-s és videotéka tartalmak egységek kezelése és összekapcsolása
 Többnyelvű tartalomfeldolgozás
o Nyelvfüggő (cím, leírás)
o Nyelvfüggetlen (szereplő, műfaj, epizódszám)
 Több adatbázis együttes kezelése
 Skálázódás

Szemantikus háló
• Hogyan tárolhatóak illetve modellezhetők egységesen egy adott
entitáshoz tartozó tulajdonságok:
 Resource Description Framework (RDF) az adatmodellezésre lett
kitalálva
 Az RDF alany – állítás – tárgy hármasokban írja le a világot
subject: <http://rdf.freebase.com/ns/m.02vyptn>
predicate: <http://rdf.freebase.com/ns/film.film.written_by>
object: <http://rdf.freebase.com/ns/m.016hvl>

Apache Stanbol
• hagyományos CMS adatbázisok kiegészítése szemantikus
szolgáltatásokkal

LOD integrálása: EntityHub modullal
• Entityhub (/entityhub): entitások lokális kezelését teszi lehetővé,
amelyeket külső site-okról (LOD) is lehetnek importálva.
• Site Manager (/entityhub/sites): A SiteManager egységesített
csatlakozási felületet kínál a kezelt LOD-okhoz. Egy adott lekérdezés
az összes megkapcsolt LOD végponthoz továbbítja a kérést.
• Sites (/entityhub/site/{siteId}): egy konkrét LOD-hoz
(entitásszolgáltatóhoz) való integráció
 ReferencedSite: Külső szolgáltató. Lokális caching és indexelést is
támogat, ezért nem kell mindig kapcsolódni a külső LOD-hoz, csak
ha az cache-ben nincs meg az adat.
 ManagedSite: saját entitás menedzselés

EntityHub

Gravity Metaadat motor
• LOD integrálása: RDF mapping definiálása, ha nem létezik
• ReferencedSite definiálása minden integrálandó LOD-hoz
 lokál cache létrehozása, ha a LOD támogatja ezt (teljes adatbázis
dump)
 ahol nincs támogatva (csak egyedi lekérések), ott a ReferencedSite
cache-ét használjuk
• Névelemek azonosítására Stanbol Enhancer használata

Stanbol Enhancer

Enhancer használata

Adattárolás
• Nagy méretű adatbázisok (Freebase: 400M triplet)
• Skálázható háttéradatbázisként: Titan DB
 Elosztott gráf adatbázis, ami RDF adatbázisként is használható a
GraphSail interfészen keresztül
 HBase és Cassandra backendet támogat
• Jelenleg 2 csomópontból álló Hadoop klasztert használunk HBase-zel
• 50 konkurens folyamat kiszolgálására bőven elég
• Faunus gráfelemző motort használunk az adatok betöltésére
 100M adat betöltése csak 3 óra

Hol használunk
szövegbányászatot?

Szövegbányászati feladatok
• Névelemek felismerése
• Névelemek egyértelműsítése
• Névelemek tulajdonságainak meghatározása
• Inkonzisztens adatok egyértelműsítése

Névelemek felismerése
• Szabad szövegben meghatározni, hogy melyek azok az entitások,
amelyek érdekesek lehetnek számunkra
 Szótár alapú megközelítés
o Függ az adat minőségétől
o Melyik adatforrásokat akarjuk felhasználni?
 Szekvenciatanulás alapú megközelítés
o HMM, CRF
o Mennyire érzékeny a rendszer a hibára?
• Stanbol Enhancer

Névelemek egyértelműsítése
• Adott egy entitás, melyik LOD-entitásra lehet leképezni
• Melyik LOD-adatbázisban kell keresni?
 Szolgáltató függő adatséma
 nem egységes lekérdezés
o Apache Marmotta: Linked Data Client
o Standard RDF formátumra alakítja a LOD-ok egyedi válaszformátumát
o Ezután a Marmotta LOD cache-ét lehet használni
• Szükség van az adat szemantikájára
 rendező, filmszínész, stb. – különben nagyon zajos lesz a
lekérdezés eredménye

Hasonlóság
• Mely tulajdonságok határoznak meg egyértelműen adott filmet?
 Cím:
o Revolver (2005) vs Revolver (1991)
o The Bourne Identity (2002) vs The Bourne Identity (1988)
 Cím + Kiadás Éve:
o The Bourne Identity (2002) vs A Bourne-rejtély (2002)
o Terminator (1984) vs Terminátor - A halálosztó (1984)
 Kiadás Éve + Rendező:
o Elég jó, de még mindig nem feltétlenül egyértelmű
− Elírási hibák: Jonnie vs Johnny
− Különböző kiadási év:
− tényleges kiadási év (2007) vs vetítési év az adott országban (2008)

Hasonlóság
• Létrehozunk egy vektort: v = [kiadási év, rendező, vetítési idő]
v1 = [1999, ['Steven', 'Allan', 'Spielberg''], 120]
v2 = [1999, ['Stanley', 'Kubrick'], 118]
v3 = [1999, ['Steven', 'Spielberg'], 115]
• Két vektor tavolsága:
|| v_src – v_target ||_2
• A különbség két név között:
['Steven', 'Allan', 'Spielberg''] - ['Steven', 'Spielberg']
 Egyszerű megoldás: | halmaz(A) halmaz(B) |
 Komplexebb megoldás: ∑ min(Levenshtein távolság(a_i,b))

Névelemek tulajdonságainak meghatározása
• Ha már adott a LOD adatbázis és a lekérdezés, akkor SPARQL
lekérdezéssel megkaphatók az entitás tulajdonságai
• Simple Protocol and RDF Query Language (SPARQL)
• SQL-szerű RDF lekérdező nyelv
• A SPARQL lekérdezések triple mintákból, konjunkciókból,
diszjunkciókból és opcionális mintákból állnak
• A lekérdezés szétosztható több SPARQL végponthoz (szolgáltatások,
melyek fogadják SPARQL lekérdezéseket és eredményt adnak vissza),
kiszámolja, és összegyűjti az eredményt

SPARQL – 1. példa
• Woody Allennel egy filmben szereplő színészek:

SPARQL – 2. példa
• Olyan színészek, akik Stanley Kubrick és Steven Spielberg filmben is
szerepeltek

Köszönöm!
www.gravityrd.com
Legfrissebb hírek:
www.facebook.com/gravityrd
Dr. Tikk Domonkos
CEO
Tel: +36 30 5470780
tikk.domonkos@gravityrd.com

Tartalomgazdagítás (content enrichment)

Recommended

Recommended

More Related Content

Featured

Featured (20)

Tartalomgazdagítás (content enrichment)