Recurgerea la metode inspirate din natură în contextul Web-ului semantic
Upcoming SlideShare
Loading in...5
×
 

Recurgerea la metode inspirate din natură în contextul Web-ului semantic

on

  • 1,386 views

Precizati care este sau ar putea fi rolul metodelor inspirate din natura -- precum algoritmi genetici, retele neuronale si altele -- in ceea ce priveste ...

Precizati care este sau ar putea fi rolul metodelor inspirate din natura -- precum algoritmi genetici, retele neuronale si altele -- in ceea ce priveste
problematicile Web-ului semantic. Posibile aspecte de interes: clasificarea automata a conceptelor/relatiilor, determinarea relatiilor (relation mining) din cadrul
surselor de date existente (vezi Linked Data), minimizarea conceptelor similare existente in cadrul unor ontologii de mari dimensiuni etc.

Statistics

Views

Total Views
1,386
Views on SlideShare
1,386
Embed Views
0

Actions

Likes
0
Downloads
26
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Recurgerea la metode inspirate din natură în contextul Web-ului semantic Recurgerea la metode inspirate din natură în contextul Web-ului semantic Document Transcript

  • Recurgerea la metode inspirate din natură în contextul Web-ului semantic Ştefan Apostoaie Facultatea de Informatică, Universitatea „Al. I. Cuza” Iaşi stefan.apostoaie@info.uaic.ro Abstract. În acest articol prezentăm câteva dintre abordările unor probleme ale Web-ului semantic bazate pe metode inspirate din natură. De-a lungul timpului au existat mai multe direcţii spre care s-au îndreptat cercetătorii care caută să rezolve diverse probleme ale Web-ului semantic printre care au fost şi genetica (algoritmi genetici), psihologia şi sistemul nervos uman (reţelele de neuroni). Astfel Jose Quesada1 a studiat teoriile de asemanare ale omului aplicate in Web-ul semantic plecând de la ideea că web-ul semantic trebuie să se apropie mai mult de modul de gândire al omului decât de o „gândire” a calculatoarelor. Alexander Hogenboom, Viorel Milea, Flavius Frasincar şi Uzay Kaymak2 au încercat să creeze algoritmi genetici pentru a optimiza căile de interogare a RDF, ţinând cont de complexitatea acestei probleme şi de timpul scurt cerut unei interogări. Şi cum nici Web-ul semantic nu este ocolit de atacuri Peyman Nasirifard3 studiază „Viruşii semantici”. 1 Introducere Mult timp tot ce ţinea de calculatoare a reprezentat ceva abstract pentru majoritatea populaţiei globului. Chiar şi după extinderea puternică a utilizării calculatoarelor în multe dintre domeniile de activitate oamenilor nu le este uşor să se adapteze lucrului cu acest dispozitiv. Astfel de multe ori, în loc să-i ajute, calculatorul mai mult îi încurca pe cei care doreau să realizeze chiar şi sarcini foarte uşoare (dacă ar fi fost lăsaţi să-şi facă treaba cum ştiau ei folosind metodele convenţionale). Mult timp s-a considerat că omul se va adapta, dar anii au trecut, s-au făcut investiţii masive pentru instruire şi nu s-a ajuns la rezultatul dorit. De aceea a apărut ideea adaptării modului de lucru al calculatorului la gândirea umană. Web-ul semantic se doreşte a fi o evoluţie a Web-ului clasic prin faptul că se adaugă informaţii suplimentare pentru a 1 “Human Similarity theories for the semantic web”, Jose Quesada, Max Planck Institute, Human development 2 “Genetic Algorithms for RDF Query Path Optimization”, Alexander Hogenboom, Viorel Milea, Flavius Frasincar, and Uzay Kaymak, Erasmus School of Economics, Erasmus University Rotterdam 3 “Anatomy of a Semantic Virus”, Peyman Nasirifard, Digital Enterprise Research Institute, National University of Ireland, Galway
  • 2 Ştefan Apostoaie defini relaţiile între multitudinea de concepte împrăştiate în toată lumea. Web-ul semantic se doreşte a fi apropiat de modul de reţinere a informaţiilor de către om, deci este inspirat din natură. De aici ideea de a căuta tot în natură a metodelor de procesare a informaţiilor stocate la nivelul Web-ului. 2 Metode inspirate din psihologia umană Jose Quesada[1] a analizat diversele teorii apărute în psihologie despre conceptul de similaritate. El a remarcat modul rapid şi eficient al omului de a evalua similaritatea şi a considerat că se poate inspira din modul de reprezentare al datelor folosit de mintea umană pentru a face conţinutul web-ului mai prietenos cu calculatoarele. Similaritatea în psihologie, ca şi în informatică, este un concept dificil, dar abordabil. În istoria psihologiei au apărut mai multe variante de a privi similaritatea printre care s-au remarcat modelul metric (indrodus de Shepard), mulţimilor discrete, ierarhic, bazat pe alinieri şi pe distanţa transformaţională. Modelul metric constă în folosirea spaţiilor metrice pentru a modela reprezentările interne ale simulilor (forme, concepte, etc.) Astfel se asociază fiecărui concept un punct in spaţiul metric, iar nivelul de asemănare dintre cele două concepte (puncte) este dat de o funcţie de distanţă metrică. Modelul metric presupune trei proprietăţi ale similarităţii conceptelor: minimalitate, simetrie şi inegalitatea triunghiului. Pentru a aplica acest model în Web-ul semantic trebuie extrase caracteristicile conceptelor din Web. Modele bazate pe aceasta idee ar fi: ─ Latent Semantic Analysis (LSA) care rezolvă problema apărută când textele comparate au puţine cuvinte în comun prin rularea SVD (singular value decomposition – descompunerea valorilor singulare) şi apoi reducerea dimensiunii folosind matricea documentului. ─ Beagle propune metode pentru a captura atât sintaxa cât şi semantica simultan într-o singură reprezentare, folosind convoluţia. ─ O altă abordare este folosirea ca dimensiuni a unui corpus mare de articole etichetate. Modelul mulţimilor discrete, introdus de Tversky, este considerat opusul modelului metric. Încălcarea celor trei proprietăţi presupuse de sistemul metric se poate demonstra empiric conform lui Tversky, acesta argumentând că similaritatea este o relaţie asimetrică. El a definit similaritatea ca o funcţie ce ţine cont atât de caracteristicile comune cât si de cele diferite: S(A,B) = f(Θ(A∩B) – α(A – B) – β(B – A)) Unde A şi B sunt mulţimi de caracteristici. Alţi cercetători au argumentat că nici modelele spaţiale, nici cele discrete nu sunt în măsură să modeleze reprezentarea umană, bazându-se pe rezultatele unor experimente care au arătat că oamenii folosesc reprezentări structurate. Teoria similarităţii structurale presupune că reprezentările mentale constau din sisteme
  • Recurgerea la metode inspirate din natură în contextul Web-ului semantic 3 ierarhice care codează obiectele, atributele obiectelor, relaţiile dintre obiecte şi relaţiile dintre relaţii. Aceste modele sunt cele mai apropiate de structurile de date folosite de RDF. Modelele bazate pe distanţa transformaţională spun că similaritatea a două entităţi este invers proporţională cu numărul de operaţii necesare pentru a transforma o entitate astfel încât cele două să fie identice. Acest model este promiţător, însă este dificil de măsurat în timp scurt distanţa dintre concepte atunci când cele doua au foarte multe atribute. 3 Algoritmi genetici Algoritmii genetici sunt bazaţi pe teoria conform căreia indivizii mai puternici dintr-o populaţie vor ajunge să domine acea populaţie. Astfel se simulează evoluţia unei populaţii pe mai multe generaţii, timp în care atributele indivizilor suferă două tipuri de transformări: încrucişarea cu un alt individ şi mutaţia unui singuri atribut. De regulă algoritmul se termină după un anumit număr de generaţii sau când nu se mai observă o îmbunătăţire a populaţiei în căteva generaţii consecutive. Un astfel de algoritm încearcă să aplice Alexander Hogenboom, Viorel Milea, Flavius Frasincar şi Uzay Kaymak în [2]. Un model RDF este o colecţie de afirmaţii declarate folosind RDF. Structura acestor afirmaţii este o colecţie de triple, fiecare având un subiect, un predicat şi un complement. Aceste triple pot fi vizualizate folosind un graf RDF, iar o interogare RDF ca un arbore. Frunzele unei interogări reprezintă sursele, iar nodurile interne reprezintă operaţii relaţionale. Nodurile dintr- un arbore de interogare pot fi aşezate în mai multe moduri, obţinând acelaşi rezultat, dar cu timpi de execuţie mai mari sau mai mici. În acest context apare problema ordinii join-urilor: determinarea ordinii corecte în care join-urile trebuie calculate astfel încât timpul de răspuns să fie optim. În spaţii de soluţii mari problema găsirii unui arbore de interogare optim este extrem de dificilă, iar simple euristici nu sunt de ajuns. De aceea a apărut ideea folosirii unui algoritm genetic. Chiar dacă nu garantează găsirea soluţiei optime, un algoritm genetic se apropie destul de mult de ea într-un timp scurt. În [2] se propune o implementare şi se prezintă rezultate ale evaluării ce sunt promiţătoare. 4 Viruşi semantici Pezman Nasirifard în [3] discută despre soft maliţios care generează date bazate pe RDF valide şi aleatoare folosind scheme/ontologii predefinite, iar aceste date sunt trimise motoarelor de căutare semantice. Astfel se ajunge ca la o căutare utilizatorul să aibă surpriza să primească date aberante, acest lucru cauzându-i neplăceri majore. Un astfel de virus ascunde informaţia relevantă în informaţii inutile (garbage). Autorul a ajuns să studieze un astfel de virus pornind de la sugestiile motoarelor de căutare orientate către Web-ul semantic de a folosi triple RDF bazate pe scheme predefinite pentru a uşura interoperabilitatea aplicaţiilor. Într-o lume ideală nu ar fi View slide
  • 4 Ştefan Apostoaie nicio problemă, dar cum nu trăim într-o astfel de lume cu siguranţă vor fi indivizi sau organizaţii care vor încerca să dea peste cap aceste mecanisme aparent bine puse la punct. Modulul principal al unui virus ar fi o bucată de cod care primeşte ca input câteva triple şi generează alte triple bazate pe input şi pe schemele predefinite, astfel încât triplele RDF generate să fie corecte sintactic, dar greşite semantic (false). Numărul de clone invalide ce pot fi generate este egal cu numărul tuturor instanţelor posibile formate din concepte dintr-un document RDF. Pentru a contracara un astfel de virus se pot folosi semnături digitale pentru a certifica faptul că un anumit conţinut este autentic şi nu fals. Dar prin acest lucru se elimină mare parte din Web-ul semantic, deci nu este fezabilă folosirea doar a conţinutului semnat. O soluţie acceptabilă încă nu există, însă ea trebuie găsită deoarece un astfel de virus ar produce mari inconveniente atât utilizatorilor cât şi motoarelor de căutare semantice. 5 Concluzii Natura este şi va fi în continuare o sursă de inspiraţie pentru informatică deoarece ea rezolvă probleme extrem de complexe prin soluţii simple şi eficiente. Creierul uman rămâne în continuare surprinzător şi fascinant, oferind un model de proiectare a structurii Web-ului. Modalitatea de reţinere şi procesare specifice sistemului nervos uman rămân exemplele supreme pentru organizarea şi accesarea datelor în Web-ul semantic. Şi dacă natura ne dă atât de multe rezolvări ale problemelor de care ne lovim de ce să le ignorăm? View slide
  • Recurgerea la metode inspirate din natură în contextul Web-ului semantic 5 6 Referinţe 1. “Human Similarity theories for the semantic web”, Jose Quesada, Max Planck Institute, Human development 2. “Genetic Algorithms for RDF Query Path Optimization”, Alexander Hogenboom, Viorel Milea, Flavius Frasincar, and Uzay Kaymak, Erasmus School of Economics, Erasmus University Rotterdam 3. “Anatomy of a Semantic Virus”, Peyman Nasirifard, Digital Enterprise Research Institute, National University of Ireland, Galway