• Save
MuLang
Upcoming SlideShare
Loading in...5
×
 

MuLang

on

  • 734 views

 

Statistics

Views

Total Views
734
Views on SlideShare
734
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    MuLang MuLang Document Transcript

    • MuLang Raaă Gheorghii ă Mugurel MOC2, Ivanciu Adriana MLC2, Huua nu Irina MLC2 gheorghita.rata@infoiasi.ro, adriana.ivanciu@infoiasi.ro, hutanu.irina@infoiasi.ro Abstract. Proiectul are ca tema implementarea unui instrument web care să realizeze statistici despre utilizarea mai multor limbi în cadrul conţinuturilor redactate şi a conversaţiilor realizate pe mai multe bloguri. Categoriile blogurilor sunt obbi nute dintr-o ontologie, salvată într-un fiii er XML. Rezultatul prelucrarii statistice este afiia t sub forma unui grafic pe coloane, fiecare subcategorie de bloguri având graficul ei. 1 Date tehnice Site-ul este creat pe platforma .NET 2.0 (C#, ASP.NET). Este testat pe Internet Explorer 7/8, pe sistemul de operare Windos XP/Vista. Ontologia este creată cu ajutorul aplicaei ei Protege 4.0 Build 115. Ontologia are aproximativ 50 de categorii i subcategorii cu diverse tematici de blogging, începand de la artt , culturăă i muzică până la politică i t i inne naturale. Fig.1. Ontologia
    • 2 2 Utilizarea site-ului Fig.2. Interfa a AA cum se vede in Fig. 2, meniul cuprinde o zonă de încărcare a fiii erului XML ce a con.i ne ontologia. Deà site-ul a fost conceput pentru bloguri, faptul ca ontologia i poate fi schimbată, dă posibilitatea de a realiza statistici pe orice tipuri de site-uri, categoriile fiind citite după ce ontologia a fost încărcată. Se apasă pe butonul Browse, se alege un fiii er local, i apoi se apass pe Upload ă Ontology. După acest pas, categoriile i subcategoriile din ontologie vor fi afiia te în obiectul de tip Drop Down, ca în figura 3. Fig.3. Meniul
    • MuLang 3 După ce utilizatorul alege o categorie, urmează ca adresa web a blogului respectiv să fie completată în zona link, vizibilă in figura 2. Apoi se apasă butonul Add site. Î n acest moment, site-ul este procesat, se verificî limba folosită i se creează un grafic, ca în figura 4. Fig.4. Vizualizarea statisticilor Desigur că la acest pas, nu putem considera că avem o statistică, dar pe masură ce utilizatorul adaugă un numar considerabil de adrese de bloguri, tipul acestora este contorizat, se verifică limba folosită i se construieet e graficul aferent. Dacă limba folosită nu este gasită în fiii erul de resurse, definit in aplicaai e, atunci blogul va fi adăugat la categoria All, ca în figura următoare.
    • 4 Fig. 5. Plasarea blogurilor Dacă blogul a fost verificat deja, iar utilizatorul incearcă să il adauge din nou, atunci va primi un mesaj de avertizare, ca în figura 6. Fig.6. Mesaj de avertizare
    • MuLang 5 Dacă ă doreet e anularea datelor obbi nute la un moment dat, se apass pe butonul se Reset session din Figura 2. Datele vor fi ©e rse û utilizatorul poate relua construirea t i statisticii, inclusiv schimbând fiei erul care conui ne ontologia. Dacă utilizatorul nu respectă paai i necesari până la obbi nerea statisticii, este avertizat prin mesaje corespunzătoare, ca în figura următoare: Fig.7. Mesaj de avertizare 3 Date de implementare Limbile pe care aplicaai a le verifică sunt: Engleza, Franceza, Germana, Italiana, Româna. Verificarea se face pe baza unui set minim de cuvinte specifice limbii respective. Sunt salvate într-un fiii er de resurse care poate fi modificat fără a afecta modul de funcii onare al aplica
    • 6 Fig. 8. Vocabular Fisierul conbi nând ontologia este parcurs si citit ca un fi·i er XML. Codul este următorul: XmlDocument xDoc = new XmlDocument(); xDoc.Load(Server.MapPath(".") + ontologyName); XmlNodeList list = xDoc.GetElementsByTagName("owl:Class"); foreach (XmlNode node in list) { if (!node.HasChildNodes) { if (node.Attributes.Count > 0) categList.Add(node.Attributes[0 ].Value); } } foreach (XmlNode node in list)
    • MuLang 7 { if (node.HasChildNodes) { XmlNode child = node.FirstChild; if (node.Attributes.Count > 0 && categList.Contains(child.Attributes[0].Value)) { int index = categList.IndexOf(child.Attributes[0].Value) + 1; categList.Insert(index, "____" + node.Attributes[0].Value); } } } Pentru citirea blogului se folose. e functia DownloadString() care creează un t obiect string din sursa site-ului care mai apoi e comparat cu lista de cuvinte din fii ierul de resurse. Lista mesajelor de eroare sunt urmatoarele: lbError.Text = "You should upload an ontotlogy"; lbError.Text = "Link could not be opened"; lbError.Text = "Site already exists"; lbError.Text = "Link could not be opened"; lbError.Text = "field sitelink is empty"; Codul este comentat folosind standardul C# : /// <summary> /// it load the ontology file and fill the categories list
    • 8 /// </summary> /// <param name="sender">the object who send the event</param> /// <param name="e">event arguments</param> protected void lbShowOntologies_Click(object sender, EventArgs e) Pentru alte detalii, se poate folosi intrarea din meniu – Contact, unde pot fi folosite adresele de mail ale dezvoltatorilor site-ului: Fig. 9. Contact 5 Concluzie Proiectul Mulang pune bazele unei aplica@ ii de ordin statistic care faciliteaza colectarea de informa ie lingvistică din ontologii si bloguri. Cu ajutorul unui vocabular limitat format din cele mai des întâlnite prepozir ii, conjunco ii, adverbe i pronume relative detectează limba utilizată i funcr ie de aceasta i de ontologia inserată de utilizator. Utilitatea acestei aplicae ii este destul vastă, facilitând scanarea si detectarea diverselor limbi utilizate în bloguri, cât ă i organizarea de tip statistic a acestora.