UNIVERSITATEA “ALEXANDRU IOAN CUZA”, IAŞI
         FACULTATEA DE INFORMATICĂ



CĂUTARE DOCUMENTARĂ ÎNTR-
  UN CONTEXT MULTILINGV


                 Sesiunea: IULIE, 2010


        propusă de
        Alina- Elena Mihăilă


                            Coordonator ştiinţific
                          Asistent, Dr. Adrian Iftene
CUPRINS
     Cuvinte Cheie
     Prezentarea Problemei şi Formularea Soluţiei

     Tehnologii

       • Prezentare

       • Configurare

     Internet Surveillance

     Aplicaţie- Structură

     Studiu de caz

     Concluzii

     Direcţii Viitoare

                                                     2

2
CUVINTE CHEIE
     Multilingual
     Căutare
     Lucene
     Index
     Nutch
     Google Translated API
     Google Search API
     Internet Surveillance
     J2EE
     JSF, JSP, MVC
     Internaţionalizare      3

3
PREZENTAREA PROBLEMEI ŞI
                    FORMULAREA SOLUŢIEI

       Problemă
           Utilizatori ocupaţi
           Informaţii multe şi dispersate
           Nu există un motor de căutare multilingv
           Identificarea greoaie a opiniilor


       Soluţie
           Punerea în comun a informaţiilor în mai multe limbi
           Identificarea uşoară a opiniilor
           Păstrarea locală a informaţiilor
           Internaţionalizarea aplicaţiei                        4

4
TEHNOLOGII- PREZENTARE


   Apache LUCENE
       bibliotecă de funcţii gratuită folosită în căutarea documentară
       documentul, câmpul şi termenul
       index
   Apache NUTCH
       framework pentru punerea în aplicare a motoarelor
        de căutare
       crawling
       conceput pentru a procesa seturi de documente Web


                                                                          5

5
TEHNOLOGII- PREZENTARE

   Google Translate API
       proiect open source
       translator automat
   Google Search API
       integrarea motorului de căutare Google în cadrul unei pagini
        Web
   J2EE
       platformă Java proiectată pentru a prelucra date
        pentru organizaţii mari
       model distribuit multitier de realizare a aplicaţiilor
   JAVASERVER FACES
       standard pentru construirea interfeţelor cu                    6
        utilizatorul pe partea de server
6
TEHNOLOGII- CONFIGURARE

   NUTCH
       Crearea directoarelor
       Configurarea fişierelor
       Indexare


   Cygwin
       Parsare fişier
       Compunerea comenzii
       Directoare de crawl
bin/nutch crawl urls -dir crawl -depth 3 -
                 topN 5
                                             7
TEHNOLOGII- CONFIGURARE
      J2EE/JSF
                                              <servlet>
          web.xml                               <servlet-name>
          faces-config.xml                       Faces Servlet</servletname>
                                                 <servlet-class>
                                              javax.faces.webapp.FacesServlet
                                                </servlet-class>
                                                 <load-on-startup>1</load-on-
<navigation-rule>                             startup>
  <from-view-id>/index.jsp</from-view-id>      </servlet>
   <navigation-case>                          <servlet-mapping>
         <fromoutcome>                           <servlet-name>Faces Servlet
               searchConfiguration               </servlet-name>
          </from-outcome>                        <url-pattern>/faces/*</url-pattern>
        <to-view-id>/search.jsp</to-viewid>   </servlet-mapping>
   </navigation-case>
</navigation-rule>
                                                                                       8
TEHNOLOGII- CONFIGURARE

   JSF-MVC (Model- View- Controller)




                                        9
INTERNET SURVEILLANCE
 „ Societatea noastră nu este una de spectacol, ci de
  supraveghere (...) individul este atent fabricat în ea, în
  conformitate cu o întreagă tehnică de forţe şi corpuri”
  (Foucault 1977:217)
 un concept care ne permite interogarea absolută a
  colecţiilor de informaţii
 „ Acumularea de informaţii definite simbolic materiale
  care pot fi stocate de o agenţie sau o colectivitate,
  precum şi supravegherea activităţilor subordonaţilor
  de către superiorii lor ” (Giddens 1981:169)

                                                               10
APLICAŢIE- STRUCTURĂ

    Componente JavaBeans
        Aplicaţia este structurată în trei pachete:
          Bean- conţine clasa QueryResults
          Internationalization- conţine clasa Language

          Search- este format din clasele EnteredQuery,

           GoogleQuery, Search şi TranslatedQuery
EnteredQuery.receivedQuery() TranslatedQuery.translateQuery()

     GoogleQuery.makeQuery()       Search.getConfiguration()

         Search.createHit()   QueryResults.QueryResults()

                                                                11
APLICAŢIE- STRUCTURĂ

   Pagini JSP
       prezentarea rezultatelor către utilizator
   Biblioteci de tag-uri
       includerea elementelor de interfaţă în cadrul paginilor jsp şi
        obiectele ataşate acestora pe partea de server
   Fişiere de configurare
       web.xml
       faces-config.xml



                                                                         12
STUDIU DE CAZ

 Pentru a ilustra funcţionalitatea şi utilitatea
  aplicaţiei MLS (Multilingual Searcher) descriem
  în cele ce urmează un studiu de caz referitor la
  căutarea produsului iPhone.
 Cu ajutorul acestui sistem utilizatorii vor avea
  toate informaţiile necesare centralizate şi în
  plus ele vor fi clasificate în comentarii pozitive şi
  negative


                                                          13
CONCLUZII


 Utilizatori mulţumiţi- obţin rezultatele dorite
  multilingv
 Alternativă la căutarea clasică pe Internet

 Combinarea rezultatelor obţinute

 Afişarea opiniilor pozitive şi negative

 Eficienţă - păstrarea locală a indecşilor

 Componente principale

 Separarea logicii de partea de prezentare
                                                    14
DIRECŢII VIITOARE

 Combinarea rezultatelor obţinute cu
  rezultatele de pe reţelele de socializare
 Extinderea numărului de limbi utilizate

 Creşterea eficientei

 Sortarea rezultatelor obţinute

 Detecţia opiniilor




                                              15
UNIVERSITATEA “ALEXANDRU IOAN CUZA”, IAŞI
FACULTATEA DE INFORMATICĂ




           Vă Mulţumesc !


                                            16

Cautaera multilingva

  • 1.
    UNIVERSITATEA “ALEXANDRU IOANCUZA”, IAŞI FACULTATEA DE INFORMATICĂ CĂUTARE DOCUMENTARĂ ÎNTR- UN CONTEXT MULTILINGV Sesiunea: IULIE, 2010 propusă de Alina- Elena Mihăilă Coordonator ştiinţific Asistent, Dr. Adrian Iftene
  • 2.
    CUPRINS  Cuvinte Cheie  Prezentarea Problemei şi Formularea Soluţiei  Tehnologii • Prezentare • Configurare  Internet Surveillance  Aplicaţie- Structură  Studiu de caz  Concluzii  Direcţii Viitoare 2 2
  • 3.
    CUVINTE CHEIE  Multilingual  Căutare  Lucene  Index  Nutch  Google Translated API  Google Search API  Internet Surveillance  J2EE  JSF, JSP, MVC  Internaţionalizare 3 3
  • 4.
    PREZENTAREA PROBLEMEI ŞI FORMULAREA SOLUŢIEI  Problemă  Utilizatori ocupaţi  Informaţii multe şi dispersate  Nu există un motor de căutare multilingv  Identificarea greoaie a opiniilor  Soluţie  Punerea în comun a informaţiilor în mai multe limbi  Identificarea uşoară a opiniilor  Păstrarea locală a informaţiilor  Internaţionalizarea aplicaţiei 4 4
  • 5.
    TEHNOLOGII- PREZENTARE  Apache LUCENE  bibliotecă de funcţii gratuită folosită în căutarea documentară  documentul, câmpul şi termenul  index  Apache NUTCH  framework pentru punerea în aplicare a motoarelor de căutare  crawling  conceput pentru a procesa seturi de documente Web 5 5
  • 6.
    TEHNOLOGII- PREZENTARE  Google Translate API  proiect open source  translator automat  Google Search API  integrarea motorului de căutare Google în cadrul unei pagini Web  J2EE  platformă Java proiectată pentru a prelucra date pentru organizaţii mari  model distribuit multitier de realizare a aplicaţiilor  JAVASERVER FACES  standard pentru construirea interfeţelor cu 6 utilizatorul pe partea de server 6
  • 7.
    TEHNOLOGII- CONFIGURARE  NUTCH  Crearea directoarelor  Configurarea fişierelor  Indexare  Cygwin  Parsare fişier  Compunerea comenzii  Directoare de crawl bin/nutch crawl urls -dir crawl -depth 3 - topN 5 7
  • 8.
    TEHNOLOGII- CONFIGURARE  J2EE/JSF <servlet>  web.xml <servlet-name>  faces-config.xml Faces Servlet</servletname> <servlet-class> javax.faces.webapp.FacesServlet </servlet-class> <load-on-startup>1</load-on- <navigation-rule> startup> <from-view-id>/index.jsp</from-view-id> </servlet> <navigation-case> <servlet-mapping> <fromoutcome> <servlet-name>Faces Servlet searchConfiguration </servlet-name> </from-outcome> <url-pattern>/faces/*</url-pattern> <to-view-id>/search.jsp</to-viewid> </servlet-mapping> </navigation-case> </navigation-rule> 8
  • 9.
    TEHNOLOGII- CONFIGURARE  JSF-MVC (Model- View- Controller) 9
  • 10.
    INTERNET SURVEILLANCE  „Societatea noastră nu este una de spectacol, ci de supraveghere (...) individul este atent fabricat în ea, în conformitate cu o întreagă tehnică de forţe şi corpuri” (Foucault 1977:217)  un concept care ne permite interogarea absolută a colecţiilor de informaţii  „ Acumularea de informaţii definite simbolic materiale care pot fi stocate de o agenţie sau o colectivitate, precum şi supravegherea activităţilor subordonaţilor de către superiorii lor ” (Giddens 1981:169) 10
  • 11.
    APLICAŢIE- STRUCTURĂ  Componente JavaBeans  Aplicaţia este structurată în trei pachete:  Bean- conţine clasa QueryResults  Internationalization- conţine clasa Language  Search- este format din clasele EnteredQuery, GoogleQuery, Search şi TranslatedQuery EnteredQuery.receivedQuery() TranslatedQuery.translateQuery() GoogleQuery.makeQuery() Search.getConfiguration() Search.createHit() QueryResults.QueryResults() 11
  • 12.
    APLICAŢIE- STRUCTURĂ  Pagini JSP  prezentarea rezultatelor către utilizator  Biblioteci de tag-uri  includerea elementelor de interfaţă în cadrul paginilor jsp şi obiectele ataşate acestora pe partea de server  Fişiere de configurare  web.xml  faces-config.xml 12
  • 13.
    STUDIU DE CAZ Pentru a ilustra funcţionalitatea şi utilitatea aplicaţiei MLS (Multilingual Searcher) descriem în cele ce urmează un studiu de caz referitor la căutarea produsului iPhone.  Cu ajutorul acestui sistem utilizatorii vor avea toate informaţiile necesare centralizate şi în plus ele vor fi clasificate în comentarii pozitive şi negative 13
  • 14.
    CONCLUZII  Utilizatori mulţumiţi-obţin rezultatele dorite multilingv  Alternativă la căutarea clasică pe Internet  Combinarea rezultatelor obţinute  Afişarea opiniilor pozitive şi negative  Eficienţă - păstrarea locală a indecşilor  Componente principale  Separarea logicii de partea de prezentare 14
  • 15.
    DIRECŢII VIITOARE  Combinarearezultatelor obţinute cu rezultatele de pe reţelele de socializare  Extinderea numărului de limbi utilizate  Creşterea eficientei  Sortarea rezultatelor obţinute  Detecţia opiniilor 15
  • 16.
    UNIVERSITATEA “ALEXANDRU IOANCUZA”, IAŞI FACULTATEA DE INFORMATICĂ Vă Mulţumesc ! 16