SlideShare a Scribd company logo
1 of 25
Download to read offline
Clasificaci´n de P´ginas Web con Anotaciones Sociales
          o      a
                         SEPLN 2009


        Arkaitz Zubiaga, Raquel Mart´
                                    ınez, V´
                                           ıctor Fresno

                     NLP & IR Group @ UNED


                   9 de septiembre de 2009
Introducci´n
                                                 o


´
Indice


1   Introducci´n
              o

2   Conjunto de Datos

3   Experimentos

4   Conclusiones

5   Trabajo Futuro




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   2 / 25
Introducci´n
                                                 o


¿Qu´ es la Clasificaci´n Autom´tica?
   e                 o       a


      Disponiendo de un conjunto de documentos:

                                          D = {d1 , ..., d|D| }

      Y una serie de categor´ predefinidas:
                            ıas

                                           C = {c1 , ..., c|C | }

      La clasificaci´n autom´tica se conoce como:
                   o       a

                                             dj , ci ∈ D × C




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   3 / 25
Introducci´n
                                                 o


¿Qu´ son los marcadores sociales? (I)
   e


        Sitios web que permiten almacenar enlaces de Internet asignando
        metadatos.
              Delicious1




   1
       http://delicious.com
Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   4 / 25
Introducci´n
                                                 o


¿Qu´ son los marcadores sociales? (II)
   e




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   5 / 25
Introducci´n
                                                 o


Tipos de Anotaciones Sociales



      Etiquetas (Tags): Palabras clave. Ej.: photography, web2.0, images.
      Notas (Notes): Descripciones mediante texto libre. Ej.: Flickr is a
      website for photo sharing and photo online management.
      Destacados (Highlights): Selecciones de partes relevantes de la
      p´gina.
       a
      Cr´ıticas (Reviews): Textos libres haciendo valoraciones subjetivas.
      Ej.: Interesting web page with photos.
      Valoraciones (Ratings): Puntuaciones ofrecidas. Ej.: de 1 a 5.




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   6 / 25
Introducci´n
                                                 o


Motivaci´n
        o




      Los m´todos cl´sicos de clasificaci´n de p´ginas web se basan en el
            e        a                  o      a
      contenido de las propias p´ginas.
                                a
      Motivaci´n: ¿Podr´ ayudar las anotaciones sociales en esta tarea?
              o        ıan




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   7 / 25
Introducci´n
                                                 o


Trabajo relacionado




      Varios trabajos (Bao et al., 2007; Heymann et al., 2008) muestran la
      utilidad de las anotaciones sociales para recuperaci´n de informaci´n.
                                                          o              o
      (Ramage et al., 2009) muestra mejoras en tareas de clustering
      utilizando etiquetas.
      (Noll y Meinell, 2008) realizan un estudio de las anotaciones sociales,
      concluyendo que podr´ resultar interesantes para su utilizaci´n en
                            ıan                                      o
      clasificaci´n de p´ginas web.
                o       a




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   8 / 25
Conjunto de Datos


´
Indice


1   Introducci´n
              o

2   Conjunto de Datos

3   Experimentos

4   Conclusiones

5   Trabajo Futuro




Zubiaga, Mart´
             ınez, Fresno (UNED)    Clasificaci´n con Anotaciones Sociales
                                              o                             9 de septiembre de 2009   9 / 25
Conjunto de Datos


Conjunto de Datos
       Diciembre de 2008 - Enero de 2009: obtenci´n de URLs con m´s de
                                                 o               a
       100 anotaciones en Delicious.
              87.096 URLs.
       Clasificaci´n de estas URLs en Open Directory Project2 (ODP).
                 o
              Coincidencia sobre 12.616 URLs.
              17 categor´ de primer nivel.
                        ıas
              No balanceado.
       Obtenci´n de anotaciones:
              o
              N´m. usuarios que lo anotan3 .
                u
              Lista Top 10 de etiquetas3 .
              Actividad Completa de Etiquetas (ACE)3 .
              Notas3 .
              Cr´ıticas4 .
              Destacados5 .
   2
     http://www.dmoz.org
   3
     Delicious
   4
     StumbleUpon - http://www.stumbleupon.com
   5
     Diigo - http://diigo.com
Zubiaga, Mart´
             ınez, Fresno (UNED)    Clasificaci´n con Anotaciones Sociales
                                              o                             9 de septiembre de 2009   10 / 25
Experimentos


´
Indice


1   Introducci´n
              o

2   Conjunto de Datos

3   Experimentos

4   Conclusiones

5   Trabajo Futuro




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   11 / 25
Experimentos


Configuraci´n
          o




        M´quinas de Vectores de Soporte (SVM).
         a
              SVMmulticlass6
        Evaluaci´n: Accuracy.
                o
        M´ltiples conjuntos de entrenamiento.
         u
        6 ejecuciones por cada conjunto.




   6
       http://svmlight.joachims.org
Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   12 / 25
Experimentos


Clasificaci´n con Etiquetas (I)
          o




      Etiquetas sin pesos.
      Etiquetas ordenadas.
      Porcentaje de usuarios.
      Etiquetas con pesos (Top 10).
      Etiquetas con pesos (ACE).




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   13 / 25
Experimentos


Clasificaci´n con Etiquetas (II)
          o




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   14 / 25
Experimentos


Clasificaci´n con Comentarios (I)
          o




      S´lo notas.
       o
      Uniendo notas y cr´
                        ıticas.




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   15 / 25
Experimentos


Clasificaci´n con Comentarios (II)
          o




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   16 / 25
Experimentos


Comparaci´n con Baseline (Contenido) (I)
         o




      Contenido.
      Comentarios.
      Etiquetas.




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   17 / 25
Experimentos


Comparaci´n con Baseline (Contenido) (I)
         o




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   18 / 25
Experimentos


Combinaci´n de Clasificadores (I)
         o




      Etiquetas + contenido.
      Etiquetas + comentarios.
      Comentarios + contenido.
      Etiquetas + comentarios + contenido.




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   19 / 25
Experimentos


Combinaci´n de Clasificadores (II)
         o




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   20 / 25
Conclusiones


´
Indice


1   Introducci´n
              o

2   Conjunto de Datos

3   Experimentos

4   Conclusiones

5   Trabajo Futuro




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   21 / 25
Conclusiones


Conclusiones


      Hemos analizado y evaluado la utilizaci´n de anotaciones sociales
                                             o
      para clasificaci´n de p´ginas web.
                     o      a
      Algunas anotaciones no son suficientemente populares.
              Las etiquetas y los comentarios lo son.
      Tanto las etiquetas como los comentarios superando los resultados
      basados en contenido.
      La combinaci´n de los 3 tipos de datos mejora a´n m´s.
                  o                                  u   a
      Corroboramos la conclusi´n de (Noll y Meinell, 2008), demostrando
                               o
      de forma cuantitativa la utilidad de las anotaciones sociales para
      clasificaci´n de p´ginas web.
                o      a



Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   22 / 25
Trabajo Futuro


´
Indice


1   Introducci´n
              o

2   Conjunto de Datos

3   Experimentos

4   Conclusiones

5   Trabajo Futuro




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   23 / 25
Trabajo Futuro


Trabajo Futuro




      Clasificaci´n a m´s bajo nivel.
                o     a
      Filtrado de etiquetas y comentarios inadecuados.




Zubiaga, Mart´
             ınez, Fresno (UNED)   Clasificaci´n con Anotaciones Sociales
                                             o                             9 de septiembre de 2009   24 / 25
Trabajo Futuro


Muchas Gracias



Achiu    Arigato                   Danke Dhannvaad Dua Netjer en ek Efcharisto
      Gracias Gr`cies
                a    Gratia Grazie Guishepeli
   Hvala Kiitos K¨sz¨n¨m Merc´ Merci Mila
                     o o o          e
   esker Obrigado Shukran          Tack Tak Takk            Shukriya

   T¨nan Tapadh leat Tesekk¨r ederim Thank
    a                       u
                                          you          Toda



Zubiaga, Mart´
             ınez, Fresno (UNED)    Clasificaci´n con Anotaciones Sociales
                                              o                             9 de septiembre de 2009   25 / 25

More Related Content

More from azubiaga

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaazubiaga
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Mediaazubiaga
 
Microposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on TwitterMicroposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on Twitterazubiaga
 
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social NewsgatheringCurating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social Newsgatheringazubiaga
 
Mining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information DiscoveryMining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information Discoveryazubiaga
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...azubiaga
 
Harnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource ClassificationHarnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource Classificationazubiaga
 
Content-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud VisualizationContent-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud Visualizationazubiaga
 
Getting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page ClassificationGetting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page Classificationazubiaga
 
Enhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social TagsEnhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social Tagsazubiaga
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?azubiaga
 
Etiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaEtiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaazubiaga
 
Master thesis presentation
Master thesis presentationMaster thesis presentation
Master thesis presentationazubiaga
 
Tags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social ClassificationTags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social Classificationazubiaga
 

More from azubiaga (14)

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social media
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
 
Microposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on TwitterMicroposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on Twitter
 
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social NewsgatheringCurating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
 
Mining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information DiscoveryMining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information Discovery
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
 
Harnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource ClassificationHarnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource Classification
 
Content-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud VisualizationContent-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud Visualization
 
Getting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page ClassificationGetting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page Classification
 
Enhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social TagsEnhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social Tags
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
 
Etiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaEtiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzea
 
Master thesis presentation
Master thesis presentationMaster thesis presentation
Master thesis presentation
 
Tags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social ClassificationTags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social Classification
 

Recently uploaded

Unidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfUnidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfMarianneBAyn
 
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...Kevin Serna
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docxssusere34b451
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdffrank0071
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialEducática
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesssuserbe0d1c
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .itzyrivera61103
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerRobertoCarrancioFern
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfprofmartinsuarez
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Luis Fernando Uribe Villamil
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptxjarniel1
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareAndres Avila
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxdoloresolmosantiago
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnajrujel91
 
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .llocllajoaquinci00
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariaandresingsiseo
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC6dwwcgtpfx
 
lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometriasofiasonder
 

Recently uploaded (20)

Unidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfUnidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdf
 
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicial
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptuales
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL Server
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdf
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de Software
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptx
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
 
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundaria
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
 
lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometria
 

Clasificación de Páginas Web con Anotaciones Sociales

  • 1. Clasificaci´n de P´ginas Web con Anotaciones Sociales o a SEPLN 2009 Arkaitz Zubiaga, Raquel Mart´ ınez, V´ ıctor Fresno NLP & IR Group @ UNED 9 de septiembre de 2009
  • 2. Introducci´n o ´ Indice 1 Introducci´n o 2 Conjunto de Datos 3 Experimentos 4 Conclusiones 5 Trabajo Futuro Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 2 / 25
  • 3. Introducci´n o ¿Qu´ es la Clasificaci´n Autom´tica? e o a Disponiendo de un conjunto de documentos: D = {d1 , ..., d|D| } Y una serie de categor´ predefinidas: ıas C = {c1 , ..., c|C | } La clasificaci´n autom´tica se conoce como: o a dj , ci ∈ D × C Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 3 / 25
  • 4. Introducci´n o ¿Qu´ son los marcadores sociales? (I) e Sitios web que permiten almacenar enlaces de Internet asignando metadatos. Delicious1 1 http://delicious.com Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 4 / 25
  • 5. Introducci´n o ¿Qu´ son los marcadores sociales? (II) e Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 5 / 25
  • 6. Introducci´n o Tipos de Anotaciones Sociales Etiquetas (Tags): Palabras clave. Ej.: photography, web2.0, images. Notas (Notes): Descripciones mediante texto libre. Ej.: Flickr is a website for photo sharing and photo online management. Destacados (Highlights): Selecciones de partes relevantes de la p´gina. a Cr´ıticas (Reviews): Textos libres haciendo valoraciones subjetivas. Ej.: Interesting web page with photos. Valoraciones (Ratings): Puntuaciones ofrecidas. Ej.: de 1 a 5. Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 6 / 25
  • 7. Introducci´n o Motivaci´n o Los m´todos cl´sicos de clasificaci´n de p´ginas web se basan en el e a o a contenido de las propias p´ginas. a Motivaci´n: ¿Podr´ ayudar las anotaciones sociales en esta tarea? o ıan Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 7 / 25
  • 8. Introducci´n o Trabajo relacionado Varios trabajos (Bao et al., 2007; Heymann et al., 2008) muestran la utilidad de las anotaciones sociales para recuperaci´n de informaci´n. o o (Ramage et al., 2009) muestra mejoras en tareas de clustering utilizando etiquetas. (Noll y Meinell, 2008) realizan un estudio de las anotaciones sociales, concluyendo que podr´ resultar interesantes para su utilizaci´n en ıan o clasificaci´n de p´ginas web. o a Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 8 / 25
  • 9. Conjunto de Datos ´ Indice 1 Introducci´n o 2 Conjunto de Datos 3 Experimentos 4 Conclusiones 5 Trabajo Futuro Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 9 / 25
  • 10. Conjunto de Datos Conjunto de Datos Diciembre de 2008 - Enero de 2009: obtenci´n de URLs con m´s de o a 100 anotaciones en Delicious. 87.096 URLs. Clasificaci´n de estas URLs en Open Directory Project2 (ODP). o Coincidencia sobre 12.616 URLs. 17 categor´ de primer nivel. ıas No balanceado. Obtenci´n de anotaciones: o N´m. usuarios que lo anotan3 . u Lista Top 10 de etiquetas3 . Actividad Completa de Etiquetas (ACE)3 . Notas3 . Cr´ıticas4 . Destacados5 . 2 http://www.dmoz.org 3 Delicious 4 StumbleUpon - http://www.stumbleupon.com 5 Diigo - http://diigo.com Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 10 / 25
  • 11. Experimentos ´ Indice 1 Introducci´n o 2 Conjunto de Datos 3 Experimentos 4 Conclusiones 5 Trabajo Futuro Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 11 / 25
  • 12. Experimentos Configuraci´n o M´quinas de Vectores de Soporte (SVM). a SVMmulticlass6 Evaluaci´n: Accuracy. o M´ltiples conjuntos de entrenamiento. u 6 ejecuciones por cada conjunto. 6 http://svmlight.joachims.org Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 12 / 25
  • 13. Experimentos Clasificaci´n con Etiquetas (I) o Etiquetas sin pesos. Etiquetas ordenadas. Porcentaje de usuarios. Etiquetas con pesos (Top 10). Etiquetas con pesos (ACE). Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 13 / 25
  • 14. Experimentos Clasificaci´n con Etiquetas (II) o Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 14 / 25
  • 15. Experimentos Clasificaci´n con Comentarios (I) o S´lo notas. o Uniendo notas y cr´ ıticas. Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 15 / 25
  • 16. Experimentos Clasificaci´n con Comentarios (II) o Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 16 / 25
  • 17. Experimentos Comparaci´n con Baseline (Contenido) (I) o Contenido. Comentarios. Etiquetas. Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 17 / 25
  • 18. Experimentos Comparaci´n con Baseline (Contenido) (I) o Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 18 / 25
  • 19. Experimentos Combinaci´n de Clasificadores (I) o Etiquetas + contenido. Etiquetas + comentarios. Comentarios + contenido. Etiquetas + comentarios + contenido. Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 19 / 25
  • 20. Experimentos Combinaci´n de Clasificadores (II) o Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 20 / 25
  • 21. Conclusiones ´ Indice 1 Introducci´n o 2 Conjunto de Datos 3 Experimentos 4 Conclusiones 5 Trabajo Futuro Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 21 / 25
  • 22. Conclusiones Conclusiones Hemos analizado y evaluado la utilizaci´n de anotaciones sociales o para clasificaci´n de p´ginas web. o a Algunas anotaciones no son suficientemente populares. Las etiquetas y los comentarios lo son. Tanto las etiquetas como los comentarios superando los resultados basados en contenido. La combinaci´n de los 3 tipos de datos mejora a´n m´s. o u a Corroboramos la conclusi´n de (Noll y Meinell, 2008), demostrando o de forma cuantitativa la utilidad de las anotaciones sociales para clasificaci´n de p´ginas web. o a Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 22 / 25
  • 23. Trabajo Futuro ´ Indice 1 Introducci´n o 2 Conjunto de Datos 3 Experimentos 4 Conclusiones 5 Trabajo Futuro Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 23 / 25
  • 24. Trabajo Futuro Trabajo Futuro Clasificaci´n a m´s bajo nivel. o a Filtrado de etiquetas y comentarios inadecuados. Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 24 / 25
  • 25. Trabajo Futuro Muchas Gracias Achiu Arigato Danke Dhannvaad Dua Netjer en ek Efcharisto Gracias Gr`cies a Gratia Grazie Guishepeli Hvala Kiitos K¨sz¨n¨m Merc´ Merci Mila o o o e esker Obrigado Shukran Tack Tak Takk Shukriya T¨nan Tapadh leat Tesekk¨r ederim Thank a u you Toda Zubiaga, Mart´ ınez, Fresno (UNED) Clasificaci´n con Anotaciones Sociales o 9 de septiembre de 2009 25 / 25