Master thesis presentation
Upcoming SlideShare
Loading in...5
×
 

Master thesis presentation

on

  • 444 views

My master thesis presentation on 2008-09-29

My master thesis presentation on 2008-09-29

Statistics

Views

Total Views
444
Views on SlideShare
444
Embed Views
0

Actions

Likes
0
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Master thesis presentation Master thesis presentation Presentation Transcript

  • Aproximaciones a S3 VM multiclaseM´ster en tecnolog´ del lenguaje en la web a ıas Arkaitz Zubiaga Mendialdua UNED 29 de septiembre de 2008 Director: V´ ıctor Fresno Fern´ndez a
  • Clasificaci´n autom´tica de textos o a´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 2 / 43
  • Clasificaci´n autom´tica de textos o a¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| }Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • Clasificaci´n autom´tica de textos o a¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| } Y una serie de categor´ predefinidas: ıas C = {c1 , ..., c|C | }Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • Clasificaci´n autom´tica de textos o a¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| } Y una serie de categor´ predefinidas: ıas C = {c1 , ..., c|C | } La clasificaci´n se define como: o dj , ci ∈ D × CArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • Clasificaci´n autom´tica de textos o aCaracter´ ısticas Aprendizaje autom´tico a Aprendizaje supervisado Aprendizaje semisupervisadoArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
  • Clasificaci´n autom´tica de textos o aCaracter´ ısticas Aprendizaje autom´tico a Aprendizaje supervisado Aprendizaje semisupervisado Taxonom´ ıa Binaria MulticlaseArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
  • Motivaci´n o´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 5 / 43
  • Motivaci´n oMotivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. aArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • Motivaci´n oMotivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıaArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • Motivaci´n oMotivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • Motivaci´n oMotivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e o Problema: Poco trabajo para SVM semisupervisado multiclaseArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • Motivaci´n oMotivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e o Problema: Poco trabajo para SVM semisupervisado multiclase Necesidad de nuevas propuestas para resolver el problema planteadoArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • ¿Por qu´ SVM? e´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 7 / 43
  • ¿Por qu´ SVM? e¿Por qu´ SVM? e Muchos estudios recientes: Bolelli et al. (2007); Bordes et al. (2007); Sun et al. (2007); Wang et al. (2007a,b); Zien et al. (2007); Heymann et al. (2008)). Mejores resultados que otras t´cnicas para clasificaci´n de textos. e o La utilizaci´n de un kernel facilita la tarea de clasificaci´n para zonas o o disjuntas.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 8 / 43
  • ¿Por qu´ SVM? eComparativa con otras t´cnicas eArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 9 / 43
  • ¿Por qu´ SVM? eComparativa con otras t´cnicas eArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 10 / 43
  • ¿Por qu´ SVM? eComparativa con otras t´cnicas eArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 11 / 43
  • SVM´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 12 / 43
  • SVMSVM Modelo espacio vectorialArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • SVMSVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • SVMSVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • SVMSVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • SVMSVM Funci´n de optimizaci´n: f (x) = ω · x + b o oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • SVMSVM Funci´n de optimizaci´n: f (x) = ω · x + b o oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • SVMSVM Funci´n de optimizaci´n: f (x) = ω · x + b o o Problema: Dificil de computar.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • SVMSVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • SVMSVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0 Utilizaci´n de funci´n de kernel para casos no lineales. o oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • SVMSVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0 Utilizaci´n de funci´n de kernel para casos no lineales. o o ´ Unicamente resuelve problemas binarios y supervisados.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • SVM multiclase´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 16 / 43
  • SVM multiclaseSVM multiclase Aproximaciones a SVM multiclase: Directa.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • SVM multiclaseSVM multiclase Aproximaciones a SVM multiclase: Directa. Combinaci´n de binarios. o One-against-one. One-against-all.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • SVM multiclaseSVM multiclase Aproximaciones a SVM multiclase: Directa. Combinaci´n de binarios. o One-against-one. One-against-all. Se ha trabajado con colecciones supervisadas, pero apenas con semisupervisadas.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • SVM multiclaseSVM multiclase: Aproximaci´n directa o La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos. o oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
  • SVM multiclaseSVM multiclase: Aproximaci´n directa o La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos. o o n l 1 m´ ın ||wm ||2 + C ξim 2 m=1 i=1 m=yiSujeto a: wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios T sign(ωij · x + bij ) −→ Sumar un voto a clase positiva entre i y j La clase con m´s votos es la que el sistema predice. aArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binariosArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • SVM multiclaseSVM multiclase: One-against-all Construye k clasificadores binarios ˆ Ci = arg m´x (ωi · x + bi ) a i=1,...,kArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • S3 VM´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 21 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l 1 m´ ın · ||ω||2 + C · ξid 2 i=1Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. o Soluciones de optimizaci´n convexa. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. o Soluciones de optimizaci´n convexa. o Utilizado sobre taxonom´ binarias, pero apenas en entornos ıas multiclase.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • S3 VMSVM vs S3 VMArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • S3 VMSVM vs S3 VMArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • S3 VMSVM vs S3 VMArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • S3 VMSVM vs S3 VMArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • S3 VMSVM vs S3 VMArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • S3 VM multiclase´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 24 / 43
  • S3 VM multiclaseS3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006):Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • S3 VM multiclaseS3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006): h l 1 iT −1 i y m´ ın( β K β +C m´x(0, 1 − (βj j − βji ))2 ) a 2 i=1 j=1 i=yjdonde β representa el producto entre un vector de variables y una matrizde kernel definidas por el autor.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • S3 VM multiclaseS3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006): h l 1 iT −1 i y m´ ın( β K β +C m´x(0, 1 − (βj j − βji ))2 ) a 2 i=1 j=1 i=yjdonde β representa el producto entre un vector de variables y una matrizde kernel definidas por el autor. Su optimizaci´n puede resultar costosa, por lo que conviene estudiar o nuevas aproximaciones.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • Alternativas para S3 VM multiclase´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 26 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase One-against-all-S3 VM: No aplicado sobre semisupervisado. One-against-one-S3 VM: No aplicado sobre semisupervisado. ¿Posible existencia de ruido al no poder seleccionar los debidos documentos no etiquetados? Nuevas propuestas: All-against-all-S3 VM. 2-steps-SVM.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 27 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase: all-against-all-S3 VM Construye 2k−1 − 1 clasificadores binarios. Para un ejemplo con 4 clases: 1 vs 2-3-4 1-2 vs 3-4 1-3 vs 2-4 1-4 vs 2-3 1-2-3 vs 4 1-2-4 vs 3 1-3-4 vs 2 T sign(ωij · x + bij ) −→ Sumar margen resultante a clases del lado positivo. El sistema presenta como predicci´n aquella clase con mayor o puntuaci´n. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 28 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase:Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 2 1 ... 3 0 0 ... 0Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 −→ 1 2 −→ 2 1 −→ 1 ... 3 −→ 3 0 −→ 3 0 −→ 2 ... 0 −→ 1Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • Alternativas para S3 VM multiclaseAlternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 −→ 1 2 −→ 2 1 −→ 1 ... 3 −→ 3 0 −→ 3 0 −→ 2 ... 0 −→ 1 2 Clasificaci´n de la colecci´n de test: con la colecci´n de entrenamiento o o o etiquetada, se basa el aprendizaje en ella, clasificando la colecci´n de o test.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • Experimentaci´n o´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 30 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento).Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıasArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento).Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas. 9 ejecuciones para cada una de las versiones.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas. 9 ejecuciones para cada una de las versiones. Representaci´n: tf-idf. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • Experimentaci´n oExperimentaci´n: implementaci´n o o Software utilizado: SVM-light (http://svmlight.joachims.org) SVM-multiclassArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
  • Experimentaci´n oExperimentaci´n: implementaci´n o o Software utilizado: SVM-light (http://svmlight.joachims.org) SVM-multiclass 2-steps-SVM =⇒ 1 step-SVM Ignorar documentos no etiquetados, ¿empeora los resultados?Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
  • Experimentaci´n oExperimentaci´n: evaluaci´n o o Acierto (accuracy): % del n´mero de predicciones correctas sobre el u total de documentos testeados.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 33 / 43
  • Resultados´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 34 / 43
  • ResultadosResultados: BankSearchArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 35 / 43
  • ResultadosResultados: WebKBArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 36 / 43
  • ResultadosResultados: Yahoo! ScienceArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 37 / 43
  • ResultadosResultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • ResultadosResultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • ResultadosResultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe. 1-step-SVM muestra resultados similares que 2-steps-SVM, excepto en WebKB, que gana; esa colecci´n es m´s homogenea. o aArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • ResultadosResultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe. 1-step-SVM muestra resultados similares que 2-steps-SVM, excepto en WebKB, que gana; esa colecci´n es m´s homogenea. o a Se mantiene el ranking de los algoritmos.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • Conclusiones y trabajo futuro´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 39 / 43
  • Conclusiones y trabajo futuroConclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • Conclusiones y trabajo futuroConclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • Conclusiones y trabajo futuroConclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase. La utilizaci´n de documentos no etiquetados no ha aportado mucho. o Esta aportaci´n ha sido algo mayor para colecciones homogeneas. oArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • Conclusiones y trabajo futuroConclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase. La utilizaci´n de documentos no etiquetados no ha aportado mucho. o Esta aportaci´n ha sido algo mayor para colecciones homogeneas. o Entre las combinaciones de semisupervisados binarios, all-against-all-S3 VM ha mostrado una gran efectividad, aunque su eficiencia debe mejorar.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • Conclusiones y trabajo futuroTrabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n eArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • Conclusiones y trabajo futuroTrabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n e Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las o e o caracter´ ısticas propias de las p´ginas web (etiquetado HTML, etc.). aArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • Conclusiones y trabajo futuroTrabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n e Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las o e o caracter´ ısticas propias de las p´ginas web (etiquetado HTML, etc.). a Optimizar el rendimiento de la t´cnica all-against-all-S3 VM. eArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • Referencias´Indice1 Clasificaci´n autom´tica de textos o a2 Motivaci´n o3 ¿Por qu´ SVM? e4 SVM5 SVM multiclase6 S3 VM7 S3 VM multiclase8 Alternativas para S3 VM multiclase9 Experimentaci´n o10 Resultados11 Conclusiones y trabajo futuro12 Referencias y trabajo futuroArkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 42 / 43
  • ReferenciasReferencias T. Joachims. 2002. Learning to Classify Text using Support Vector Machines. Kluwer/Springer. X. Qi y B.D. Davison. 2007. Web Page Classification: Features and Algorithms. Informe T´cnico LU-CSE-07-010. e F. Sebastiani. 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, pp. 1-47. J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines. Proceedings of ESAAN, the European Symposium on Artificial Neural Networks. Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06, the 6th International Conference on Data Mining.Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 43 / 43