TEXT-MINING
REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
UNIVERSIDAD DE CUENCA
pág. 1
Contenido
Text mining...........................................................................
UNIVERSIDAD DE CUENCA
pág. 2
Text mining
1. INTRODUCCION
Esta se refiere al proceso de derivar información nueva de textos...
UNIVERSIDAD DE CUENCA
pág. 3
Aplicaciones de seguridad.
Muchas empresas y gobiernos utilizan la minería de textos para el ...
UNIVERSIDAD DE CUENCA
pág. 4
6. TEXTMINING CON WEKA
Primero para este ejemplo vamos a descargar un dataset que ya viene co...
UNIVERSIDAD DE CUENCA
pág. 5
A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestr...
UNIVERSIDAD DE CUENCA
pág. 6
Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a
c...
UNIVERSIDAD DE CUENCA
pág. 7
Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la
o...
UNIVERSIDAD DE CUENCA
pág. 8
http://www.cs.waikato.ac.nz/ml/weka/documentation.html
Upcoming SlideShare
Loading in...5
×

Text mining

292

Published on

text mining

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
292
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Text mining

  1. 1. TEXT-MINING REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
  2. 2. UNIVERSIDAD DE CUENCA pág. 1 Contenido Text mining.................................................................................................................................... 2 1. INTRODUCCION..................................................................................................................... 2 2. HISTORIA ............................................................................................................................... 2 3. ANALISIS DE TEXTO ............................................................................................................... 2 4. APLICACIONES ....................................................................................................................... 2 5. SOFTWARE COMERCIAL ........................................................................................................ 3 6. TEXTMINING CON WEKA....................................................................................................... 4 7. CONCLUSION......................................................................................................................... 7 8. BIBLIOGRAFIA........................................................................................................................ 7
  3. 3. UNIVERSIDAD DE CUENCA pág. 2 Text mining 1. INTRODUCCION Esta se refiere al proceso de derivar información nueva de textos. Esta es equivalente text analytics, esta hace referencia al proceso de obtenerinformación de high-quality deltexto. Informaciónde altacalidadse obtienenormalmente a través de los patronesy tendenciasque se presentan a través de mediostales como el aprendizajeestadístico de patrones. La minería de textospor lo general implicaelproceso de estructuración deltexto de entrada, derivando patronesdentro de losdatos estructurados, y, finalmente,la evaluación y lainterpretacióndela salida. Las tareasde minería de textotípico incluyenla categorizaciónde texto, la agrupación texto,concepto/extracción de entidades, la producción de taxonomíasgranulares, análisis de los sentimientos, el documento resumen ymodelosentidad relación. 2. HISTORIA En los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una cantidad de esfuerzo humano demasiado alta, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en los últimos años. Esta es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial. 3. ANALISIS DE TEXTO El objetivo general es, en esencia, de convertir el texto en datos para el análisis, a través de la aplicación de procesamiento de lenguaje natural y los métodos analíticos. Esto consiste enla recuperación de información, usar un tipo de análisis léxicopara estudiardistribuciones de frecuenciade palabras, un reconocimiento de patrones, una extracción de información, técnicas de mineríade datos que incluyenenlace yanálisis de asociación, visualización y análisis predictivo. Una aplicación típicaes escanearun conjunto dedocumentos escritos enun lenguajenatural ycualquier modelodel conjunto de documentosa efectos de clasificaciónde predicciónorellenar uníndice debúsqueda debase de datos ocon la informaciónextraída. 4. APLICACIONES La tecnologíaahora se aplicaen líneas generalespara una ampliavariedad depúblico, tal cual en este caso de la minería de texto, para lo que uno se imagine se puede aplicar, a continuación nombraremos algún ejemplo:
  4. 4. UNIVERSIDAD DE CUENCA pág. 3 Aplicaciones de seguridad. Muchas empresas y gobiernos utilizan la minería de textos para el seguimiento yanálisis defuentes en líneade texto sin formato, como las noticias de Internet, blogs, etc.parafines de seguridad nacional. También está involucradoen el estudio deltexto cifrado/descifrado. Biomédicos Se refierea la mineríade texto aplicadoa los textosy la literaturadel dominio dela biologíamolecularybiomedicina. Es uncampo de investigaciónbastante recienteen el borde delprocesamiento del lenguajenatural,la bioinformática, lainformática médicay la lingüísticacomputacional. Hayun creciente interés enla mineríade textoylas estrategiasde extracción deinformaciónaplicada ala literaturabiomédica ybiologíamoleculardebido a la crecientecantidad de publicacionesdisponibles electrónicamentealmacenados enbases de datos comoPubMed. Aplicaciones de software Estas están siendoinvestigadas y desarrolladaspor las principalesempresas, como IBM yMicrosoft, para automatizar aún máslosprocesos de extraccióny análisis,y por diferentesempresasque trabajan enel ámbito de labúsqueda yla indexaciónen general, comouna forma de mejorarsusresultados. Marketing Está empezandoa utilizaren la comercializaciónymás concretamente, enanálisisde gestiónde relaciones con clientes. Coussementy VandenPoelaplicanpara mejorar los modelosde análisis predictivoparala pérdida de clientes Aplicaciones académicas El tema de la minería de textos es de importancia para publicadores que tengan grandes bancos de datos que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. 5. SOFTWARE COMERCIAL A continuación se presentara una lista de los más conocidos: SOFTWARE USO AndersonAnalytics proveedordeanálisisdetextoydecontenidorelacionadoconelcomportamientodelconsumidor. Attensity grupodesolucionesdemineríadetextosparadiversasindustrias. Clarabridge aplicacionesdemineríadetextos,categorizaciónparaclientes,serviciosdesaludyanalíticainvestigativa. Clearforest softwaredemineríadetextoparaextraerelsignificadodevariasformasdeinformacióntextual. CortexIntelligence proveedordeanálisisdecontenidodeWeb. Crossminder empresademineríadetextosconbúsquedamultilingüeyaproximaciónsemántica. Pimiento unframeworkparaaplicacionesdemineríadetextosenJava. PolyAnalyst softwaredemineríadetextos. SPSS proveedordeTextSmart,SPSSTextAnalysisforSurveysyClementine,productosquesepuedenutilizarconotrosdeSPSS.
  5. 5. UNIVERSIDAD DE CUENCA pág. 4 6. TEXTMINING CON WEKA Primero para este ejemplo vamos a descargar un dataset que ya viene con weka. Este es :ReutersGrain el cual se divide en dos partes, el de entrenamiento y el de prueba. Primero iniciamos weka e ingresamos al Weka Explorer. Segundo tenemos que abrir el archivo de prueba en este caso el de entrenamiento: Este dataset contiene 1451 instancias de la clase “0” y 103 de la clase “1”, dando un total de 1554 instancias. Como se podrá observar en la primera pantalla de weka
  6. 6. UNIVERSIDAD DE CUENCA pág. 5 A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestro, donde podremos elegir un clasificador, en este caso nosotros elegiremos el de árbol de decisión (primero elegimos el filtro en este caso FILTEREDCLASSIFIER):
  7. 7. UNIVERSIDAD DE CUENCA pág. 6 Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a continuación mostraremos nuestra decisión: Ahora si listo el modelo se podrá ejecutar, solo tenemos que dar clic en start y este empezara con un proceso puede tardar varios minutos, dependiendo del tamaño del dataset y del modelo construido.
  8. 8. UNIVERSIDAD DE CUENCA pág. 7 Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la opción de vizualize tree y nos aparecerá los patrones algo así: Y el resultado de manera textual se presentara de la siguiente manera: La matriz de confusión indica la cantidad de instancias que fueron clasificadas de forma errónea. A B Clasificada como 544 3 A = "0" 19 38 B = "1" De esta manera podemos deducir con que la exactitud del modelo, es de un 96.3576 %. Y es que podemos concluir que el modelo es muy bueno para clasificar a A , lo contrario de B que es pésimo. A tiene 544 correctas y tan solo 3 incorrectas en cambio B 38 correctas y la mitad de esas incorrectas lo que es un error muy grande. 7. CONCLUSION Al final podemos decir que el textmining se puede usar en prácticamente todo, para obtener muchos beneficios tales como los que mencionamos en las aplicaciones que dimos de ejemplo, si nosotros tenemos un dataset como el del ejemplo podemos obtener resultados minados de este , el cual será el caso si necesitamos para marketing u otras necesidades. Weka como ya sabemos es una herramienta muy poderosa y es muy útil, esta tiene mucha documentación, es fácil de usar y no necesariamente se necesita ser un genio para manejarla, solamente se necesita de la práctica. 8. BIBLIOGRAFIA http://es.wikipedia.org/wiki/Miner%C3%ADa_de_textos http://www.cs.waikato.ac.nz/ml/weka/documentation.html http://en.wikipedia.org/wiki/Text_mining
  9. 9. UNIVERSIDAD DE CUENCA pág. 8 http://www.cs.waikato.ac.nz/ml/weka/documentation.html

×