Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Gpoii v1
1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
INGENIERÍA EN SISTEMAS INFORMÁTICOS Y COMPUTACIÓN
Gestión Productiva Oro II
Crawl de la UTPL
POR:
Juan Carlos Lizaldes Poma
FECHA:
24 DE JUNIO DE 2011
TUTORA:
ING. ALEXANDRA GONZÁLEZ
ABRIL – AGOSTO 2011
2. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
SOFTWARE NECESARIO:
• Cygwin 1.7.9
• JDK 1.6.0_26
• Nutch-1.2
• Apache Tomcat 7.0.16
• Luke 3.0.1
2
3. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
PASOS PARA LA INSTALACIÓN:
1. Instalar cygwin.
3
4. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
2. Instalar y configurar java.
4
5. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
3. Descomprimimos el nutch en cualquier directorio, en este caso en el disco C. En la carpeta de nutch
descomprimida creamos una carpeta con el nombre urls.
5
6. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
4. Dentro de la carpeta urls creamos un archivo .txt con cualquier nombre.
6
7. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
5. Dentro de este archivo debe estar la dirección del sitio que vamos a realizar el crawl.
7
8. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
6. En la carpeta conf de nutch configuramos los archivos indicados.
8
9. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
7. El archivo crawl-urlfilter.txt quedará así:
9
10. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
8. El archivo nutch-site.xml lo configuramos así:
10
11. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
9. Ejecutamos el crawl dentro de cygwin.
11
12. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
10. Si termina correctamente debemos obtener una carpeta con el crawl dentro de nutch.
12
13. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
11. Instalamos y levantamos Apache Tomcat
13
14. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
12. Verificamos que todo esté bien ingresando en el navegador y colocamos http://localhost:8080 o 127.0.0.1:8080
14
15. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
13. Copiamos el archivo nutch-1.2.war de la carpeta nutch a la carpeta webapps de tomcat.
15
16. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
14. Hasta esta ruta copiamos el archivo.
16
17. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
15. Buscamos el archivo nutch-site.xml dentro del directorio C:Program FilesApache Software FoundationTomcat
7.0webappsnutch-1.2WEB-INFclasses
17
18. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
16. Editamos el archivo y lo dejamos así:
18
19. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
17. Paramos y recargamos Tomcat, abrimos el manager de aplicaciones y accedemos a nutch-1.2
19
20. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
18. Aquí tenemos el buscador y colocamos la palabra que necesitemos.
20
21. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
19. Obtenemos los resultados de la búsqueda.
21
22. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
20. Podemos utilizar la herramienta Luke para exportar el resultado del crawl a un archivo .xml
22
23. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
21. Desde aquí podemos exportar a un archivo .xml
23
24. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
22. Podemos revisar el xml generado.
24
25. GESTIÓN PRODUCTIVA ORO II
Crawl de la Universidad Técnica Particular de Loja
implementado con la herramienta NUTCH.
REFERENCIAS:
http://jcgpz.blogspot.com/2011/02/primeros-pasos-con-nutch.html
http://jcgpz.blogspot.com/2011/03/indexando-documentos-con-nutch.html
Blog escrito por José Carlos García consultor senior en Indra Sistemas (http://www.indracompany.com) en Madrid y
quien ha brindado un valioso aporte a este proyecto.
25