SlideShare a Scribd company logo
1 of 9
Download to read offline
빅데이터 ~ 머신(딥)러닝
실무로 배우는 빅데이터 기술
 Nutch 설치
☆ 확장하기 – 16편 ☆
김강원
너치(Nutch) 는?
웹 컨텐츠를 편리하게 수집 및 처리 하는 크롤링(Crawling) 솔루션
※ Nutch 기본 개념과 기능들은 구글링을 통해 확인 하세요!
파일럿 프로젝트 확장 (1/2)
너치
(Nutch)
책 106 페이지 중에서… (개정판)
크롤링 솔루션
너치(Nutch) 설치
파일럿 프로젝트 확장 (2/2)
확장편 실습
크롤링 솔루션
너치(Nutch) 설치
 Server02 접속
Putty > Server01 SSH 접속
$ cd /home
Step-1
 너치 설치 파일 압축 해제
$ tar -xvf apache-nutch-1.9-bin.tar.gz
Step-3
 너치 설치 파일 다운로드
$ wget http://archive.apache.org/dist/nutch/1.9/apache-nutch-1.9-bin.tar.gz
Step-2
 너치 Http Agent 설정
$ cd /home/apache-nutch-1.9/conf
$ vi nutch-site.xml
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
Step-4
 너치 URL 필터 설정
$ vi regex-urlfilter.txt
+^http://*
+^https://*
Step-5
 루트 URL 정보 입력
$ mkdir /home/apache-nutch-1.9/urls
$ vi /home/apache-nutch-1.9/urls/seed.txt
https://blog.naver.com/javaguy
Step-6
 수집 컨텐츠 디렉토리 생성
$ mkdir /home/apache-nutch-1.9/collect
Step-7
실무로 배우는 빅데이터 기술
확장하기 16편 – 너치(Nutch) 설치
[ 강의자료 ]
 동 영 상: 유튜브 www.youtube.com
 실습문서: 슬라이드쉐어 www.slideshare.net

More Related Content

What's hot

9. Application - WebHDFS
9. Application - WebHDFS9. Application - WebHDFS
9. Application - WebHDFSmerry7
 
10. Install - Phoenix
10. Install - Phoenix10. Install - Phoenix
10. Install - Phoenixmerry7
 
19. Application - Spark Streaming 1
19. Application - Spark Streaming 119. Application - Spark Streaming 1
19. Application - Spark Streaming 1merry7
 
11. Application - Phoenix
11. Application - Phoenix11. Application - Phoenix
11. Application - Phoenixmerry7
 
14. Install - Solr
14. Install - Solr14. Install - Solr
14. Install - Solrmerry7
 
15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searchingmerry7
 
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화InfraEngineer
 
intro. typescript playground
intro. typescript playgroundintro. typescript playground
intro. typescript playgroundHan JaeYeab
 
Nutch Homepage Search Engine
Nutch Homepage Search EngineNutch Homepage Search Engine
Nutch Homepage Search EngineKay Kim
 
Ubuntu & C9(node.js) with AWS
Ubuntu & C9(node.js) with AWSUbuntu & C9(node.js) with AWS
Ubuntu & C9(node.js) with AWSSeongSik Choi
 
Deploying flask with nginx & uWSGI
Deploying flask with nginx & uWSGIDeploying flask with nginx & uWSGI
Deploying flask with nginx & uWSGI정주 김
 
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)Ubuntu Korea Community
 
Jekyll and GitHub Pages
Jekyll and GitHub PagesJekyll and GitHub Pages
Jekyll and GitHub PagesYoungbin Han
 
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)HTTP2도 잘 모르는데 벌써 HTTP3 (v2)
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)InfraEngineer
 
제로부터시작하는오픈소스
제로부터시작하는오픈소스제로부터시작하는오픈소스
제로부터시작하는오픈소스Mario Cho
 
Red hat ansible engine 2.7 release(Korean version)
Red hat ansible engine 2.7 release(Korean version)Red hat ansible engine 2.7 release(Korean version)
Red hat ansible engine 2.7 release(Korean version)Leo Song
 
쿠버네티스 멀티 클러스터 관리
쿠버네티스 멀티 클러스터 관리쿠버네티스 멀티 클러스터 관리
쿠버네티스 멀티 클러스터 관리choi sungwook
 
NS-3(Network Simulator 3) 소개
NS-3(Network Simulator 3) 소개NS-3(Network Simulator 3) 소개
NS-3(Network Simulator 3) 소개공학코드
 
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)(OCI 탐험일지) nginx 설치(오라클 리눅스 7)
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)Jay Park
 

What's hot (20)

9. Application - WebHDFS
9. Application - WebHDFS9. Application - WebHDFS
9. Application - WebHDFS
 
10. Install - Phoenix
10. Install - Phoenix10. Install - Phoenix
10. Install - Phoenix
 
19. Application - Spark Streaming 1
19. Application - Spark Streaming 119. Application - Spark Streaming 1
19. Application - Spark Streaming 1
 
11. Application - Phoenix
11. Application - Phoenix11. Application - Phoenix
11. Application - Phoenix
 
14. Install - Solr
14. Install - Solr14. Install - Solr
14. Install - Solr
 
15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching
 
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화
[MeetUp][3rd] Prometheus 와 함께하는 모니터링 및 시각화
 
intro. typescript playground
intro. typescript playgroundintro. typescript playground
intro. typescript playground
 
Nutch Homepage Search Engine
Nutch Homepage Search EngineNutch Homepage Search Engine
Nutch Homepage Search Engine
 
Ubuntu & C9(node.js) with AWS
Ubuntu & C9(node.js) with AWSUbuntu & C9(node.js) with AWS
Ubuntu & C9(node.js) with AWS
 
Gruntjs
GruntjsGruntjs
Gruntjs
 
Deploying flask with nginx & uWSGI
Deploying flask with nginx & uWSGIDeploying flask with nginx & uWSGI
Deploying flask with nginx & uWSGI
 
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)
박진호 - 우분투 부팅 과정에 대한 이야기 (2012Y07M28D)
 
Jekyll and GitHub Pages
Jekyll and GitHub PagesJekyll and GitHub Pages
Jekyll and GitHub Pages
 
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)HTTP2도 잘 모르는데 벌써 HTTP3 (v2)
HTTP2도 잘 모르는데 벌써 HTTP3 (v2)
 
제로부터시작하는오픈소스
제로부터시작하는오픈소스제로부터시작하는오픈소스
제로부터시작하는오픈소스
 
Red hat ansible engine 2.7 release(Korean version)
Red hat ansible engine 2.7 release(Korean version)Red hat ansible engine 2.7 release(Korean version)
Red hat ansible engine 2.7 release(Korean version)
 
쿠버네티스 멀티 클러스터 관리
쿠버네티스 멀티 클러스터 관리쿠버네티스 멀티 클러스터 관리
쿠버네티스 멀티 클러스터 관리
 
NS-3(Network Simulator 3) 소개
NS-3(Network Simulator 3) 소개NS-3(Network Simulator 3) 소개
NS-3(Network Simulator 3) 소개
 
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)(OCI 탐험일지) nginx 설치(오라클 리눅스 7)
(OCI 탐험일지) nginx 설치(오라클 리눅스 7)
 

Similar to 16. Install - Nutch

[231]나는서버를썰터이니너는개발만하여라 양지욱
[231]나는서버를썰터이니너는개발만하여라 양지욱[231]나는서버를썰터이니너는개발만하여라 양지욱
[231]나는서버를썰터이니너는개발만하여라 양지욱NAVER D2
 
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415sprdd
 
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개Tommy Lee
 
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
게임 개발에 도움을 주는 CruiseControl.NET과 Windows TerminalOnGameServer
 
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games Conference
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games ConferenceKGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games Conference
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games ConferenceXionglong Jin
 
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1Ji-Woong Choi
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제Tae Young Lee
 
Mininet
MininetMininet
Mininetymtech
 
Python을 이용한 Linux Desktop Application
Python을 이용한 Linux Desktop ApplicationPython을 이용한 Linux Desktop Application
Python을 이용한 Linux Desktop ApplicationUbuntu Korea Community
 
Cruise control net_and_terminal_with_gamedev
Cruise control net_and_terminal_with_gamedevCruise control net_and_terminal_with_gamedev
Cruise control net_and_terminal_with_gamedevHeo Seungwook
 
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)Junho Choi
 
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1Ji-Woong Choi
 
Internship backend
Internship backendInternship backend
Internship backendYein Sim
 
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발Jeongkyu Shin
 
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11Udamp3 django apache-my_sql_python3_ubuntu14.04-v11
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11Dongil Yeom
 
Hyperledger Explorer.pptx
Hyperledger Explorer.pptxHyperledger Explorer.pptx
Hyperledger Explorer.pptxwonyong hwang
 
[오픈소스컨설팅]Nginx jboss 연동가이드__v1
[오픈소스컨설팅]Nginx jboss 연동가이드__v1[오픈소스컨설팅]Nginx jboss 연동가이드__v1
[오픈소스컨설팅]Nginx jboss 연동가이드__v1Ji-Woong Choi
 
제로부터시작하는 Git 두번째 이야기
제로부터시작하는 Git 두번째 이야기제로부터시작하는 Git 두번째 이야기
제로부터시작하는 Git 두번째 이야기Mario Cho
 
Grunt 사용법 간단정리
Grunt 사용법 간단정리Grunt 사용법 간단정리
Grunt 사용법 간단정리SuHyun Jeon
 

Similar to 16. Install - Nutch (20)

[231]나는서버를썰터이니너는개발만하여라 양지욱
[231]나는서버를썰터이니너는개발만하여라 양지욱[231]나는서버를썰터이니너는개발만하여라 양지욱
[231]나는서버를썰터이니너는개발만하여라 양지욱
 
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
 
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
 
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
 
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games Conference
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games ConferenceKGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games Conference
KGC 2016: HTTPS 로 모바일 게임 서버 구축한다는 것 - Korea Games Conference
 
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1
[오픈소스컨설팅]Nginx 1.2.7 설치가이드__v1
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제
 
Mininet
MininetMininet
Mininet
 
Python을 이용한 Linux Desktop Application
Python을 이용한 Linux Desktop ApplicationPython을 이용한 Linux Desktop Application
Python을 이용한 Linux Desktop Application
 
Cruise control net_and_terminal_with_gamedev
Cruise control net_and_terminal_with_gamedevCruise control net_and_terminal_with_gamedev
Cruise control net_and_terminal_with_gamedev
 
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)
HTTP/2도 잘 모르는데 벌써 HTTP/3? (2020/4/23) (Korean and English)
 
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1
[오픈소스컨설팅] Open stack kilo with DVR_CEPH_v1.1
 
Internship backend
Internship backendInternship backend
Internship backend
 
Grunt.js Review
Grunt.js ReviewGrunt.js Review
Grunt.js Review
 
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발
 
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11Udamp3 django apache-my_sql_python3_ubuntu14.04-v11
Udamp3 django apache-my_sql_python3_ubuntu14.04-v11
 
Hyperledger Explorer.pptx
Hyperledger Explorer.pptxHyperledger Explorer.pptx
Hyperledger Explorer.pptx
 
[오픈소스컨설팅]Nginx jboss 연동가이드__v1
[오픈소스컨설팅]Nginx jboss 연동가이드__v1[오픈소스컨설팅]Nginx jboss 연동가이드__v1
[오픈소스컨설팅]Nginx jboss 연동가이드__v1
 
제로부터시작하는 Git 두번째 이야기
제로부터시작하는 Git 두번째 이야기제로부터시작하는 Git 두번째 이야기
제로부터시작하는 Git 두번째 이야기
 
Grunt 사용법 간단정리
Grunt 사용법 간단정리Grunt 사용법 간단정리
Grunt 사용법 간단정리
 

16. Install - Nutch

  • 1. 빅데이터 ~ 머신(딥)러닝 실무로 배우는 빅데이터 기술  Nutch 설치 ☆ 확장하기 – 16편 ☆ 김강원
  • 2. 너치(Nutch) 는? 웹 컨텐츠를 편리하게 수집 및 처리 하는 크롤링(Crawling) 솔루션 ※ Nutch 기본 개념과 기능들은 구글링을 통해 확인 하세요!
  • 3. 파일럿 프로젝트 확장 (1/2) 너치 (Nutch)
  • 4. 책 106 페이지 중에서… (개정판) 크롤링 솔루션 너치(Nutch) 설치 파일럿 프로젝트 확장 (2/2)
  • 6.  Server02 접속 Putty > Server01 SSH 접속 $ cd /home Step-1  너치 설치 파일 압축 해제 $ tar -xvf apache-nutch-1.9-bin.tar.gz Step-3  너치 설치 파일 다운로드 $ wget http://archive.apache.org/dist/nutch/1.9/apache-nutch-1.9-bin.tar.gz Step-2
  • 7.  너치 Http Agent 설정 $ cd /home/apache-nutch-1.9/conf $ vi nutch-site.xml <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> Step-4  너치 URL 필터 설정 $ vi regex-urlfilter.txt +^http://* +^https://* Step-5
  • 8.  루트 URL 정보 입력 $ mkdir /home/apache-nutch-1.9/urls $ vi /home/apache-nutch-1.9/urls/seed.txt https://blog.naver.com/javaguy Step-6  수집 컨텐츠 디렉토리 생성 $ mkdir /home/apache-nutch-1.9/collect Step-7
  • 9. 실무로 배우는 빅데이터 기술 확장하기 16편 – 너치(Nutch) 설치 [ 강의자료 ]  동 영 상: 유튜브 www.youtube.com  실습문서: 슬라이드쉐어 www.slideshare.net