Web Crawling and Data Gathering with Apache Nutch

Apache Nutch Web Crawling and Data Gathering Steve Watt - @wattsteve IBM Big Data Lead Data Day Austin

Topics ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

The Offline (Analytics) Big Data Ecosystem Load Tooling Web Content Your Content Hadoop Data Catalogs Analytics Tooling Export Tooling Find Analyze Visualize Consume

Load Tooling - Data Gathering Patterns and Enablers ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How is Crawl data being used? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Web Crawling - considerations ,[object Object],[object Object],[object Object],[object Object]

Apache Nutch – What is it ? ,[object Object],[object Object],[object Object]

Apache Nutch Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Apache Nutch - Web Application

Crawl Lifecycle Generate Inject LinkDB Fetch Index CrawlDB Update Dedup Merge

Single Process Web Crawling ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Web Crawling ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Web Crawling ,[object Object],[object Object],[object Object],[object Object]

Segment Readers ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Thanks ,[object Object],[object Object],[object Object],[object Object],[object Object]

Web Crawling and Data Gathering with Apache Nutch

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Web Crawling and Data Gathering with Apache Nutch

Similar to Web Crawling and Data Gathering with Apache Nutch (20)

More from Steve Watt

More from Steve Watt (11)

Recently uploaded

Recently uploaded (20)

Web Crawling and Data Gathering with Apache Nutch