Data Scraping with Excel – by Maik Schmidt17.03.2013 – Berlin - SEO Campixx
Wer ich bin              • Maik Schmidt              • SEO Consultant bei Catbird Seat (2010)              • SEO-Contest „...
Was scrapen wir heute?•   Standard KPIs•   Malware Checker•   Index Checker•   Google SERPs•   Google Suggest
Warum Excel?• Weil ich nicht programmieren kannNachteile:• Langsam                             ?• Begrenzte Datenmengen
Was benötige ich?• Excel• Niels Bosma SEO Tools for Excel      http://nielsbosma.se/projects/seotools/
Niels Bosma SEO Tools (1/4)Onpage                  Content• LinkCount             • FindDuplicatedContent• HtmlTitle      ...
Niels Bosma SEO Tools (2/4)                      SEOlytics                      • Backlinks                      • SVR (Si...
Niels Bosma SEO Tools (3/4)                      MajesticSEO                      • Größte Backlink DB                    ...
Niels Bosma SEO Tools (4/4)                      Google Analytics                      • Ähnlich:                         ...
X-Path BasicsMit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressierenBeispiele:                     ...
X-Path easy rausfindenMit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlichschnell und leicht finden:
Standard KPIsQUELLEN:Free SI: Sichtbarkeitsindex.de/deinedomain.deSI API: http://api.sistrix.net/domain.sichtbarkeitsindex...
Google Save Browsing APIQuelle:http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de              ...
Index CheckerQuelle:http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0&q=info:deinewebseite.de              ...
Google Suggest Scrapen                     • Quelle:                       http://google.de/complete/sear                 ...
Google SERPs scrapenQuelle:    http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0Formel:     =XPathOnUrl([URL...
Google SERPs scrapen
Watt noch?             Analytics for Twitter             von Microsoft                      &             Power Pivot
Ende       Mit gezeigten Beispielen & Tools kann man theoretisch jede x-       beliebige Webseite abscrapen und in Excel v...
Upcoming SlideShare
Loading in …5
×

Data Scraping with Excel - Campixx 2013 - Maik Schmidt

4,986 views

Published on

Auf meiner Campixx Session habe ich gezeigt, wie man mit Hilfe von Excel und X-Path Daten aus dem Web scrapen kann. u.a. wurden gescraped: Standard KPIs, Malware Checker, Index Checker, Google SERPs, Google Suggest

Published in: Self Improvement
0 Comments
8 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,986
On SlideShare
0
From Embeds
0
Number of Embeds
931
Actions
Shares
0
Downloads
56
Comments
0
Likes
8
Embeds 0
No embeds

No notes for slide

Data Scraping with Excel - Campixx 2013 - Maik Schmidt

  1. 1. Data Scraping with Excel – by Maik Schmidt17.03.2013 – Berlin - SEO Campixx
  2. 2. Wer ich bin • Maik Schmidt • SEO Consultant bei Catbird Seat (2010) • SEO-Contest „KubaSEOTräume“ Gewinner @chillboyy facebook.com/chillboy.de xing.com/profile/Maik_Schmidt11
  3. 3. Was scrapen wir heute?• Standard KPIs• Malware Checker• Index Checker• Google SERPs• Google Suggest
  4. 4. Warum Excel?• Weil ich nicht programmieren kannNachteile:• Langsam ?• Begrenzte Datenmengen
  5. 5. Was benötige ich?• Excel• Niels Bosma SEO Tools for Excel http://nielsbosma.se/projects/seotools/
  6. 6. Niels Bosma SEO Tools (1/4)Onpage Content• LinkCount • FindDuplicatedContent• HtmlTitle • CountWords• HtmlMetaDescription • LCS• HtmlMetaKeywords • SpinText• HtmlMeta Backlinks• HtmlFirst • CheckBacklink• HtmlH1 • GooglePageRank• HtmlH2 • GoogleResultCount• HtmlH3 • GoogleIndexCount• HtmlCanonical • GoogleLinkCount• W3CValidate • AlexaReach• PageCodeToTextRatio • AlexaPopularity• PageSize • AlexaLinkCount• PageTextSize • DmozEntries• PageCodeSize • WikipediaLinks• HttpStatus• HttpHeader Social • FacebookLikes u.v.m.• ResponseTime • GooglePlusCount• PageEncoding • TwitterCount• IsFoundOnPage
  7. 7. Niels Bosma SEO Tools (2/4) SEOlytics • Backlinks • SVR (Sichtbarkeit) • Keyword Rankings • Domain Metriken • LinkCount/URL • Link History
  8. 8. Niels Bosma SEO Tools (3/4) MajesticSEO • Größte Backlink DB • Fresh Index • Historischer Index • Trust/Citation Flow
  9. 9. Niels Bosma SEO Tools (4/4) Google Analytics • Ähnlich: http://ga-dev-tools.appspot.com/explorer/ • =GoogleAnalytics( string id, string metrics, string startDate, string endDate, [string dimensions, string segment, string filter, string sort, integer startIndex, integer maxResults, bool excludeHeaderInResult, bool excludeDimensionsInResult]) : {string}
  10. 10. X-Path BasicsMit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressierenBeispiele: Um Sichtbarkeitsindex.de zu scrapenDocument root node: /html/body/div/div/div/h3[position()=1/Direct child element: Holt sich in diesem Pfad den Inhalt des ersten H3 TagsXML_element_nameDirect child of the root node:/XML_element_nameChild of a child: Um Google SERPs zu scrapenXML_element_name/XML_element_nameDescendant of the root: //h3[@class=x]/a);"href"//XML_element_name Holt sich alle Links innerhalb H3 Tags mit der Class „X“Descendant of a node:XML_element_name//XML_element_nameParent of a node:../A far cousin of a node../../XML_element_name/XML_element_name
  11. 11. X-Path easy rausfindenMit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlichschnell und leicht finden:
  12. 12. Standard KPIsQUELLEN:Free SI: Sichtbarkeitsindex.de/deinedomain.deSI API: http://api.sistrix.net/domain.sichtbarkeitsindex?api_key=xy&domain=deinewebseite.deAlexa Rank: http://www.alexa.com/siteinfo/deinedomain.de =XPathOnUrl([Alexa=XPathOnUrl[URL];"/html/body/ URL];"//table[@id=siteStats]/tbody/ div/div/div/h3[position()=1]") tr[1]/td[2]/div") =XPathOnUrl([SI API URL];"response/answer/sichtbarkeitsindex";"value")
  13. 13. Google Save Browsing APIQuelle:http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de =UrlProperty([URL];"domain") =XPathOnUrl([Google SafeBrowsing URL]; "/html/body/center/div/div/blockquote/p[position()=1]")
  14. 14. Index CheckerQuelle:http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0&q=info:deinewebseite.de =WENN(HtmlCanonical(A2)=A2;"self =HttpStatus([USER URL]) canonical";HtmlCanonical(A2)) =WENN(ISTFEHLER(IDENTISCH(TEIL(XPathOnUrl("http://www.google.de/search?gc x=c&sourceid=chrome&ie=UTF-8&q= "&("info:"&(A2))&"&pws=0";"//li[@class=g]//h3[@class=r]//a";"href");8;LÄNGE (A2));A2));"not indexed";"indexed")
  15. 15. Google Suggest Scrapen • Quelle: http://google.de/complete/sear ch?output=toolbar&hl=de&q= • Scraped das KW + mit/ohne Leerzeichen und einem Buchstaben • Matrix Funktion um 10er Ergebnisse zu scrapen • 2. Iteration der Top 10 Über 600 suggested Keywords!
  16. 16. Google SERPs scrapenQuelle: http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0Formel: =XPathOnUrl([URL];"(//h3[@class=r]/a)["&A1&"]";"href")Ergebnis: /url?q=http://de.wikipedia.org/wiki/Suchmaschinenoptimierung&sa =U&ei=bTU2UP6sPMfNsgbAnoHYBQ&ved=0CB0QFjAA&us g=AFQjCNHwx6lcRxVC0-eBeDJ6GgHBiHGtFQ =RECHTS(C1;LÄNGE(C1)- =RECHTS(B1;LÄNGE(B1)-7) & SUCHEN("&amp";C1))
  17. 17. Google SERPs scrapen
  18. 18. Watt noch? Analytics for Twitter von Microsoft & Power Pivot
  19. 19. Ende Mit gezeigten Beispielen & Tools kann man theoretisch jede x- beliebige Webseite abscrapen und in Excel verarbeiten Be Creative! Die live gezeigte Excel-Dateien werden auf dem Blog von www.catbirdseat.de als Download zur Verfügung stehen

×