Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Data Scraping with Excel – by Maik Schmidt17.03.2013 – Berlin - SEO Campixx
Wer ich bin              • Maik Schmidt              • SEO Consultant bei Catbird Seat (2010)              • SEO-Contest „...
Was scrapen wir heute?•   Standard KPIs•   Malware Checker•   Index Checker•   Google SERPs•   Google Suggest
Warum Excel?• Weil ich nicht programmieren kannNachteile:• Langsam                             ?• Begrenzte Datenmengen
Was benötige ich?• Excel• Niels Bosma SEO Tools for Excel      http://nielsbosma.se/projects/seotools/
Niels Bosma SEO Tools (1/4)Onpage                  Content• LinkCount             • FindDuplicatedContent• HtmlTitle      ...
Niels Bosma SEO Tools (2/4)                      SEOlytics                      • Backlinks                      • SVR (Si...
Niels Bosma SEO Tools (3/4)                      MajesticSEO                      • Größte Backlink DB                    ...
Niels Bosma SEO Tools (4/4)                      Google Analytics                      • Ähnlich:                         ...
X-Path BasicsMit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressierenBeispiele:                     ...
X-Path easy rausfindenMit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlichschnell und leicht finden:
Standard KPIsQUELLEN:Free SI: Sichtbarkeitsindex.de/deinedomain.deSI API: http://api.sistrix.net/domain.sichtbarkeitsindex...
Google Save Browsing APIQuelle:http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de              ...
Index CheckerQuelle:http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0&q=info:deinewebseite.de              ...
Google Suggest Scrapen                     • Quelle:                       http://google.de/complete/sear                 ...
Google SERPs scrapenQuelle:    http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0Formel:     =XPathOnUrl([URL...
Google SERPs scrapen
Watt noch?             Analytics for Twitter             von Microsoft                      &             Power Pivot
Ende       Mit gezeigten Beispielen & Tools kann man theoretisch jede x-       beliebige Webseite abscrapen und in Excel v...
Upcoming SlideShare
Loading in …5
×

Data Scraping with Excel - Campixx 2013 - Maik Schmidt

5,365 views

Published on

Auf meiner Campixx Session habe ich gezeigt, wie man mit Hilfe von Excel und X-Path Daten aus dem Web scrapen kann. u.a. wurden gescraped: Standard KPIs, Malware Checker, Index Checker, Google SERPs, Google Suggest

Published in: Self Improvement
  • Be the first to comment

Data Scraping with Excel - Campixx 2013 - Maik Schmidt

  1. 1. Data Scraping with Excel – by Maik Schmidt17.03.2013 – Berlin - SEO Campixx
  2. 2. Wer ich bin • Maik Schmidt • SEO Consultant bei Catbird Seat (2010) • SEO-Contest „KubaSEOTräume“ Gewinner @chillboyy facebook.com/chillboy.de xing.com/profile/Maik_Schmidt11
  3. 3. Was scrapen wir heute?• Standard KPIs• Malware Checker• Index Checker• Google SERPs• Google Suggest
  4. 4. Warum Excel?• Weil ich nicht programmieren kannNachteile:• Langsam ?• Begrenzte Datenmengen
  5. 5. Was benötige ich?• Excel• Niels Bosma SEO Tools for Excel http://nielsbosma.se/projects/seotools/
  6. 6. Niels Bosma SEO Tools (1/4)Onpage Content• LinkCount • FindDuplicatedContent• HtmlTitle • CountWords• HtmlMetaDescription • LCS• HtmlMetaKeywords • SpinText• HtmlMeta Backlinks• HtmlFirst • CheckBacklink• HtmlH1 • GooglePageRank• HtmlH2 • GoogleResultCount• HtmlH3 • GoogleIndexCount• HtmlCanonical • GoogleLinkCount• W3CValidate • AlexaReach• PageCodeToTextRatio • AlexaPopularity• PageSize • AlexaLinkCount• PageTextSize • DmozEntries• PageCodeSize • WikipediaLinks• HttpStatus• HttpHeader Social • FacebookLikes u.v.m.• ResponseTime • GooglePlusCount• PageEncoding • TwitterCount• IsFoundOnPage
  7. 7. Niels Bosma SEO Tools (2/4) SEOlytics • Backlinks • SVR (Sichtbarkeit) • Keyword Rankings • Domain Metriken • LinkCount/URL • Link History
  8. 8. Niels Bosma SEO Tools (3/4) MajesticSEO • Größte Backlink DB • Fresh Index • Historischer Index • Trust/Citation Flow
  9. 9. Niels Bosma SEO Tools (4/4) Google Analytics • Ähnlich: http://ga-dev-tools.appspot.com/explorer/ • =GoogleAnalytics( string id, string metrics, string startDate, string endDate, [string dimensions, string segment, string filter, string sort, integer startIndex, integer maxResults, bool excludeHeaderInResult, bool excludeDimensionsInResult]) : {string}
  10. 10. X-Path BasicsMit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressierenBeispiele: Um Sichtbarkeitsindex.de zu scrapenDocument root node: /html/body/div/div/div/h3[position()=1/Direct child element: Holt sich in diesem Pfad den Inhalt des ersten H3 TagsXML_element_nameDirect child of the root node:/XML_element_nameChild of a child: Um Google SERPs zu scrapenXML_element_name/XML_element_nameDescendant of the root: //h3[@class=x]/a);"href"//XML_element_name Holt sich alle Links innerhalb H3 Tags mit der Class „X“Descendant of a node:XML_element_name//XML_element_nameParent of a node:../A far cousin of a node../../XML_element_name/XML_element_name
  11. 11. X-Path easy rausfindenMit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlichschnell und leicht finden:
  12. 12. Standard KPIsQUELLEN:Free SI: Sichtbarkeitsindex.de/deinedomain.deSI API: http://api.sistrix.net/domain.sichtbarkeitsindex?api_key=xy&domain=deinewebseite.deAlexa Rank: http://www.alexa.com/siteinfo/deinedomain.de =XPathOnUrl([Alexa=XPathOnUrl[URL];"/html/body/ URL];"//table[@id=siteStats]/tbody/ div/div/div/h3[position()=1]") tr[1]/td[2]/div") =XPathOnUrl([SI API URL];"response/answer/sichtbarkeitsindex";"value")
  13. 13. Google Save Browsing APIQuelle:http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de =UrlProperty([URL];"domain") =XPathOnUrl([Google SafeBrowsing URL]; "/html/body/center/div/div/blockquote/p[position()=1]")
  14. 14. Index CheckerQuelle:http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0&q=info:deinewebseite.de =WENN(HtmlCanonical(A2)=A2;"self =HttpStatus([USER URL]) canonical";HtmlCanonical(A2)) =WENN(ISTFEHLER(IDENTISCH(TEIL(XPathOnUrl("http://www.google.de/search?gc x=c&sourceid=chrome&ie=UTF-8&q= "&("info:"&(A2))&"&pws=0";"//li[@class=g]//h3[@class=r]//a";"href");8;LÄNGE (A2));A2));"not indexed";"indexed")
  15. 15. Google Suggest Scrapen • Quelle: http://google.de/complete/sear ch?output=toolbar&hl=de&q= • Scraped das KW + mit/ohne Leerzeichen und einem Buchstaben • Matrix Funktion um 10er Ergebnisse zu scrapen • 2. Iteration der Top 10 Über 600 suggested Keywords!
  16. 16. Google SERPs scrapenQuelle: http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0Formel: =XPathOnUrl([URL];"(//h3[@class=r]/a)["&A1&"]";"href")Ergebnis: /url?q=http://de.wikipedia.org/wiki/Suchmaschinenoptimierung&sa =U&ei=bTU2UP6sPMfNsgbAnoHYBQ&ved=0CB0QFjAA&us g=AFQjCNHwx6lcRxVC0-eBeDJ6GgHBiHGtFQ =RECHTS(C1;LÄNGE(C1)- =RECHTS(B1;LÄNGE(B1)-7) & SUCHEN("&amp";C1))
  17. 17. Google SERPs scrapen
  18. 18. Watt noch? Analytics for Twitter von Microsoft & Power Pivot
  19. 19. Ende Mit gezeigten Beispielen & Tools kann man theoretisch jede x- beliebige Webseite abscrapen und in Excel verarbeiten Be Creative! Die live gezeigte Excel-Dateien werden auf dem Blog von www.catbirdseat.de als Download zur Verfügung stehen

×