• Like
  • Save
RegS?ex — SEO-Campixx 2011
Upcoming SlideShare
Loading in...5
×

RegS?ex — SEO-Campixx 2011

  • 1,224 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
1,224
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
2
Likes
3

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. RegS?Ex
    unendliche Möglichkeiten zum Analysieren, Scrapenetc.
    1
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
  • 2. What‘sitgoodfor…?
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    2
    http://www.xkcd.com/208/
  • 3. Johan Hülsen
    Projektmanager @ TRG – The Reach Group
    Analyse
    Datenmanagement
    IT-Betreuung
    Kein Programmierer
    Ein bisschen Excel
    Twitter.com/johanstormarn
    Facebook.com/johan.huelsen
    Xing.com/profile/Johan_vHuelsen
    Skype: Johanstormarn
    Wer spricht?
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    3
  • 4. Ein Beispiel zum Einstieg | I
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    4
  • 5. Suchen: t*(<.*?>(?!http://).*</.*?>r|</?loc>|</?.*> ?r*)
    Ersetzen: nichts
    Es bleiben zwei leere Zeilen (erste + letzte) und alle URLs
    Eine RegEx später:
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    5
  • 6. Unsere Regex: t*
    Es kann ein Tab da stehen
    Slow Motion! | #1
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    6
    <url>
    <loc>http://blogs-optimieren.de/</loc>
    <lastmod>2011-03-10T09:32:43+00:00</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
    </url>
    <url> …
  • 7. Unsere Regex: <.*?>(?!http://).*</.*?>r
    Irgendwas steht zwischen ‚<‘ und ‚>‘
    danach kommt was (aber nicht http://)
    und ein schließender Tag gefolgt von einem Zeilenumbruch
    Slow Motion | #2
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    7
    <url>
    <loc>http://blogs-optimieren.de/</loc>
    <lastmod>2011-03-10T09:32:43+00:00</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
    </url>
    <url> …
  • 8. Unsere Regex: </?loc>
    <loc> oder </loc>
    Slow Motion | #3
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    8
    <url>
    <loc>http://blogs-optimieren.de/</loc>
    </url>
    <url> …
  • 9. </?.*> ?r*
    Ein öffnender oder schließender Tag
    Gefolgt von einem Leerzeichen (oder auch nicht)
    Gefolgt von einem Zeilenumbruch (oder auch nicht)
    Slow Motion | #4
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    9
    <url>
    http://blogs-optimieren.de/
    </url>
    <url> …
  • 10. #1 (#2 | #3 | #4)
    t* ( <.*?>(?!http://).*</.*?>r | </?loc> | </?.*> ?r* )
    Die Pipe ‚|‘ steht für ein oder
    Die Klammern sorgen für die Reihenfolge
    Slow Motion | DONE
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    10
    http://blogs-optimieren.de/
  • 11. Agenda
    11
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
  • 12. Uralt
    Grundlagen 1956 aus der Medizin
    Suchen und Ersetzen
    Wildcards on Steroids
    Alles, was durch ein Muster zu beschreiben ist, kann mit RegEx ausgelesen und ersetzt werden
    Gefühlte 1.000 Dialekte
    (mit PREG/PCRE kann man aber eigentlich nicht falsch liegen)
    Was ist RegS?Ex
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    12
  • 13. Search andReplace
    Daten umformatieren
    Listen zu Tabellen
    URL-/HTML-/Text- Muster erkennen und ersetzen
    Search andDestroy
    Müllabfuhr
    Search…
    Validierung von Eingaben
    Nutzernamen
    Passwörter (X-Zeichen nach Schema XYZ)
    Telefonnummern
    Mail-Adressen
    URLs
    Never trust a user
    Anwendungsfälle
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    13
  • 14. Agenda
    14
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
  • 15. Basics | Brauchbare Hilfe
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    15
    Ganz groß: http://www.slideshare.net/andreizm/andreis-regex-clinic
    HTML und RegEx werden niemals echte Freunde: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
  • 16. Vernünftiger Text-Editor
    Textwrangler (Mac)
    Notepad++ (Windows)
    VIM (Unix/Terminal)
    Validatoren hilfreich für Einsteiger
    Einfach mal Googlen… Validator +Regex
    Reggy (http://reggyapp.com/) OSX-Tool
    Cheatsheets
    http://www.addedbytes.com/cheat-sheets/regular-expressions-cheat-sheet/
    Gibtaber nocheinigeandere
    Terminal…
    Basics | Tools
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    16
  • 17. Zeichen gruppieren
    [a-z] -> [a-h] geht natürlich auch
    [A-Z] -> [A-H] geht natürlich auch
    [0-9] -> [1-5] geht natürlich auch
    [ ;.,:!?]
    Shortcuts für Zeichenklassen
    s -> whitespaces
    S -> kein Whitespace
    d -> 0-9
    D -> kein 0-9
    w -> Wort
    W -> kein Wort
    Basics | Zeichenklassen
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    17
  • 18. [a-z] = 1
    []+ = >1
    []? = 1 oder 0
    []* = 0, >1
    []{3} = 3
    []{3,5} = 3, 4, 5
    + und * lassen sich mit einem ? Von gierig auf genügsam schalten
    Basics | Quantoren
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    18
  • 19. ^ -> Zeilenanfang
    $ -> Zeilenende
    | -> oder
    -> Befehlszeichen die Sonderbedeutung nehmen
    Anker und Anderes
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    19
  • 20. Agenda
    20
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
  • 21. Leerzeilen löschen
    r+ durch r Leerzeilen löschen
    Datum umformatieren
    01.02.1900 durch 1900-02-01
    (d{2}).(d{2}).(d{4}) durch 3-2-1
    HTML Tags loswerden
    <.+?> oder <[^>]+> je nach Engine
    Prinzipiell ist HTML nicht durch RegEx brauchbar zu parsen
    Bestimmte Dateien aus der Liste löschen
    .*.(jpg|jpeg|css|js)
    Grep „Google|Slurp|Bing“
    Was braucht man sonst andauernd?
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    21
  • 22. Prinzipiell alles filterbar
    Referrer
    Browsertypen

    Keywords
    Google Analytics
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    22
  • 23. (bhs|sbh)|(har[dt]|soft)[-s]?core|(male|fem)[-s]?(joy|dom)|(oben|unten)[s ]+ohne|(popo|^po$)|(tabu|hemmungs)los|(three|four|d)some|(ver|dreck)sau|(wank|red|tim|porn)[s-]?tube|(x|call)(video|girl)|[aäe]+rsch|[kc]lit|[sf]uck|[v]i(chs|x)|[vf][oeö]+geln|[vf]otze|d+yo|abuse|ad[au]lt|am+a+t+[öeu]+r|anal(?![yblgn])|ba(nged|be|rely)|bangb|be(haart|sam)|bl(ow[- ]?jo[bp]|asen)|bo+(ndage|b)|bordell|br[üue]+st|breast|buk+ake|bum?s(en|ig)|butt|cam(s|el[-s]?toe)|catfight|chick|cleavage|closeup|creampie|cu(nt|m|ckold)|de+pthroat|dil+do|dog+(y|ie)|doktor[- ]?spiele|domina|dp|dreier|eb+o+n+y|eichel|eja[kc]ul|entjungfer|ere[kc]t|erot[hi]+([gck]|sch)|f[au]ndorado|facesitting|facial|fetisc?h|feucht|fi(e?ken|ck)|finger(ing|n)|fisti|fkk|g[s-]?(punkt|spot)|gangbang|geil|geschlechts(verkehr|akt)|girls?(friend|s[-s]?gone[-s]?wild)|ggw|gloryhole|grann(y|ies)|h[ea]nt[ae][iy]|hairy|hardcore|hure|in[zc](est|ucht)|interracial|intim|joyclub|kam+a[zs]utra|[kc]oitus|la[bp]+danc|ladyboy|latex|latina|le(s[bp]|cken)|livechat|lo(lita|vetoy)|luder|m[öoe]+p?se|mast[eurbi]+(ren|ate|tion)|mature|milf|muschi|n[iy](lon|mph[oe])|nac?k(t|ig|ed)|naughty|nip+[el]{2,}|nud(e|is?t)|nutte|onanieren|org?(asm|y|al)|p[0o]rn|p[äae]+d(oph|[äae]+rast)|p[ro]+n|pant(y|ies)|pe(nis|rvers|t+ing)|pee|penetrat|penthouse|pi(ss|nkel)|pim+(el|pern)|playboy|pop+en|potenz|p[r0o]+n|privat|prostitu|puff|puss[iy]|rap(ing|ed)|ras(iert|ur|ieren)|rimjob|rosette|sch(lampe|w[aä]nz)|schwul|seksfilmpjes|selbstbefr|sex|skirt|sklav(in|e)|slip|span+(er|ked)|sperma|squirt|str(i[pb]|a[bp]s)|superheroines|swinger|tanga|teen(s|i|y|pics|cam)|tit+[yies]|trans|vagina|vibrator|vorhaut|voy[euoöä]+r|wet
    RegEx? RegSex!
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
    23
  • 24. Agenda
    24
    TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen