SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R

Taste
TasteTaste
Analýza klíčových slov v R
Marek Prokop, PROKOP software s.r.o.
Proč?
Proč ne Excel a Open Refine
● Ruční práce v Excelu je pomalá.
● Čím víc dotazů klasifikujete, tím víc chyb při tom děláte.
● Výsledná klíčovka se špatně aktualizuje a doplňuje o nové dotazy.
● Práci odvedenou na jedné klíčovce nemůžete využít na jinou klíčovku.
● Špatná návaznost na další zpracování dat, reporting apod.
● Open Refine je výborný nástroj na něco úplně jiného.
Proč R
● Na více dotazech (10 000+) velká úspora práce a času.
● Klíčovka se snadno aktualizuje.
● Klasifikace podobných dotazů (třeba ze Search Console nebo PPC) je téměř
bez práce.
● Obecnější části klasifikace (cenová upřesnění, barvy, místa apod.) jdou
opakovaně aplikovat na zcela různé datasety.
● Snadná návaznost na další zpracování a reporting, např. content gap
analysis, zadání pro copywritery atd.
Výchozí teze
Klasifikace na základě pravidel
1. Všechny dotazy jde klasifikovat tím, že se na ně aplikuje sada pravidel.
2. Pravidla určují, které dotazy se vyřadí a které se označí jakým štítkem.
3. Libovolná množina dotazů jde vybrat regulárním výrazem (match) nebo
kombinací max. dvou regulárních výrazů (match - except).
Nebylo by lepší NLP a strojové učení?
Ne.
Workflow
Import a konsolidace vstupních dat
Import dat z nejrůznějších zdrojů:
● Marketing Miner
● Search Console
● Google Ads
Dotazy z různých zdrojů se automaticky deduplikují resp. agregují.
Normalizace dotazů
Automaticky se sjednotí dotazy, které se liší jen:
● interpunkcí (tečky, pomlčky apod.),
● diakritikou,
● pořadím slov.
Průzkum dotazů
● N-gramy
● Dotazy v dotazech (poddotazy, subqueries)
● Kolokace
Z průzkumu vypozoruji typické vzorce, které formuluji jako regulární výrazy.
Ověření vzorců
Každý regulární výraz si můžu otestovat a tím dostanu:
1. Přehled dotazů, které regulárnímu výrazu odpovídají.
2. Jakému textu v dotazu regulární výraz odpovídá.
3. Co je před tímto textem a co za ním.
4. N-gramy z okolního textu.
To vše bohatě stačí k tomu, abych ověřil správnost vzorce a případně ho doladil.
Sestavení klasifikačních pravidel
Pravidla definuji v jednoduchých souborech typu
YAML, případně je mohu do souborů přidávat
funkcemi.
- type: label
name: brand
rules:
- match:
- hohner
- seydel
- suzuki
values:
- value: lee oskar
rules:
- match: os[kc]ar
Vlastní klasifikace
kwr <- kwr |>
kwr_classify("recipes/brand.yml") |>
kwr_classify("recipes/model.yml")
Přehled klasifikovaných dotazů
kwr |> kwr_classified_queries()
Živá ukázka
Odkazy
Ukázku najdete na: https://github.com/MarekProkop/seo-restart-2022
Balíček najdete na: https://github.com/MarekProkop/keywordr
Pro nováčky v R doporučuju: https://www.prokopsw.cz/bookdown/excel-r/
1 of 17

More Related Content

What's hot(20)

Similar to SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R(20)

SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytika
Taste Medio383 views
Seologer novinky v nástrojiSeologer novinky v nástroji
Seologer novinky v nástroji
Marketing Miner1.7K views
PROFICIO na PPC Restartu 2018PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018
PROFICIO287 views
INPTP Rekapitulace INPTP Rekapitulace
INPTP Rekapitulace
Jan Hřídel130 views
Jak správně vybrat klíčová slovaJak správně vybrat klíčová slova
Jak správně vybrat klíčová slova
David Brenner850 views
10. Affiliate konference / XML katalogová magie10. Affiliate konference / XML katalogová magie
10. Affiliate konference / XML katalogová magie
Colpirio.com s.r.o.1.5K views
Úvod do analýzy -  2 částÚvod do analýzy -  2 část
Úvod do analýzy - 2 část
Martin Paták309 views

More from Taste(20)

Recently uploaded(6)

abeceda 3 obalky na web.pptxabeceda 3 obalky na web.pptx
abeceda 3 obalky na web.pptx
savcenkoalena6 views
RybičkyA5 na web.pptxRybičkyA5 na web.pptx
RybičkyA5 na web.pptx
savcenkoalena8 views
Pocit. A5 na web.pptxPocit. A5 na web.pptx
Pocit. A5 na web.pptx
savcenkoalena6 views
RybičkyA5 na web.pptxRybičkyA5 na web.pptx
RybičkyA5 na web.pptx
savcenkoalena5 views
Pocit. A5 na web.pptxPocit. A5 na web.pptx
Pocit. A5 na web.pptx
savcenkoalena18 views

SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R

  • 1. Analýza klíčových slov v R Marek Prokop, PROKOP software s.r.o.
  • 3. Proč ne Excel a Open Refine ● Ruční práce v Excelu je pomalá. ● Čím víc dotazů klasifikujete, tím víc chyb při tom děláte. ● Výsledná klíčovka se špatně aktualizuje a doplňuje o nové dotazy. ● Práci odvedenou na jedné klíčovce nemůžete využít na jinou klíčovku. ● Špatná návaznost na další zpracování dat, reporting apod. ● Open Refine je výborný nástroj na něco úplně jiného.
  • 4. Proč R ● Na více dotazech (10 000+) velká úspora práce a času. ● Klíčovka se snadno aktualizuje. ● Klasifikace podobných dotazů (třeba ze Search Console nebo PPC) je téměř bez práce. ● Obecnější části klasifikace (cenová upřesnění, barvy, místa apod.) jdou opakovaně aplikovat na zcela různé datasety. ● Snadná návaznost na další zpracování a reporting, např. content gap analysis, zadání pro copywritery atd.
  • 6. Klasifikace na základě pravidel 1. Všechny dotazy jde klasifikovat tím, že se na ně aplikuje sada pravidel. 2. Pravidla určují, které dotazy se vyřadí a které se označí jakým štítkem. 3. Libovolná množina dotazů jde vybrat regulárním výrazem (match) nebo kombinací max. dvou regulárních výrazů (match - except).
  • 7. Nebylo by lepší NLP a strojové učení? Ne.
  • 9. Import a konsolidace vstupních dat Import dat z nejrůznějších zdrojů: ● Marketing Miner ● Search Console ● Google Ads Dotazy z různých zdrojů se automaticky deduplikují resp. agregují.
  • 10. Normalizace dotazů Automaticky se sjednotí dotazy, které se liší jen: ● interpunkcí (tečky, pomlčky apod.), ● diakritikou, ● pořadím slov.
  • 11. Průzkum dotazů ● N-gramy ● Dotazy v dotazech (poddotazy, subqueries) ● Kolokace Z průzkumu vypozoruji typické vzorce, které formuluji jako regulární výrazy.
  • 12. Ověření vzorců Každý regulární výraz si můžu otestovat a tím dostanu: 1. Přehled dotazů, které regulárnímu výrazu odpovídají. 2. Jakému textu v dotazu regulární výraz odpovídá. 3. Co je před tímto textem a co za ním. 4. N-gramy z okolního textu. To vše bohatě stačí k tomu, abych ověřil správnost vzorce a případně ho doladil.
  • 13. Sestavení klasifikačních pravidel Pravidla definuji v jednoduchých souborech typu YAML, případně je mohu do souborů přidávat funkcemi. - type: label name: brand rules: - match: - hohner - seydel - suzuki values: - value: lee oskar rules: - match: os[kc]ar
  • 14. Vlastní klasifikace kwr <- kwr |> kwr_classify("recipes/brand.yml") |> kwr_classify("recipes/model.yml")
  • 15. Přehled klasifikovaných dotazů kwr |> kwr_classified_queries()
  • 17. Odkazy Ukázku najdete na: https://github.com/MarekProkop/seo-restart-2022 Balíček najdete na: https://github.com/MarekProkop/keywordr Pro nováčky v R doporučuju: https://www.prokopsw.cz/bookdown/excel-r/