Геннадий
Воробьов
Onpage SEO
вътрешни технически фактори
Геннадий Воробьов
● Лектор в DM&SEO курса на СофтУни
● CEO на Netpeak Bulgaria
● проповядвам [SEO и PPC на настоящето] за клиентските проекти
● проповядвам качествено обучение на младите кадри
● лектор на специализирани събития в България
● организатор и участник на безплатните уебинари на Netpeak
● представител на инструмента за анализ на ключови думи Prodvigator.bg
● представител кол-трекинг система Ringostat за България.
Аз съм
План
1. Server response codes
2. Скорост на зареждането
3. Индексиране на страници
4. Изображения
5. Дублиране на страниците
6. Robots.txt
7. Sitemap.XML
8. Google Webmaster Tools
9. SEO Checklist
HTTP Headers, Server response codes
HTTP Headers
https://chrome.google.com/webstore/detail/http-headers/hplfkkmefamockhligfdcfgfnbcdddbg
Chrome
Live HTTP Headers
https://addons.mozilla.org/ru/firefox/addon/live-http-headers/ - Firefox
http://headers.cloxy.net/
кодове HTTP status
1xx: Informational — заявката е получена, разбрана, продължава
обработката
● 2xx: Success — заявката е получена, разбрана и обработена
● 3xx: Redirection — за да се изпълни заявката трябва да се предприемат
необходимите действия
● 4xx: Client Error — заявката е с грешен синтаксис и не може да се
обработи
● 5xx: Server Error — сървърът не може да получи и изпълни заявката
200 OK
Заявката е получена и обработена успешно
301 Moved Permanently
Поискан URI вече не се използва на сървъра, заявката
не е изпълнена. Ново място на документа се посочва в
хедъра Location
302 Moved Temporarily
URI е преместено, но временно.
404 Not Found
Не е намерен
408
сървърът не е върнал целият отговор за
определено време. Връзката прекъсната от
паяка.
500 (Internal Server Error)
Най-вероятно, грешка в .htaccess файла.
Как да проверим?
1. browser add-on
2. Google Webmaster Tools (след
индексацията)
3. Spiders, Checkers (преди индексацията)
Google Webmaster Tools
4**
5**
Скорост на зареждането
Как се проверява?
1. https://developers.google.
com/speed/pagespeed/insights/
2. http://gtmetrix.com/
Индексиране на страници
Как да проследяваме ботове
● Webmaster Panels
● Логове на сървъра
● Скриптове за прехващане
GoogleBot паяци
● Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
● Mediapartners-Google - AdSense бот
● Googlebot-Image (Google) Googlebot-Image/1.0 - imagesbot
meta robots
● <meta name="robots" content="all"/> - индексирай всичко
● <meta name="robots" content="noindex"/> - не индексирай текст
● <meta name="robots" content="nofollow"/> - не гледай връзките
● <meta name="robots" content="none"/> = <meta name="robots" content="
noindex, nofollow"/>
● <meta name="robots" content="noarchive"/> - не кеширай
● <meta name="robots" content="noodp"/> - не използвай описание от
DMOZ в снипета
● <meta name="robots" content="none"/> = <meta name="robots" content="
noindex, follow"/>
robots.txt
не е правило, а препоръка.
robots.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Забрана за индексация
User-agent: *
Disallow: /
Разрешено за индексация
User-agent: *
Disallow:
User Agents
Google Googlebot
Yahoo Yahoo! Slurp
Bing bingbot
Robots.txt
Sitemap
* - всяка последователност
Грешки в robots.txt
Празен User-Agent
Грешен content-type на файла: Content-Type: text/plain
https://support.google.com/webmasters/answer/156449?hl=en
Как да НЕ използваме Robots.txt
Да затваряме дублирано съдържание
Да затваряме папка с картинки
Да затваряме админа
HTTP headers X-Robots-Tag
header(’X-Robots-Tag: noindex, nofollow’,
true);
Оператори на Google Search
https://support.google.com/websearch/answer/136861?hl=bg
● “фразово търсене” - точно съвпадение (текстова зона: title,description, text, menu)
● -търсене - резултати, които не съдържат думата. -”за фрази“
● site:domain.com - индекс на домейна, търсене в индексна база
● * - вмъкни произволна дума. Пример: "стани * * балкански", има разлика с "стани * балкански"
Оператори на Google Search
.. - числов диапазон: числа, дата, цени. фотоапарат 500..1000
info:www.apollobg.com/майски-празници - снипет на лендинг страницата
Оператори на Google Search
cache:www.apollobg.com/майски-празници - кеширана версия на документа
Версия само с текст - погледнете как изглежда сайта за googlebot.
Разширени оператори
intitle:q търсене в title, дума, “за фрази”
allintitle:q1+q2+... търсене на и q1, и q2 и … в един title
inurl:q търсене на стринг в url-адреса на документа, “за фрази”
allinurl:q1+q2+... търсене на и q1, и q2 и … в един url
filetype:pdf, docx,doc,jpg,png…
~ - синоними (не работи след Колибри)
Lifehack за оператори
директно в бара на Google Chrome
Работа с оператори
site:example.com
site:example.com/folder
site:sub.example.com
site:example.com inurl:www
site:example.com -inurl:www
site:example.com -inurl:www -inurl:dev -inurl:shop
site:example.com inurl:https
site:example.com inurl:param
site:example.com -inurl:param
site:example.com text goes here
site:example.com “text goes here”
site:example.com/folder “text goes here”
Работа с оператори
site:example.com this OR that
site:example.com “top * ways”
site:example.com “top 7..10 ways”
site:example.com ~word
site:example.com ~word -word
site:example.com intitle:”text goes here”
site:example.com intitle:”text * here”
intitle:”text goes here”
“text goes here” -site:example.com
site:example.com intext:”text goes here”
site:example.com ”text goes here” -intitle:"text goes here"
site:example.com filetype:pdf
site:.edu “text goes here”
Отново дублирано съдържание
Как да го открием?
Задача:
www/non-www
index.html, index.htm, index.php
един url в различни категории
динамични адреси
липса на коректна 404
допълнителни параметри в url (?sort_id, ?srch, ?per_page)
ref-линкове
test, def, dev версиите
стари методи за споделяне: версия за печат/pdf
мултиезични дублажи
смяна на url
Днес съм робот!
Netpeak Spider
http://netpeak.net/software/netpeak-spider/
безплатен
мощен
решава много задачи
Индекс на сайта
Задача: как да извадим списък с всички индексирани страници?
Решение:
● Netpeak Spider Scan Type Google - списък всички url-и с всички данни за тях
● rds бар (firefox, chrome) ctrl+y на serp-а - само списък url-и
Решения за дублирано
съдържание
www/non-www (redirect 301 + GWT)
index.html, index.htm, index.php… (301, canonical)
един url в различни категории (cms)
динамични адреси (site/index.php?cat=128&prod=14513) и сесии (sef-url, 301, cms)
липса на коректна 404 (cms)
допълнителни параметри в url (?sort_id, ?srch, ?per_page) (canonical)
ref-линкове (canonical, 301)
test, def, dev версиите (meta robots noindex)
стари методи за споделяне: версия за печат/pdf (rel=nofollow на връзките, canonical, robots.txt)
странициране (rel next/prev, meta robots noindex,follow)
мултиезични дублажи (cms, rel=alternate hreflang=X)
смяна на url (301)
SEO на картинки
● име на файла и alt таг
● текст около снимката
● линкове към снимката
SEO на картинки
● име на файла и alt таг
<img src=”http://site.com/images/turcia-2014-pochivka-bodrum.jpg” alt=”
почивка в турция 2014 бодрум снимка”>
не е ок:
alt=”почивка”
alt=”2014”
SEO на картинки
● име на файла и alt таг
keyword-opisanie-na-snimkata-stranicata.jpg
не е ок
IMG3081234.jpg
“турция почивка в бодрум 2014.jpg”
SEO на картинки
● линкове към картинките с релевантен на околокартинков текст анкор
● размер: поне 300 px на най-малката страна
● jpg, png, gif
● без автоматичен resize
● exif!
sitemap.xml
<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://site.com/</loc>
<lastmod>2009-11-18T08:12:32+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
...
<url>
<loc>http://site.com/htmlcss/internet-shop-gallery.html</loc>
<lastmod>2009-11-13T14:38:43+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>
</urlset>
sitemap.xml ограничения
Не повече от 10МБ
Не повече от 50 000 url-и
Основни задачи
Индексиране на url-и:
● sitemap.xml
● динамична схема за налинкване
● ръчно добавяне в google webmaster
● линкове
● google+
Влияние на crawling budget
● Ясна структура
● Скорост на зареждането
● Забрана за индексация на “мръсни” страници
● забрана за индексация на дубли
● динамично налинкване
● липса на http грешки
Основни причини за липса на
индексирането
● хостинга е блокирал робота
● 5** грешки при извличане на
страниците
● грешки в robots
● бавно зареждане
● popup
● много реклама
● качество на съдържанието
● нива на вложеност
● дубли в индекса (Panda)
Learn more about internet marketing
OnPage SEO

OnPage SEO

  • 1.
  • 2.
    Геннадий Воробьов ● Лекторв DM&SEO курса на СофтУни ● CEO на Netpeak Bulgaria ● проповядвам [SEO и PPC на настоящето] за клиентските проекти ● проповядвам качествено обучение на младите кадри ● лектор на специализирани събития в България ● организатор и участник на безплатните уебинари на Netpeak ● представител на инструмента за анализ на ключови думи Prodvigator.bg ● представител кол-трекинг система Ringostat за България. Аз съм
  • 3.
    План 1. Server responsecodes 2. Скорост на зареждането 3. Индексиране на страници 4. Изображения 5. Дублиране на страниците 6. Robots.txt 7. Sitemap.XML 8. Google Webmaster Tools 9. SEO Checklist
  • 4.
    HTTP Headers, Serverresponse codes HTTP Headers https://chrome.google.com/webstore/detail/http-headers/hplfkkmefamockhligfdcfgfnbcdddbg Chrome Live HTTP Headers https://addons.mozilla.org/ru/firefox/addon/live-http-headers/ - Firefox http://headers.cloxy.net/
  • 5.
    кодове HTTP status 1xx:Informational — заявката е получена, разбрана, продължава обработката ● 2xx: Success — заявката е получена, разбрана и обработена ● 3xx: Redirection — за да се изпълни заявката трябва да се предприемат необходимите действия ● 4xx: Client Error — заявката е с грешен синтаксис и не може да се обработи ● 5xx: Server Error — сървърът не може да получи и изпълни заявката
  • 6.
    200 OK Заявката еполучена и обработена успешно
  • 7.
    301 Moved Permanently ПоисканURI вече не се използва на сървъра, заявката не е изпълнена. Ново място на документа се посочва в хедъра Location
  • 8.
    302 Moved Temporarily URIе преместено, но временно.
  • 9.
    404 Not Found Нее намерен
  • 10.
    408 сървърът не евърнал целият отговор за определено време. Връзката прекъсната от паяка.
  • 11.
    500 (Internal ServerError) Най-вероятно, грешка в .htaccess файла.
  • 12.
    Как да проверим? 1.browser add-on 2. Google Webmaster Tools (след индексацията) 3. Spiders, Checkers (преди индексацията)
  • 13.
  • 14.
  • 15.
    Как се проверява? 1.https://developers.google. com/speed/pagespeed/insights/ 2. http://gtmetrix.com/
  • 16.
  • 17.
    Как да проследявамеботове ● Webmaster Panels ● Логове на сървъра ● Скриптове за прехващане
  • 18.
    GoogleBot паяци ● Mozilla/5.0(compatible; Googlebot/2.1; +http://www.google.com/bot.html) ● Mediapartners-Google - AdSense бот ● Googlebot-Image (Google) Googlebot-Image/1.0 - imagesbot
  • 19.
    meta robots ● <metaname="robots" content="all"/> - индексирай всичко ● <meta name="robots" content="noindex"/> - не индексирай текст ● <meta name="robots" content="nofollow"/> - не гледай връзките ● <meta name="robots" content="none"/> = <meta name="robots" content=" noindex, nofollow"/> ● <meta name="robots" content="noarchive"/> - не кеширай ● <meta name="robots" content="noodp"/> - не използвай описание от DMOZ в снипета ● <meta name="robots" content="none"/> = <meta name="robots" content=" noindex, follow"/>
  • 20.
    robots.txt не е правило,а препоръка.
  • 21.
    robots.txt User-agent: * Disallow: /cgi-bin/ Disallow:/tmp/ Забрана за индексация User-agent: * Disallow: / Разрешено за индексация User-agent: * Disallow:
  • 22.
    User Agents Google Googlebot YahooYahoo! Slurp Bing bingbot
  • 23.
    Robots.txt Sitemap * - всякапоследователност
  • 24.
    Грешки в robots.txt ПразенUser-Agent Грешен content-type на файла: Content-Type: text/plain https://support.google.com/webmasters/answer/156449?hl=en
  • 25.
    Как да НЕизползваме Robots.txt Да затваряме дублирано съдържание Да затваряме папка с картинки Да затваряме админа
  • 26.
  • 27.
    Оператори на GoogleSearch https://support.google.com/websearch/answer/136861?hl=bg ● “фразово търсене” - точно съвпадение (текстова зона: title,description, text, menu) ● -търсене - резултати, които не съдържат думата. -”за фрази“ ● site:domain.com - индекс на домейна, търсене в индексна база ● * - вмъкни произволна дума. Пример: "стани * * балкански", има разлика с "стани * балкански"
  • 28.
    Оператори на GoogleSearch .. - числов диапазон: числа, дата, цени. фотоапарат 500..1000 info:www.apollobg.com/майски-празници - снипет на лендинг страницата
  • 29.
    Оператори на GoogleSearch cache:www.apollobg.com/майски-празници - кеширана версия на документа Версия само с текст - погледнете как изглежда сайта за googlebot.
  • 30.
    Разширени оператори intitle:q търсенев title, дума, “за фрази” allintitle:q1+q2+... търсене на и q1, и q2 и … в един title inurl:q търсене на стринг в url-адреса на документа, “за фрази” allinurl:q1+q2+... търсене на и q1, и q2 и … в един url filetype:pdf, docx,doc,jpg,png… ~ - синоними (не работи след Колибри)
  • 31.
  • 32.
    Работа с оператори site:example.com site:example.com/folder site:sub.example.com site:example.cominurl:www site:example.com -inurl:www site:example.com -inurl:www -inurl:dev -inurl:shop site:example.com inurl:https site:example.com inurl:param site:example.com -inurl:param site:example.com text goes here site:example.com “text goes here” site:example.com/folder “text goes here”
  • 33.
    Работа с оператори site:example.comthis OR that site:example.com “top * ways” site:example.com “top 7..10 ways” site:example.com ~word site:example.com ~word -word site:example.com intitle:”text goes here” site:example.com intitle:”text * here” intitle:”text goes here” “text goes here” -site:example.com site:example.com intext:”text goes here” site:example.com ”text goes here” -intitle:"text goes here" site:example.com filetype:pdf site:.edu “text goes here”
  • 34.
    Отново дублирано съдържание Какда го открием? Задача: www/non-www index.html, index.htm, index.php един url в различни категории динамични адреси липса на коректна 404 допълнителни параметри в url (?sort_id, ?srch, ?per_page) ref-линкове test, def, dev версиите стари методи за споделяне: версия за печат/pdf мултиезични дублажи смяна на url
  • 35.
    Днес съм робот! NetpeakSpider http://netpeak.net/software/netpeak-spider/ безплатен мощен решава много задачи
  • 37.
    Индекс на сайта Задача:как да извадим списък с всички индексирани страници? Решение: ● Netpeak Spider Scan Type Google - списък всички url-и с всички данни за тях ● rds бар (firefox, chrome) ctrl+y на serp-а - само списък url-и
  • 38.
    Решения за дублирано съдържание www/non-www(redirect 301 + GWT) index.html, index.htm, index.php… (301, canonical) един url в различни категории (cms) динамични адреси (site/index.php?cat=128&prod=14513) и сесии (sef-url, 301, cms) липса на коректна 404 (cms) допълнителни параметри в url (?sort_id, ?srch, ?per_page) (canonical) ref-линкове (canonical, 301) test, def, dev версиите (meta robots noindex) стари методи за споделяне: версия за печат/pdf (rel=nofollow на връзките, canonical, robots.txt) странициране (rel next/prev, meta robots noindex,follow) мултиезични дублажи (cms, rel=alternate hreflang=X) смяна на url (301)
  • 39.
    SEO на картинки ●име на файла и alt таг ● текст около снимката ● линкове към снимката
  • 40.
    SEO на картинки ●име на файла и alt таг <img src=”http://site.com/images/turcia-2014-pochivka-bodrum.jpg” alt=” почивка в турция 2014 бодрум снимка”> не е ок: alt=”почивка” alt=”2014”
  • 41.
    SEO на картинки ●име на файла и alt таг keyword-opisanie-na-snimkata-stranicata.jpg не е ок IMG3081234.jpg “турция почивка в бодрум 2014.jpg”
  • 42.
    SEO на картинки ●линкове към картинките с релевантен на околокартинков текст анкор ● размер: поне 300 px на най-малката страна ● jpg, png, gif ● без автоматичен resize ● exif!
  • 43.
    sitemap.xml <?xml version=”1.0″ encoding=”UTF-8″?> <urlsetxmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″> <url> <loc>http://site.com/</loc> <lastmod>2009-11-18T08:12:32+00:00</lastmod> <changefreq>weekly</changefreq> <priority>1.0</priority> </url> ... <url> <loc>http://site.com/htmlcss/internet-shop-gallery.html</loc> <lastmod>2009-11-13T14:38:43+00:00</lastmod> <changefreq>weekly</changefreq> <priority>0.9</priority> </url> </urlset>
  • 44.
    sitemap.xml ограничения Не повечеот 10МБ Не повече от 50 000 url-и
  • 45.
    Основни задачи Индексиране наurl-и: ● sitemap.xml ● динамична схема за налинкване ● ръчно добавяне в google webmaster ● линкове ● google+
  • 46.
    Влияние на crawlingbudget ● Ясна структура ● Скорост на зареждането ● Забрана за индексация на “мръсни” страници ● забрана за индексация на дубли ● динамично налинкване ● липса на http грешки
  • 47.
    Основни причини залипса на индексирането ● хостинга е блокирал робота ● 5** грешки при извличане на страниците ● грешки в robots ● бавно зареждане ● popup ● много реклама ● качество на съдържанието ● нива на вложеност ● дубли в индекса (Panda)
  • 48.
    Learn more aboutinternet marketing