Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Автоматическая
геоклассификация вебсайтов

Иван Бегтин
DPLabs
Зачем это нужно?
   Области применения
Области применения

1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для
   других алгоритм...
Основы
геоклассификации
   Термины и онтология
Основы геоклассификации

1. Геометки - тематическая привязка сайта к
  определенному географическому положению
2. Геосправ...
Виды геометок

1. Местонахождение - где находится домен/
  IP адрес хостинга
2. Владение - где находится владелец
3. Аудит...
Местонахождение
        Как используется
•   Отвечает на вопрос: Где расположен
    сайт?
•   Определяется по принадлежнос...
Владение
         Как используется
•   Отвечает на вопрос: Где находится владелец сайта?
•   Определяется по контактным да...
Аудитория
        Как используется
•   Отвечает на вопрос: Где находятся посетители сайта?
•   Определяется по :
     – по...
Тематика
      Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тек...
Подготовка к
классификации
 Работа со справочниками
Справочники и классификаторы
•   База LIRов (IPGeobase)
•   База почтовых индексов РФ
•   Телефонные коды городов (ABC код...
Нормализация справочников
• Нормализация справочников проводится для
  сайтов относящихся только к Рунету
• Все справочник...
Геопризнаки
Работа со справочниками
Виды геопризнаков
•   Адреса, включая почтовые индексы
•   Телефонные номера – городские и мобильные
•   Ключевые слова в ...
Классификация
 Работа со справочниками
Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в
  рамках DPLabs в рамках исследований по
  географической и...
Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков
   на его страницах и связанных с ним информа...
Вопросы?

      Иван Бегтин
      Email: ibegtin@dplabs.ru
      Сайт: http://ivan.begtin.name
Upcoming SlideShare
Loading in …5
×

Website Geotargeting (russian)

1,450 views

Published on

Автоматическая Геоклассификация веб сайтов.

Иван Бегтин

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Website Geotargeting (russian)

  1. 1. Автоматическая геоклассификация вебсайтов Иван Бегтин DPLabs
  2. 2. Зачем это нужно? Области применения
  3. 3. Области применения 1. Региональный поиск 2. Обогащение интернет каталогов 3. Дополнительные данные для других алгоритмов классификации* * Например, при выявлении SEO ссылок или определения геопривязки email адресов.
  4. 4. Основы геоклассификации Термины и онтология
  5. 5. Основы геоклассификации 1. Геометки - тематическая привязка сайта к определенному географическому положению 2. Геосправочники – справочники и классификаторы для выявления геометок 3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении
  6. 6. Виды геометок 1. Местонахождение - где находится домен/ IP адрес хостинга 2. Владение - где находится владелец 3. Аудитория – откуда приходят посетители, какие посетители привлекаются 4. Тематика – какой теме посвящен веб-сайт
  7. 7. Местонахождение Как используется • Отвечает на вопрос: Где расположен сайт? • Определяется по принадлежности домена и IP адреса хостинга Ограничения • Не применимо к бесплатным хостингам • Не применимо к сайтам скрытым за CDN
  8. 8. Владение Как используется • Отвечает на вопрос: Где находится владелец сайта? • Определяется по контактным данным владельца: – в WHOIS – на страницах веб-сайта Ограничения • WHOIS данные недоступны для большинства доменов 3-го уровня • Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений
  9. 9. Аудитория Как используется • Отвечает на вопрос: Где находятся посетители сайта? • Определяется по : – по геопривязке IP адресов посетителей сайта – по регистрационным данным в онлайн каталогах – по языку веб сайта (в случае национальных языков РФ) Ограничения • Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru • Небольшое число сайтов в онлайн каталогах
  10. 10. Тематика Как используется • Отвечает на вопрос: О чем написано на веб сайте? • Определяется по ключевым словам в тексте страниц сайта Ограничения • Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц • Разные типы сайтов могут иметь более одной геопривязки
  11. 11. Подготовка к классификации Работа со справочниками
  12. 12. Справочники и классификаторы • База LIRов (IPGeobase) • База почтовых индексов РФ • Телефонные коды городов (ABC коды) • Телефонные коды сотовых операторов (DEF коды) • Справочник СОУН (база налоговых органов) • База юридических лиц РФ • База кредитных учреждений РФ • База ключевых слов/фраз/регулярных выражений геотематики • Классификация доменов – По географическим доменам – По ключевым словам в названиях – По типовым шаблонам в названиях доменов • множество других…
  13. 13. Нормализация справочников • Нормализация справочников проводится для сайтов относящихся только к Рунету • Все справочнику приводятся к единому рубрикатору на базе КЛАДР • Обязательный уровень детализации – субъект РФ • Допустимый уровень детализации – муниципальные образования и города регионального значения
  14. 14. Геопризнаки Работа со справочниками
  15. 15. Виды геопризнаков • Адреса, включая почтовые индексы • Телефонные номера – городские и мобильные • Ключевые слова в тексте • Аббревиатуры и сокращения • Коды ИНН, КПП, ОГРН • Коды расчетных счетов + БИК
  16. 16. Классификация Работа со справочниками
  17. 17. Текущий статус • Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов • Классифицировано около 20 000 сайтов • Ведется работа по построению онтологии геоклассификации
  18. 18. Как это работает 1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах 2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам 3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес. 4. Результат состоит из двух отчетов: – детальный отчет со всеми правилами и метками – суммарный отчет по совокупности числа правил и меток учитывая их вес
  19. 19. Вопросы? Иван Бегтин Email: ibegtin@dplabs.ru Сайт: http://ivan.begtin.name

×