Автоматический геокодинг
Upcoming SlideShare
Loading in...5
×
 

Автоматический геокодинг

on

  • 1,081 views

Автоматический гео-кодинг для новостей. Yahoo Placemaker для русского языка

Автоматический гео-кодинг для новостей. Yahoo Placemaker для русского языка

Statistics

Views

Total Views
1,081
Views on SlideShare
1,004
Embed Views
77

Actions

Likes
0
Downloads
1
Comments
0

2 Embeds 77

http://oit-lab.blogspot.com 75
http://oit-lab.blogspot.ru 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Автоматический геокодинг Автоматический геокодинг Presentation Transcript

  • Geocoding – методы получения гео-координат изновостных потоков
    Выполнил: Баклыков Денис Григорьевич
    denis.baklikov@gmail.com
    Научный руководитель: Намиот Дмитрий Евгеньевич
    dnamiot@abavanet.ru
  • Известные аналоги
    Яндекс.Новости
    Lenta.ru
    GeoNames.org
    База данных гео-объектов
    8 миллионов записей
    Yahoo GeoPlanet
    Поиск гео-объектов по критериям
    Альтернативные названия
    2
  • Требования к системе
    Выявление описания гео-объектов в новостных потоках (RSS, Atom)
    Прозрачная конвертация RSS лент в GeoRSS
    Обеспечение высокой производительности системы
    3
  • Трудности реализации
    Сложность обработки данных
    большой размер БД, нагрузка на сервер
    Нет открытых алгоритмовпоиска гео-объектов
    Поддержка множества подписчиков
    Нет единой базы гео-объектов
    Различные варианты названия гео-объектов
    4
  • Исходные данные
    5
    Верхний угол
    Центр
    Нижний угол
  • Архитектура
    Распределённая система
    База данных
    Гео-объекты, альтернативные названия
    Исторические данные новостных потоков
    Кластеризация системы
    Горизонтальная – дополнительные «ноды»
    Вертикальная – наращивание мощности сервера
    6
  • Реализация
    7
  • Определение гео-объектов по маске
    Пример:
    Ключевые слова для поиска:
    Маска:
    Результат поиска:
    8
    В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева
    улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро
    (.*?) (улиц*|ул.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.»
    Метро Университет, улица Лебедева
  • Определение гео-объектов по словарю
    Пример с предлогом:
    Без предлога:
    Маска:
    Результат:
    9
    На Тверской стояли десятки военных машин, ожидая команды начала парада
    Неглинная за последние 10 лет очень сильно изменилась
    ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы
    Тверской, Неглинная
  • Заключение
    Реализована система, позволяющая:
    Определять около 90% гео-объектов
    Скорость обработки текста ~ 10KB/s (на 1 узле)
    Адрес проекта: geo-rss-demo.appspot.com
    Дальнейшее развитие
    Поиск по области
    История новостей в заданной области
    10
  • Спасибо за внимание!
    Ваши вопросы
    11
    Денис Баклыков