Автоматический геокодинг

1,138 views

Published on

Автоматический гео-кодинг для новостей. Yahoo Placemaker для русского языка

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,138
On SlideShare
0
From Embeds
0
Number of Embeds
88
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Автоматический геокодинг

  1. 1. Geocoding – методы получения гео-координат изновостных потоков<br />Выполнил: Баклыков Денис Григорьевич<br />denis.baklikov@gmail.com<br />Научный руководитель: Намиот Дмитрий Евгеньевич<br />dnamiot@abavanet.ru<br />
  2. 2. Известные аналоги<br />Яндекс.Новости<br />Lenta.ru<br />GeoNames.org<br />База данных гео-объектов<br />8 миллионов записей<br />Yahoo GeoPlanet<br />Поиск гео-объектов по критериям<br />Альтернативные названия<br />2<br />
  3. 3. Требования к системе<br />Выявление описания гео-объектов в новостных потоках (RSS, Atom)<br />Прозрачная конвертация RSS лент в GeoRSS<br />Обеспечение высокой производительности системы<br />3<br />
  4. 4. Трудности реализации<br />Сложность обработки данных<br />большой размер БД, нагрузка на сервер <br />Нет открытых алгоритмовпоиска гео-объектов<br />Поддержка множества подписчиков<br />Нет единой базы гео-объектов<br />Различные варианты названия гео-объектов<br />4<br />
  5. 5. Исходные данные<br />5<br />Верхний угол<br />Центр<br />Нижний угол<br />
  6. 6. Архитектура<br />Распределённая система<br />База данных<br />Гео-объекты, альтернативные названия<br />Исторические данные новостных потоков<br />Кластеризация системы<br />Горизонтальная – дополнительные «ноды»<br />Вертикальная – наращивание мощности сервера<br />6<br />
  7. 7. Реализация<br />7<br />
  8. 8. Определение гео-объектов по маске<br />Пример:<br />Ключевые слова для поиска:<br />Маска:<br />Результат поиска:<br />8<br />В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева<br />улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро<br />(.*?) (улиц*|ул.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.»<br />Метро Университет, улица Лебедева<br />
  9. 9. Определение гео-объектов по словарю<br />Пример с предлогом:<br />Без предлога:<br />Маска:<br />Результат:<br />9<br />На Тверской стояли десятки военных машин, ожидая команды начала парада<br />Неглинная за последние 10 лет очень сильно изменилась<br />([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы<br />Тверской, Неглинная<br />
  10. 10. Заключение<br />Реализована система, позволяющая:<br />Определять около 90% гео-объектов<br />Скорость обработки текста ~ 10KB/s (на 1 узле)<br />Адрес проекта: geo-rss-demo.appspot.com<br />Дальнейшее развитие<br />Поиск по области<br />История новостей в заданной области<br />10<br />
  11. 11. Спасибо за внимание!<br />Ваши вопросы<br />11<br />Денис Баклыков<br />

×