SlideShare a Scribd company logo
Ссылки в нормативных
     документах
      Сбор и хранение
СПС «Право.ру»


• более 9 миллионов документов
• +10 000 документов / день
Проблемы

• фидеральный зокон
• ФЗ о федзаконе
• документы меняются
• разная структура документов
Требования

• быстрый отклик на запросы
• большое количество ссылок
• Хранение дополнительных данных для
  сложных запросов
Задачи


• Как собрать?
• Как хранить и использовать?
Сборка ссылок


• Нормализуем текст
• Поиск документа
• Поиск уточнения в документе
Исходный текст

    Согласно пп 1 пункта 2 ст.17
ФЗ РФ «О крабах», медведи не имеют
     права голоса на выборах.
Нормализуем

Согласно [подпункт 1] [пункта 2] [статьи
 17] [Федеральный Закон] [Российской
 Федерации] [«О крабах»], медведи не
    имеют права голоса на выборах.
Склеиваем

[подпункт 1 пункта 2 статьи 17
Федеральный Закон Российской
   Федерации «О крабах»]
Поиск

   Тип: Федеральный Закон
Регион: Российская Федерация
    Заголовок: «О крабах»
Поиск уточнений
подпункт 1 пункта 2 статьи 17
  SELECT id FROM entities
          WHERE
     types = «13,16,17»
            AND
    num_path = «1,2,17»
            AND
  tons_of_optimization_shit
Хранение

• Neo4j
• OQGraph
• OrientDB
• HyperGraphDB
• MySQL + Sphinx
Решение

• MySQL - хранение ссылок
• Sphinx
 • Индекс ссылок в документе
 • Индекс счетчика ссылок на документ
Итоги


• Ссылки в документах
• Связанные документы
• Автоподборка юр.практики
Вопросы?
     Андрей Суббота
   subbota@gmail.com
http://twitter.com/numbata

More Related Content

What's hot

Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
Ivan Begtin
 
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014it-people
 
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"
Yandex
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDBIurii Ogiienko
 
Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»
DevDay
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияPenguin Tux
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
GooVape
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay SamokhvalovPostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
Nikolay Samokhvalov
 
Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"Polina Fomina
 
Что такое ЭДО в 1С
Что такое ЭДО в 1СЧто такое ЭДО в 1С
Что такое ЭДО в 1С
1C-KPD
 
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERPМойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Oleg Alexeev
 
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Yandex
 
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
Елена Кузовкина
 
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
Елена Кузовкина
 
Сергей Пузанков — XML
Сергей Пузанков — XMLСергей Пузанков — XML
Сергей Пузанков — XMLYandex
 
SEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVOSEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVO
Vladislav Morgun
 
Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4
Gleb Lebedev
 

What's hot (19)

Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
 
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDB
 
Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
 
Dropbox
DropboxDropbox
Dropbox
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay SamokhvalovPostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
 
Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"
 
Что такое ЭДО в 1С
Что такое ЭДО в 1СЧто такое ЭДО в 1С
Что такое ЭДО в 1С
 
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERPМойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
 
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
 
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
 
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
 
Сергей Пузанков — XML
Сергей Пузанков — XMLСергей Пузанков — XML
Сергей Пузанков — XML
 
SEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVOSEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVO
 
Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4
 

Viewers also liked

Debbug Rails Application For Dummies
Debbug Rails Application For DummiesDebbug Rails Application For Dummies
Debbug Rails Application For DummiesAndrey Subbota
 
Vim or die
Vim or dieVim or die
Vim or die
Ivan Evtukhovich
 
Errbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшенеErrbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшенеAndrey Subbota
 
Build system
Build systemBuild system
Build system
Andrey Subbota
 
Chef коротко об инфраструктуре
Chef коротко об инфраструктуреChef коротко об инфраструктуре
Chef коротко об инфраструктуреAndrey Subbota
 
Git для продолжающих
Git для продолжающихGit для продолжающих
Git для продолжающихIvan Evtukhovich
 

Viewers also liked (6)

Debbug Rails Application For Dummies
Debbug Rails Application For DummiesDebbug Rails Application For Dummies
Debbug Rails Application For Dummies
 
Vim or die
Vim or dieVim or die
Vim or die
 
Errbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшенеErrbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшене
 
Build system
Build systemBuild system
Build system
 
Chef коротко об инфраструктуре
Chef коротко об инфраструктуреChef коротко об инфраструктуре
Chef коротко об инфраструктуре
 
Git для продолжающих
Git для продолжающихGit для продолжающих
Git для продолжающих
 

Ссылки в нормативных документах

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n