Sphinx. Построение                 распределенного                     сервера       Борисенко Евгений       Системный адм...
Зачем? Для чего? Как?©2012. QuartSoft Corp.        www.quartsoft.com
Кто ближе всех....Семейство Apache Lucene             Sphinx search engineИндекс: инкрементный индекс, но     Индекс: моно...
Что подчеркнули...системой полнотекстового поиска.взаимодействия с реляционными базамиданных и скриптовыми языкамипрогра...
Sphinxsearch.com    Самые большие:    Infegy.com - 9 миллиардов документов в      Sphinx.    Boardreader.com a forum > 16 ...
Работа одноуровнего Sphinx-                  сервера                 Веб приложение                  Сервер Sphinx©2012. Q...
Проблема  1.Индекс может разрушиться...  2.Веб сервер остался без данных...  3.На восстановление требуется    время...©201...
Работа распределенного                      Sphinx сервера                 Веб приложение                  Сервер Sphinx  ...
Критерии создания   распределенного индекса:   •     количество обработанных файлов;   •     суммарный размер обработанных...
Время полного восстановления. Затраченное время.(ч.)                          Количество шардов (ед.)©2012. QuartSoft Corp...
Хитрости   Сервер   • должен существовать локальный     индекс той же структуры (пустой);   • Запись подключения agent’а  ...
Конфигурационные файлы                         sphinx-сервера   source vf_transcriptions {                                ...
Конфигурационные файлы               дочерних sphinx-серверов source vf_transcriptions {                index ind_vf_trans...
http://sphinxsearch.com/info/webinar/    April 25th, 2012 - Relevance Ranking Explained   Вопросы? Спасибо!   Евгений Бори...
Upcoming SlideShare
Loading in...5
×

Sphinx: распределяя индексы.

1,412

Published on

"Sphinx: распределяя индексы."
Евгений Борисенко, системный администратор, QuartSoft.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,412
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
17
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Sphinx: распределяя индексы.

  1. 1. Sphinx. Построение распределенного сервера Борисенко Евгений Системный администратор компании «КвартСофт» vjik@quartsoft.com©2012. QuartSoft Corp. www.quartsoft.com
  2. 2. Зачем? Для чего? Как?©2012. QuartSoft Corp. www.quartsoft.com
  3. 3. Кто ближе всех....Семейство Apache Lucene Sphinx search engineИндекс: инкрементный индекс, но Индекс: монолитный + дельта-требующий операции слияния индекс, возможностьсегментов распределѐнного поискаAPI и протоколы: Java API API и протоколы: SQL DB, встроенная поддержка MySQLРазмер индекса и скорость и PostgreSQL, собственный XML-поиска: около 20 Мб/минута, размер интерфейс, встроенные API дляиндексных файлов ограничен 2 Гб РНР, Ruby, Python, Java, Perl(на 32-bit ОС). Есть возможности Размер индекса и скоростьпараллельного поиска по поиска: оченьнескольким индексам и быстрый, индексация около 10кластеризация (требует сторонних Мб/сек, поиск около 0.1 сек/~2 — 4платформ) Гб индексе, поддерживает размеры индекса в сотни Гб иURL: http://lucene.apache.org/ сотни миллионов документов URL: http://sphinxsearch.com©2012. QuartSoft Corp. www.quartsoft.com
  4. 4. Что подчеркнули...системой полнотекстового поиска.взаимодействия с реляционными базамиданных и скриптовыми языкамипрограммирования.возможности распределѐнного поиска икластеризации.очень высокая скорость индексации и поиска©2012. QuartSoft Corp. www.quartsoft.com
  5. 5. Sphinxsearch.com Самые большие: Infegy.com - 9 миллиардов документов в Sphinx. Boardreader.com a forum > 16 миллиардов документов другими словами около 5 Тб в 38 шардах. Самые загруженные: Craigslist.org, (сайт обявлений) около 200,000,000 миллионов запросов/день, - это примерно 2300 запросов/секунду.©2012. QuartSoft Corp. www.quartsoft.com
  6. 6. Работа одноуровнего Sphinx- сервера Веб приложение Сервер Sphinx©2012. QuartSoft Corp. www.quartsoft.com
  7. 7. Проблема 1.Индекс может разрушиться... 2.Веб сервер остался без данных... 3.На восстановление требуется время...©2012. QuartSoft Corp. www.quartsoft.com
  8. 8. Работа распределенного Sphinx сервера Веб приложение Сервер Sphinx 1 2 n©2012. QuartSoft Corp. www.quartsoft.com
  9. 9. Критерии создания распределенного индекса: • количество обработанных файлов; • суммарный размер обработанных файлов; • дисковое пространство занимаемое индексами; • общее время восстановления индекса.©2012. QuartSoft Corp. www.quartsoft.com
  10. 10. Время полного восстановления. Затраченное время.(ч.) Количество шардов (ед.)©2012. QuartSoft Corp. www.quartsoft.com
  11. 11. Хитрости Сервер • должен существовать локальный индекс той же структуры (пустой); • Запись подключения agent’а содержит индекс и дельта-индекс; Шарды • имена индексов и дельта-индексов должны совпадать с именами agent’а (не source блока).©2012. QuartSoft Corp. www.quartsoft.com
  12. 12. Конфигурационные файлы sphinx-сервера source vf_transcriptions { index ind_vf_transcriptions { type = xmlpipe2 source = vf_transcriptions xmlpipe_field = title path = /var/lib/sphinx/vf_transcriptions xmlpipe_field = description ... ..... } } index main { type = distributed local = ind_vf_transcriptions agent = 192.168.1.2:9312:ind_vf_transcriptions,ind_vf_transcriptions_delta agent = 192.168.1.3:9312:ind_vf_transcriptions,ind_vf_transcriptions_delta ... agent_connect_timeout = 2000 agent_query_timeout = 10000 } searchd { listen= 192.168.1.1:9312 ... }©2012. QuartSoft Corp. www.quartsoft.com
  13. 13. Конфигурационные файлы дочерних sphinx-серверов source vf_transcriptions { index ind_vf_transcriptions_delta : type = xmlpipe2 ind_vf_transcriptions{ xmlpipe_command = run_same_script source= vf_transcriptions_delta xmlpipe_field = title path = /var/sphinx/vf_transcriptions_delta ... ... } } index ind_vf_transcriptions { searchd { source = vf_transcriptions listen= 192.168.1.2:9312 path= /var/sphinx/vf_transcriptions ... ... } } source vf_transcriptions_delta : vf_transcriptions { xmlpipe_command = run_same_DELTA_script ... }©2012. QuartSoft Corp. www.quartsoft.com
  14. 14. http://sphinxsearch.com/info/webinar/ April 25th, 2012 - Relevance Ranking Explained Вопросы? Спасибо! Евгений Борисенко Системный администратор компании «КвартСофт» vjik@quartsoft.com©2012. QuartSoft Corp. www.quartsoft.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×