Building the search engine: from thorns to stars

•Download as PPTX, PDF•

0 likes•110 views

In the company I have built search engine based on ElasticSearch and distributed system of data import. I would like to share my experience and speak about the following topics: – What the search engine is and why it’s needed? – What platforms exist to choose from? – ElasticSearch and its capabilities. – How to ensure continuous data flow? – Maintenance of data consistency. – Reduce to a minimum effort needed for search extension. – Lessons learned.

Engineering

Building the search
engine from thorns to
stars

14+ years of experience
Many different products
Like new technologies
Several attempts in
search area

What to choose?
FULL-TEXT
SEARCH
SCALABILITY SIMPLE
QUERIES

ElasticSearch
Scalability
Optimize settings
Simple query w/o joins
Fault tolerance
RESTful api
Based on Lucene

Lucene:
reverted index
Terms grouped by
documents
Quick search

Search
system
parameters
Single index
130+ fields
4 logical types
Denormalized
Indexing
4 threads per 3
minutes
Change of data
every 15 seconds
Auto sharding
STG и PROD are on the same
cluster

Cluster
configuration
Nodes: 3
(master / data)
RAM: 8 Gb
HDD: 100 Gb
CPU: 4 Core
Shards = 5 + 5 + 5

Import Data
Receive
Split into
packages
Send to
ElasticSearch

Lucene:
Segments
Segment – immutable
Operations: create &
delete
Removed segments are
excluded from the search
«Merge segments»

Mistakes
Huge index size
Frequent changes
Search though all shards

ElasticSearch:
Relationships
Data denormalization
Nested objects
Parent-Child
Application-side joins

Parent - Child
Every type is a document
Type’s independence
Specify types in search
Parallel type indexing
Reduced size of segments

Search index structure
Player Data General
Lifetime
Sensitive
Personalization

Search query
Query Filter
Sort by PlayerID Score not needed

Autosharding
1 2 3 4
Application
Shards
Search though all the
shards
Aggregation of results
Overhead
1 2 3 4
Application
Search though all the
shards
Aggregation of results
Overhead

Routing
1 2 3 4
Application
Shards
Execute search on
specified shards
Merge of results takes less
time
Reduce traffic whithin
response

Uneven distributionShards
Size
Increase disk size
Add new nodes
into cluster

Data flow
Scheduler
Import
Merge segments
Migrated players
Manual re-index
CommandData

Issue: Frequent
data change
Creation
only
Reduce
data
stream

Import data
stream
Get changed
data
Split data into
packages
Send packages
into
ElasticSearch
Commit /
Rollback of
package
Save max
obtained date
into Scheduler

Monitoring:
Levels
Server Service
Cluster Node

Monitoring:
Server
CPU
RAM
Ping
I/O
Free disk space

Monitoring:
Service
Count of processes of
Elasticsearch
Used memory
Ping for specific
application ports

Monitoring:
Cluster
Status
Nodes in cluster
Unassigned shards

Monitoring: Node
Memory
Allocated
Used
Used / Allocated %
File system
Total
Free
Used
Queue pools
Executed
Active
Refused

Cluster
configuration
Nodes: 3
(master/data)
RAM: 32GB HDD:
100GB
CPU: 4
core
Shards =
6 + 6

Current index statistics
Size ~ 20.27 Gb
Documents:
~ 57.77 млн
Sements: 46

Data
integrity
Continuous data flow
Deletion of data when
routing parameter was
changed

Optimization
Change
index
structure
Routing
Regular
merge
segments
Indexing
more
important
1 CPU per 1
Shard

Important
lessons
The first
impression
is deceptive
Monitoring
Prolonged
stress test
How NOT to
do
Tuning -
endless
process

What’s
next
Balancing nodes
Index settings optimization
Move to ElasticSearch 6.0
Move to Kafka (instead of
Rabbit MQ)

What’s next:
Elasticsearch
6.0
Sparse doc values
Index sorting
Better shard recovering

Materials
Articles
https://www.elastic.co/guide/index.html
https://www.zdnet.com/article/elasticsearch-6-0.../
https://stackify.com/elasticsearch-tutorial/
http://www.linkedkeeper.com/97.html
https://habr.com/post/280488/
Optimization
https://blog.usejournal.com/7-things-to-consider.../
https://www.loggly.com/blog/nine-tips-configuring.../
https://www.oreilly.com/ideas/10-elasticsearch-metrics-
to-watch
https://codingexplained.com/tag/elasticsearch
Expert
Kyle Kingsberry
https://aphyr.com/tags/jepsen
https://jepsen.io/
Blogs
https://www.elastic.co/blog
https://blog.insightdatascience.com/anatomy-of...
https://www.cubrid.org/blog/our-experience...

Questions
FB: http://fb.com/andrey.vinda
Email: vindaav@gmail.com
Skype: vinda.andrew

What's hot

Solr4 nosql search_server_2013

Lucidworks (Archived)

Sumo Logic - Optimizing Your Search Experience (2016-08-17)

Sumo Logic

Dev411

guest2130e

Flink Community Update 2015 June

Márton Balassi

Your Big Data Stack is Too Big!: Presented by Timothy Potter, Lucidworks

Lucidworks

Sumo Logic QuickStart Webinar

Sumo Logic

Document Summarizer

Aditya Lunawat

While AEM Solr Search provides a framework for indexing and searching content within AEM, it does not address other real-world use cases such as indexing and searching content external to AEM (i.e. products). Secondly, it assumes that the final indexable AEM document will be produced entirely by AEM. This is often not the case, as advanced search applications typically need to enrich the document prior to indexing using external data sources. In this talk we will extend the AEM Solr Search reference architecture to include document processing capabilities using Apache Camel. As an example, two real-world use cases will be provided: 1) ingesting an external product data set via Apache Camel into a shared Solr instance and delivering the results via AEM, and 2) enriching AEM content with analytics and ratings data for the purpose of applying popularity boosting.

Consuming External Content and Enriching Content with Apache Camel

therealgaston

How Rackspace Cloud Monitoring uses Cassandra

gdusbabek

The Query Service is the new platform solution for querying a variety of data sources. The goal of Query Service is that administrators can configure a metadata description of the data source that can then be used by end users without detailed knowledge of the underlying data source. This session explains how to configure Query Service data sources and use them with the RESTful API or component collection.

(ATS6-PLAT04) Query service

BIOVIA

hbaseconasia2019 Phoenix Improvements and Practices on Cloud HBase at Alibaba

Michael Stack

Introduction to Lucene and Solr - 1

YI-CHING WU

Solr中国6月21日企业搜索

longkeyy

Journey of Implementing Solr at Target: Presented by Raja Ramachandran, Target

Lucidworks

SharePoint Search Topology and Optimization

Mike Maadarani

Azure search

Raju Kumar

Presented by Andrzej Bialecki, LucidWorks This session presents a set of Solr components for easy management of "sidecar indexes" - indexes that extend the main index with additional stored and / or indexed fields. Conceptually this can be viewed as an extension of the ExternalFileField or as a static join between documents from two collections. This functionality is useful in applications that require very different update regimes for the two parts of the index (e.g. main catalogue items combined with clickthroughs).

Andrzej bialecki lr-2013-dublin

lucenerevolution

HighLoad++ 2017 Зал «Рио-де-Жанейро», 7 ноября, 13:00 Тезисы: http://www.highload.ru/2017/abstracts/2923.html Alibaba built up a data warehouse service named HybridDB in its public cloud service, based on the open sourced Greenplum Database. And it keeps on enhancing HybridDB's preformance. This presentation will talk about how Alibaba improves HybridDB's performance for columnar tables with data block's meta data (MIN/MAX values of block data) and sort keys (pre-defined keys that data will be sorted and stored with). Testing result shows that, block metadata can be generated on-the-fly without much overhead, but can achive better performance even than index scan. With sort keys, a constant response time can be archived for GROUP-BY and ORDER-BY queries.

Columnar Table Performance Enhancements Of Greenplum Database with Block Meta...

Ontico

Simple Fuzzy Name Matching in Solr: Presented by Chris Mack, Basis Technology

Lucidworks

Cassandra Day Chicago 2015: Top 5 Tips/Tricks with Apache Cassandra and DSE

DataStax Academy

What's hot (20)

Solr4 nosql search_server_2013

Sumo Logic - Optimizing Your Search Experience (2016-08-17)

Dev411

Flink Community Update 2015 June

Your Big Data Stack is Too Big!: Presented by Timothy Potter, Lucidworks

Sumo Logic QuickStart Webinar

Document Summarizer

Consuming External Content and Enriching Content with Apache Camel

How Rackspace Cloud Monitoring uses Cassandra

(ATS6-PLAT04) Query service

hbaseconasia2019 Phoenix Improvements and Practices on Cloud HBase at Alibaba

Introduction to Lucene and Solr - 1

Solr中国6月21日企业搜索

Journey of Implementing Solr at Target: Presented by Raja Ramachandran, Target

SharePoint Search Topology and Optimization

Azure search

Andrzej bialecki lr-2013-dublin

Columnar Table Performance Enhancements Of Greenplum Database with Block Meta...

Simple Fuzzy Name Matching in Solr: Presented by Chris Mack, Basis Technology

Cassandra Day Chicago 2015: Top 5 Tips/Tricks with Apache Cassandra and DSE

Similar to Building the search engine: from thorns to stars

Taking Splunk to the Next Level - Architecture Breakout Session

Splunk

ALM Search Presentation for the VSS Arch Council

Sunita Shrivastava

Are you outgrowing your initial Splunk deployment? Is Splunk becoming mission critical and you need to make sure it's Enterprise ready? Attend this session led by Splunk experts to learn about taking your Splunk deployment to the next level. Learn about Splunk high availability architectures with Splunk Search Head Clustering and Index Replication. Additionally, learn how to manage your deployment with Splunk’s operational and management controls to manage Splunk capacity and end user experience.

Taking Splunk to the Next Level – Architecture

Splunk

SQLlite and Full Text Search Presentation

leximo

Getting Started with Splunk

Splunk

Elasticsearch from the trenches

Jai Jones

5 multi-instance management

sqlserver.co.il

Web scale MySQL at Facebook (Domas Mituzas)

Ontico

Expert summit SQL Server 2016

Łukasz Grala

Practical SQL query monitoring and optimization Today the project owners demand results as soon as possible and most often - for yesterday. Time to market is crucial and it is practical to deliver bit-by-bit, get feedback and grow with the number of your customers. But as the project grows, the team does too and not all have the same expertise. As well rarely in the beginning the requirements clear enough to allow performance-wise SQL interaction. In most cases there does not exist an ORM that can solve this task for you and you will need to have hard T-SQL writer in the team. If you already know this story or are going this way then in this practical session we will share how to monitor, measure and optimize your SQL code and DB layer interaction.

Practical SQL query monitoring and optimization

Ivo Andreev

Taking Splunk to the Next Level - Architecture Breakout Session

Splunk

Unifying your data management with Hadoop

Jayant Shekhar

What is force.com?

Roy Gilad

The talk presents a new technique of realtime single entity information extraction and investigation. The technique eliminates regular refresh and persistence of data within the search engine (ETL), providing real-time access to source data and improving response times using in-memory data techniques. The solution presented is a concrete solution with live customers, based upon real business needs. I will explain the architectural overview, the technology stack used based on Apache Lucene library, the accomplished results and how to scale out the solution.

Search on the fly: how to lighten your Big Data - Simona Russo, Auro Rolle - ...

Codemotion

Black Friday and Cyber Monday- Best Practices for Your E-Commerce Database

Tim Vaillancourt

TCC14 tour hague optimising workbooks

Mrunal Shridhar

This session is for you if you want to learn tips and techniques that are used to optimize database development with special emphasis on SQL Server 2005. If you write lot of stored procedures and want to learn the tools of a DBA, this is the session for you. If you are new to SQL Server development environment, you will learn how the various constructs compare to each other and better performance can be produced every time with a brief introduction to understanding Execution Plans.

Sql Server Performance Tuning

Bala Subra

Two presentation from the Michigan Information Retrieval Enthusiasts Group Meetup on August 19 by Cengage Learning search platform development team. Scaling Performance Tuning With Lucene by John Nader discusses primary performance hot spots related to scaling to a multi-million document collection. This includes the team's experiences with memory consumption, GC tuning, query expansion, and filter performance. Discusses both the tools used to identify issues and the techniques used to address them. Relevance Tuning Using TREC Dataset by Rohit Laungani and Ivan Provalov describes the TREC dataset used by the team to improve the relevance of the Lucene-based search platform. Goes over IBM paper and describe the approaches tried: Lexical Affinities, Stemming, Pivot Length Normalization, Sweet Spot Similarity, Term Frequency Average Normalization. Talks about Pseudo Relevance Feedback.

Michigan Information Retrieval Enthusiasts Group Meetup - August 19, 2010

ivan provalov

Mapping Data Flows Perf Tuning April 2021

Mark Kromer

How do you determine whether your MongoDB Atlas cluster is over provisioned, whether the new feature in your next application release will crush your cluster, or when to increase cluster size based upon planned usage growth?  MongoDB Atlas provides over a hundred metrics enabling visibility into the inner workings of MongoDB performance, but how do apply all this information to make capacity planning decisions? This presentation will enable you to effectively analyze your MongoDB performance to optimize your MongoDB Atlas spend and ensure smooth application operation into the future.

MongoDB World 2019: Finding the Right MongoDB Atlas Cluster Size: Does This I...

MongoDB

Similar to Building the search engine: from thorns to stars (20)

Taking Splunk to the Next Level - Architecture Breakout Session

ALM Search Presentation for the VSS Arch Council

Taking Splunk to the Next Level – Architecture

SQLlite and Full Text Search Presentation

Getting Started with Splunk

Elasticsearch from the trenches

5 multi-instance management

Web scale MySQL at Facebook (Domas Mituzas)

Expert summit SQL Server 2016

Practical SQL query monitoring and optimization

Taking Splunk to the Next Level - Architecture Breakout Session

Unifying your data management with Hadoop

What is force.com?

Search on the fly: how to lighten your Big Data - Simona Russo, Auro Rolle - ...

Black Friday and Cyber Monday- Best Practices for Your E-Commerce Database

TCC14 tour hague optimising workbooks

Sql Server Performance Tuning

Michigan Information Retrieval Enthusiasts Group Meetup - August 19, 2010

Mapping Data Flows Perf Tuning April 2021

MongoDB World 2019: Finding the Right MongoDB Atlas Cluster Size: Does This I...

Recently uploaded

5G and 6G refer to generations of mobile network technology, each representin...

archanaece3

Tembisa Central Terminating Pills +27838792658 PHOMOLONG Top Abortion Pills F...

drjose256

Passive Air Cooling System and Solar Water Heater.ppt

amrabdallah9

SLIDESHARE PPT-DECISION MAKING METHODS.pptx

CHAIRMAN M

engineering chemistry power point presentation

sj9399037128

Independent Solar-Powered Electric Vehicle Charging Station

siddharthteach18

handbook on reinforce concrete and detailing

AshishSingh1301

Welcome to my portfolio! I'm Maher Othman, an accomplished Interior Design Director with a passion for creating captivating spaces that blend functionality with aesthetics. With eighteen years of experience in the industry, I've had the privilege of leading diverse projects across residential, commercial, and hospitality sectors. At the heart of my approach lies a commitment to understanding the unique needs and aspirations of my clients. I believe that every space has a story to tell, and it's my mission to translate those narratives into immersive environments that resonate with both occupants and visitors alike. With a keen eye for detail and a flair for innovation, I strive to push the boundaries of design while adhering to practical considerations and budgetary constraints. Whether it's revitalizing outdated interiors, conceptualizing cutting-edge office spaces, or curating luxurious residential retreats, I approach each project with enthusiasm and dedication. Throughout my career, I've cultivated a collaborative mindset, working closely with clients, architects, contractors, and artisans to bring visions to life. From initial concept development to final implementation, I prioritize clear communication, meticulous planning, and seamless execution to ensure the success of every endeavor. In this portfolio, I invite you to explore a curated selection of my most notable projects, each offering a glimpse into my design philosophy, creative process, and commitment to excellence. From striking visual transformations to thoughtful spatial arrangements, I hope these examples inspire and resonate with you. Thank you for considering my work. I look forward to the opportunity to collaborate on your next design venture and bring your vision to fruition. Warm regards, Maher Othman Interior Design Director

Maher Othman Interior Design Portfolio..

MaherOthman7

8th International Conference on Soft Computing, Mathematics and Control (SMC 2024) will provide an excellent international forum for sharing knowledge and results in theory, methodology and applications impacts and challenges of Soft Computing, Mathematics and Control. The conference documents practical and theoretical results which make a fundamental contribution for the development of Soft Computing, Mathematics and Control. The aim of the conference is to provide a platform to the researchers and practitioners from both academia as well as industry to meet and share cutting-edge development in the field.

8th International Conference on Soft Computing, Mathematics and Control (SMC ...

josephjonse

Exploring AI's Impact: Key Features in Due Diligence In the realm of due diligence, AI emerges as a game-changer, revolutionizing traditional methods with its advanced features. AI-powered algorithms excel in data analysis, swiftly sifting through vast amounts of information for crucial insights. Automation streamlines document review processes, ensuring accuracy and efficiency. Moreover, AI enables predictive analytics, forecasting potential risks and opportunities with precision. With machine learning capabilities, AI continuously improves its performance, adapting to evolving trends and patterns. By integrating AI into due diligence practices, businesses gain a competitive edge, maximizing efficiency and making informed decisions swiftly. AI in due diligence is not just a tool; it's a transformational force driving businesses into the future. https://www.leewayhertz.com/ai-in-due-diligence/

Artificial Intelligence in due diligence

mahaffeycheryld

Diploma Engineering Drawing Qp-2024 Ece .pdf

JNTUA

Working Principle of Echo Sounder and Doppler Effect.pdf

SkNahidulIslamShrabo

Basics of Relay for Engineering Students

kannan348865

21scheme vtu syllabus of visveraya technological university

Mohd Saifudeen

In this study, using the fuzzy logic method, a stress detection tool was created with body temperature and blood pressure parameters as indicators to determine a person's stress level. This tool uses the LM35DZ sensor to detect body temperature, the MPX5100GP sensor to read blood pressure values, and Arduino Uno as a data processor from sensor readings which are then calculated using the fuzzy logic method as a stress level decisionmaker. The resulting output measures blood pressure, body temperature, and the stress level experienced by a person, which will be displayed on the liquid crystal display. Based on the results of testing the body temperature parameter, the highest error generated was 1.17%, and for the blood pressure parameter, the highest error was 2.5% for systole and 0.93% for diastole. Furthermore, testing the stress level displayed on the tool is compared to the depression, anxiety, and stress scales 42 (DASS 42), a psychological stress measuring instrument. From the results of testing the tool with the questionnaire, the average conformity level is 74%.

Fuzzy logic method-based stress detector with blood pressure and body tempera...

IJECEIAES

Interfacing Analog to Digital Data Converters ee3404.pdf

ragupathi90

The project entitled as “Insurance Management System” is developed in a manner to help all the Insurance Agency Members. It is developed using Visual Basic 6.0 as Front-End and MS Access as the Back-End tool. The system is designed in such a way that it accepts and stores the input data, process and produce output under the direction of a detailed step by step stored programmed instruction. This system includes Client Dairy, Client Details, Add new Client, Policy Details and Payment Details information’s and gives details based on the policy Number of the client. This system is necessary for Storing Information, assessing Workload and hence their efficiency. The System provides the adequate information to the concern for its smooth run.

Insurance management system project report.pdf

Kamal Acharya

It is a new concept in town planning, and it may have a highly positive impact on cities and communities. It not only promotes sustainability but also helps increase the health of people and boost the economy. Although it has a lot of advantages, critics argue that this concept is not for all cities and describe its effects as well. New cities should follow this pattern to build and develop their cities

15-Minute City: A Completely New Horizon

Morshed Ahmed Rahath

Involute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdf

JNTUA

Intro to Design (for Engineers) at Sydney Uni

R. Sosa

Recently uploaded (20)

5G and 6G refer to generations of mobile network technology, each representin...

Tembisa Central Terminating Pills +27838792658 PHOMOLONG Top Abortion Pills F...

Passive Air Cooling System and Solar Water Heater.ppt

SLIDESHARE PPT-DECISION MAKING METHODS.pptx

engineering chemistry power point presentation

Independent Solar-Powered Electric Vehicle Charging Station

handbook on reinforce concrete and detailing

Maher Othman Interior Design Portfolio..

8th International Conference on Soft Computing, Mathematics and Control (SMC ...

Artificial Intelligence in due diligence

Diploma Engineering Drawing Qp-2024 Ece .pdf

Working Principle of Echo Sounder and Doppler Effect.pdf

Basics of Relay for Engineering Students

21scheme vtu syllabus of visveraya technological university

Fuzzy logic method-based stress detector with blood pressure and body tempera...

Interfacing Analog to Digital Data Converters ee3404.pdf

Insurance management system project report.pdf

15-Minute City: A Completely New Horizon

Involute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdf

Intro to Design (for Engineers) at Sydney Uni

Building the search engine: from thorns to stars

1. Building the search engine from thorns to stars

2. 14+ years of experience Many different products Like new technologies Several attempts in search area

3. Business

4. Business

5. Users

7. Issues. Part I

8. Issues. Part II

9. Does anybody want to have such system?

10. What business wants

11. Technical requirements

12. What to choose? FULL-TEXT SEARCH SCALABILITY SIMPLE QUERIES

13.

14. Search engines rating

15. ElasticSearch Scalability Optimize settings Simple query w/o joins Fault tolerance RESTful api Based on Lucene

16. ElasticSearch: Structure

17. Lucene: reverted index Terms grouped by documents Quick search

18. First try

23. Search system parameters Single index 130+ fields 4 logical types Denormalized Indexing 4 threads per 3 minutes Change of data every 15 seconds Auto sharding STG и PROD are on the same cluster

24. Cluster configuration Nodes: 3 (master / data) RAM: 8 Gb HDD: 100 Gb CPU: 4 Core Shards = 5 + 5 + 5

25. Data Flow

26. Scheduler

27. Scheduler

28. Import Data Receive Split into packages Send to ElasticSearch

29. Ready to Start!

30. Out of Memory exception

31.

32. Lucene: Segments Segment – immutable Operations: create & delete Removed segments are excluded from the search «Merge segments»

33. Mistakes Huge index size Frequent changes Search though all shards

34. ElasticSearch: Relationships Data denormalization Nested objects Parent-Child Application-side joins

35. Parent - Child Every type is a document Type’s independence Specify types in search Parallel type indexing Reduced size of segments

36. Search index structure Player Data General Lifetime Sensitive Personalization

37. Search query Query Filter Sort by PlayerID Score not needed

38. Autosharding 1 2 3 4 Application Shards Search though all the shards Aggregation of results Overhead 1 2 3 4 Application Search though all the shards Aggregation of results Overhead

39. Routing 1 2 3 4 Application Shards Execute search on specified shards Merge of results takes less time Reduce traffic whithin response

40. Uneven distributionShards Size Increase disk size Add new nodes into cluster

41. Player changes operator

42. Removed segments

43. Data flow Scheduler Import Merge segments Migrated players Manual re-index CommandData

44. Issue: Frequent data change Creation only Reduce data stream

45. Import data stream Get changed data Split data into packages Send packages into ElasticSearch Commit / Rollback of package Save max obtained date into Scheduler

46. Should update data?

47. Getting of next data portion

48. Monitoring

49. Monitoring: Levels Server Service Cluster Node

50. Monitoring: Server CPU RAM Ping I/O Free disk space

51. Monitoring: Service Count of processes of Elasticsearch Used memory Ping for specific application ports

52. Monitoring: Cluster Status Nodes in cluster Unassigned shards

53. Monitoring: Node Memory Allocated Used Used / Allocated % File system Total Free Used Queue pools Executed Active Refused

54. Cluster configuration Nodes: 3 (master/data) RAM: 32GB HDD: 100GB CPU: 4 core Shards = 6 + 6

55. Current index statistics Size ~ 20.27 Gb Documents: ~ 57.77 млн Sements: 46

56. More than year in PROD. No incidents!

57. Data integrity Continuous data flow Deletion of data when routing parameter was changed

58. What more important: INDEX or SEARCH

59. Optimization Change index structure Routing Regular merge segments Indexing more important 1 CPU per 1 Shard

60. Important lessons The first impression is deceptive Monitoring Prolonged stress test How NOT to do Tuning - endless process

61. What’s next Balancing nodes Index settings optimization Move to ElasticSearch 6.0 Move to Kafka (instead of Rabbit MQ)

62. What’s next: Elasticsearch 6.0 Sparse doc values Index sorting Better shard recovering

63. Materials Articles https://www.elastic.co/guide/index.html https://www.zdnet.com/article/elasticsearch-6-0.../ https://stackify.com/elasticsearch-tutorial/ http://www.linkedkeeper.com/97.html https://habr.com/post/280488/ Optimization https://blog.usejournal.com/7-things-to-consider.../ https://www.loggly.com/blog/nine-tips-configuring.../ https://www.oreilly.com/ideas/10-elasticsearch-metrics- to-watch https://codingexplained.com/tag/elasticsearch Expert Kyle Kingsberry https://aphyr.com/tags/jepsen https://jepsen.io/ Blogs https://www.elastic.co/blog https://blog.insightdatascience.com/anatomy-of... https://www.cubrid.org/blog/our-experience...

64. Questions FB: http://fb.com/andrey.vinda Email: vindaav@gmail.com Skype: vinda.andrew

Editor's Notes

Добрый день. Полагаю, что из многие из нас смотрят сериалы. И часто при просмотре мы слышим фразу «1 икс Бет. Ставки на спорт». Сегодня мы поговорим о ставках, но других!
Я – Андрей Винда. За плечами более 14 лет опыта в разработке ПО. Последние два года я работаю в компании SBTech на позиции ТимЛида. Давайте поговорим о бизнесе нашей компании.
В каждой стране есть люди, которые хотят заработать деньги, делая ставки на спорт. Мы называем их игроками. А наша компания дает им такую возможность.
Компания работает в двух сферах: B2B и B2C. Своих клиентов компания называет «операторами». Оператор – это владелец сайта ставок. Существует огромное множество операторов. В нашей компании на текущий момент зарегистрировано боле 250 операторов.
В системе есть два вида пользователей: Агенты Игроки Агенты – это представители операторов, которые имеют возможность просматривать разного вида отчеты, информацию по игрокам, поиск игроков по разнообразным параметрам и их комбинациям. С другой стороны есть игроки, которые заходят на сайт, просматривают события, делают ставки, изменяют свою информацию и так далее. Я расскажу вам какой поисковый движок мы выбрали, как организовали постоянный поток данных, с какими трудностями столкнулись и как пришли к рабочей версии. Как 2 года назад был организован поиск игроков. Это была грусть-печаль!
А мы имели мы следующее. Примитивный графический интерфейс, где фильтры были беспорядочно добавлены и размещены. Весь поиск производился силами MS SQL. Из-за этого у нас были следующие проблемы при поиске.
Полнотекстовый поиск крайне медлителен (LIKE) и возможен не для всех полей При указании периода поиска 6 месяцев и более – система работала стабильно и предсказуемо! Она зависала и выдавала ошибку: Timeout. Это было вследствие того, что система была вынуждена произвести фильтрацию среди более чем 20 миллионов записей. Скорость поиска низкая и ВСЕГДА зависит от нагрузки на БАЗУ! Далее.
Главные сложности и ограничения реляционных БД. Агрегация на лету JOINS Масштабируемость (можно, но сложно и дорого)
Такая система была неконкурентоспособна. Поэтом вместе с бизнесом были сформированы следующие требования.
Одно поле ввода – поиск по многим полям Полнотекстовый поиск по всем текстовым полям Ускорить поиск Возможность задания больших периодов
Что же тут главное. Первое, Масштабируемость. Второе, поиск должен быть очень быстрым Третье, возможность указания больших периодов (более 2-х лет) И последнее, Не Облачное решение. Этот пункт связан с особенностью бизнеса. По требованиям многих регуляторов, беттинговые системы должны хоститься в стране, в которой они работают. Ну ладно, требования у нас есть. С чего начать?
Итак, нам нужен супер быстрый поисковой движок, который из коробки поддерживает полнотекстовый поиск, масштабируемость, простые запросы без JOINS
Мы сразу же остановили свой взгляд на Эластике, т.к. это фактически стандарт в мире поисковых систем.
Даже рейтинг поисковых систем показывает, что Эластик - впереди планеты всей. Elasticsearch используют такие компании, как Netflix, StackOverflow, LinkedIn, Barclays, Facebook и многие другие
Вот его основные возможности: Масштабируемость и отказоустойчивостьElasticsearch действительно легко масштабируется. К уже имеющейся системе можно на ходу добавлять новые сервера, и поисковый движок сможет сам распределить на них нагрузку. При этом данные будут распределены таким образом, что при отказе какой-то из нод они не будут утеряны и сама поисковая система продолжит работу без сбоев. В Elasticsearch есть огромное количество настроек, с помощью которых можно увеличить производительность элатика при поиске, фильтрации и агрегации Elasticsearch практически полностью управляется по HTTP с помощью запросов в формате JSON Рассмотрим вкратце структуру Эластика
Есть кластер, состоящий из нод. Каждая нода – это сервер, на котором запущен Elasticsearch. Каждая нода состоит из шардов. Шард – это фактически инвертированный индекс Lucene.
Зная теперь, что за зверь этот Elasticsearch мы начали разработку.
Так как любой продукт встречают по одежке, то мы решили обратить наше внимание на очень важный момент. А именно, на Визуальный интерфейс. Он был ужасен! Мы взялись за его переделку и вот что вышло!
Для удобства использования наверх были вынесены самые часто используемые фильтры, а ниже все фильтры сгруппированы по категориям. Также Smart Search – это как раз то самое поле, значение которого ищется сразу по нескольким полям (имеется ввиду вхождение или полное совпадение)
Теперь у пользователя системы есть возможность задания любых фильтров
в любых комбинациях.
Теперь давайте посмотрим, как изменилась структура поисковой системы
Мы использовали денормализированный тип отношений, всего у нас был 1 индекс, в котором было более 130 полей. Было оставлено автошардирование, а индексация проходила в 5 потоков с небольшим временным зазором между каждым. Конфигурация кластера была следующая.
Это конфигурация Эластика по умолчанию. У нас 3 ноды, каждая имеет 8 Gb оперативной памяти, 100 Gb дискового пространства и 4 ядра. Шардов всего 15. Наполнение данных было устроено весьма просто.
Взяли данные из базы и если хотя бы одно из полей в таблице было изменено - отправляли их в Эластик. Процесс индексации был построен на базе нашего собственного планировщика задач.
При разработке планировщика были использованы следующие технологии. А используются они следующим образом. RabbitMQ – канал коммуникации Quartz.NET – запуск задач по расписанию Dapper – легковесная ORM для чтения данных из БД Nest – официальный .NET клиент для работы с Elasticsearch Давайте рассмотрим схему работы планировщика.
Конфигурацию всех задач храним в отдельной базе Задачи запускаются по расписанию (Quartz.NET) Планировщик общается с исполнителями через RabbitMQ Схема работы перекачки данных выглядит достаточно просто. А именно.
Получаем данные Разбиваем их на пакеты Отправляем пакеты в Эластик И так, пока не перегоним все данные. Наше решение прошло тестирование. Все работало как положено, и мы решили идти на продакшн
Все работало как часы. Но ровно 2 месяца Потом случилась беда!
На сервере Эластика закончилось место. Счет шел на минуты. Мы отключили индексацию на STG, чтобы выиграть немного времени. Работа системы была под угрозой. В любой момент все могло рухнуть. Слава Богу, что не рухнуло! Начинался трудный путь к успеху.
Никто из нас не знал, что делать. Единственный выход – освоить теорию. Чем мы с вами сейчас и займемся. Так как Эластик основан на Lucene, то давайте рассмотрим следующие его особенности.
Индекс состоит из множества сегментов. Сегмент – это неизменяемая единица В Lucene есть всего две операции – создание нового документа и удаление старого Хотя на самом деле вместо удаления документа соответствующие сегменты помечаются как удаленные. При этом они физически занимают место и память, но не участвуют в поиске! Когда сегменты занимают в памяти максимально позволенный объем (MergeFactor) – запускается процедура слияния сегментов. Идеально иметь один сегмент! Таким образом отпадает необходимость объединять и ранжировать результаты с нескольких сегментов. Основываясь на этих фактах, были определены допущенные нами основные ошибки.
Это: Огромный размер индекса Частые обновления данныхПроблема заключается как раз в том, что документы в этом индексе часто изменяются. Это приводит к большому количеству удаленных сегментов и занимаемой при этом памяти. О скорости поиска при таком раскладе говорить не приходиться.Эластик не предназначен для частых изменений данных, но ищет он все равно очень быстро. Поиск сразу по всем шардамэто вследствие того, что мы использовали автошардирование. Начался поиск путей решения! Что же можно сделать с таким большим размером индекса? Каким-то образом его надо разбить на несколько. Чтобы определить варианты изменения индекса, посмотрим какие же типы отношений между объектами предлагает Эластик.
Денормализированные Вложенные Родитель – Ребенок На уровне приложения Проанализировав каждый тип, мы остановились на Родитель – Ребенок. Он давал нам следующие преимущества.
Во-первых, при изменении структуры одного типа необходимо переиндексировать документы только этого типа. Во-вторых, можно оптимизировать поисковый запрос, указав конкретные типы для поиска. В-третьих, возможность параллельной индексации всех или нескольких типов. В-четвертых, при частых изменениях документов имеем меньший размер удаленных сегментов Используя этот тип отношений, структура поискового индекса изменилась следующим образом
Название нашего индекса PlayerData. И в этом индексе несколько типов: General, Lifetime, Sensitive и Personalization. Родитель в данном случае – это General, а остальные являются его детьми
Также мы занялись оптимизацией поиска и вот что сделали. Т.к. у нас сортировка всегда происходит по идентификатора игрока, а не по высчитываемому Elastic’ом рейтингу, то мы перешли от Query к Filter. Это позволило нам помочь Эластику НЕ делать лишних движений. Итак, поиск мы немного улучшили. Но можно ли сделать, что-то еще. Оказывается да. Шардирование как раз и является волшебной пилюлей.
При встроенном шардировании, когда ElasticSearch обрабатывает поисковый запрос, то он не знает на каких шардах стоит искать и потому производит поиск на всех шардах. После этого результаты поиска со всех шардов сливаются, сортируются и выдаются в качестве результата. При таком подходе накладные расходы могут легко повлиять на производительность. Если же при выполнения поискового запроса указать Elasticsearch на каких шардах производить поиск – то можно существенно уменьшить накладные расходы.
Для ускорения работы поиска было решено использовать собственный аргумент шардирования. В нашем случае им стал идентификатор оператора. Так как при поиске мы всегда указываем конкретных операторов, то данное решение выглядит весьма логичным. При таком подходе Эластик будет производить поиск только на указанных шардах. При собственном шардировании возникает одна ситуация.
Из-за того, что мы распределяем игроков по их принадлежности к оператору, может так выйти, что на каком-то шарде данных больше, чем на других. Такое может произойти, если игроки двух или более больших операторов будут помещены в один шард. Такую возможность надо держать в уме. И при наступлении критического размера это можно будет решить двумя способами: Увеличении размера диска Добавление в кластер новых нод Нам оставалось решить еще несколько проблем.
Во-первых, что делать, когда игрок меняет оператора? Из-за того, что Эластик не позволяет изменить для созданного документа шард был создан специальный исполнитель, который обнаруживал таких игроков и удалял их из старых шардов, а потом добавлял данные игрока на новые шарды.
Во-вторых, как быстрее избавиться от удаленных сегментов?У Эластика есть специальная команда, когда начинает процесс слияния сегментов. Не поверите, но она называется optimize Мы пользуемся ей с завидной регулярностью. Теперь наполнение Эластика выглядит следующим образом.
Вроде все хорошо, но есть одно НО. Как уменьшить поток данных и отправлять в Эластик данные, которые действительно изменились?
Надо было решить проблему с частыми изменениями данных. Совсем избавиться от частых изменений мы не могли. Хранить данные с учетом временного фактора – мы не могли, т.к. данные изменяются постоянно, но предугадать это невозможно. Как уменьшить поток данных и отправлять в Эластик данные, которые действительно изменились?
Для этих целей мы создали новый алгоритм, который позволяет нам определять действительно ли изменились данные у игрока, которые мы храним в Эластике.
Для этого мы вычисляем ContentHash на основании полученных данных игрока. Если вычисленный хеш совпадает с уже отправленными в Эластик данными – то они исключаются из пакета.
После проверки данных по всем игрокам, данные которых изменились, пакет отправляется в Эластик. Если пакет принят успешно, то вычисленный Хеш сохраняется как последний отправленный по игроку. Таким образом в Эластик отправляются данные, которые действительно нужно там изменить.
Как же можно понять, что наша система будет в работоспособном состоянии по прошествии нескольких дней, недель, месяцев. Для этих целей нам подойдет постоянный мониторинг показателей нашей поисковой системы. Какие же это показатели?
Все показатели мы разделили на несколько уровней, чтобы в случае проблемы понимать, куда бежать и что делать. Давайте рассмотрим каждый из уровней.
Нижний уровень мониторинга — железо и базовые метрики, такие же, какие собираются с любого сервера. А именно: Загрузка процессорных ядер; Использование памяти; Пинг до сервера и время отклика; i/o по дисковой подсистеме; Остаток свободного места на дисках
Уровень повыше, но мониторинг всё такой же стандартный: Количество запущенных процессов сервиса elasticsearch; Используемая сервисом память; Пинг до порта приложения (стандартные порты elasticsearch/kibana — 9200/9300/5601). Если любая из метрик упала в ноль — это, означает что приложение упало, либо зависло, и немедленно вызывается алерт.
Общие метрики состояния кластера. Самые важные из них это:status — принимает одно из значений: green/yellow/red. Green — всё хорошо; yellow — какие-то шарды отсутствуют/инициализируются, но оставшихся кластеру достаточно, чтобы собраться в консистентное состояние; red — всё плохо, каким-то индексам не хватает шардов до 100% целостности, беда, трагедия, алерт.Общее количество нод в кластере. Полезно мониторить их изменение, потому что иногда случаются ситуации, когда какая-то из нод залипла под нагрузкой и вывалилась из кластера, но потребляет ресурсы и держит порт открытым. Влияет на целостностность кластера. Количество не назначенных шард. Значение метрики не равное нулю — это очень плохой признак. Либо из кластера выпала нода, либо не хватает места для размещения, либо какая-то другая причина и нужно незамедлительно разбираться.
Общие метрики состояния ноды. Самые важные из них это: Память. Elasticsearch хранит в оперативной памяти каждой дата-ноды индексную часть каждого шарда, принадлежащего этой ноде для осуществления поиска. Регулярно приходит сборщик и очищает неиспользуемые пулы памяти. Через некоторое время, если данных на ноде много и они перестают помещаться в память, сборщик выполняет очистку всё дольше и дольше, пытаясь найти то, что вообще можно очистить, вплоть до полного stop the world. А из-за того, что кластер Elasticsearch работает со скоростью самой медленной дата-ноды, залипать начинает уже весь кластер. Есть еще одна причина следить за памятью —после 4-5 часов в состоянии jvm.mem.heap_used_percent > 95% падение процесса становится неизбежным. Файловая система: метрики по дисковому пространству, доступному каждой ноде. Если значение приближается к watermark.low — аларм. Пулы очередей: стоит особо отметить отказы на добавление данных. Рост этого показателя — очень плохой признак, который показывает, что эластику не хватает ресурсов для приёма новых данных. Бороться, без добавления железа в кластер, сложно
Теперь же, конфигурацию Эластика мы определил сами.Увеличили память и место, что было с запасом. Количество шардов рассчитали по формуле 1 Шард = 1 Ядро. Изменения, все вместе взятые, дали заметный прогресс.
Время открывать шампанское и отмечать успех! Что же обеспечило успешный результат?
Целостность данных В нашем случае это был набор задач, которые регулярно выполнялись и делали следующие действия: Непрерывный импорт данных Удаление данных при изменении параметра шардирования
Индексация или поиск Поиск важен. Но индексация важнее. Без новых / измененных данных поиск будет приносить больше вреда, чем пользы. Т.к. задачи по расписанию запускаются каждые 3 минуты, то имеет смысл новые / измененные данные адаптировать для поиска.
Изменение структуры индекса Шардирование Регулярный запуск слияний сегментов Заточка на индексацию 1 Шард на 1 Ядро
Настройка по умолчанию для Elasticsearch может сыграть злую шутку с вами. Когда Elastic настроен по умолчанию – то кажется что все отлично работает. В этом основное отличие от других систем, где сразу видны проблемы при недостаточной настройке. Elastic же работает до поры до времени, а потом приходит боль! Мониторинг! Это очень важно! Тренироваться, прогонять настройку системы в течение длительного времени при большой нагрузке, чтобы понимать, готова ли система к таким нагрузкам. Как не надо делать: Мы использовали единственный индекс, в котором определили более 130 полей. Документы в индексы часто изменялись. Как следствие – система рухнула. Мораль: Знание основ работы системы – must have. Мы не управляли настройкой системы и составом кластера. Даже во время подготовки к презентации были найдены новые пути для улучшения. Так что процесс оптимизации и улучшения бесконечный!
Первым шагом для нас станет добавление, так называемых, balancer nodes в Elasticsearch. Они могут производить агрегирование результатов запросов по другим шардам, у них никогда не будет перегружен IO, так как они не выполняют чтения и записи на диск, и мы разгрузим наши data nodes. Оптимизация настроек индексов: Тип хранения данных Размер буфера памяти Переход на Elasticsearch 6.0 ================================ index.store.type по умолчанию ставится в niofs, а по бенчмаркам производительность ниже чем у mmapfs indices.memory.index_buffer_sizeувеличить до 30%, а количество RAM под Java Heap наоборот уменьшить до 30%, так как с mmapfs нужно намного больше оперативки для кеша операционной системы
Редкие значения Когда не все поля в индексе имеют заполненные значения, то место на диске и в кеше будет зарезервировано для таких пробелов. Изменения в Lucene 7 поддерживают такие ситуации и новый формат кодирования уменьшает занимаемое место и увеличивает пропускную способность запросов. Сортировка при индексации Lucene 7 также позволяет определить сортировку при индексации. Это повышает производительность, позволяю сортировать индексы при индексации во время записи, а не во время чтения. Индексы записываются на диск в определенном заранее порядке. Улучшенное восстановление шарда Новая функция, называемая Sequence IDs, обещает гарантировать более успешное и эффективное восстановление шардов. Каждая операция индексирования, обновления и удаления получает идентификатор, который регистрируется в журнале транзакций основного шарда. После этого реплика может ссылаться на операции, записанные в этом журнале и использовать их для обновления без необходимости копирования всех файлов, что значительно ускоряет восстановление. Есть возможность настраивать значение того, как долго хранить эти журналы транзакций. Реплики могут запускать неподтвержденные и разные операции - это означает, что в случае сбоя первичного шарда реплики смогут синхронизироваться с новым основным шардом, не дожидаясь следующего восстановления.

Building the search engine: from thorns to stars

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Building the search engine: from thorns to stars

Similar to Building the search engine: from thorns to stars (20)

Recently uploaded

Recently uploaded (20)

Building the search engine: from thorns to stars

Editor's Notes