Wprowadzenie do wyszukiwania pełnotekstowego i ogólnie tematyki searcha / information retrival. Trochę o Apache Solr oraz przetwarzaniu języka naturalnego
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Jak działa wyszukiwanie pełnotekstowe?
1. Jak działa wyszukiwanie pełnotekstowe
na przykładzie Apache Solr?
Tomasz Sobczak 25.04.2019
Koduj w Płocku, #2 spotkanie Płockoderów
2. Agenda
• Przedstawię się
• Odwrócony indeks
• Główne wyzwania
• Przykładowa architektura
• Architektura Apache Solr
• Trochę o NLP/ML
• O Findwise
3.
4. Dokument 1.
Liceum Ogólnokształcące im. Marszałka Stanisława Małachowskiego w
Płocku – jedna z najstarszych szkół w Polsce.
Dokument 2.
Małachowianka, została założona w 1180 roku i jest najstarszą z
istniejących nieprzerwanie w tym samym miejscu szkół w Polsce.
6. Odwrócony indeks
1180 -> 2
być -> 2
i -> 2
im -> 1
istnieć -> 2
jeden -> 1
liceum -> 1
małachowianka -> 2
małachowski -> 1
marszałek -> 1
miejsce -> 2
nieprzerwany -> 2
ogólnokształcący -> 2
płock -> 1
polska -> 1,2
rok -> 2
sam -> 2
stanisław -> 1
stary -> 1,2
szkoła -> 1,2
ten -> 2
w -> 1,2
z -> 1,2
założyć -> 2
zostać -> 2
9. Wyszukujemy
AND
Dokument 1.
Liceum Ogólnokształcące im. Marszałka Stanisława
Małachowskiego w Płocku – jedna z najstarszych szkół w
Polsce.
Dokument 2.
Małachowianka, została założona w 1180 roku i jest najstarszą
z istniejących nieprzerwanie w tym samym miejscu szkół w
Polsce.
12. Wyszukujemy
OR
Dokument 1.
Liceum Ogólnokształcące im. Marszałka Stanisława
Małachowskiego w Płocku – jedna z najstarszych szkół w
Polsce.
Dokument 2.
Małachowianka, została założona w 1180 roku i jest najstarszą
z istniejących nieprzerwanie w tym samym miejscu szkół w
Polsce.
14. Co jeszcze?
• A gdybyśmy chcieli się pozbyć stopwordów?
• Synonimy: Liceum Ogólnokształcące im. Marszałka Stanisława Małachowskiego = Małachowianka
• Coś ciekawszego niż AND i OR?
• A co z rankingiem? Który dokument jest trafniejszy?
• itd.…
16. Wyzwania
Język naturalny jest
niejednoznaczny, słowa
mają synonimy, homonimy
itd. ludzie posługują się
ironią, moją różne intencje
i potrzeby (informacyjne)
Trafność wyników
wyszukiwania, który
dokument lepiej
odpowiada na (za)pytanie
użytkownika? Jak mierzyć
trafność i satysfakcję
użytkowników?
Skalowanie, czas
odpowiedzi,
przepustowość
indeksowania,
administrowanie
instalacjami obsługującymi
setki QPS, czy miliony
zaindeksowanych
dokumentów
∞
21. Źródła
danych
Procesy indeksowania i
przetwarzania danych
Silnik wyszukiwania +
dodatkowe struktury
np. grafowe
Przetwarzaniezapytania
Analizaintencjiużytkownika
NLU
Search API
Question
Answering API
Bot API
Aplikacje
końcowe
Przetwarzanie języka
naturalnego
Rozbudowa modelu danych
Pętla zwrotna, uczenie maszynowe na podstawie
zachowań użytkowników
NLP/ML
22. Zastosowania
1. Wyszukiwarki korporacyjne, e-commerce’owe, dowolne wertykale
2. Wizualizacja i analiza danych
3. Rekomendacje
4. Strony zasilane silnikiem wyszukiwania
5. Chatbot
6. ???
24. About
• Founded in 2005
• +120 employees
• Vendor independent
consultants
• Sweden, Denmark, Norway,
Finland & Poland
• 1700 projects, 450 customers
• Part of EVRY since 2018