Desatero scrapování Google
1.Public/shared proxies jsou k ničemu
2. Lepší více proxies než Selenium/PhantomJS
3. Ideálně 1 dotaz za 5 - 10 minut
4. XPath v kombinaci s regulárními výrazy je mocná zbraň
5. Vždycky si ukládejte původní HTML source
6. 100% úspěšnost je zbytečná
7. Spoléhejte se jen na sebe
8. PHPčko je “good enough” a “fast enough”
9. MultiCURL/guzzlephp
10. Doctrine2 je fajn na frontend, ale ne do workerů
Hlavní bolest -ElasticSearch - Red is dead!
● Verzi < 2.0 nedoporučuji, půlka věcí je jinak
● Type nejde ani promazat ani celý smazat (jen index)
● Žádné BATCH DELETE by condition
● JSON query DSL ☠ !
● Indexujete moc rychle? Spadne
● Kill query neexistuje
● Spadlý node se oživuje hodinu až dvě
● Žádný EXPLAIN ani profiling
● UPDATE zahodí celý původní dokument a vytvoří nový -> pomalé
● Agregace jsou hodně omezené
13.
Čím nahradit ElasticSearch?
●Málo zápisů, hodně čtení
● Hodně agregací, průniky množin, vztahy mezi weby
● Non-blocking/batch query knihovna pro PHP
● MongoDB?
● PostgreSQL?
● …?