• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
sme.sk čočítať ontožíur-2010
 

sme.sk čočítať ontožíur-2010

on

  • 746 views

Zo zákulisia služby čočítať na sme.sk, skúsenosti, experimenty a pikošky zo spúšťania.

Zo zákulisia služby čočítať na sme.sk, skúsenosti, experimenty a pikošky zo spúšťania.

Statistics

Views

Total Views
746
Views on SlideShare
735
Embed Views
11

Actions

Likes
0
Downloads
2
Comments
0

2 Embeds 11

http://www.linkedin.com 10
https://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    sme.sk čočítať ontožíur-2010 sme.sk čočítať ontožíur-2010 Presentation Transcript

    • SME.SK ODPORÚČAČ • Aké články čítajú mne podobní ľudia a ja som nevidel? • veľa veľa dát (~1M pageviews denne) • každú minútu nové (~1000) • veľa veľa traffic (peak okolo 9 ráno) • rýchla odozva (horná hranica ~2-3 sekundy)
    • ALGORITMUS • algoritmus k-najbližších susedov • fulltext search ako ho nepoznáte (tf-idf zadarmo!) • + implicitná negatívna spätná väzba • čo už videl, ale neklikol • + explicitná negatívna spätná väzba • toto nechcem už vidieť (x tlačítko)
    • SYNTETICKÉ TESTOVANIE • 15-dňové logy • trénovacia / testovacia časť • na koľko % z top10 klikol neskôr? • škálovateľnosť (voči velkosti okna)
    • REÁLNE TESTOVANIE Normalized reject rate 0.7 • 2 odporúčače • “standard” 0.6 0.5 ? 0.4 • + implicitná negatívna spätná väzba standard % 0.3 negative feedback • parameter veľkosti okolia 0.2 0.1 • 5 až 50 s krokom 5 0 5 10 15 20 25 30 35 40 45 50 • = 20 skupín neighborhood size • 7 dní = 2.8M odporúčaní click/reject ratio ? 3.1 • čo merať? 2.9 2.7 • počet klikov na “toto nechcem” 2.5 • počet klikov na odporúčané články 2.3 2.1 standard negative feedback • pomer klikov na článok a klikov na 1.9 “toto nechcem” Signifikancia? 1.7 1.5 Kruskal - Wallis 5test 10 15 20 25 30 35 40 45 50 neighborhood size Normalized click rate 1.2 1 0.8 ! 0.6 standard % negative feedback 0.4 0.2 0 5 10 15 20 25 30 35 40 45 50 neighborhood size
    • NASADZOVANIE – PRÍPRAVA • rails, mysql, sphinx, passenger, cron, apache, debian • Virtuálny stroj od sme.sk • Monitorovanie výkonu (New Relic RPM) • záťaž, pamäť, pomalé akcie, databáza, dopyty, indexy... • Reportovanie chýb (Hoptoad + Redmine) • pošle mail keď nastane chyba, otvorí/upraví ticket... • Automatické nasadzovanie (capistrano) • stiahne novú verziu z repozitára, migrácie db, crontab, symlink, restart...
    • NASADZOVANIE - REALITA • Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk • Monitorovanie výkonu #win • Notifikácia chýb + Redmine #fail • MySQL • pri tabuľkách s >10M riadkov končí sranda • query planner je niekedy sprostejší ako ja #fail • Automatické nasadzovanie #win • príkaz na vypnutie služby (.htaccess redirect 400)
    • NASADZOVANIE - REALITA • Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk • Monitorovanie výkonu #win • Notifikácia chýb + Redmine #fail • MySQL • pri tabuľkách s >10M riadkov končí sranda • query planner je niekedy sprostejší ako ja #fail • Automatické nasadzovanie #win • príkaz na vypnutie služby (.htaccess redirect 400)
    • NASADZOVANIE - REALITA • Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk • Monitorovanie výkonu #win • Notifikácia chýb + Redmine #fail • MySQL • pri tabuľkách s >10M riadkov končí sranda • query planner je niekedy sprostejší ako ja #fail • Automatické nasadzovanie #win • príkaz na vypnutie služby (.htaccess redirect 400)
    • NASADZOVANIE - REALITA • Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk • Monitorovanie výkonu #win • Notifikácia chýb + Redmine #fail • MySQL • pri tabuľkách s >10M riadkov končí sranda • query planner je niekedy sprostejší ako ja #fail • Automatické nasadzovanie #win • príkaz na vypnutie služby (.htaccess redirect 400)
    • SPUSTENIE • pondelok 8.11. 10%! • o 4 hodiny neskôr • don’t panic! • 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM • hacky hack! • utorok 9.11. • streda 10.11 7:30am • mašina je mŕtva
    • SPUSTENIE 10%! • pondelok 8.11. • o 4 hodiny neskôr • don’t panic! • 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM • hacky hack! • utorok 9.11. • streda 10.11 7:30am • mašina je mŕtva
    • SPUSTENIE • pondelok 8.11. • o 4 hodiny neskôr • don’t panic! • 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM • hacky hack! • utorok 9.11. • streda 10.11 7:30am • mašina je mŕtva
    • OHLASY • etrend
    • OHLASY • etrend • twitter
    • OHLASY • etrend • twitter • diskusie sme.sk
    • OHLASY • etrend • twitter • diskusie sme.sk