Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data vccorp

1,431 views

Published on

This document describes something about big data at vccorp. It's an overview about some features and architecture in our system. We also have some problems needed to be solved.

Published in: Technology
  • Be the first to comment

Big data vccorp

  1. 1. Hoang Anh Tuan Deputy Director of AdTech Division tuanhoanganh@vccorp.vn 1
  2. 2. Nộidung Giớithiệuchung Hệthốngxửlýdữliệulớn–Big Data ở VCCORP Nhữngbàitoánđãxửlý Cácbàitoánmở 2
  3. 3. GiớithiệuVCCORP Thànhlậpnăm2006 Sốnhânviên: 1500 người Trụsởchínhở Hà Nội, chi nhánhở cácthànhphốlớntạiViệt Nam LàcôngtydẫnđầuvềInternet tạiViệt Nam. Nhàđầutư: IDG VV, Intel Capital Chiathànhcáckhối: quảngcáo, nộidung, thươngmạiđiệntử, game, VCCloud. 3
  4. 4. CộtmốccủaVCCORP Ad Network LEADER Online news & media LEADER 2013 Ad network E-marketplace Break even Series B Series A INCORPORATED Online forum Online news 2011 2000 2006 2007 2008 2009 2010 4
  5. 5. GiớithiệuAdmicro Thànhlậpnăm2008. MạngquảngcáolớnnhấtViệt Nam, chiếm40% thịphần. Độphủ31 triệungườidùngInternet, chiếm90% ngườidùngInternet Việt Nam. 30 báođộcquyền, mạnglướiWebsite cótrên300 sites. 5
  6. 6. Big Data ở VCCORP Bắtđầusớmtừ2007 vớidựánBaamboosearch. Từnăm2008, bắtđầuthửnghiệmxâydựnghệthốngBig Data phụcvụhệthốngquảngcáo. Hiệnnay đượcnghiêncứupháttriểnxâydựngcácsảnphẩmphụcvụchocáchệthốngquảngcáo, nộidung, thươngmạiđiệntử… 6
  7. 7. Big Data ở VCCORP –Qui môdữliệu 7
  8. 8. Big Data ở VCCORP –Kiếntrúc 8
  9. 9. Nhữngbàitoánxửlý Tínhtoándữliệulớn Ip2Location Nhậndiệnhànhvi ngườidùng Demographic Behavioral Finger Printing Cross devices Tốiưuhóaquảngcáo 9
  10. 10. Tínhtoándữliệulớn Tổngdữliệumớimỗingày: 1 tỷbảnghi. Dữliệuđầuvào: raw log, lưuthôngtin vềlượngclick, impressions củangườidùng. Cácsốliệucầntínhtoán: Báocáotheolượngclick, view, pageview, tiềntheocácdomain: user, website, location, type... TínhtoánlượngUnique Visitor (UV) Tínhthờigiantime on site củangườidùng 10
  11. 11. Tínhtoándữliệulớn Hệthốngngănchặninvalid, frauding: Invalid: ngườidùngclick/view nhầm Frauding: cốtìnhtạoraclick/view đểgâyảnhhưởng Giảipháp: xâydựngtậpluậtđểngănchặn. Thựctế: KháchhàngA nhận10,000 fraud click trong30 phút Website B tạora500,000 fraud click trongvòng1h 11
  12. 12. Tínhtoándữliệulớn–Môhình Sửdụnghainềntảngmãmở: Hadoopeco-system: Hadoop, Hbase, Pig, Hive, Storm, Spark. Cassandra Cluster: 80 nodes, cấuhình: 24 CPUs 32 GB RAM 8 TB HDD 12
  13. 13. Ip2Location Input: dữliệuraw log củangườidùngvớithôngtin IP Output: thôngtin vềvùngmiền, tỉnhthànhcủangườidùng(mởrộngquậnhuyện). Tổnglượngdữliệu: 100 tỷbảnghi(10TB) Giảipháp: xâydựngthuậttoánlặpdựatrênquanhệ: User -IP 13
  14. 14. Ip2Location Kếtquả: Nhậndiệnđược15 triệuIP Việt Nam trêntổngsố15.5 triệuIP đãcấpphát, chiếm96.7% Tỉlệnhậndiệnchínhxáctheovùngmiền: 90% Tỉlệnhậndiệnchínhxáctheotỉnhthành: 75% Đangtriểnkhaitheoquận–huyện. 14
  15. 15. Nhậndiệnhànhvi ngườidùngInternet Input: dữliệuraw log Output: cácthôngtin vềngườidùngInternet Demographic: giớitính, nhómtuổi Behavioral: sởthích, thóiquen Finger Printing: nhậndiệncùnglà1 ngườitrên1 thiếtbị(device) Cross devices: nhậndiệncùng1 ngườidùngtrênnhiềuthiếtbị 15
  16. 16. Demographic -Behavioral Nhậndiệntheogiớitính: nam/nữ. Nhậndiệntheonhómtuổi: dưới18, từ18 –24, từ25 – 34, từ35 –49, trên50. Nhậndiệntheosởthích: tập12 sởthíchcơbản. Kếtquả: Độchínhxácnhậndiệngiớitính: 82.5% Độchínhxácnhậndiệnnhómtuổi: 67.5% 16
  17. 17. Demographic -Behavioral 17
  18. 18. Finger Printing Mụctiêu: nhậndiệncùng1 ngườidùngtrên1 device. Khókhăn: ngườidùngcóthểdùngnhiềubrowser hoặcbịxóacookie. Giảipháp: xâydựngthuậttoánmãhóangườidùngdựatrêncácthôngtin: IP, Fonts, Screen Resolution, Location, Languages, Websites… Kếtquả: đangtriểnkhai 18
  19. 19. Cross devices Mụctiêu: nhậndiệnngườidùngsửdụnglaptop, desktop, mobile… cùnglàmộtngười. Khókhăn: thôngtin sửdụngtrênPC, Laptop, Mobile làrờirạc, khôngcóđộkếtdính. Giảipháp: xâydựngthuậttoánđoánnhậnngườidùngdựatrêncácthóiquenvề: IP Website Sởthích, thóiquen Kếtquả: đangthựchiện 19
  20. 20. Tốiưuhóaquảngcáo Đâylàbàitoánđã, đangvàsẽtiếptụcthựchiện. Cáckỹthuậtápdụng: Personalization Audience Targeting Real Time Bidding Retargeting Hàmlượnggiá: ướclượnggiátheotừngngườidùng. 20
  21. 21. Cácbàitoánmở Xửlýngônngữtựnhiên-NLP Recommendation Engine -RE Sentiment Analysis Data Management Platform -DMP 21
  22. 22. Cácbàitoánmở NLP: xâydựngcácbàitoán: TáchtừtheophươngphápN-grams Phânloại, tríchrútvănbản Độtươngđồngcủatừngữ Recommendation Engine: Xâydựngbộrecommendation engine service chohệthốngWebsite TMĐT. XâydựngRE chohệthốngquảngcáo 22
  23. 23. Cácbàitoánmở Sentiment analysis: Tìmkiếmcácnộidung liênquanđếntừkhóa, chủđề. Phânloạinộidung thu thậpđượctheohướngtíchcựchoặctiêucực DMP: Nềntảngthu thậpdữliệulớntheocảfirst party vàthird party data. Phânloạidữliệu, tríchrútthôngtin đểgiúpraquyếtđịnh. 23
  24. 24. Cơhộihợptác 24
  25. 25. Q&A25

×