Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data mining click fraud detection

349 views

Published on

Published in: Data & Analytics
  • Be the first to comment

Data mining click fraud detection

  1. 1. Trình bày: Nguyễn Trọng Thành Phòng: Adtech
  2. 2.  Các vấn đề về click fraud  Data mining (DM) vs kỹ thuật lọc click fraud  Ứng dụng data mining cho công nghệ Click fraud detection.  Một vài kết quả.
  3. 3.  Xảy ra với quảng cáo tính phí theo CPC (có ít theo CPA).  Sự khác nhau giữa Click fraud & Invalid click.  Các hình thức click fraud: Tools, click bots, publishers tự clicks, đối thủ cạnh tranh click, thậm chí thuê nhân công giá rẻ để click quảng cáo.
  4. 4.  Các hình thức click fraud luôn thay đổi  Việc chặn click fraud rất khó khăn vì phải mining trên lượng data rất lớn (500->1 tỷ rows/day và có thể tăng).  Một số report về click fraud trên thế giới.
  5. 5. http://techcrunch.com/2009/01/27/report-click-fraud-at-record-high/
  6. 6. http://searchengineland.com/report-click-fraud-rate-for-q2-2010-28-9-45838
  7. 7.  Các yếu tố: ◦ IP, cookies, referral, domain… ◦ Google có khoảng 150 yếu tố  Các rules: ◦ Số click/ad tăng đột biến. ◦ 1 user click nhiều hơn 1 số cho phép. ◦ Click ko có referrral, ko có IP. ◦ Click đến từ 1 proxy server nghi ngờ.
  8. 8.  DW: sử dụng Inforbright là DW dạng column orient, compression ratio có thể đạt 1:40, sử dụng công nghẹ gọi là KG để mapping data.  Yếu tố mining: sử dụng 5 yếu tố chính là IP, Cookies, Domain, Timecreate, Browsers, OS.  Các rules: ◦ fraud click khi 1 visitor click nhiều hơn số lần cho phép (bị loại bỏ hoàn toàn các click đến từ visitor này). ◦ Số click tăng đột ngột trên 1 banners
  9. 9.  Số banners active khoảng 2k, trong đó CPC chiếm khoảng 1800 banners.  Tốc độ tính toán: 5 phút 1 lần  Số click ko hợp lệ: ~10%
  10. 10. Câu hỏi liên quan?

×