Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Adtech ip2location

244 views

Published on

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Adtech ip2location

  1. 1. IP2LOCATION Đơn vị: Adtech Thành viên: Nguyễn Hùng Cường, Đỗ Viết Dũng, Trần Ngọc Trường, Nguyễn Đức Trung, Hoàng Anh Tuấn
  2. 2. Nội dung  Đặt vấn đề.  Những khó khăn.  Giải pháp.  Giải thuật hội tụ.  Xử lý dữ liệu.  APIs cho các hệ thống ngoài.  Kết quả.
  3. 3. Đặt vấn đề  VCC phục vụ lượng khách hàng lớn: 25M unique visitors, khoảng 1.2B truy cập hàng tháng.  Người dùng có nhiều thông tin: IP, nhóm tuổi, giới tính, vùng miền, thói quen,…  Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.  Thông tin quan trọng cần quan tâm: IP và vùng miền của khách hàng. IP <-> vùng miền.
  4. 4. Đặt vấn đề  Thông tin vùng miền:  Phân phối nội dung: cung cấp nội dung đúng với vùng miền.  Định hướng quảng cáo: định hướng theo vùng miền.  Phân phối quảng cáo như mong đợi: tăng tỉ lệ CTR.  Chống gian lận trong TMĐT  Giúp thu thập các thông tin khác về khách hàng.
  5. 5. Những khó khăn  Không có thông tin chính xác về vùng miền của khách hàng.  Chỉ có thông tin IP của khách hàng, nhưng thay đổi liên tục.  Dữ liệu IP được cung cấp bởi ISP có chất lượng thấp, sai nhiều, phân bố không đồng nhất.  Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi log, 25TB dữ liệu.  Dữ liệu tăng theo hàng tháng nhanh chóng: 15 tỷ bản ghi log, 6TB dữ liệu.
  6. 6. Giải pháp  Xây dựng giải thuật xác định vùng miền của IP, sử dụng phương pháp hội tụ. Xác định miền bắc, trung, nam đối với 1 IP  Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin khách hàng, IP.  Xây dựng APIs cho các hệ thống ngoài có thể sử dụng giải pháp.
  7. 7. Giải thuật hội tụ User-1 User-2 User-3 User-4 User-n IP-1 IP-2 IP-3 IP-4 IP-n
  8. 8. Giải thuật hội tụ  Xây dựng Web Graph để mapping giữa User và IP  User1 -> (IP1, IP2,…IPN)  IP1 -> (User1, User2,… UserN)  Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ liệu sai)  IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1  Ưu điểm của giải thuật:  Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC.  Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao.  Thời gian tính toán không nhiều, tận dụng được kết quả các lần tính toán trước.
  9. 9. Xử lý dữ liệu  Xử lý phân tán, sử dụng Hadoop, Map-Reduce, HDFS.  Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng 25TB dữ liệu.  Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản ghi, 1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.
  10. 10. APIs cho hệ thống ngoài  Đưa dữ liệu về IP và vùng miền cho các hệ thống sử dụng.  Sử dụng Redis để chịu tải cho hệ thống phục vụ phần lớn các yêu cầu đọc.
  11. 11. Kết quả  Tổng số IP hệ thống nhận diện được vùng miền: 2,4 triệu.  Tỉ lệ nhận diện chính xác: trên 90%.  Đang được triển khai cho box nhà đất của enbac, trên hệ thống muachung
  12. 12. CHÂN THÀNH CẢM ƠN!

×