Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data infrastructure todo-tasks Rfx Framework

451 views

Published on

Big data infrastructure todo-tasks Rfx Framework

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Big data infrastructure todo-tasks Rfx Framework

  1. 1. Overview of Rfx Framework / Platform https://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_­DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing Big Data Infrastructure - TODO Tasks Update March 12, 2014 by Triều (@tantrieuf31) ● Module HTTP Log Server: ○ Hot deployment/restart/shutdown Http Log Server ○ Reactive streaming for Kafka Producer (RxJava)  ■ https://github.com/Netflix/RxJava/wiki/Transforming­Observables ● Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka ○ Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue  Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp =>  thiếu data) ○ Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm  (machine learning (linear regression) for system performance) ○ Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files) ○ Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy  reparse lại (hiện chưa implement) ● Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home ○ Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên  tục do kg đủ memory để chạy vì log nhiều) ○ Cơ chế extensions/plugins/hooking  vào hệ thống (phân chia core và applications) ○ Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa:  ■ parse => ghi vào Redis (chỉ parse, counting và check rules) ■ parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs) ○ Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies  ○ Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana) ○ Monitor Front End cho tất cả các critical metrics: ■ worker nodes (logs, memory, restart time, running, died, uptime, downtime ) ■ alert/notification ■ số lượng log đọc từ Kafka, parsed OK, check OK, save OK ■ Disk Free, memory cho worker ■ Backup Redis Data ■ Simple Analytics Dashboard cho logs (analytics) ○ New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis) ■ Synchronized Data job ● Module Active Intelligence (tính năng mới ) ● social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler) ● Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên  nhiên) ­ dùng Apache Spark http://spark.apache.org ● Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)

×