Big data infrastructure todo-tasks Rfx Framework
Upcoming SlideShare
Loading in...5
×
 

Big data infrastructure todo-tasks Rfx Framework

on

  • 237 views

Big data infrastructure todo-tasks Rfx Framework

Big data infrastructure todo-tasks Rfx Framework

Statistics

Views

Total Views
237
Views on SlideShare
235
Embed Views
2

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 2

http://www.slideee.com 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big data infrastructure todo-tasks Rfx Framework Big data infrastructure todo-tasks Rfx Framework Document Transcript

  • Overview of Rfx Framework / Platform https://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_­DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing Big Data Infrastructure - TODO Tasks Update March 12, 2014 by Triều (@tantrieuf31) ● Module HTTP Log Server: ○ Hot deployment/restart/shutdown Http Log Server ○ Reactive streaming for Kafka Producer (RxJava)  ■ https://github.com/Netflix/RxJava/wiki/Transforming­Observables ● Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka ○ Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue  Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp =>  thiếu data) ○ Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm  (machine learning (linear regression) for system performance) ○ Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files) ○ Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy  reparse lại (hiện chưa implement) ● Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home ○ Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên  tục do kg đủ memory để chạy vì log nhiều) ○ Cơ chế extensions/plugins/hooking  vào hệ thống (phân chia core và applications) ○ Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa:  ■ parse => ghi vào Redis (chỉ parse, counting và check rules) ■ parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs) ○ Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies  ○ Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana) ○ Monitor Front End cho tất cả các critical metrics: ■ worker nodes (logs, memory, restart time, running, died, uptime, downtime ) ■ alert/notification ■ số lượng log đọc từ Kafka, parsed OK, check OK, save OK ■ Disk Free, memory cho worker ■ Backup Redis Data ■ Simple Analytics Dashboard cho logs (analytics) ○ New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis) ■ Synchronized Data job ● Module Active Intelligence (tính năng mới ) ● social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler) ● Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên  nhiên) ­ dùng Apache Spark http://spark.apache.org ● Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)