Nền tảng thuật toán của AI, Machine Learning, Big DataHong Ong
Tổ chức: TopDev.
Chủ đề: Nền tảng thuật toán của AI, Machine Learning, Big Data
Speaker: Ông Xuân Hồng - Researcher engineer @ Trusting Social.
Ngày: 15/10/2017.
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...Viet-Trung TRAN
Today, the accelerating development in traveling demand and the number of vehicle circulating on the roads in Viet Nam‟s densely populated cities has been putting the transportation infrastructure under high pressure. The traffic congestion consecutively occurs especially in the rush hours. Besides, the public‟s conception as participating in transportation also directly have detrimental impacts on this burning issue.
With the widespread growth of GPS satellite located equipment, especially according to the circulars 91/2009/ND-CP of Viet Nam Transportation Ministry, the vehicles must be equipped monitoring facilitates which send transportation information continuously to the converging data centers. In fact, there is massive amount of transportation data being directed to these centers per second, hence it consists of features of “big data” – a key word which is used for huge and complicated sets of data. Thereby, it is impossible for traditional data processing to tackle this problem.
The ultimate goal of this graduation thesis is to build a system which is capable to process, analysis consecutive blocks of GPS data in real-time and then show the information about transportation state of roads and provide capacity of finding the fastest way in time-dependent spatial networks. With this information, the participants can chose an appropriate route to avoid traffic jam and the managers can schedule for developing policies of infrastructure, therefore making great contribution to tackling traffic congestion and giving a boost for the development of the society.
This graduation thesis will show the result of study process, requirement analyzing, real-time big data processing system installing and designing, putting the reduction of traffic jam in realistic perspective..
Nền tảng thuật toán của AI, Machine Learning, Big DataHong Ong
Tổ chức: TopDev.
Chủ đề: Nền tảng thuật toán của AI, Machine Learning, Big Data
Speaker: Ông Xuân Hồng - Researcher engineer @ Trusting Social.
Ngày: 15/10/2017.
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...Viet-Trung TRAN
Today, the accelerating development in traveling demand and the number of vehicle circulating on the roads in Viet Nam‟s densely populated cities has been putting the transportation infrastructure under high pressure. The traffic congestion consecutively occurs especially in the rush hours. Besides, the public‟s conception as participating in transportation also directly have detrimental impacts on this burning issue.
With the widespread growth of GPS satellite located equipment, especially according to the circulars 91/2009/ND-CP of Viet Nam Transportation Ministry, the vehicles must be equipped monitoring facilitates which send transportation information continuously to the converging data centers. In fact, there is massive amount of transportation data being directed to these centers per second, hence it consists of features of “big data” – a key word which is used for huge and complicated sets of data. Thereby, it is impossible for traditional data processing to tackle this problem.
The ultimate goal of this graduation thesis is to build a system which is capable to process, analysis consecutive blocks of GPS data in real-time and then show the information about transportation state of roads and provide capacity of finding the fastest way in time-dependent spatial networks. With this information, the participants can chose an appropriate route to avoid traffic jam and the managers can schedule for developing policies of infrastructure, therefore making great contribution to tackling traffic congestion and giving a boost for the development of the society.
This graduation thesis will show the result of study process, requirement analyzing, real-time big data processing system installing and designing, putting the reduction of traffic jam in realistic perspective..
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Khi phát triển một phần mềm cần xác định những thành phần cần sử dụng để bắt tay vào công việc. Điều này đảm bảo tính logic và nhất quán cho sản phẩm phần mềm từ lúc bắt đầu xây dựng cho đến lúc duy trì, thậm chí là cải tiến. Vậy Software Stack là gì và làm thế nào để thiết lập Stack khi phát triển phần mềm!
https://growupwork.com/blog/kien-thuc-ky-thuat/software-stack-la-gi-771
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2Snoozeloop AF
Comtek.HRM là phần mềm lý quản trị nguồn nhân lực bao gồm quản lý nhân sự và tiền lương áp dụng tư duy quản trị hiện đại của thế giới dựa trên nền tảng Web-based, được phát triển qua nhiều năm nghiên cứu, phân tích, lắng nghe những trăn trở và khó khăn mà các doanh nghiệp gặp phải trong quá trình quản trị nhân sự. Với Comtek.HRM doanh nghiệp hoàn toàn được trút bỏ gánh nặng ghi nhớ quá nhiều thứ vặt vãnh, vật lộn với việc tìm kiếm thông tin trong kho dữ liệu văn bản khổng lồ. Comtek đã nghiên cứu và phát triển bộ phần mềm Comtek.HRM – Giải pháp quản lý nhân sự và tiền lương cho các công ty Việt Nam và các công ty liên doanh với nước ngoài phù hợp với tất cả doanh nghiệp, đặc biệt phù hợp với doanh nghiệp có số lượng nhân sự lớn lên đến vài chục ngàn.
Hệ thống tích hợp nhân sự tiền lương để cung cấp cho các nhà quản lý một công cụ đơn giản trong cách sử dụng, hiệu quả trong quản lý, nhanh chóng và chính xác trong việc quản trị nhân sự và tính lương. Hệ thống cung cấp thông tin đầy đủ, đa dạng, các tính năng bảo mật an toàn và mang lại hiệu quả cao nhất.
Comtek.HRM mang lại cho doanh nghiệp, tổ chức một công cụ hỗ trợ đắc lực với khả năng đáp ứng đầy đủ các nghiệp vụ liên quan như tuyển dụng, tổ chức lao động, lương thưởng… và trợ giúp lãnh đạo trong việc ra quyết định, ban hành các chính sách liên quan đến quản trị nhân lực.
Comtek.HRM - Giải pháp hiệu quả nâng sự chuyên nghiệp trong quản trị nhân sự của doanh nghiệp lên tầm cao mới
Ưu điểm nổi bật
Cho phép tìm kiếm theo các tiêu chí nhanh chóng tìm ra các nhân sự theo yêu cầu tìm kiếm.
Tính lương theo cơ chế dễ dàng nhất
Giao diện thân thiện, có hướng dẫn đầy đủ.
Quản lý với nhiều cấp độ phù hợp cho các doanh nghiệp có nhiều phòng ban.
Trích xuất báo cáo dễ dàng theo nhiều tiêu chí
Bộ máy quản lý nhân sự gọn nhẹ, chỉ cần số ít nhân viên với hệ thống máy vi tính.
Chi phí ban đầu ít nhất vì chỉ phải triển khai trên máy chủ.
Dễ dàng phát triển ứng dụng, dễ dàng bảo trì, phát triển hệ thống.
Không phụ thuộc vào phạm vi ứng dụng, việc mở rộng ít tốn kém nhất.
Đào tạo sử dụng chương trình dễ dàng
Dễ dàng tích hợp với các ứng dụng khác
C.HRM phát triển trên công nghệ .NET, cơ sở dữ liệu SQL Server;
Khai báo bổ sung các thông tin nhân sự: Đối với từng doanh nghiệp việc theo dõi các thông tin của nhân sự là khác nhau, phần mềm C.HRM cho phép người dùng tự bổ sung thêm các thông tin mới cần theo dõi;
Khai báo các quá trình: Cho phép người dùng khai báo các quá trình mới đảm bảo việc theo dõi, quản lý tại từng thời điểm khác nhau của doanh nghiệp;
Hệ thống báo cáo trích ngang theo nhiều chỉ tiêu
Đa ngôn ngữ: Việt, Anh, Nhật, Hàn, …
Triển khai theo mô hình tâp trung: Kết nối qua Internet
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Chép, các bạn tham khảo thêm tại tài liệu, bài mẫu điểm cao tại luanvantot.com
Pháp chứng kỹ thuật số cung cấp cho sinh viên với một cách tiếp cận có hệ thống khi tiến hành một điều tra pháp chứng máy tính (cả hai loại điều tra công quyền và điều tra công ty), các yêu cầu của một phòng thí nghiệm pháp chứng máy tính bao gồm cả thiết bị phục hồi dữ liệu, phần cứng và phần mềm cần thiết để xác nhận pháp chứng kỹ thuật số trong phòng thí nghiệm.
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Khi phát triển một phần mềm cần xác định những thành phần cần sử dụng để bắt tay vào công việc. Điều này đảm bảo tính logic và nhất quán cho sản phẩm phần mềm từ lúc bắt đầu xây dựng cho đến lúc duy trì, thậm chí là cải tiến. Vậy Software Stack là gì và làm thế nào để thiết lập Stack khi phát triển phần mềm!
https://growupwork.com/blog/kien-thuc-ky-thuat/software-stack-la-gi-771
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2Snoozeloop AF
Comtek.HRM là phần mềm lý quản trị nguồn nhân lực bao gồm quản lý nhân sự và tiền lương áp dụng tư duy quản trị hiện đại của thế giới dựa trên nền tảng Web-based, được phát triển qua nhiều năm nghiên cứu, phân tích, lắng nghe những trăn trở và khó khăn mà các doanh nghiệp gặp phải trong quá trình quản trị nhân sự. Với Comtek.HRM doanh nghiệp hoàn toàn được trút bỏ gánh nặng ghi nhớ quá nhiều thứ vặt vãnh, vật lộn với việc tìm kiếm thông tin trong kho dữ liệu văn bản khổng lồ. Comtek đã nghiên cứu và phát triển bộ phần mềm Comtek.HRM – Giải pháp quản lý nhân sự và tiền lương cho các công ty Việt Nam và các công ty liên doanh với nước ngoài phù hợp với tất cả doanh nghiệp, đặc biệt phù hợp với doanh nghiệp có số lượng nhân sự lớn lên đến vài chục ngàn.
Hệ thống tích hợp nhân sự tiền lương để cung cấp cho các nhà quản lý một công cụ đơn giản trong cách sử dụng, hiệu quả trong quản lý, nhanh chóng và chính xác trong việc quản trị nhân sự và tính lương. Hệ thống cung cấp thông tin đầy đủ, đa dạng, các tính năng bảo mật an toàn và mang lại hiệu quả cao nhất.
Comtek.HRM mang lại cho doanh nghiệp, tổ chức một công cụ hỗ trợ đắc lực với khả năng đáp ứng đầy đủ các nghiệp vụ liên quan như tuyển dụng, tổ chức lao động, lương thưởng… và trợ giúp lãnh đạo trong việc ra quyết định, ban hành các chính sách liên quan đến quản trị nhân lực.
Comtek.HRM - Giải pháp hiệu quả nâng sự chuyên nghiệp trong quản trị nhân sự của doanh nghiệp lên tầm cao mới
Ưu điểm nổi bật
Cho phép tìm kiếm theo các tiêu chí nhanh chóng tìm ra các nhân sự theo yêu cầu tìm kiếm.
Tính lương theo cơ chế dễ dàng nhất
Giao diện thân thiện, có hướng dẫn đầy đủ.
Quản lý với nhiều cấp độ phù hợp cho các doanh nghiệp có nhiều phòng ban.
Trích xuất báo cáo dễ dàng theo nhiều tiêu chí
Bộ máy quản lý nhân sự gọn nhẹ, chỉ cần số ít nhân viên với hệ thống máy vi tính.
Chi phí ban đầu ít nhất vì chỉ phải triển khai trên máy chủ.
Dễ dàng phát triển ứng dụng, dễ dàng bảo trì, phát triển hệ thống.
Không phụ thuộc vào phạm vi ứng dụng, việc mở rộng ít tốn kém nhất.
Đào tạo sử dụng chương trình dễ dàng
Dễ dàng tích hợp với các ứng dụng khác
C.HRM phát triển trên công nghệ .NET, cơ sở dữ liệu SQL Server;
Khai báo bổ sung các thông tin nhân sự: Đối với từng doanh nghiệp việc theo dõi các thông tin của nhân sự là khác nhau, phần mềm C.HRM cho phép người dùng tự bổ sung thêm các thông tin mới cần theo dõi;
Khai báo các quá trình: Cho phép người dùng khai báo các quá trình mới đảm bảo việc theo dõi, quản lý tại từng thời điểm khác nhau của doanh nghiệp;
Hệ thống báo cáo trích ngang theo nhiều chỉ tiêu
Đa ngôn ngữ: Việt, Anh, Nhật, Hàn, …
Triển khai theo mô hình tâp trung: Kết nối qua Internet
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Chép, các bạn tham khảo thêm tại tài liệu, bài mẫu điểm cao tại luanvantot.com
Pháp chứng kỹ thuật số cung cấp cho sinh viên với một cách tiếp cận có hệ thống khi tiến hành một điều tra pháp chứng máy tính (cả hai loại điều tra công quyền và điều tra công ty), các yêu cầu của một phòng thí nghiệm pháp chứng máy tính bao gồm cả thiết bị phục hồi dữ liệu, phần cứng và phần mềm cần thiết để xác nhận pháp chứng kỹ thuật số trong phòng thí nghiệm.
Mo hinh osi-7lop-va-khuyencao-baove-dulieunghia le trung
Là bài trình bày tại hội thảo: “Công nghệ, thiết bị an ninh và giải pháp an toàn hệ thống” do Bộ Khoa học và Công nghệ và VCCI tổ chức nhân Techmart Vietnam 2015 tại Hà Nội, 03/10/2015
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn tóm tắt ngành kĩ thuật phần mềm với đề tài: Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống Văn bản, cho các bạn làm luận văn tham khảo
Feast Feature Store - An In-depth Overview Experimentation and Application in...Hong Ong
In this event, we will dive into the world of Feast and explore its numerous benefits and applications. 🌐 During the session, we'll showcase:
✅ How Feast optimizes team collaboration and enhances data versioning, storage and service
✅ How we can store and serve Feast features through some scenarios
✅ Quick experimentation based on pre-calculated features and quick serving online API
✅ The important role of FeatureService in data versioning and feature selection
Don't miss out on this opportunity to expand your knowledge and leverage the power of Feast for data operations and collaboration.
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfHong Ong
In this session, we will introduce Dagster, a cutting-edge framework that simplifies DataOps and MLOps for machine learning engineers. We will explore the benefits of this powerful tool, learn how to implement it in your machine learning workflows, and discuss practical use cases to help you enhance productivity, collaboration, and deployment of ML models.
Data Products for Mobile Commerce in Real-time and Real-life.pdfHong Ong
🌀 The strong development trend of Mobile has helped M-Commerce - Mobile Commerce rise to become an inevitable era in the near future. 𝗠𝗼𝗯𝗶𝗹𝗲 𝗖𝗼𝗺𝗺𝗲𝗿𝗰𝗲 not only attracts attention with great utilities for users, but also is a great opportunity to help business owners develop their brands and promote online business in the Vietnamese market.
🌀 Following the development of the times, overcoming the "pain-points" of customers when shopping online is one of the problems of concern. Building Data products is one of the solutions to these problems. So how to do that?
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thịHong Ong
Bài review cách tính nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị. Ứng dụng trong nhiều lĩnh vực như: telecome, internet routing, social network analysis, etc.
4. Data qua từng giai đoạn: Flat files
Ưu điểm
◦ Tiết kiệm chi phí lưu trữ
◦ Dễ tìm kiếm bằng cáchphân chia thư mục, đặt
tên file.
Khuyết điểm
◦ Ác mộng nếu quản lý không tốt.
◦ Khó tìm kiếm bên trong nội dung file.
◦ Chỉ dùng để đọc ghi dữ liệu, không phục vụ tính
toán.
5. Data qua từng giai đoạn: Spreadsheet
Ưu điểm
◦ Có thể thực hiện tính toán. Con người không
thể nào tính nhẩm hay tính tay được.
◦ Nhiều tính năng hữu ích đi kèm: biểu đồ, ghi
chú, làm việc nhóm, …
◦ Dễ sử dụng và quản lý.
Khuyết điểm
◦ Dữ liệu không được ràng buộc dễ bị sai sót.
◦ Thêm, xoá, sửa thông tin không nhất quán khi
các file/sheet có mối liên hệ với nhau.
6. Data qua từng giai đoạn: Relational DB
Ưu điểm
◦ Dữ liệu được mô hình hoá thành các thực thể
quan hệ.
◦ Dữ liệu được chuẩn hoá và ràng buộc nên ít bị
sai sót.
◦ Dễ tìm kiếm thông tin thông qua ngôn ngữ SQL.
◦ Thêm, xoá, sửa thông tin được nhất quán khi có
thay đổi.
Khuyết điểm
◦ Tổng hợp dữ liệu chậm khikết bảng quan hệ.
◦ Lưu dữ liệu transaction tỉ lệ lỗi cao hoặc bị mất
mát thông tin khi hệ thống bị quá tải.
7. Data qua từng giai đoạn: OLAP
Ưu điểm
◦ Xem nhanh dữ liệu đã tổng hợp theo nhiều
chiều cùng lúc.
◦ Hỗ trợ giám sát và ra quyết định.
Khuyết điểm
◦ Không real-time.
◦ Cần lên lịch cập nhật và lưu trữ thành Data
warehouse.
8. Data qua từng giai đoạn: NoSQL
Ưu điểm
◦ Giải quyết đọc ghi dữ liệu real-time.
◦ Biểu diễn dữ liệu đa dạng hơn.
◦ Dễ dàng phân tán/replicate dữ liệu trên nhiều
server.
Khuyết điểm
◦ Không đảm bảo toàn vẹn dữ liệu.
◦ Dữ liệu không phản ánh được mối quan hệ.
◦ Bảo mật không cao.
◦ Hệ thống dễ bị lỗi và cần nhiều thiết lập để tối
ưu.
9. Data qua từng giai đoạn: Distributed file
storage
Ưu điểm
◦ Lưu trữ dữ liệu phân tán.
◦ Thích hợp lưu trữ các tập tin dung lượng cao
như video, âm thanh, hình ảnh, …
◦ MapReduce giải quyết vấn đề tổng hợp dữ liệu
trên nhiều server.
Khuyết điểm
◦ Cơ chế MapReduce chậm, không đáp ứng được
tổng hợp dữ liệu real-time.
◦ Sử dụng nhiều third-party đi kèm để khắc phục
khuyết điểm.
10. Nguyên lý chung
Chia để trị bằng cách phân tán nguồn lực và tài nguyên ra nhiều server.
Loại bỏ các điều kiện ràng buộc về dữ liệu, kiểm tra bảo mật để tăng tốc đọc ghi dữ liệu.
Mini-batch thành các mẫu dữ liệu nhỏ hơn để tính toán nhanh hơn.
Sử dụngcấu trúc Hash để indexing phục vụ tác vụ tìm kiếm nhanh.
17. 02 - Vấn đề tính toán
Tốc độ tổng hợp dữ liệu đòi hỏi cao. Real-time
ở một số trường hợp.
Ví dụ: tracking quảngcáo, report doanh thu
theo giờ, phút, giây, mạng xã hội.
Streaming: Apache Storm, Spark Streaming,
Trident, Samza.
Computing: Apache Spark, Flink.
19. Tổng hợp dữ liệu
MB Analytics Backend/UI
Độ trễ tối đa: 2 giờ.
Nghĩa là, vào lúc 11:00 AM, người dùng phải
xem được report của 9:00 AM
Tổng hợp report Tích hợp dữ liệu nguồn khác
10:00 10:05 10:15
Tiền xử lý
10:40
Thời gian còn lại…
Tổng hợp dữ liệu của 9:00 AM
20. Thách thức
Nhiều tác vụ cần thực hiện trong vòng 1 giờ, không còn thời gian
cho các tác vụ tương lai
◦ Tiền xử lý dữ liệu.
◦ Tổng hợp dữ liệu.
◦ Bộ lọc Spiders và bots.
◦ Tích hợp dữ liệu từ nguồn khác: Facebook, ARENA, Google Analytics.
24. 03 - Vấn đề quản trị
Continuous Integration/Continuous
Development(CI/CD): tự động hoá tiến trình
building, testing, và deploying trơn tru ở nhiều
môi trườngkhác nhau (local, staging,
production).
Version control: Git, Docker
Task management: Jenkins, Mesos, Chronos,
Marathon.
Automation: Chef, Puppet, Ansible,
Capistrano, SaltStack.
Log management: Logstash, ElasticSearch,
Kibana.
27. Kỹ năng cần có
0
20
40
60
80
100
Coding (Python, Scala,
Java, Shell, NodeJS)
Database configurations
SQL optimizationServer management
Networking
Data engineer Data analyst Data scientist
Xây dựng hệ thống.
Monitor hệ thống.
Backup hệ thống.
Scaling hợp lý với kinh phí.
28. Kinh nghiệm bản thân
Cần môi trường cho mình cơ hội làm việc với các công nghệ Big Data.
Học thật kĩ kiến thức quản trị mạng và cơ sở dữ liệu để bắt kịp xu hướngdễ dàng hơn.
Viết document cho nhữngkiến trúc mình xâydựng(tại sao lựa chọn, mục đích hệ thống,
performance test, các điểm cần khắc phục).
Nên nghiên cứu thêm về độ phức tạp thuật toán để ứng dụngcho tính toán tối ưu (search, sort,
aggregation, streaming, organize database).
Nâng cao kĩ năng làm việc nhóm và cập nhật kiến thức công nghệ nhưGit, Dockerize, CI/CD,
Test Driven Development, Automation khi có thể.
Nên dành khoản tiền đầu tư cho các khoá học online chất lượng, đừng tiếc tiền cho việc học.
Nếu là Data Engineer/System admin thì nên đầu tư lấy chứng chỉ MCSA, CCNA, AWS.
29. Câu hỏi thường gặp
Bắt đầu học Big Data từ con số không nhưthế nào?
◦ Chọn một hệ quản trị cơ sở dữ liệu (MySQL, PostgreSQL, MongoDB).
◦ Thao tác với ngôn ngữ truy vấn SQL.
◦ Thiết kế cơ sở dữ liệu (ràng buộc toàn vẹn, đại số quan hệ, các dạng chuẩn dữ liệu).
◦ Mạng máy tính cơ bản (phân quyền, chia thư mục, SSH, address forwarding, tail –f, vim, nano).
◦ Tìm hiểu về Business Intelligent (OLAP, OLTP, Star/Snowflake schema).
◦ Tìm hiểu về Hadoop, MapReduce, Apache Spark.
Nên tự build hay sử dụng cloud service
◦ Tự build: ưu điểm bảo mật dữ liệu theo ý mình, khuyết điểm tốn kém về thời gian chi phí, hệ thống lỗi
thời nhanh.
◦ Cloud service: ưu điểm nhanh chóng tích hợp hệ thống, khuyết điểm phụ thuộc hãng cung cấp, chi phí
tăng caonếu không biết kiểm soát. (Amazon, Google, Microsoft)
30. Câu hỏi thường gặp
Thế nào thì được gọi là Big Data?
◦ Khi khả năng lưu trữ và tính toán không đáp ứng được nhu cầu của tổ chức.
Có cần phải họcthêm bằng cấp nào không?
◦ Không. Cần kinh nghiệm là chính. Một số công nghệ nên biết: Docker, PostgreSQL, MongoDB, Apache
Spark, Bash shell, AWS, Kafka, Jenkins,…
Học ở đâu?
◦ Đọc blog, document của công nghệ đang quan tâm.
◦ Học và lấy chứng chỉ tại Udacity hoặc Amazon certificate.
Tự nghiên cứu thì cơ hội việc làm nhưthế nào nếu không có bằng cấp Big Data?
◦ Big Data không có bằng cấp. Có thể chứng minh năng lực thông qua kinh nghiệm làm việc, chứng chỉ
hoặc các tutorial do bạn chia sẻ.
34. Project có thể start
Web mạng xã hội nhưFacebook, Twitter, Zalo.
Video nhưNetflix.
Nhạc như iTunes.
Transaction cao nhưStock exchange, Bitcoint exchange.
Sử dụngmockaroo để mô phỏngBig Data, thực hiện load test các công nghệ đang tìm hiểu.