SlideShare a Scribd company logo
1 of 30
Big Data là gì và người ta khai thác, ứng dụng nó
vào cuộc sống như thế nào?
Thảo luận trong 'Thông tin công nghệ' bắt đầu bởi Duy Luân, 21/11/13.Trả lời:88, Xem: 100117.
Facebook310
Share
Trang 1 / 41 234Sau >
1.
Duy LuânKhông có gì! +
Tham gia:
16/2/08
Được thích:
199,501
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những
công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên,
Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ
giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát
sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế,
những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách
khác so với bình thường. Trong bài này, mời các bạn cùng tìm hiểu về Big Data, các
phương thức người ta dùng để khai thác nó và nó giúp ích như thế nào cho cuộc sống của
chúng ta.
1. Định nghĩa Big Data
Như đã nói ở trên, Big Data (“dữ liệu lớn”) có là tập hợp dữ liệu có dung lượng vượt mức
đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng
ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho
đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.
Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty
nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ
liệu có thể được mô tả bằng ba chiều: tăng về lượng (volume), tăng về vận tốc (velocity) và
tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong
lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data.
Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải “cần
đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc
và tối ưu hóa các quy trình làm việc”.
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho
Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu
cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như
LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể
đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất
cả các nguồn dữ liệu khác trên thế giới gộp loại.
Đây là kết quả mô phỏng của một vụ va chạm giữa các hạt sơ cấp trong máy gia tốc LHC,
có rất rất nhiều thông tin cần phải ghi nhận trong mỗi vụ chạm như thế này
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra,
nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va
chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải
tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này.
Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico,
bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng
lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi
đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài quan sát LSST để thay thế
cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương
như trên nhưng chỉ trong vòng 5 ngày.
Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này
mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn
Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết
và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa
phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng
cấu thành một tập hợp Big Data lớn.
Hoạt động của người dùng Wikipedia được mô hình hóa và với kích thước hàng terabyte,
đây cũng có thể được xem là một dạng Big Data
2. Vài thông tin về tình hình Big Data hiện nay
Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu
trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công
ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng
trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để
chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của
mình.
Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những
yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi
năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là 7,8TB,
18,5TB và 24,7TB.
Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube hay
Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông
tin khác có liên quan.
Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data như sau:
 Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt
động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ
liệu lớn hơn 1.000 lần so với mã vạc truyền thống
 Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải
xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao diện mỗi giây.
 Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình
mỗi ngày
 Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà
thôi
 Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành
viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
3. Công nghệ dùng trong Big Data
Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft,
SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích
dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng
nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.
Một số công ty có tham gia vào lĩnh vực Big Data
Như đã nói ở trên, Big Data cần đến các kĩ thuật khai thác thông tin rất đặc biệt do tính chất
khổng lồ và phức tạp của nó. Năm 2011, tập đoàn phân tích McKinsey đề xuất những công
nghệ có thể dùng với Big Data bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị
điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền,
những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một
nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice
Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình
hóa, kết hợp các server mạnh lại với nhau.... Những kĩ thuật này rất phức tạp nên chúng ta
không đi sâu nói về chúng.
Một trong những mô hình về cấu trúc cơ bản của một tập hợp dữ liệu rất lớn do bộ phận
nghiên cứu của Bộ quốc phòng Mỹ đưa ra
Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt động dựa trên
hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng
dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân Internet cũng là những
công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ “dữ liệu lớn”.
Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng
petabyte dữ liệu, chúng cũng có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Big
Data nữa.
Những người làm việc với Big Data thường cảm tháy khó chịu với các hệ thống lưu trữ dữ
liệu vì tốc độ chậm, do đó họ thích những loại ổ lưu trữ nào có thể gắn trực tiếp vào máy tính
(cũng như ổ cứng gắn trong máy tính của chúng ta vậy). Ổ đó có thể là SSD cho đến các đĩa
SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào ổ NAS hay hệ thống
lưu trữ mạng SAN với góc nhìn rằng những thứ này quá phức tạp, đắt và chậm. Những tính
chất nói trên không phù hợp cho hệ thống dùng để phân tích Big Data vốn nhắm đến hiệu
năng cao, tận dụng hạ tầng thông dụng và chi phí thấp. Ngoài ra, việc phân tích Big Data
cũng cần phải được áp dụng theo thời gian thực hoặc cận thời gian thực, thế nên độ trễ cần
phải được loại bỏ bất kì khi nào và bất kì nơi nào có thể.
4. Big Data có thể giúp gì được cho chúng ta?
Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ liệu, thay vào đó, là bạn
dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại: cắt giảm
chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ
con người đưa ra những quyết định đúng và hợp lý hơn.
Nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang
tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem
điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì
sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích, thói quen của khách
hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.
Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu
khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với
trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì
nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người
dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình
tìm kiếm.
Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế,
chứ bản thân chúng ta thì khó mà tự mình phát triển hay mua các giải pháp để khai thác Big
Data bởi giá thành của chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu
mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài Terabyte sinh ra trong một
thời gian dài.
Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được
tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó,
hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng
ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết
trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên
ngoài.
Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ
liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch
cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ
những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả
do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu
Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu
từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.
Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm kiếm liên quan
đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch của Mỹ đưa ra.
Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ
chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở
một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn
một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của
mình trong vòng 3 năm.
5. Chỉ trích đối với Big Data
Có hai hướng chỉ trích chính đối với Big Data, một là về cách mà người ta sử dụng Big Data,
cái còn lại thì liên quan đến việc tiến hành lấy thông tin từ Big Data mà thế giới đang làm.
A. Chỉ trích về Big Data
Chris Anderson, một nhà khởi nghiệp và cũng là một người viết sách, cho rằng việc sử dụng
Big Data luôn cần phải được ngữ cảnh hóa trong các bối cảnh về xã hội, kinh tế và chính trị.
Ví dụ, ngay cả khi các công ty đã đầu tư hàng tỉ USD vào Big Data và lấy được thông tin về
nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và tận dụng các thông tin
này. Điều đó làm giảm hiệu quả của Big Data đi nhiều so với lúc đầu, dẫn đến lãng phí tài
nguyên.
Ngoài ra, còn có chỉ trích rằng Big Data chỉ có thể miêu tả thế giới trong quá khứ bởi nó dựa
trên các dữ liệu đã sinh ra từ trước, và nếu tốt lắm thì chỉ miêu tả được trong hiện thực. Việc
sử dụng Big Data để nói về tương lai thì cần phải kết hợp thêm với các phương pháp mô
hình, mô phỏng hay nghiên cứu về sự chuyển động của thế giới thì mới đưa ra dự đoán
chính xác được.
Bên cạnh đó, người ta còn lo lắng về vấn đề quyền riêng tư của người dùng. Việc thu thập
Big Data có thể sẽ đi kèm thông tin có khả năng định dạng người dùng mà không được sự
đồng ý của họ, và điều đó vi phạm luật ở một số quốc gia. Nhiều chuyên gia từ nhiều lĩnh
vực khác nhau hiện đang thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big Data.
B. Chỉ trích về việc lấy thông tin từ Big Data
Nhà nghiên cứu Danah Boyd đã đưa ra quan ngại của mình rằng việc sử dụng Big Data
trong việc chọn mẫu thống kê có thể gây ra sự chủ quan, và dù ít hay nhiều thì nó cũng có
thể ảnh hưởn đến kết quả cuối cùng. Việc khai thác dữ liệu từ một số nguồn là Big Data,
trong khi những nguồn khác không phải là “dữ liệu lớn” thì đặt ra những thách thức khi phân
tích dữ liệu.
6. Tương lai của Big Data
Erik Swan, đồng sáng lập kiêm giám đốc công nghệ của công ty Spunk, dự đoán rằng sự
thay đổi nhất trong Big Data chính là thái độ của mọi người đối với nó. Việc tiêu thụ một
lượng dữ liệu lớn sẽ dần phổ biến hơn với mọi người, từ những người nông dân cho đến
các anh kĩ sư. Mọi người sẽ mặc định sử dụng dữ liệu để phân tích mọi thứ trong vòng 10
năm tới. Tất nhiên là kĩ thuật và công nghệ cũng cần phải phát triển theo thì điều này mới có
thể trở thành hiện thực.
Còn theo Ankur Jain, nhà sáng lập và CEO của Humin, ngữ cảnh phát sinh ra dữ liệu sẽ trở
nên quan trọng hơn. “Chúng ta sẽ bắt đầu định tuyến dữ liệu vào các đối tượng, sự vật, sự
việc trong đời thực và chuyện đó giúp chúng ta xử lí công việc tốt hơn”.
Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ quan nghiên cứu thuộc
Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh học sẽ ngày càng được quan tâm hơn, và rồi
người ta sẽ dùng dữ liệu này để đưa ra những lời khuyên có ảnh hưởng lớn đến lối sống và
cuộc đời của con người. Ví dụ, bạn có nên thêm một dĩa cơm tấm sườn nữa không, hay là
nên ăn thêm một dĩa cơm gà? Bộ quốc phòng Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay
cơm bằng pizza nhé) để áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên
chuột.
Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp giải pháp Big Data sẽ
không còn bán dữ liệu và phân tích cho từng doanh nghiệp hay công ty riêng lẻ để phục vụ
cho những mục đích quá chuyên biệt. Thay vào đó, họ sẽ mở rộng nó và áp dụng Big Data
nhằm giải quyết những vấn đề trong đời thường và trả lời cho các nhu cầu cơ bản của con
người. Đó sẽ là sự thay đổi về tính ứng dụng của Big Data.
Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay
có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi
thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập
từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những
nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được
hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù
hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó
cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời
của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data.
7. Kết
Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện
nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh
cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách
chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big
Data, tuy nhiên lĩnh vực này vẫn còn rất mới và chúng ta hãy chờ xem trong tương lai Big
Data sẽ tiến hóa như thế nào.
Nguồn: SAS, Wikipedia, Intel, EuroSurveillance, Google Flu Trends, Oracle
BIG DATA LÀ GÌ? VÌ SAO BẠN CẦN PHẢI
QUAN TÂM VỀ CÔNG NGHỆ NÀY (PHẦN
1)
Tường Vy | 30/06/2016
Công nghệ Big Data đã đạt đến đỉnh cao trong việc thực hiện các chức năng của nó. Bạn có thể
nhận biết về chức năng, quy trình, sử dụng và tầm quan trọng của công nghệ Big Data. Tháng 8
năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của
Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới.
Nếu bạn chưa hiểu hết hoặc bỏ lỡ các thông tin quan trọng về công nghệ Big Data, bài viết này sẽ
giúp bạn cập nhật những thông tin chi tiết nhất về tất cả những gì mà bạn cần phải biết về công
nghệ Big Data .
Big Data là gì?
Big Data – Nó có nghĩa là gì?
Theo định nghĩa của Gartner: “Big Data là tài sản thông tin, mà những thông tin này có khối lượng
dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới để xử lý hiệu quả nhằm
đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn sâu trong dữ liệu và tối ưu
hóa được quá trình xử lý dữ liệu”
Chúng ta hãy đào sâu hơn và hiểu điều này bằng một cách đơn giản hơn.
Thuật ngữ “Big Data” là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thường không
thể xử lý được. Thuật ngữ “Big Data” không chỉ đề cập tới dữ liệu mà còn chỉ cơ cấu tổ chức dữ
liệu, các công cụ và công nghệ liên quan.
Sự tiến bộ của công nghệ, sự ra đời của các kênh truyền thông mới như mạng xã hội và các thiết
bị công nghệ mới tiên tiến hơn đã đặt ra thách thức cho các nền công nghiệp khác nhau phải tìm
những cách khác để xử lý dữ liệu.
Từ khi hình thành cho tới đến hết năm 2003, toàn thế giới chỉ có khoảng 5 tỷ gigabyte dữ liệu.
Cũng một lượng dữ liệu như vậy được tạo ra chỉ trong 2 ngày trong năm 2011. Đến năm 2013,
khối lượng dữ liệu này được tạo ra cứ sau mỗi 10 phút. Do đó, không có gì ngạc nhiên khi mà 90%
dữ liệu của toàn thế giới hiện nay được tạo ra trong một vài năm qua.
Tất cả những dữ liệu này cực kỳ hữu ích nhưng nó đã bị bỏ bê trước khi thuật ngữ “Big Data” ra
đời.
Bí kíp: hãy học về công nghệ Big Data và bạn có thể bước chân vào ngành công nghiệp khoa học
dữ liệu lớn này. Những chứng nhận có thể hỗ trợ cho bạn đó là : chứng nhận đào tạo chuyên
nghiệp Big Data hoặc trong các công nghệ như Impala, Cassandra, Spark và Scala.
Những nguồn chính tạo ra Big Data:
1. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và
trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn,
các bản thu âm và thông tin về chuyến bay.
2. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi
như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và
Google+.
3. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết
định mua và bán cổ phiếu được thực hiện bởi khách hàng.
4. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ
các điểm giao nhau của các nút thông tin sử dụng.
5. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông,
độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
6. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây
cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ
rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
Thêm vào đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh sách
20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web. Dưới đây là một
số ví dụ:
1. Data.gov - nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của Chính phủ
Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm đang giam giữ.
2. Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể tập hợp được
siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950.
3. Ngoài ra còn có Cục Điều tra Dân số Mỹ - bao gồm các thông tin có giá trị như dân số, địa
lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh châu Âu, bao gồm các dữ liệu
điều tra dân số của các tổ chức Liên minh châu Âu.
4. Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB cung cấp cho
chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các thông tin công khai
được cung cấp bởi người sử dụng.
5. Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin chăm sóc Y tế và
xã hội NHS, từ Anh.
Bộ dữ liệu công cộng Google Trends, Google Finance, Amazon Web Services, là những ví dụ
tương tự.
Tại Robusta, với thế mạnh là đào tạo công nghệ Ảo hoá, điện toán đám mây và công nghệ Big
Data,chúng tôi luôn có các khoá học để phục vụ nhu cầu của các bạn. Xem chi tiết
website robusta.vn.
Còn tiếp..
(Internet)
BIG DATA LÀ GÌ? VÌ SAO BẠN CẦN PHẢI
QUAN TÂM VỀ CÔNG NGHỆ NÀY? (PHẦN
2)
Tường Vy | 01/07/2016
Từ những ví dụ ở Phần I, có thể thấy Big Data không chỉ là về khối lượng dữ liệu mà còn là sự đa
dạng và tốc độ tăng của dữ liệu. Năm 2001, Doug Laney – một chuyên gia trong ngành phân tích
dữ liệu đã định nghĩa Big Data với 3 từ V: velocity (tốc độ), volume (khối lượng), and variety (sự
đa dạng).
Tốc độ của dữ liệu tăng trực tiếp từng phút, hiện nay, rất khó khăn để có thể xử lý được Big Data
kịp thời. Công tơ thông minh, cảm biến và thẻ RFID khiến Big Data trở nên cần thiết hơn bao giờ
hết để đối phó với các chuỗi dữ liệu ở thời gian thực. Hầu hết các tổ chức đang gặp khó khăn để
phản ứng với dữ liệu tăng một cách nhanh chóng.
Một vài năm trước đây, không quá khó để lưu dữ liệu. Tuy nhiên, việc tăng sức chứa và giảm chi
phí lưu trữ, các ngành công nghiệp sử dụng hỗ trợ DBA từ xa hiện đang tập trung vào việc làm thế
nào dữ liệu có liên quan có thể tạo ra giá trị.
Sự đa dạng của các dữ liệu ngày nay nhiều hơn vài năm trước đây. Dữ liệu được phân loại là cấu
trúc dữ liệu (dữ liệu quan hệ), dữ liệu bán cấu trúc (dữ liệu ở dạng XML), và dữ liệu phi cấu trúc
(bản ghi phương tiện truyền thông và dữ liệu ở dạng PDF, Word, và các tập tin văn bản). Nhiều
công ty đang phải vật lộn với việc quản lý, và sát nhập các loại dữ liệu khác nhau.
Tính xác thực (chất lượng của dữ liệu), biến đổi (sự không thống nhất của dữ liệu), và phức tạp
(khi giao dịch với khối lượng lớn dữ liệu từ các nguồn khác nhau) là những đặc điểm quan trọng
khác của dữ liệu.
Một vài giá trị khác của Big Data:
1. Khách hàng ngày nay có rất nhiều đòi hỏi. Họ thường nói chuyện với các khách hàng cũ
trên kênh xã hội và xem xét các quyết định khác nhau trước khi mua hàng. Một khách hàng
muốn được đối xử cá nhân hóa và nhận được những lời cảm ơn sau khi mua hàng. Với
Big Data, bạn có thể nhận được các dữ liệu hành vi của khách hàng để thu hút họ một-một
trong một khoảng thời gian thực. Big Data giúp bạn có thể kiểm tra những phàn nàn của
khách hàng và thông tin về sản phẩm mà họ không hài lòng. Từ đó, bạn có thể quản lý
danh tiếng doanh nghiệp của mình.
2. Big Data giúp bạn phát triển lại sản phẩm/dịch vụ mà bạn đang bán. Thông tin mà những
người khác nói về sản phẩm của bạn, thông qua các trang web mạng xã hội giúp bạn trong
việc phát triển sản phẩm.
3. Big Data cho phép bạn kiểm tra các biến thể khác nhau của hình ảnh CAD (Computer
Aided Design) để xác định thay đổi nhỏ ảnh hưởng như thế nào đến quá trình hoặc sản
phẩm của bạn. Điều này làm cho big data vô giá trong quá trình sản xuất.
4. Phân tích tiên đoán sẽ giúp bạn luôn đi trước đối thủ cạnh tranh. Big Data có thể tạo ra
điều kiện này, ví dụ, quét và phân tích tin tức mới trên mạng xã hội và báo cáo báo chí, Big
Data giúp bạn kiểm tra tình trạng khách hàng, nhà cung cấp và các bên liên quan khác của
bạn để tránh rủi ro.
5. Big Data hữu ích trong việc giữ an toàn dữ liệu. Công cụ Big Data giúp bạn lập bản đồ quy
trình xử lý dữ liệu của công ty bạn, giúp bạn trong việc phân tích các mối đe dọa nội bộ. Ví
dụ, bạn sẽ biết thông tin nhạy cảm của bạn có được bảo vệ hay không. Một ví dụ cụ thể
hơn nữa là bạn sẽ có thể gắn cờ gửi email hoặclưu trữ 16 chữ số (mà có thể, có khả năng,
có số thẻ tín dụng).
6. Big Data cho phép bạn để đa dạng hóa nguồn doanh thu của bạn. Phân tích dữ liệu lớn có
thể cung cấp cho bạn xu hướng dữ liệu có thể giúp bạn tìm ra một nguồn thu nhập hoàn
toàn mới.
7. Website của bạn cần năng động để nó có thể cạnh tranh thuận lợi trong môi trường trực
tuyến đông đúc. Phân tích Big Data giúp bạn cá nhân hóa giao diện, nội dung và cảm giác
cho các khách hàng phù hợp khi ghé thăm trang web của bạn. Ví dụ như quốc gia hay giới
tính. Một ví dụ của điều này là Amazon’s IBC (lọc dựa trên các item có liên quan với nhau)
dùng các tính năng “Người bạn có thể biết” hoặc “Thường mua bán với nhau” để đưa ra
kết quả lọc.
8. Nếu bạn đang quản lý một nhà máy, Big Data cực kỳ quan trọng bởi vì bạn sẽ không thể
thay thế phần của công nghệ dựa vào số tháng hay số năm các công nghệ này được sử
dụng. Việc này vô cùng tốn kém và không thực tế kể từ khi các phần khác nhau mặc địch
ở mức độ khác nhau. Big Data cho phép bạn để phát hiện các thiết bị sẽ hư hỏng và dự
đoán khi nào bạn nên thay thế chúng.
9. Big Data quan trọng trong ngành công nghiệp chăm sóc sức khỏe, đó là một trong số ít
các ngành công nghiệp cuối cùng vẫn bị mắc kẹt với một cách tiếp cận thông thường tổng
quát. Ví dụ, giả sử bạn bị ung thư, bạn sẽ đi qua một liệu pháp và nếu nó không hiệu quả,
bác sĩ sẽ khuyên bạn nên điều trị khác. Big Data cho phép một bệnh nhân ung thư có được
loại thuốc được phát triển dựa trên gen cá nhân của mình.
Tại Robusta, với thế mạnh là đào tạo công nghệ Ảo hoá, điện toán đám mây và công nghệ Big
Data,chúng tôi luôn có các khoá học để phục vụ nhu cầu của các bạn. Xem chi tiết
website robusta.vn
(Internet)
Big Data là gì và người ta khai
thác, ứng dụng nó vào cuộc
sống như thế nào?
 Published on June 9, 2016
 Li keBi g Dat a l à gì và người t a khai t hác, ứng dụng nó vào cuộc sống như t hế nào?
66
 Com m ent
5
 Shar eShar e Bi g Dat a l à gì và người t a khai t hác, ứng dụng nó vào cuộc sống như t hế nào?
7
Joni Phuong Nguyen
FollowJoni Phuong Nguyen
Recruiter at TRG International
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất
phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống
không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong
mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ
giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các
dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao
thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được
thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với
bình thường. Trong bài này, mời các bạn cùng tìm hiểu về Big Data,
các phương thức người ta dùng để khai thác nó và nó giúp ích như thế
nào cho cuộc sống của chúng ta.
1. Định nghĩa Big Data
Như đã nói ở trên, Big Data (“dữ liệu lớn”) có là tập hợp dữ liệu có
dung lượng vượt mức đảm đương của những ứng dụng và công cụ
truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính
đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho
đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp
dữ liệu mà thôi.
Vào năm 2001, nhà phân tích Doug Laney của hãng META Group
(bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách
thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả
bằng ba chiều: tăng về lượng (volume), tăng về vận tốc (velocity) và
tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty
và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng
mô hình “3V” này để định nghĩa nên Big Data. Đến năm 2012,
Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn
phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định,
khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”.
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở
Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến
hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ
truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như
LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên
vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500
exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu
khác trên thế giới gộp loại.
Đây là kết quả mô phỏng của một vụ va chạm giữa các hạt sơ cấp
trong máy gia tốc LHC, có rất rất nhiều thông tin cần phải ghi
nhận trong mỗi vụ chạm như thế này
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa
các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng
99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các
nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC
phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu
khổng lồ này.
Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ
trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau
một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà
ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB
mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài
quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm
2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ
trong vòng 5 ngày.
Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước
đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ
cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của
NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả
lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các
nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành
vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data
lớn.
Hoạt động của người dùng Wikipedia được mô hình hóa và với
kích thước hàng terabyte, đây cũng có thể được xem là một dạng
Big Data
2. Vài thông tin về tình hình Big Data hiện nay
Theo tài liệu của Intel vào tháng 9/2013,hiện nay thế giới đang tạo ra
1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn
video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang
sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực
tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến
40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách
hàng cũng như thông tin về hàng hóa của mình.
Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động
mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán
hàng. Amazon sử dụng một hệ thống Linux và hồi năm 2005, họ từng
sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là
7,8TB, 18,5TB và 24,7TB.
Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải
lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và
video của người dùng cùng nhiều loại thông tin khác có liên quan.
Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data
như sau:
Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng
có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách
sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạc truyền thống
Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng
Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản
5.000 giao diện mỗi giây.
Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách
hàng của mình mỗi ngày
Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng
một ngày mà thôi
Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có
1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin,
video…
3. Công nghệ dùng trong Big Data
Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG,
Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD
cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010,
ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng
nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành
phần mềm nói chung.
Một số công ty có tham gia vào lĩnh vực Big Data
Như đã nói ở trên, Big Data cần đến các kĩ thuật khai thác thông tin
rất đặc biệt do tính chất khổng lồ và phức tạp của nó. Năm 2011, tập
đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với
Big Data bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị
điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về
gen và di truyền, những biện pháp machine learning (ý chỉ các hệ
thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo),
xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search,
nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời
gian, mô hình hóa, kết hợp các server mạnh lại với nhau.... Những kĩ
thuật này rất phức tạp nên chúng ta không đi sâu nói về chúng.
Một trong những mô hình về cấu trúc cơ bản của một tập hợp dữ liệu rất
lớn do bộ phận nghiên cứu của Bộ quốcphòng Mỹ đưa ra
Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng
hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các
hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán
cũng như không gian lưu trữ) và bản thân Internet cũng là những công
cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ
“dữ liệu lớn”. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ
(bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải,
quản lí, sao lưu và tối ưu hóa cách sử dụng Big Data nữa.
Những người làm việc với Big Data thường cảm tháy khó chịu với các
hệ thống lưu trữ dữ liệu vì tốc độ chậm, do đó họ thích những loại ổ
lưu trữ nào có thể gắn trực tiếp vào máy tính (cũng như ổ cứng gắn
trong máy tính của chúng ta vậy). Ổ đó có thể là SSD cho đến các đĩa
SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào
ổ NAS hay hệ thống lưu trữ mạng SAN với góc nhìn rằng những thứ
này quá phức tạp, đắt và chậm. Những tính chất nói trên không phù
hợp cho hệ thống dùng để phân tích Big Data vốn nhắm đến hiệu năng
cao, tận dụng hạ tầng thông dụng và chi phí thấp. Ngoài ra, việc phân
tích Big Data cũng cần phải được áp dụng theo thời gian thực hoặc
cận thời gian thực, thế nên độ trễ cần phải được loại bỏ bất kì khi nào
và bất kì nơi nào có thể.
4. Big Data có thể giúp gì được cho chúng ta?
Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ
liệu, thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn
lợi ích mà Big Data có thể mang lại: cắt giảm chi phí, giảm thời gian,
tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con
người đưa ra những quyết định đúng và hợp lý hơn.
Nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay,
Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những
sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi
ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì
sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích,
thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được
nhiều hàng hóa hơn.
Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính
là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc
khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần
doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó
không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm
mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ
những lời gợi ý so với việc phải tự mình tìm kiếm.
Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc
tối ưu hóa như thế, chứ bản thân chúng ta thì khó mà tự mình phát
triển hay mua các giải pháp để khai thác Big Data bởi giá thành của
chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu
mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài
Terabyte sinh ra trong một thời gian dài.
Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức,
chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của
tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu,
kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng
ngừa trước một dịch bệnh nào đó, giống như trong phim World War
Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây
tường thành ngăn cách với thế giới bên ngoài.
Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009,
Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán
xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ
này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những
từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất
sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và
HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo
thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung
tâm dịch bệnh ở nhiều nơi trên thế giới.
Đường màu xanh là dự đoán của GoogleFlu Trendsdựa trên số từ khóa
tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan
phòng chống dịchcủa Mỹ đưa ra.
Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung
lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí
phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ
cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn
một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng
số tiền đầu tư của mình trong vòng 3 năm.
5. Chỉ trích đối với Big Data
Có hai hướng chỉ trích chính đối với Big Data, một là về cách mà
người ta sử dụng Big Data, cái còn lại thì liên quan đến việc tiến hành
lấy thông tin từ Big Data mà thế giới đang làm.
A. Chỉ trích về Big Data
Chris Anderson, một nhà khởi nghiệp và cũng là một người viết sách,
cho rằng việc sử dụng Big Data luôn cần phải được ngữ cảnh hóa
trong các bối cảnh về xã hội, kinh tế và chính trị. Ví dụ, ngay cả khi
các công ty đã đầu tư hàng tỉ USD vào Big Data và lấy được thông tin
về nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và
tận dụng các thông tin này. Điều đó làm giảm hiệu quả của Big Data
đi nhiều so với lúc đầu, dẫn đến lãng phí tài nguyên.
Ngoài ra, còn có chỉ trích rằng Big Data chỉ có thể miêu tả thế giới
trong quá khứ bởi nó dựa trên các dữ liệu đã sinh ra từ trước, và nếu
tốt lắm thì chỉ miêu tả được trong hiện thực. Việc sử dụng Big Data để
nói về tương lai thì cần phải kết hợp thêm với các phương pháp mô
hình, mô phỏng hay nghiên cứu về sự chuyển động của thế giới thì
mới đưa ra dự đoán chính xác được.
Bên cạnh đó, người ta còn lo lắng về vấn đề quyền riêng tư của người
dùng. Việc thu thập Big Data có thể sẽ đi kèm thông tin có khả năng
định dạng người dùng mà không được sự đồng ý của họ, và điều đó vi
phạm luật ở một số quốc gia. Nhiều chuyên gia từ nhiều lĩnh vực khác
nhau hiện đang thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big
Data.
B. Chỉ trích về việc lấy thông tin từ Big Data
Nhà nghiên cứu Danah Boyd đã đưa ra quan ngại của mình rằng việc
sử dụng Big Data trong việc chọn mẫu thống kê có thể gây ra sự chủ
quan, và dù ít hay nhiều thì nó cũng có thể ảnh hưởn đến kết quả cuối
cùng. Việc khai thác dữ liệu từ một số nguồn là Big Data, trong khi
những nguồn khác không phải là “dữ liệu lớn” thì đặt ra những thách
thức khi phân tích dữ liệu.
6. Tương lai của Big Data
Erik Swan, đồng sáng lập kiêm giám đốc công nghệ của công ty
Spunk, dự đoán rằng sự thay đổi nhất trong Big Data chính là thái độ
của mọi người đối với nó. Việc tiêu thụ một lượng dữ liệu lớn sẽ dần
phổ biến hơn với mọi người, từ những người nông dân cho đến các
anh kĩ sư. Mọi người sẽ mặc định sử dụng dữ liệu để phân tích mọi
thứ trong vòng 10 năm tới. Tất nhiên là kĩ thuật và công nghệ cũng
cần phải phát triển theo thì điều này mới có thể trở thành hiện thực.
Còn theo Ankur Jain, nhà sáng lập và CEO của Humin, ngữ cảnh phát
sinh ra dữ liệu sẽ trở nên quan trọng hơn. “Chúng ta sẽ bắt đầu định
tuyến dữ liệu vào các đối tượng, sự vật, sự việc trong đời thực và
chuyện đó giúp chúng ta xử lí công việc tốt hơn”.
Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ
quan nghiên cứu thuộc Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh
học sẽ ngày càng được quan tâm hơn, và rồi người ta sẽ dùng dữ liệu
này để đưa ra những lời khuyên có ảnh hưởng lớn đến lối sống và
cuộc đời của con người. Ví dụ, bạn có nên thêm một dĩa cơm tấm
sườn nữa không, hay là nên ăn thêm một dĩa cơm gà? Bộ quốc phòng
Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay cơm bằng pizza nhé) để
áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên
chuột.
Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp
giải pháp Big Data sẽ không còn bán dữ liệu và phân tích cho từng
doanh nghiệp hay công ty riêng lẻ để phục vụ cho những mục đích
quá chuyên biệt. Thay vào đó, họ sẽ mở rộng nó và áp dụng Big Data
nhằm giải quyết những vấn đề trong đời thường và trả lời cho các nhu
cầu cơ bản của con người. Đó sẽ là sự thay đổi về tính ứng dụng của
Big Data.
Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng
của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm
Internet of Things, tức là mang Internet đến với mọi thứ trong đời
sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được
thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử,
và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu
khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu
dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of
Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của
chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc
sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel
Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data.
7. Kết
Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp
trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ
có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế
giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách
chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những
chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới
và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế
nào.

More Related Content

What's hot

báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêthuhuynhphonegap
 
Bài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuBài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuMasterCode.vn
 
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTSlide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTHiệu Nguyễn
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líKhoa Hồ Anh
 
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNGPHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNGThùy Linh
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTMasterCode.vn
 
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTBài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTMasterCode.vn
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịThanh Hoa
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHan Nguyen
 
Đề cương ôn tập hệ thống thông tin quản lý
Đề cương ôn tập hệ thống thông tin quản lýĐề cương ôn tập hệ thống thông tin quản lý
Đề cương ôn tập hệ thống thông tin quản lýQuách Đại Dương
 
Bài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệuBài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệutrieulongweb
 
Data_Warehouse
Data_WarehouseData_Warehouse
Data_WarehouseThang Luu
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánNgo Trung
 
Hệ thống thông tin quản lý-website tin tức nhà đất
Hệ thống thông tin quản lý-website tin tức nhà đấtHệ thống thông tin quản lý-website tin tức nhà đất
Hệ thống thông tin quản lý-website tin tức nhà đấtKali Back Tracker
 
Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm nataliej4
 
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfBài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfNuioKila
 

What's hot (20)

báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
 
Bài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuBài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệu
 
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đĐề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
Đề tài: Quản lý hệ thống bán vé máy bay của Vietnam Airline, 9đ
 
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTSlide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
 
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líTiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử lí
 
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNGPHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
 
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTBài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
 
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOTĐề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng online
 
Đề cương ôn tập hệ thống thông tin quản lý
Đề cương ôn tập hệ thống thông tin quản lýĐề cương ôn tập hệ thống thông tin quản lý
Đề cương ôn tập hệ thống thông tin quản lý
 
Bài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệuBài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệu
 
Data_Warehouse
Data_WarehouseData_Warehouse
Data_Warehouse
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
Hệ thống thông tin quản lý-website tin tức nhà đất
Hệ thống thông tin quản lý-website tin tức nhà đấtHệ thống thông tin quản lý-website tin tức nhà đất
Hệ thống thông tin quản lý-website tin tức nhà đất
 
Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm
 
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfBài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
 

Similar to Big data là gì và người ta khai thác

Sự tiến hóa trong quản lý dữ liệu
Sự tiến hóa trong quản lý dữ liệuSự tiến hóa trong quản lý dữ liệu
Sự tiến hóa trong quản lý dữ liệuthanhnhat31
 
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369nataliej4
 
Chương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLChương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLHoa Le
 
k07406tochucdulieuvathongtin
k07406tochucdulieuvathongtink07406tochucdulieuvathongtin
k07406tochucdulieuvathongtinVo Oanh
 
Số hóa từ chuyện thường ngày đến đại sự
Số hóa từ chuyện thường ngày đến đại sựSố hóa từ chuyện thường ngày đến đại sự
Số hóa từ chuyện thường ngày đến đại sựLe Ngoc Quang
 
Tailieu.vncty.com copy of-tieuluangis_683
Tailieu.vncty.com copy of-tieuluangis_683Tailieu.vncty.com copy of-tieuluangis_683
Tailieu.vncty.com copy of-tieuluangis_683Trần Đức Anh
 
Bài 1: Một số khái niệm cơ bản
Bài 1: Một số khái niệm cơ bảnBài 1: Một số khái niệm cơ bản
Bài 1: Một số khái niệm cơ bảnChâu Trần
 
Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016hung le
 
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanhGS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanhKhoa Quốc tế - ĐHQGHN
 
Bttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuongBttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuongnnguyenphuongg
 
Bai giang tin_hoc_ql_2_046
Bai giang tin_hoc_ql_2_046Bai giang tin_hoc_ql_2_046
Bai giang tin_hoc_ql_2_046Heo Mọi
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfMan_Ebook
 
Trends in data warehousing
Trends in data warehousingTrends in data warehousing
Trends in data warehousingA P
 

Similar to Big data là gì và người ta khai thác (20)

Sự tiến hóa trong quản lý dữ liệu
Sự tiến hóa trong quản lý dữ liệuSự tiến hóa trong quản lý dữ liệu
Sự tiến hóa trong quản lý dữ liệu
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369
Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu 4869369
 
Chương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLChương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQL
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
k07406tochucdulieuvathongtin
k07406tochucdulieuvathongtink07406tochucdulieuvathongtin
k07406tochucdulieuvathongtin
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Số hóa từ chuyện thường ngày đến đại sự
Số hóa từ chuyện thường ngày đến đại sựSố hóa từ chuyện thường ngày đến đại sự
Số hóa từ chuyện thường ngày đến đại sự
 
Tailieu.vncty.com copy of-tieuluangis_683
Tailieu.vncty.com copy of-tieuluangis_683Tailieu.vncty.com copy of-tieuluangis_683
Tailieu.vncty.com copy of-tieuluangis_683
 
Luan van
Luan vanLuan van
Luan van
 
Bài 1: Một số khái niệm cơ bản
Bài 1: Một số khái niệm cơ bảnBài 1: Một số khái niệm cơ bản
Bài 1: Một số khái niệm cơ bản
 
Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016
 
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanhGS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh
GS. TSKH. Hồ Tú Bảo: Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh
 
Bttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuongBttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuong
 
Trongtruong so27a 09
Trongtruong so27a 09Trongtruong so27a 09
Trongtruong so27a 09
 
Bai giang tin_hoc_ql_2_046
Bai giang tin_hoc_ql_2_046Bai giang tin_hoc_ql_2_046
Bai giang tin_hoc_ql_2_046
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
 
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
 
Trends in data warehousing
Trends in data warehousingTrends in data warehousing
Trends in data warehousing
 
Csdl
CsdlCsdl
Csdl
 

More from letranganh

Bloom2 140709095102-phpapp01
Bloom2 140709095102-phpapp01Bloom2 140709095102-phpapp01
Bloom2 140709095102-phpapp01letranganh
 
Cách xem máy tính dùng uefi hay bios
Cách xem máy tính dùng uefi hay biosCách xem máy tính dùng uefi hay bios
Cách xem máy tính dùng uefi hay biosletranganh
 
Quy tắc đặt dấu thanh trong chữ quốc ngữ
Quy tắc đặt dấu thanh trong chữ quốc ngữQuy tắc đặt dấu thanh trong chữ quốc ngữ
Quy tắc đặt dấu thanh trong chữ quốc ngữletranganh
 
Shrm bo ck-final4
Shrm bo ck-final4Shrm bo ck-final4
Shrm bo ck-final4letranganh
 
Tiếng anh chuyên nghành cntt
Tiếng  anh chuyên nghành cnttTiếng  anh chuyên nghành cntt
Tiếng anh chuyên nghành cnttletranganh
 
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2letranganh
 
74518107labk0009 y0 yky_20130525014544_15188
74518107labk0009 y0 yky_20130525014544_1518874518107labk0009 y0 yky_20130525014544_15188
74518107labk0009 y0 yky_20130525014544_15188letranganh
 
41 xác thực điện tử dịch vụ hạ tầng xây dựng chính phủ điện tử
41 xác thực điện tử   dịch vụ hạ tầng xây dựng chính phủ điện tử41 xác thực điện tử   dịch vụ hạ tầng xây dựng chính phủ điện tử
41 xác thực điện tử dịch vụ hạ tầng xây dựng chính phủ điện tửletranganh
 
34846326 th8772
34846326 th877234846326 th8772
34846326 th8772letranganh
 
24 2010-tt-btttt
24 2010-tt-btttt24 2010-tt-btttt
24 2010-tt-bttttletranganh
 
Bai thuc hanh qtvphqhttdvpcb
Bai thuc hanh qtvphqhttdvpcbBai thuc hanh qtvphqhttdvpcb
Bai thuc hanh qtvphqhttdvpcbletranganh
 

More from letranganh (20)

Bloom2 140709095102-phpapp01
Bloom2 140709095102-phpapp01Bloom2 140709095102-phpapp01
Bloom2 140709095102-phpapp01
 
Cách xem máy tính dùng uefi hay bios
Cách xem máy tính dùng uefi hay biosCách xem máy tính dùng uefi hay bios
Cách xem máy tính dùng uefi hay bios
 
Quy tắc đặt dấu thanh trong chữ quốc ngữ
Quy tắc đặt dấu thanh trong chữ quốc ngữQuy tắc đặt dấu thanh trong chữ quốc ngữ
Quy tắc đặt dấu thanh trong chữ quốc ngữ
 
Shrm bo ck-final4
Shrm bo ck-final4Shrm bo ck-final4
Shrm bo ck-final4
 
Tiếng anh chuyên nghành cntt
Tiếng  anh chuyên nghành cnttTiếng  anh chuyên nghành cntt
Tiếng anh chuyên nghành cntt
 
Dienvanbemac
DienvanbemacDienvanbemac
Dienvanbemac
 
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2
123 b o-de-thi-thu-dh.thuvienvatly.com.53bd6.39188-2
 
74518107labk0009 y0 yky_20130525014544_15188
74518107labk0009 y0 yky_20130525014544_1518874518107labk0009 y0 yky_20130525014544_15188
74518107labk0009 y0 yky_20130525014544_15188
 
41 xác thực điện tử dịch vụ hạ tầng xây dựng chính phủ điện tử
41 xác thực điện tử   dịch vụ hạ tầng xây dựng chính phủ điện tử41 xác thực điện tử   dịch vụ hạ tầng xây dựng chính phủ điện tử
41 xác thực điện tử dịch vụ hạ tầng xây dựng chính phủ điện tử
 
34846326 th8772
34846326 th877234846326 th8772
34846326 th8772
 
24 2010-tt-btttt
24 2010-tt-btttt24 2010-tt-btttt
24 2010-tt-btttt
 
Bai thuc hanh qtvphqhttdvpcb
Bai thuc hanh qtvphqhttdvpcbBai thuc hanh qtvphqhttdvpcb
Bai thuc hanh qtvphqhttdvpcb
 
133
133133
133
 
Phuluc1
Phuluc1Phuluc1
Phuluc1
 
Phuluc2
Phuluc2Phuluc2
Phuluc2
 
Phuluc3
Phuluc3Phuluc3
Phuluc3
 
Phuluc4
Phuluc4Phuluc4
Phuluc4
 
Phuluc2
Phuluc2Phuluc2
Phuluc2
 
Phuluc1
Phuluc1Phuluc1
Phuluc1
 
Phuluc3
Phuluc3Phuluc3
Phuluc3
 

Big data là gì và người ta khai thác

  • 1. Big Data là gì và người ta khai thác, ứng dụng nó vào cuộc sống như thế nào? Thảo luận trong 'Thông tin công nghệ' bắt đầu bởi Duy Luân, 21/11/13.Trả lời:88, Xem: 100117. Facebook310 Share Trang 1 / 41 234Sau > 1. Duy LuânKhông có gì! + Tham gia: 16/2/08 Được thích: 199,501 Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Trong bài này, mời các bạn cùng tìm hiểu về Big Data, các
  • 2. phương thức người ta dùng để khai thác nó và nó giúp ích như thế nào cho cuộc sống của chúng ta. 1. Định nghĩa Big Data Như đã nói ở trên, Big Data (“dữ liệu lớn”) có là tập hợp dữ liệu có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi. Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều: tăng về lượng (volume), tăng về vận tốc (velocity) và tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”. Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
  • 3. Đây là kết quả mô phỏng của một vụ va chạm giữa các hạt sơ cấp trong máy gia tốc LHC, có rất rất nhiều thông tin cần phải ghi nhận trong mỗi vụ chạm như thế này Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này. Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày.
  • 4. Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data lớn.
  • 5.
  • 6. Hoạt động của người dùng Wikipedia được mô hình hóa và với kích thước hàng terabyte, đây cũng có thể được xem là một dạng Big Data 2. Vài thông tin về tình hình Big Data hiện nay Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB. Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan. Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data như sau:  Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạc truyền thống  Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao diện mỗi giây.  Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày  Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi  Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video… 3. Công nghệ dùng trong Big Data Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.
  • 7. Một số công ty có tham gia vào lĩnh vực Big Data Như đã nói ở trên, Big Data cần đến các kĩ thuật khai thác thông tin rất đặc biệt do tính chất khổng lồ và phức tạp của nó. Năm 2011, tập đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với Big Data bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình
  • 8. hóa, kết hợp các server mạnh lại với nhau.... Những kĩ thuật này rất phức tạp nên chúng ta không đi sâu nói về chúng. Một trong những mô hình về cấu trúc cơ bản của một tập hợp dữ liệu rất lớn do bộ phận nghiên cứu của Bộ quốc phòng Mỹ đưa ra Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ “dữ liệu lớn”. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Big Data nữa. Những người làm việc với Big Data thường cảm tháy khó chịu với các hệ thống lưu trữ dữ liệu vì tốc độ chậm, do đó họ thích những loại ổ lưu trữ nào có thể gắn trực tiếp vào máy tính (cũng như ổ cứng gắn trong máy tính của chúng ta vậy). Ổ đó có thể là SSD cho đến các đĩa SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào ổ NAS hay hệ thống lưu trữ mạng SAN với góc nhìn rằng những thứ này quá phức tạp, đắt và chậm. Những tính chất nói trên không phù hợp cho hệ thống dùng để phân tích Big Data vốn nhắm đến hiệu năng cao, tận dụng hạ tầng thông dụng và chi phí thấp. Ngoài ra, việc phân tích Big Data cũng cần phải được áp dụng theo thời gian thực hoặc cận thời gian thực, thế nên độ trễ cần phải được loại bỏ bất kì khi nào và bất kì nơi nào có thể. 4. Big Data có thể giúp gì được cho chúng ta? Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ liệu, thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích, thói quen của khách
  • 9. hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn. Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm. Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế, chứ bản thân chúng ta thì khó mà tự mình phát triển hay mua các giải pháp để khai thác Big Data bởi giá thành của chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài Terabyte sinh ra trong một thời gian dài. Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài. Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới. Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch của Mỹ đưa ra. Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm. 5. Chỉ trích đối với Big Data Có hai hướng chỉ trích chính đối với Big Data, một là về cách mà người ta sử dụng Big Data, cái còn lại thì liên quan đến việc tiến hành lấy thông tin từ Big Data mà thế giới đang làm. A. Chỉ trích về Big Data
  • 10. Chris Anderson, một nhà khởi nghiệp và cũng là một người viết sách, cho rằng việc sử dụng Big Data luôn cần phải được ngữ cảnh hóa trong các bối cảnh về xã hội, kinh tế và chính trị. Ví dụ, ngay cả khi các công ty đã đầu tư hàng tỉ USD vào Big Data và lấy được thông tin về nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và tận dụng các thông tin này. Điều đó làm giảm hiệu quả của Big Data đi nhiều so với lúc đầu, dẫn đến lãng phí tài nguyên. Ngoài ra, còn có chỉ trích rằng Big Data chỉ có thể miêu tả thế giới trong quá khứ bởi nó dựa trên các dữ liệu đã sinh ra từ trước, và nếu tốt lắm thì chỉ miêu tả được trong hiện thực. Việc sử dụng Big Data để nói về tương lai thì cần phải kết hợp thêm với các phương pháp mô hình, mô phỏng hay nghiên cứu về sự chuyển động của thế giới thì mới đưa ra dự đoán chính xác được. Bên cạnh đó, người ta còn lo lắng về vấn đề quyền riêng tư của người dùng. Việc thu thập Big Data có thể sẽ đi kèm thông tin có khả năng định dạng người dùng mà không được sự đồng ý của họ, và điều đó vi phạm luật ở một số quốc gia. Nhiều chuyên gia từ nhiều lĩnh vực khác nhau hiện đang thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big Data. B. Chỉ trích về việc lấy thông tin từ Big Data Nhà nghiên cứu Danah Boyd đã đưa ra quan ngại của mình rằng việc sử dụng Big Data trong việc chọn mẫu thống kê có thể gây ra sự chủ quan, và dù ít hay nhiều thì nó cũng có thể ảnh hưởn đến kết quả cuối cùng. Việc khai thác dữ liệu từ một số nguồn là Big Data, trong khi những nguồn khác không phải là “dữ liệu lớn” thì đặt ra những thách thức khi phân tích dữ liệu. 6. Tương lai của Big Data Erik Swan, đồng sáng lập kiêm giám đốc công nghệ của công ty Spunk, dự đoán rằng sự thay đổi nhất trong Big Data chính là thái độ của mọi người đối với nó. Việc tiêu thụ một lượng dữ liệu lớn sẽ dần phổ biến hơn với mọi người, từ những người nông dân cho đến các anh kĩ sư. Mọi người sẽ mặc định sử dụng dữ liệu để phân tích mọi thứ trong vòng 10 năm tới. Tất nhiên là kĩ thuật và công nghệ cũng cần phải phát triển theo thì điều này mới có thể trở thành hiện thực. Còn theo Ankur Jain, nhà sáng lập và CEO của Humin, ngữ cảnh phát sinh ra dữ liệu sẽ trở nên quan trọng hơn. “Chúng ta sẽ bắt đầu định tuyến dữ liệu vào các đối tượng, sự vật, sự việc trong đời thực và chuyện đó giúp chúng ta xử lí công việc tốt hơn”.
  • 11. Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ quan nghiên cứu thuộc Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh học sẽ ngày càng được quan tâm hơn, và rồi người ta sẽ dùng dữ liệu này để đưa ra những lời khuyên có ảnh hưởng lớn đến lối sống và cuộc đời của con người. Ví dụ, bạn có nên thêm một dĩa cơm tấm sườn nữa không, hay là nên ăn thêm một dĩa cơm gà? Bộ quốc phòng Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay cơm bằng pizza nhé) để áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên chuột. Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp giải pháp Big Data sẽ không còn bán dữ liệu và phân tích cho từng doanh nghiệp hay công ty riêng lẻ để phục vụ cho những mục đích quá chuyên biệt. Thay vào đó, họ sẽ mở rộng nó và áp dụng Big Data nhằm giải quyết những vấn đề trong đời thường và trả lời cho các nhu cầu cơ bản của con người. Đó sẽ là sự thay đổi về tính ứng dụng của Big Data.
  • 12. Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data. 7. Kết Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào. Nguồn: SAS, Wikipedia, Intel, EuroSurveillance, Google Flu Trends, Oracle BIG DATA LÀ GÌ? VÌ SAO BẠN CẦN PHẢI QUAN TÂM VỀ CÔNG NGHỆ NÀY (PHẦN 1) Tường Vy | 30/06/2016 Công nghệ Big Data đã đạt đến đỉnh cao trong việc thực hiện các chức năng của nó. Bạn có thể nhận biết về chức năng, quy trình, sử dụng và tầm quan trọng của công nghệ Big Data. Tháng 8 năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới. Nếu bạn chưa hiểu hết hoặc bỏ lỡ các thông tin quan trọng về công nghệ Big Data, bài viết này sẽ giúp bạn cập nhật những thông tin chi tiết nhất về tất cả những gì mà bạn cần phải biết về công nghệ Big Data .
  • 13. Big Data là gì? Big Data – Nó có nghĩa là gì? Theo định nghĩa của Gartner: “Big Data là tài sản thông tin, mà những thông tin này có khối lượng dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới để xử lý hiệu quả nhằm đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn sâu trong dữ liệu và tối ưu hóa được quá trình xử lý dữ liệu” Chúng ta hãy đào sâu hơn và hiểu điều này bằng một cách đơn giản hơn. Thuật ngữ “Big Data” là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thường không thể xử lý được. Thuật ngữ “Big Data” không chỉ đề cập tới dữ liệu mà còn chỉ cơ cấu tổ chức dữ liệu, các công cụ và công nghệ liên quan. Sự tiến bộ của công nghệ, sự ra đời của các kênh truyền thông mới như mạng xã hội và các thiết bị công nghệ mới tiên tiến hơn đã đặt ra thách thức cho các nền công nghiệp khác nhau phải tìm những cách khác để xử lý dữ liệu. Từ khi hình thành cho tới đến hết năm 2003, toàn thế giới chỉ có khoảng 5 tỷ gigabyte dữ liệu. Cũng một lượng dữ liệu như vậy được tạo ra chỉ trong 2 ngày trong năm 2011. Đến năm 2013, khối lượng dữ liệu này được tạo ra cứ sau mỗi 10 phút. Do đó, không có gì ngạc nhiên khi mà 90% dữ liệu của toàn thế giới hiện nay được tạo ra trong một vài năm qua. Tất cả những dữ liệu này cực kỳ hữu ích nhưng nó đã bị bỏ bê trước khi thuật ngữ “Big Data” ra đời. Bí kíp: hãy học về công nghệ Big Data và bạn có thể bước chân vào ngành công nghiệp khoa học dữ liệu lớn này. Những chứng nhận có thể hỗ trợ cho bạn đó là : chứng nhận đào tạo chuyên nghiệp Big Data hoặc trong các công nghệ như Impala, Cassandra, Spark và Scala. Những nguồn chính tạo ra Big Data: 1. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay. 2. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+. 3. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng. 4. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng. 5. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông. 6. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
  • 14. Thêm vào đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh sách 20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web. Dưới đây là một số ví dụ: 1. Data.gov - nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm đang giam giữ. 2. Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể tập hợp được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950. 3. Ngoài ra còn có Cục Điều tra Dân số Mỹ - bao gồm các thông tin có giá trị như dân số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức Liên minh châu Âu. 4. Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB cung cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các thông tin công khai được cung cấp bởi người sử dụng. 5. Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin chăm sóc Y tế và xã hội NHS, từ Anh. Bộ dữ liệu công cộng Google Trends, Google Finance, Amazon Web Services, là những ví dụ tương tự. Tại Robusta, với thế mạnh là đào tạo công nghệ Ảo hoá, điện toán đám mây và công nghệ Big Data,chúng tôi luôn có các khoá học để phục vụ nhu cầu của các bạn. Xem chi tiết website robusta.vn. Còn tiếp.. (Internet) BIG DATA LÀ GÌ? VÌ SAO BẠN CẦN PHẢI QUAN TÂM VỀ CÔNG NGHỆ NÀY? (PHẦN 2) Tường Vy | 01/07/2016 Từ những ví dụ ở Phần I, có thể thấy Big Data không chỉ là về khối lượng dữ liệu mà còn là sự đa dạng và tốc độ tăng của dữ liệu. Năm 2001, Doug Laney – một chuyên gia trong ngành phân tích dữ liệu đã định nghĩa Big Data với 3 từ V: velocity (tốc độ), volume (khối lượng), and variety (sự đa dạng).
  • 15. Tốc độ của dữ liệu tăng trực tiếp từng phút, hiện nay, rất khó khăn để có thể xử lý được Big Data kịp thời. Công tơ thông minh, cảm biến và thẻ RFID khiến Big Data trở nên cần thiết hơn bao giờ hết để đối phó với các chuỗi dữ liệu ở thời gian thực. Hầu hết các tổ chức đang gặp khó khăn để phản ứng với dữ liệu tăng một cách nhanh chóng. Một vài năm trước đây, không quá khó để lưu dữ liệu. Tuy nhiên, việc tăng sức chứa và giảm chi phí lưu trữ, các ngành công nghiệp sử dụng hỗ trợ DBA từ xa hiện đang tập trung vào việc làm thế nào dữ liệu có liên quan có thể tạo ra giá trị. Sự đa dạng của các dữ liệu ngày nay nhiều hơn vài năm trước đây. Dữ liệu được phân loại là cấu trúc dữ liệu (dữ liệu quan hệ), dữ liệu bán cấu trúc (dữ liệu ở dạng XML), và dữ liệu phi cấu trúc (bản ghi phương tiện truyền thông và dữ liệu ở dạng PDF, Word, và các tập tin văn bản). Nhiều công ty đang phải vật lộn với việc quản lý, và sát nhập các loại dữ liệu khác nhau. Tính xác thực (chất lượng của dữ liệu), biến đổi (sự không thống nhất của dữ liệu), và phức tạp (khi giao dịch với khối lượng lớn dữ liệu từ các nguồn khác nhau) là những đặc điểm quan trọng khác của dữ liệu. Một vài giá trị khác của Big Data: 1. Khách hàng ngày nay có rất nhiều đòi hỏi. Họ thường nói chuyện với các khách hàng cũ trên kênh xã hội và xem xét các quyết định khác nhau trước khi mua hàng. Một khách hàng muốn được đối xử cá nhân hóa và nhận được những lời cảm ơn sau khi mua hàng. Với Big Data, bạn có thể nhận được các dữ liệu hành vi của khách hàng để thu hút họ một-một trong một khoảng thời gian thực. Big Data giúp bạn có thể kiểm tra những phàn nàn của khách hàng và thông tin về sản phẩm mà họ không hài lòng. Từ đó, bạn có thể quản lý danh tiếng doanh nghiệp của mình. 2. Big Data giúp bạn phát triển lại sản phẩm/dịch vụ mà bạn đang bán. Thông tin mà những người khác nói về sản phẩm của bạn, thông qua các trang web mạng xã hội giúp bạn trong việc phát triển sản phẩm. 3. Big Data cho phép bạn kiểm tra các biến thể khác nhau của hình ảnh CAD (Computer Aided Design) để xác định thay đổi nhỏ ảnh hưởng như thế nào đến quá trình hoặc sản phẩm của bạn. Điều này làm cho big data vô giá trong quá trình sản xuất. 4. Phân tích tiên đoán sẽ giúp bạn luôn đi trước đối thủ cạnh tranh. Big Data có thể tạo ra điều kiện này, ví dụ, quét và phân tích tin tức mới trên mạng xã hội và báo cáo báo chí, Big Data giúp bạn kiểm tra tình trạng khách hàng, nhà cung cấp và các bên liên quan khác của bạn để tránh rủi ro. 5. Big Data hữu ích trong việc giữ an toàn dữ liệu. Công cụ Big Data giúp bạn lập bản đồ quy trình xử lý dữ liệu của công ty bạn, giúp bạn trong việc phân tích các mối đe dọa nội bộ. Ví
  • 16. dụ, bạn sẽ biết thông tin nhạy cảm của bạn có được bảo vệ hay không. Một ví dụ cụ thể hơn nữa là bạn sẽ có thể gắn cờ gửi email hoặclưu trữ 16 chữ số (mà có thể, có khả năng, có số thẻ tín dụng). 6. Big Data cho phép bạn để đa dạng hóa nguồn doanh thu của bạn. Phân tích dữ liệu lớn có thể cung cấp cho bạn xu hướng dữ liệu có thể giúp bạn tìm ra một nguồn thu nhập hoàn toàn mới. 7. Website của bạn cần năng động để nó có thể cạnh tranh thuận lợi trong môi trường trực tuyến đông đúc. Phân tích Big Data giúp bạn cá nhân hóa giao diện, nội dung và cảm giác cho các khách hàng phù hợp khi ghé thăm trang web của bạn. Ví dụ như quốc gia hay giới tính. Một ví dụ của điều này là Amazon’s IBC (lọc dựa trên các item có liên quan với nhau) dùng các tính năng “Người bạn có thể biết” hoặc “Thường mua bán với nhau” để đưa ra kết quả lọc. 8. Nếu bạn đang quản lý một nhà máy, Big Data cực kỳ quan trọng bởi vì bạn sẽ không thể thay thế phần của công nghệ dựa vào số tháng hay số năm các công nghệ này được sử dụng. Việc này vô cùng tốn kém và không thực tế kể từ khi các phần khác nhau mặc địch ở mức độ khác nhau. Big Data cho phép bạn để phát hiện các thiết bị sẽ hư hỏng và dự đoán khi nào bạn nên thay thế chúng. 9. Big Data quan trọng trong ngành công nghiệp chăm sóc sức khỏe, đó là một trong số ít các ngành công nghiệp cuối cùng vẫn bị mắc kẹt với một cách tiếp cận thông thường tổng quát. Ví dụ, giả sử bạn bị ung thư, bạn sẽ đi qua một liệu pháp và nếu nó không hiệu quả, bác sĩ sẽ khuyên bạn nên điều trị khác. Big Data cho phép một bệnh nhân ung thư có được loại thuốc được phát triển dựa trên gen cá nhân của mình. Tại Robusta, với thế mạnh là đào tạo công nghệ Ảo hoá, điện toán đám mây và công nghệ Big Data,chúng tôi luôn có các khoá học để phục vụ nhu cầu của các bạn. Xem chi tiết website robusta.vn (Internet) Big Data là gì và người ta khai thác, ứng dụng nó vào cuộc sống như thế nào?  Published on June 9, 2016  Li keBi g Dat a l à gì và người t a khai t hác, ứng dụng nó vào cuộc sống như t hế nào? 66  Com m ent 5  Shar eShar e Bi g Dat a l à gì và người t a khai t hác, ứng dụng nó vào cuộc sống như t hế nào? 7
  • 17. Joni Phuong Nguyen FollowJoni Phuong Nguyen Recruiter at TRG International Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Trong bài này, mời các bạn cùng tìm hiểu về Big Data, các phương thức người ta dùng để khai thác nó và nó giúp ích như thế nào cho cuộc sống của chúng ta. 1. Định nghĩa Big Data Như đã nói ở trên, Big Data (“dữ liệu lớn”) có là tập hợp dữ liệu có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.
  • 18. Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều: tăng về lượng (volume), tăng về vận tốc (velocity) và tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”. Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
  • 19. Đây là kết quả mô phỏng của một vụ va chạm giữa các hạt sơ cấp trong máy gia tốc LHC, có rất rất nhiều thông tin cần phải ghi nhận trong mỗi vụ chạm như thế này Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này. Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài
  • 20. quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày. Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data lớn. Hoạt động của người dùng Wikipedia được mô hình hóa và với
  • 21. kích thước hàng terabyte, đây cũng có thể được xem là một dạng Big Data 2. Vài thông tin về tình hình Big Data hiện nay Theo tài liệu của Intel vào tháng 9/2013,hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB. Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan. Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data như sau: Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạc truyền thống
  • 22. Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao diện mỗi giây. Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video… 3. Công nghệ dùng trong Big Data Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.
  • 23. Một số công ty có tham gia vào lĩnh vực Big Data Như đã nói ở trên, Big Data cần đến các kĩ thuật khai thác thông tin rất đặc biệt do tính chất khổng lồ và phức tạp của nó. Năm 2011, tập đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với Big Data bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau.... Những kĩ thuật này rất phức tạp nên chúng ta không đi sâu nói về chúng.
  • 24. Một trong những mô hình về cấu trúc cơ bản của một tập hợp dữ liệu rất lớn do bộ phận nghiên cứu của Bộ quốcphòng Mỹ đưa ra Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ “dữ liệu lớn”. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Big Data nữa. Những người làm việc với Big Data thường cảm tháy khó chịu với các hệ thống lưu trữ dữ liệu vì tốc độ chậm, do đó họ thích những loại ổ lưu trữ nào có thể gắn trực tiếp vào máy tính (cũng như ổ cứng gắn trong máy tính của chúng ta vậy). Ổ đó có thể là SSD cho đến các đĩa SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào ổ NAS hay hệ thống lưu trữ mạng SAN với góc nhìn rằng những thứ này quá phức tạp, đắt và chậm. Những tính chất nói trên không phù
  • 25. hợp cho hệ thống dùng để phân tích Big Data vốn nhắm đến hiệu năng cao, tận dụng hạ tầng thông dụng và chi phí thấp. Ngoài ra, việc phân tích Big Data cũng cần phải được áp dụng theo thời gian thực hoặc cận thời gian thực, thế nên độ trễ cần phải được loại bỏ bất kì khi nào và bất kì nơi nào có thể. 4. Big Data có thể giúp gì được cho chúng ta? Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ liệu, thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn. Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.
  • 26. Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế, chứ bản thân chúng ta thì khó mà tự mình phát triển hay mua các giải pháp để khai thác Big Data bởi giá thành của chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài Terabyte sinh ra trong một thời gian dài. Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài. Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.
  • 27. Đường màu xanh là dự đoán của GoogleFlu Trendsdựa trên số từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịchcủa Mỹ đưa ra. Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm. 5. Chỉ trích đối với Big Data Có hai hướng chỉ trích chính đối với Big Data, một là về cách mà người ta sử dụng Big Data, cái còn lại thì liên quan đến việc tiến hành lấy thông tin từ Big Data mà thế giới đang làm. A. Chỉ trích về Big Data Chris Anderson, một nhà khởi nghiệp và cũng là một người viết sách, cho rằng việc sử dụng Big Data luôn cần phải được ngữ cảnh hóa trong các bối cảnh về xã hội, kinh tế và chính trị. Ví dụ, ngay cả khi các công ty đã đầu tư hàng tỉ USD vào Big Data và lấy được thông tin về nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và tận dụng các thông tin này. Điều đó làm giảm hiệu quả của Big Data đi nhiều so với lúc đầu, dẫn đến lãng phí tài nguyên. Ngoài ra, còn có chỉ trích rằng Big Data chỉ có thể miêu tả thế giới trong quá khứ bởi nó dựa trên các dữ liệu đã sinh ra từ trước, và nếu tốt lắm thì chỉ miêu tả được trong hiện thực. Việc sử dụng Big Data để
  • 28. nói về tương lai thì cần phải kết hợp thêm với các phương pháp mô hình, mô phỏng hay nghiên cứu về sự chuyển động của thế giới thì mới đưa ra dự đoán chính xác được. Bên cạnh đó, người ta còn lo lắng về vấn đề quyền riêng tư của người dùng. Việc thu thập Big Data có thể sẽ đi kèm thông tin có khả năng định dạng người dùng mà không được sự đồng ý của họ, và điều đó vi phạm luật ở một số quốc gia. Nhiều chuyên gia từ nhiều lĩnh vực khác nhau hiện đang thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big Data. B. Chỉ trích về việc lấy thông tin từ Big Data Nhà nghiên cứu Danah Boyd đã đưa ra quan ngại của mình rằng việc sử dụng Big Data trong việc chọn mẫu thống kê có thể gây ra sự chủ quan, và dù ít hay nhiều thì nó cũng có thể ảnh hưởn đến kết quả cuối cùng. Việc khai thác dữ liệu từ một số nguồn là Big Data, trong khi những nguồn khác không phải là “dữ liệu lớn” thì đặt ra những thách thức khi phân tích dữ liệu. 6. Tương lai của Big Data Erik Swan, đồng sáng lập kiêm giám đốc công nghệ của công ty Spunk, dự đoán rằng sự thay đổi nhất trong Big Data chính là thái độ của mọi người đối với nó. Việc tiêu thụ một lượng dữ liệu lớn sẽ dần phổ biến hơn với mọi người, từ những người nông dân cho đến các anh kĩ sư. Mọi người sẽ mặc định sử dụng dữ liệu để phân tích mọi thứ trong vòng 10 năm tới. Tất nhiên là kĩ thuật và công nghệ cũng cần phải phát triển theo thì điều này mới có thể trở thành hiện thực.
  • 29. Còn theo Ankur Jain, nhà sáng lập và CEO của Humin, ngữ cảnh phát sinh ra dữ liệu sẽ trở nên quan trọng hơn. “Chúng ta sẽ bắt đầu định tuyến dữ liệu vào các đối tượng, sự vật, sự việc trong đời thực và chuyện đó giúp chúng ta xử lí công việc tốt hơn”. Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ quan nghiên cứu thuộc Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh học sẽ ngày càng được quan tâm hơn, và rồi người ta sẽ dùng dữ liệu này để đưa ra những lời khuyên có ảnh hưởng lớn đến lối sống và cuộc đời của con người. Ví dụ, bạn có nên thêm một dĩa cơm tấm sườn nữa không, hay là nên ăn thêm một dĩa cơm gà? Bộ quốc phòng Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay cơm bằng pizza nhé) để áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên chuột. Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp giải pháp Big Data sẽ không còn bán dữ liệu và phân tích cho từng doanh nghiệp hay công ty riêng lẻ để phục vụ cho những mục đích quá chuyên biệt. Thay vào đó, họ sẽ mở rộng nó và áp dụng Big Data nhằm giải quyết những vấn đề trong đời thường và trả lời cho các nhu cầu cơ bản của con người. Đó sẽ là sự thay đổi về tính ứng dụng của Big Data. Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu
  • 30. dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data. 7. Kết Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào.