• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Big Data IBM Vietnam
 

Big Data IBM Vietnam

on

  • 1,464 views

 

Statistics

Views

Total Views
1,464
Views on SlideShare
1,464
Embed Views
0

Actions

Likes
0
Downloads
120
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Big Data IBM Vietnam Big Data IBM Vietnam Document Transcript

    • Dữ  Liệu  Lớn: Cơ  hội  lớn  và  thách  thức  lớn    Hồ  Tú  Bảo    Dữ  liệu  lớn  là  gì?  Về   những   công   nghệ   nổi   trội   trong   năm  2012  vừa  qua,  có  thể  nói  đến  Dữ  Liệu  Lớn  (Big  Data).  Trong  bài  này  từ  ‘big  data’  đôi  khi  được  dùng  xen  kẽ  với  ‘dữ  liệu  lớn’  để  nhấn   mạnh   ‘big   data’   đã   thành   từ   cửa  miệng   trong   nhiều   câu   chuyện   của   giới  khoa   học,   doanh   nghiệp,   của   các   nhà   quản  lý  quốc  gia...  ở  nhiều  nơi  trên  thế  giới.  Ba   lĩnh   vực   của   công   nghệ   thông   tin   Ba  lĩnh  vực  nhiều  ảnh  hưởng:  Điện  toán  đám  mây,       dữ  liệu  lớn,  và  thiết  bị  thông  minh.  (CNTT)   được   cho   là   đang   và   sẽ   có   ảnh  hưởng  khắp  nơi  là  thiết  bị  thông  minh,  điện  toán  đám  mây  và  dữ  liệu  lớn.  Gần  đây  Tổng  Giám  đốc  Trương  Gia  Bình  của  FPT  cũng   khẳng   định:  “Lời  giải  hạ  tầng   sẽ  dựa  trên   công   nghệ   di   động,   điện   toán   đám   mây   và   dữ   liệu   lớn”,   và   giám   đốc   công   nghệ  Nguyễn  Lâm  Phương  cũng  cho  biết:  “Dòng  chảy  của  FPT  là  CNTT  là  hạ  tầng  của  hạ  tầng  với  các  mái  chèo  là  Mobility,  Cloud  Computing,  Big  Data…”   Nói   một   cách   đại   thể   thì   big   data   là   các   tập   dữ   liệu   rất  lớn   và/hoặc   rất   phức   tạp   mà   những   phương   pháp   hiện   tại   của   CNTT   chưa   phân   tích   và   xử   lý   tốt   được   chúng.   Tên   gọi   ‘dữ   liệu   lớn’   làm   nhiều   người   không   biết   đến   khía   cạnh   về   độ   phức   tạp   của   dữ   liệu.   Thật   Khai  mạc  hội  thảo  Trí  tuệ  Nhân  tạo:  Xử  lý  d ữ  liệu  lớn  một  cách   ra,   hai   tính   chất   này   của   dữ   thông  minh   liệu   lớn   luôn   đi   cùng   nhau,  trong  đó  tính  chất  ‘rất  phức  tạp’  còn  đặc  trưng  và  thách  thức  hơn  ‘kích  thước  lớn’  của  dữ  liệu.  Điều  này  cũng  có  thể  thấy  ở  chừng  mực  nào  đấy  trong  định  nghĩa  của  IBM  về  dữ  liệu  lớn  với  ba  chữ  V:  Variety,  Velocity  và  Volume.  Chữ  V  đầu  tiên  chỉ  sự  đa   dạng,   sự   liên   kết   chằng   chịt   của   dữ   liệu   với   nhiều   cấu   trúc   khác   nhau,   từ   dữ   liệu  quan  hệ,  đến  dữ  liệu  không  cấu  trúc  như  các  văn  bản  thô…  Chữ  V  thứ  hai  chỉ  tính  chất  chuyển  động  liên  tục  của  dòng  dữ  liệu  rất  lớn  cần  xử  lý,  khác  với  cách  truyền  thống  ta  thu  nhận  và  xử  lý  dữ  liệu  theo  từng  mẻ  (batch).  Chữ  V  thứ  ba  chỉ  độ  lớn  
    • của  dữ  liệu  ở  mức  terabytes  (1012),  rồi  petabytes  (1015  bytes),  và  cả  zetabytes  (1018  bytes).    Ai  cũng  biết  dữ  liệu  là  nguồn  chứa  hầu  hết  mọi  thông  tin  của  con  người,  nhưng  những  thông  tin  này  không  lồ  lộ  ra  cho  ta  dùng  ngay  mà  ta  chỉ  có  thể  tìm  ra  chúng  khi   phân   tích   (xử   lý)   được   dữ   liệu.   Một   cách   nôm  na,   khi   dữ   liệu   càng   lớn   và   càng   phức   tạp   thì   việc  xử   lý   chúng   càng   khó,   khó   tới   mức   hiện   nay   con  người  chưa  có  cách  làm  được  tốt  việc  này.    Dữ  liệu  lớn  từ  đâu  ra?  Việc  lượng  dữ  liệu  lớn  đang  ngày  càng  rất  nhiều  quanh  ta  là  một  hiện  thực  khách  quan.  Dữ  liệu  lớn  có   ở  rất  nhiều  tổ  chức,   nhiều  hoạt  động  xã  hội,   kinh   doanh,   khoa  học  và  tiềm  ẩn  nhiều  giá  trị  to  lớn.  Nhưng  dữ  liệu  lớn  ấy  đến  từ  đâu?    Chúng   đến   từ   rất   nhiều   nguồn   và   ba   nguồn   chính   là:   (1)   Các   phương   tiện   truyền  thông  xã  hội,  như  mỗi  ngày  trên  toàn  thế  giới  có  230  triệu  mẩu  tin  trao  đổi  trên  các  twitters,  có  2,7  tỷ  ý  kiến  trao  đổi  trên  các  facebooks,  và  số  video  mỗi  ngày  đưa  lên  Youtube  cần  đến  86400  giờ  để  xem  hết;  (2)  Các  máy  móc  thu  nhận  dữ  liệu,  các  thiết  bị  công  nghiệp,  các  cảm  biến  (sensors),  các  dụng  cụ  giám  sát...  như  máy  gia tốc hạtlớn của CERN (tổ chức nghiên cứu nguyên tử châu Âu) tạo   ra   40   terabytes   dữ   liệu  mỗi  giây…  (3)  Giao  dịch  kinh  doanh,  từ  số  liệu  giá  cả  sản   phẩm,  thanh  toán,  dữ  liệu  chế  tạo  và  phân  bố...  như  số  sản  phẩm  Amazon.com  bán  trong  Quý  3  năm  2011  có  giá  trị  10  tỷ  USD,  như  dãy  các  nhà  hàng  Domino  bán  pizza  trên  toàn  nước  Mỹ  đạt  1  triệu  khách  mỗi  ngày...  Lớn  mà  không  to,  to  mà  không  lớn  Như   trên   đã   nói   độ   phức   tạp  lớn   vốn   thách   thức   nhiều   hơn  kích   thước   lớn   của   dữ   liệu.  Chẳng   hạn   mỗi   hệ   thống   như  lò   hạt   nhân,   máy   bay…   đều  gồm  hàng  trăm  nghìn  bộ  cảm  ứng,  và  các  hệ  này  hoạt  động  dựa   vào   quyết   định   được   đưa  ra   theo   kết   quả   tính   toán   và  phân   tích   những   tổ   hợp   dữ   Các  bộ  cảm  ứng  liên  tục  tạo  dữ  liệu  khi  máy  bay  hoạt  động  liệu  của  các  cảm  biến  này.  Sự  tổ  hợp  các  nguồn  dữ  liệu  này  là  hết  sức  phức  tạp  dù  kích  thước  của  chúng  không  lớn.  Chẳng  hạn  một  máy  bay  với  một  trăm  nghìn  bộ  cảm  biến  trong  một  giờ  bay  chỉ  
    • tạo   ra   3   gigabytes   dữ   liệu   (100,000   bộ   cảm   biến   x   60   phút   x   60   giây   x   8   bytes   =  3Gb),  nhưng  chính  độ  phức  tạp  của  tổ  hợp  dữ  liệu  từ  các  bộ  cảm  biến  này  tạo  ra  tình  huống  “dữ  liệu  lớn  mà  không  to”.  Ngược   lại   trong   nhiều   tình   huống   lượng   dữ   liệu   được   sinh   ra   đều   đặn   và   rất   lớn   về  kích   thước,   nhưng   nếu   các   dữ   liệu   này   có   cấu   trúc   đơn   giản,   có   quy   luật,   thì   đây   lại  là  tình  huống  của  “dữ  liệu  to  mà  không  lớn”.  Các  quốc  gia  và  dữ  liệu  lớn    Có  thể  lấy  thí  dụ  từ  việc  Tổng  thống  Mỹ  Barack  Obama  dùng  công  nghệ  khai  phá  dữ   liệu   (data   mining)   trong   cuộc   chạy   đua   với   Mitt   Romney   vào   Nhà   Trắng   để   thấy  giá  trị  của  dữ  liệu  lớn.  Tại  trụ  sở  của  Obama  ở  Chicago,  một  đội  quân  gần  150  kỹ  thuật  viên  từ  đầu  năm  2012  đã  không  mệt  mỏi  thu  thập  và  tạo  ra  một  cơ  sở  dữ  liệu  lớn  chứa  tiểu  sử  riêng  của  các  cử  tri  tiềm  năng,  đặc  biệt  những  cử  tri  chưa  rõ  sẽ  bầu  cho  ai.  Họ  thu  thập  dữ  liệu  từ  nhiều  nguồn  khác  nhau,  nhất  là  các  nguồn  trên  mạng  như   từ   16   triệu   người   đăng   ký   vào   twitter   của   Obama   (so   với   500   nghìn   của  Romney),   và   gần   27   triệu   người   đăng   ký   vào   facebook   của   Obama   (so   với   1.8   triệu  của   Romney).   Các   dữ   liệu   này   cho  biết   nhiều   chi   tiết   như   mỗi   cử   tri  thường   đọc   sách   gì,   mua   sắm   ở  đâu,  công  ăn  việc  làm  là  gì,  bạn  bè  là   ai,   thậm   chí   mẹ   của   cử   tri   lần  trước   bầu   cho   ai…   Do   có   và   phân  tích   được   nguồn   dữ   liệu   lớn   này,  đội   quân   của   Obama   đã   có   những  vận  động  thích  hợp  với  cử  tri,  góp  phần  đáng  kể  vào  chiến  thắng  cuối   Đội  ngũ  kỹ  thuật  viên  của  Obama  đã  tạo  ra  và  phân  tích  một  cùng.   lượng  lớn  dữ  liệu  về  cử  tri.  Ngày   29   tháng   3   năm   2012,   Văn   phòng   chính   sách   khoa   học   và   công   nghệ   thuộc  Văn  phòng  điều  hành  của  tổng  thống  Mỹ  đã  công  bố  84  chương  trình  về  dữ  liệu  lớn  thuộc   6   Bộ   của   Chính   phủ   liên   bang   Mỹ.   Những   chương   trình   này   đề   cập   đến   thách  thức  và  cơ  hội  của  cuộc  cách  mạng  dữ  liệu  lớn  và  xem  việc  đối  đầu  với  dữ  liệu  lớn  là  sứ  mệnh  của  các  cơ  quan  chính  phủ  cũng  như  của  việc  cách  tân  và  khám  phá  khoa  học.  Tóm  tắt  các  chương  trình  này  có  ở  [2],  và  ở  đây  ta  chỉ  đưa  ra  một  vài  minh  hoạ.  Ở  Bộ  quốc  phòng,  một  kinh  phí  250  triệu  USD  hằng  năm  được  dành  cho  8  chương  trình   của   ‘sự   đánh  cuộc  lớn   với   dữ   liệu   lớn’,   nhằm   khai   thác   và   sử   dụng   dữ   liệu   lớn  bằng   những   cách   mới   để   giúp   các   hệ   thống   tự   động   ra   quyết   định,   nâng   cao   khả  năng   máy   tự   nhận   biết   và   đánh   giá   các   tình   huống   phức   tạp   để   hỗ   trợ   tác   chiến.  Chẳng   hạn   chương   trình   CINDER   (Cyber-­‐Insider   Threat)   nhằm   phát   triển   các  phương  pháp  mới  để  phát  hiện  các  hoạt  động  gián  điệp  trên  mạng  máy  tính  quân  
    • sự.  Một  cách  nhằm  bộc  lộ  các  hoạt  động  gián  điệp  được  che  dấu  là  CINDER  sẽ  áp  dụng  rất  nhiều  mô  hình  hoạt  động  của  đối  phương  để  điều  chỉnh  các  hoạt  động  trên  mạng  máy  tính  nội  bộ.  Chương  trình  đọc  máy  (machine  reading)  nhằm  ứng  dụng  trí  tuệ  nhân  tạo  để  phát  triển  các  hệ  thống  có  thể  ‘hiểu’  và  định  được  nghĩa  của  văn  bản  thay  cho  con  người  làm  việc  này  vốn  rất  tốn  kém  và  chậm  chạp.  Ở   Bộ   năng   lượng,   nhiều   chương   trình   được   xây   dựng   nhằm   tạo   ra   khả   năng   dẫn  đầu  về  các  kỹ  thuật  quản  lý,  hiển  thị  và  phân  tích  dữ  liệu  lớn.  Chẳng  hạn  chương  trình  ‘Toán  học  cho  việc  phân  tích  dữ  liệu  cỡ  peta’  đề  cập  các  thách  thức  toán  học  nhằm   thấu   hiểu   được   các   tập   dữ   liệu   khổng   lồ,   hoặc   tìm   ra   các   thuộc   tính   cốt   lõi   từ  dữ  liệu  và  hiểu  được  mối  quan  hệ  giữa  các  thuộc  tính  này.  Đây  cũng  là  mục  tiêu  của  nhiều   chương   trình   do   Quỹ   khoa   học   quốc   gia   (NSF)   tài   trợ   cho   nhiều   đại   học   và  viện  nghiên  cứu  nhằm  xây  dựng  các  kỹ  thuật  và  công  nghệ  nền  của  dữ  liệu  lớn.    Còn  nhiều  chương  trình  ở  các  lĩnh  vực  khác  như  an  ninh  quốc  gia  (từ  phân  tích  và  dự  báo  các  thảm  hoạ  thiên  nhiên  đến  các  vụ  tấn  công  khủng  bố),  dịch  vụ  cho  sức  khoẻ  con  người  (ngăn  chặn  và  điều  khiển  dịch  bệnh,  chế  tạo  thuốc...),  nghiên  cứu  không  gian,  nghiên  cứu  trái  đất...  tất  cả  đều  liên  quan  đến  dữ  liệu  lớn.  Không   riêng   Mỹ,   nhiều   nước   khác   cũng   có   các   chương   trình   khoa   học   về   dữ   liệu  lớn.  Trong  chương  trình  FIRST  của  Nhật  (the  Funding  Program  for  World-­‐leading  Innovative   R&D   on   Science   and   Technology)   nhằm   thúc   đẩy   các   nghiên   cứu   cách  tân   và   dẫn   đầu   trong   cuộc   cạnh   tranh   quốc   tế   trung   và   dài   hạn,   có   một   phần   lớn  gồm  gần  500  đề  tài  nhánh  về  phát  triển  các  phương  pháp  khai  thác  cơ  sở  dữ  liệu  rất  lớn  cho  phép  thực  hiện  và  đánh  giá  các  dịch  vụ  xã  hội  có  tính  chiến  lược.  Ngày  2  tháng  6  năm  2012,  giám  đốc  NSF  Subra  Suresh  của  Mỹ  và  bộ  trưởng  Bộ  giáo  dục,  văn  hoá,  thể  thao,  khoa  học  và  công  nghệ  (MEXT)  Hirofumi  Hirano  của  Nhật  đã  ký  một  thoả  thuận  hợp  tác  nghiên  cứu  về  dữ  liệu  lớn  và  thảm  hoạ  thiên  nhiên.    Dữ  liệu  lớn  và  công  nghiệp  Nhưng   chính   các   doanh   nghiệp   và   các   công   ty  công   nghiệp   là   những   nơi   đang   quan   tâm  nhiều   hơn   cả   đến   dữ   liệu   lớn.   Theo   số   liệu  ngày   15   tháng   10   năm   2012   của   các   tổ   chức  nghiên   cứu   thị   trường   toàn   cầu   Forbes   và  Gartner,  đầu  tư  của  các  doanh  nghiệp  cho  dữ  liệu  lớn  chiếm  88%  trên  tổng  đầu  tư.  Đầu  tư  như   vậy   vì   họ   nhìn   thấy   đây   là   một   trong  những   yếu   tố   rất  ảnh   hưởng   của   kinh   doanh   Tỷ  lệ  các  thành  phần  tham  gia  vào  dữ  liệu  lớn  và  phát  triển  trong  tương  lai.    
    • Chắc   chắn   ai   cũng   đã   nghe   nói   về   các   nhà   khoa   học   đang   dùng   siêu   máy   tính   để  phân   tích   những   lượng   dữ   liệu   khổng   lồ   trong   nghiên   cứu.   Điều   khác   và   mới   là   sau  những   bước   đi   tiên   phong   của   khoa   học,   hiện   nay   những   người   làm   kinh   doanh  thông  minh  (business  intelligence)  đã  có  thể  truy  nhập  tới  các  nguồn  dữ  liệu  lớn,  và  các  doanh  nghiệp  đã  bắt  đầu  có  thể  khai  thác  dữ  liệu  lớn.    Để  hiểu  được  tại  sao  nhiều  công  ty  quan  tâm  tới  dữ  liệu  lớn,  cần  biết  xu  hướng  là  một  số  công  ty  lớn  rất  nổi  tiếng  về  chế  tạo  thiết  bị  trong  quá  khứ  hiện  đang  chuyển  dần   thành   các   công   ty   cung   cấp   dịch   vụ,   chẳng   hạn   hướng   tới   cung   cấp   phân  tích  kinh  doanh  (business  analytics).  Một  thí  dụ  là  IBM.  Trước  kia  IBM  chế  tạo  các  máy  chủ,  máy  tính  để  bàn,  máy  tính  xách  tay,  và  thiết  bị  cho  hạ  tầng  cơ  sở.  Hiện  nay  IBM  đã  ngừng  sản  xuất  một  số  loại  thiết  bị  như  máy  tính  xách  tay  (IBM  ThinkPad)  và  thay  vào  đó  đầu  tư  hàng  tỷ  đôla  để  gây  dựng  và  nhằm  đạt  được  vị  trí  dẫn  đầu  trong  phân   tích   kinh   doanh.   IBM   đã   đầu   hơn   một   tỷ   USD   dùng   SPSS   trong   phân   tích   kinh  doanh  để  giành  được  thị  phần  bán  lẻ.  Đối  với  các  kinh  doanh  thương  mại  lớn  IBM  dùng  Cognos  để  cung  cấp  toàn  bộ  phân  tích  dịch  vụ.    Google  là  một  đại  gia  về  dữ  liệu  lớn.  Mấy  ai  không  từng  kinh  ngạc  sao  Google  có  thể  tìm  kiếm  rất  nhanh  thông  tin  trên  không  gian  bao  la  các  trang  web  chỉ  với  mấy  từ  khoá   ta   đưa   vào.   Rõ   ràng   Google   hiểu  sâu   sắc   hơn   hầu   hết   các   công   ty   khác  việc  làm  sao  quản  lý  và  xử  lý  các  lượng  dữ  liệu  khổng  lồ.  Trên  con  đường  làm  chủ  dữ  liệu  lớn,  Google  đang  xây  công  nghệ   riêng   của   mình   để   phân   tích  nhanh   và   tương   tác   với   những   lượng  dữ  liệu  khổng  lồ:  Quản  trị  dữ  liệu  bởi  Cloud  Storage  và  phân  tích  dữ  liệu  bởi  BigQuery  (nối  với  công  cụ  hiển  thị  của  công  ty  Tableau).   Một  vài  trung  tâm  dữ  liệu  khổng  lồ  của  Google  Sở  dĩ  các  công  ty  đầu  tư  cho  dữ  liệu  lớn  vì  họ  nhìn  thấy  làm  việc  làm  chủ  được  dữ  liệu   lớn   sẽ   cho   phép   giải   quyết   nhiều   vấn   đề   phức   tạp   trước   kia   không   thể   làm  được  và  có  thể  tạo  ra  các  quyết  định  và  hành  động  tốt  hơn.  Và  điều  này  cho  phép  họ  có  được  các  ưu  thế  cạnh  tranh,  điều  cốt  tử  trong  bối  cảnh  toàn  cầu  hiện  nay.  Ngoài  ra,  làm  chủ  dữ  liệu  lớn  từ  các  mạng  xã  hội  cho  phép  thấu  hiểu  các  hành  vi  phức  tạp  của  xã  hội  con  người,  và  nhiều  hy  vọng  ở  những  đột  phá  trong  khoa  học.  Theo  dự  đoán  của  Gartner,  trong  5  năm  2012-­‐2017  thế  giới  sẽ  đầu  tư  232  tỷ  USD  cho  dữ  liệu  lớn.  Tuy  nhiên,  Gartner  cũng  dự  đoán  cho  đến  cuối  2015,  85%  công  ty  trong  bảng  xếp  hạng  500  công  ty  lớn  nhất  Hoa  Kỳ  (Fortune  500)  sẽ  thất  bại  trong  việc  khai  thác  dữ  liệu  lớn.  Đơn  giản  vì  các  phương  pháp  và  kỹ  thuật  cho  dữ  liệu  lớn  trong   ba   năm   tới   chưa   đáp   ứng   được   nhu   cầu   sử   dụng,   và   nhiều   phương   pháp   mới  đang  được  hy  vọng  sẽ  sớm  xuất  hiện.  
    •  Chìa  khoá  của  dữ  liệu  lớn  Vậy  đâu  là  chìa  khoá  khoa  học  và  công  nghệ  của  dữ  liệu  lớn?  Hình  bên  giới  thiệu  một  mô  hình  tổng  quát  về  khai  thác  dữ  liệu  lớn.  Mặc  dù  đang  còn  phát  triển,  ba  chìa  khoá  chính  của  khai  thác  dữ  liệu  lớn  luôn  được  xem  là:  (1)  Quản  trị  dữ  liệu,  tức  lưu  trữ,  bảo  trì  và  truy  nhập  các  nguồn  dữ  liệu  lớn;  (2)  Phân  tích  dữ  liệu,  tức  tìm  cách  hiểu  được  dữ  liệu  và  tìm  ra  các  thông  tin  hoặc  tri  thức  quý  báu  từ  dữ  liệu;  (3)  Hiển  thị  (visualization)  dữ  liệu  và  kết  quả  phân  tích  dữ  liệu.  Phát   triển   công   cụ  quản   trị   dữ   liệu   lớn   là  một   thách   thức.   Hình  bên  chỉ  ra  các  công  cụ  quản   trị   dữ   liệu   lớn  tiêu   biểu   hiện   nay,  phân   loại   theo   hai   trục  về   dữ   liệu   có   cấu   trúc  hay  không  có  cấu  trúc,  và   mã   nguồn   mở   hay  thương   mại.   Nghiên  cứu   về   các   kỹ   thuật  hiển   thị   dữ   liệu   lớn,   về  mối   quan   hệ   phức   tạp   Mô  hình  tổng  quát  về  khai  thác  dữ  liệu  lớn  (nguồn  WAMDM,  Web  Group)  trong   chúng,   cũng   là  một  thách  thức  lớn  trong  lĩnh  vực  này.    Nhưng  thách  thức  chính  của  dữ  liệu  lớn  là  các  phương  pháp  phân  tích  dữ  liệu,  và  chủ   yếu   là   các   phương   pháp   của   hai   lĩnh   vực   học   máy   và   khai   phá   dữ   liệu.   Học  máy  (machine  learning)  là  một  lĩnh  vực  của  CNTT  nhằm  làm  cho  máy  tính  có  một  số  khả  năng   học   tập   của   con   người,  chủ   yếu   là   học   để   khám   phá.  Cốt   lỗi   của   việc   tạo   ra   khả  năng   tự   học   này   của   máy   là  việc  phân  tích  các  tập  dữ  liệu  để   phát   hiện   ra   các   quy   luật,  các   mẫu   dạng,   các   mô   hình.  Lĩnh   vực   học   máy   đã   phát  triển   quãng   40   năm,   và   đặc  biệt   bùng   nổ   trong   vòng   hơn  mười  năm  qua.  Kết  hợp  ngày   Những  công  cụ  hiện  nay  của  quản  trị  dữ  liệu  lớn  (nguồn  CISCO)  
    • càng   nhiều   hơn   với   thống   kê   toán   học,   các   phương   pháp   học   máy   càng   mạnh   và  hiệu  lực  hơn  khi  phân  tích  các  dữ  liệu  phức  tạp.   Khai   phá   dữ   liệu  (data  mining)  là  một  lĩnh  vực  mở  rộng  của  học  máy,  phát  triển  trong  khoảng  gần  hai  mươi  năm  qua,  tập  trung  vào  việc  đưa  các  phương  pháp  học  máy  vào  phân  tích,  khai  thác  các  tập  dữ  liệu  lớn  có  trong  các  lĩnh  vực  khác  nhau.  Những  hướng  nghiên  cứu  gần  đây  về  mô  hình  thưa,  giảm  số  chiều,  mô  hình  đồ  thị  xác  suất...  trong  hai  lĩnh  vực  này  chính  là  những  hướng  đi  tới  xử  lý  dữ  liệu  lớn.  Chúng  ta  có  cần  quan  tâm  đến  dữ  liệu  lớn?  Đây  là  câu  hỏi  nhiều  người  đã  đặt  ra  trong  các  seminar  khi  chúng  tôi  giới  thiệu  về  dữ  liệu  lớn  ở  Hà  Nội  và  thành  phố  Hồ  Chí  Minh.  Số  đông  người  hỏi  đều  cho  là  Việt  Nam  ta  chưa  có  những  tập  dữ  liệu  lớn.    Câu  trả  lời  là  chúng  ta  cần  lo  ngay  cho  dữ  liệu  lớn,  vì  rất  nhiều  lý  do.  Thật  ra  các  lĩnh  vực  truyền  thông,  thương  mại,  giao  thông,  các  mạng  xã  hội...  ở  ta  cũng  có  thể  có  những  lượng  dữ  liệu  rất  lớn  nếu  ta  lưu  giữ  và  khai  thác  chúng.  Ngay  trong  nền  kinh  tế  nội  địa,  ai  phân  tích  được  những  nguồn  dữ  liệu  lớn  đều  có  cơ  hội  tìm  ra  những  lợi  thế  kinh  doanh.  Về  giao  thông  ở  các  thành  phố  lớn  như  Hồ  Chí  Minh  hay  Hà  Nội,  nếu  ta  đặt  được  nhiều  bộ  cảm  ứng  ở  rất  nhiều  điểm,  lượng  dữ  liệu  thu  được  cũng  sẽ   rất   lớn   và   phức   tạp.   Muốn   giải   quyết   bài   toán   giao   thông   đô   thị   ta   không   thể  không   có   các   dữ   liệu   này.   Cũng   vậy,   nếu   muốn   giải   bài   toán   dự   đoán   lũ   lụt   miền  Trung,  ta  phải  thu  được  dữ  liệu  rất  lớn  và  phức  tạp  về  sông  ngòi,  lượng  mưa...    Ở  đây,  có  thể  dễ  dàng  thấy  mối  liên  quan  giữa  dữ  liệu  lớn  và  siêu  máy  tính,  và  khoa  học  và  kỹ  thuật  tính  toán  [1].  Thêm   nữa,   ta   không   thể   đứng   ngoài   xu   thế   chung   của   thế   giới,   để   không   bị   lúng  túng  khi  bắt  buộc  phải  đối  đầu  với  dữ  liệu  lớn.  Đột  phá  về  phương  pháp  phân  tích  dữ  liệu  lớn  cũng  có  thể  mở  ra  cho  ta  những  con  đường  làm  ăn  trong  ngành  CNTT  ở  trong   và   ngoài   nước.   Và   chắc   chắn   dữ   liệu   lớn   đang   là   câu   hỏi   được   chờ   đợi   trả   lời  bởi  các  công  ty  CNTT  hàng  đầu  ở  ta  như  FPT.  Tài  liệu  tham  khảo    1. Phát   triển   khoa   học   và   kỹ   thuật   tính   toán   ở   Việt   Nam:   Bài   học   và   ý   kiến,   http://tiasang.com.vn/Default.aspx?tabid=62&CategoryID=2&News=5916.  2. Big Data Across the Federal Government –  The  White  House,  March  2012.   http://search.whitehouse.gov/search?affiliate=wh&query=Big+data+fact+she et+&form_id=usasearch_box    3. Bill  Franks,  Taming  the  Big  Data  Tidal  Wave,  Wiley,  2012.