1. CƠ SỞ DỮ LIỆU PHÂN TÁN
TỔNG QUAN
CƠ SỞ DỮ LIỆU PHÂN TÁN
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TS. Phan Thị Hà, HVCNBCVT
2. Nội dung
Xử lý dữ liệu phân tán.
Hệ cơ sở dữ liệu phân tán là gì.
Khả năng của các hệ cơ sở dữ liệu phân tán.
Các đặc điểm của cơ sở dữ liệu phân tán
Các mô hình xử lý dữ liệu phân tán
Kiến trúc hệ quản trị cơ sở dữ liệu phân tán.
Một số vấn đề căn bản khi nghiên cứu cơ sở dữ liệu
phân tán
TS. Phan Thị Hà, HVCNBCVT
3. Hệ thống phân tán
Một hệ phân tán là một
tập các thành phần tự trị
hoạt động cộng tác với
nhau thông qua mạng
truyền thôngvà được thể
hiện tới người dùng/ứng
dụng như là một hệ
thống đơn lẻ.
www.ptit.edu.v
n
Giới thiệu 3
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
TS. Phan Thị Hà, HVCNBCVT
4. Hệ thống phân tán
Có hai khái niệm xử lý phân tán.
• Mô hình tính toán Client/Server. Client truy nhập
trực tiếp và xử lý dữ liệu trên Server.
• Một giao dịch được chia ra xử lý trên nhiều hệ
thống. Máy trung tâm sẽ giám sát và quản lý các
tiến trình.
• (peer to peer)
TS. Phan Thị Hà, HVCNBCVT
5. Hệ thống xử lý phân tán
Các đối tượng phân tán bao gồm
• phân tán chức năng: Các chức năng phân tán.
• Phân tán dữ liệu: Dữ liệu được phân tán trên nhiều vị trí
khác nhau
• Điều khiển phân tán: Điều khiển các giao dịch khác nhau
được phân tán trên nhiều vị trí
TS. Phan Thị Hà, HVCNBCVT
6. Xử lý phân tán và các hệ thống xử lý phân tán
Hệ thống xử lý phân tán đáp ứng nhu cầu thu thập, lưu
trữ, xử lý và trao đổi thông tin của các tổ chức kinh tế, xã
hội có các hoạt động trên phạm vi rộng lớn. Yêu cầu có độ
tin cậy cao, đáp ứng nhanh.
Hệ cơ sở dữ liệu phân tán là nhân tố quan trọng, làm cho
quá trình xử lý phân tán dễ dàng và có hiệu quả.
TS. Phan Thị Hà, HVCNBCVT
7. Xử lý phân tán và các hệ thống xử lý phân tán
Hình 2.1 Hệ thống xử lý phân tán
Network
Database
Tow er System
Database
Tow er System
Tow er System
TS. Phan Thị Hà, HVCNBCVT
8. Các mô hình xử lý dữ liệu
Xử lý dữ liệu truyền thống
• Mỗi ứng dụng định nghĩa một (nhiều) tệp dữ liệu.
• Ứng dụng khác nhau, tổ chức dữ liệu khác nhau
• Ứng dụng và tổ chức dữ liệu phụ thuộc lẫn nhau.
• Dư thừa dữ liệu
Hình 2.2: Xử lý dữ liệu truyền thống
Ứng dụng 1
Mô tả dữ liệu TẬP TIN 1
TẬP TIN 2
TẬP TIN 3
Ứng dụng 2
Mô tả dữ liệu
Ứng dụng 3
Mô tả dữ liệu
DỮ
LiỆU
DƯ
THỪA
TS. Phan Thị Hà, HVCNBCVT
9. Cơ sở dữ liệu phân tán
Xử lý dữ liệu tập trung:
• Độc lập dữ liệu
• Tính bất biến ứng dụng đối với sự thay đổi cấu trúc
lưu trữ và các chiến lược truy nhập dữ liệu.
• Không dư thừa dữ liệu
Hình 2.3 Xử lý cơ sở dữ liệu
Ứng dụng 1
Mô tả dữ liệu
Thao tác dữ liệu CƠ SỞ
DỮ LIỆU
Ứng dụng 2
Ứng dụng 2
………..
TS. Phan Thị Hà, HVCNBCVT
10. Cơ sở dữ liệu phân tán
Là một tập các cơ sở dữ liệu có quan hệ với nhau về
mặt logic và được phân tán trên một mạng máy tính.
Hệ QTCSDL phân tán là hệ thống phần mềm quản trị
CSDLPT và làm cho sự phân tán trong suốt với NSD.
Khái niệm CSDLPT nhấn mạnh hai khía cạnh:
• Tính phân tán: dữ liệu phân tán trên nhiều vị trí. cơ
sở dữ liệu địa phương (Local)
• Mối quan hệ logic: Dữ liệu trên các vị trí phụ thuộc,
ràng buộc lẫn nhau.
TS. Phan Thị Hà, HVCNBCVT
11. Các hệ thống không phải là DDBS
www.ptit.edu.v
n
Giới thiệu 11
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
TS. Phan Thị Hà, HVCNBCVT
12. Ví dụ
www.ptit.edu.v
n
Giới thiệu 12
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
Nhân viên
Các dự án
Vị trí công việc
Nhận viên
Các dự án
Vị trí công việc
Đà Nẵng
Communication
Network
Hà Nội
Tp. HCM
Hải Phòng
Nhân viên
Các dự án
Vị trí công việc
Nhân viên
Các dự án
Vị trí công việc
Cần Thơ
TS. Phan Thị Hà, HVCNBCVT
13. Cơ sở dữ liệu phân tán
Tóm lại, cơ sở dữ liệu phân tán là dữ liệu
được phân tán trên mạng máy tính, đảm bảo
cho việc tạo, truy nhập và duy trì dữ liệu phân
tán, nhưng được thống nhất tổ chức như là
một cơ sở dữ liệu tập trung duy nhất. Các trình
ứng dụng truy nhập vào cơ sở dữ liệu phân tán
như đang truy nhập vào cơ sở dữ liệu tập trung.
TS. Phan Thị Hà, HVCNBCVT
14. Đặc điểm cơ sở dữ liệu phân tán
(Có sự so sánh với dl tập trung )
Điểu khiển tập trung
• CSDL tập trung: đảm bảo tính độc lập của dữ liệu,
tránh dư thừa dữ liệu, dl được quản lý tập trung, điều
khiển bởi Người QTCSDL, ng QTCSDL đảm bảo
độ an toàn dữ liệu
• CSDL phân tán: không nhấn mạnh điều khiển tập
trung. Sự điều khiển được thực hiện bởi Người
CSDL toàn cục (Global Database Administrator) và
Người CSDL địa phương-cục bộ (Local Database
Administrator)
• Người CSDL địa phương có quyền độc lập vị trí.
15. Đặc điểm cơ sở dữ liệu phân tán
Độc lập dữ liệu
CSDL Tập trung:
- Độc lập dữ liệu : (DL trong suốt với ng lập trình)=> Các ct
không bị ảnh hưởng bới về tổ chức lưu trữ vât lý của dữ liệu
- Tính chất độc lập được thể hiện thông qua mức khái niệm của
kiến trúc nhiều mức.
Trong CSDLPT
-Độc lập dữ liệu cũng là tính chất quan trọng;
TS. Phan Thị Hà, HVCNBCVT
16. Độc lập dữ liệu (CSDLPT)
-Bổ sung thêm sự trong suốt phân tán (Distribution
Transparency):Chương trình ứng dụng được viết như trong CSDL
tập trung=> tính đúng đắn của các trình ứng dụng không bị ảnh
hưởng bởi sự di chuyển dữ liệu từ một vị trí này đến một vị trí
khác. Tuy nhiên, các trình ứng dụng bị ảnh hưởng tốc độ khi phải
trao đổi dữ liệu giữa các vị trí.
Sự trong suốt phân tán được thể hiện bằng cách bổ sung
vào kiến trúc nhiều mức của CSDL tập trung.
TS. Phan Thị Hà, HVCNBCVT
17. Đặc điểm CSDL phân tán
Giảm dư thừa dữ liệu
Trong CSDL tập trung, sự dư thừa dữ liệu được giảm
thiểu, tránh sự không nhất quán dữ liệu.
Trong CSDL phân tán, sự dư thừa theo ngữ nghĩa sau:
• Tăng tính cục bộ: ứng dụng cục bộ thực hiện nhanh
hơn, nếu dữ liệu được nhân bản tại tất cả các vị trí.
• Tăng tính sẵn sàng: Khi một vị trí có sự cố sẽ không
làm ngưng sự thực hiện của các ứng dụng ở những vị
trí khác nếu dữ liệu được nhân bản tại.
TS. Phan Thị Hà, HVCNBCVT
18. Đặc điểm CSDL phân tán: Giảm dư thừa dữ liệu
Sự nhân bản dữ liệu dựa vào hai loại ứng dụng cơ bản:
Ứng dụng chỉ đọc và ứng dụng cập nhật.
Sự nhân bản giúp cho các ứng dụng chỉ đọc được thực
hiện nhanh hơn, nhưng các ứng dụng cập nhập thực
hiện chậm hơn vì phải cập nhật tại các vị trí
Như vậy, sự nhân bản dữ liệu sẽ là một ưu điểm nếu hệ
thống có rất nhiều ứng dụng chỉ đọc và có rất ít ứng
dụng cập nhật. Trong trường hợp ngược lại thì sự nhân
bản dữ liệu lại là một nhược điểm.
TS. Phan Thị Hà, HVCNBCVT
19. Đặc điểm
Độ tin cậy giao dịch phân tán
Độ tin cậy giao dịch phân tán được cải thiện, vì nhân
bản hạn chế được các lỗi trên vị trí riêng lẻ.
Lỗi của cục bộ, hoặc lỗi truyền thông, không ảnh
hưởng đến hoạt động bộ hệ thống.
Nếu một số dữ liệu không thể truy nhập được, các giao
dịch phân tán vẫn có thể truy nhập được tới phần khác
trong cơ sở dữ liệu phân tán.
TS. Phan Thị Hà, HVCNBCVT
20. Đặc điểm
Độ tin cậy giao dịch phân tán
Giao dịch là một đơn vị tính toán cơ bản, nhất quán và
tin cậy, bao gồm một chuỗi các thao tác cơ sở dữ liệu
được thực hiện từ trạng thái CSDL nhất quán này sang
trạng thái nhất quán khác, ngay cả khi có một số giao
dịch được thực hiện đồng thời và khi xảy ra lỗi.
Khi hệ thống có lỗi, hệ QTCSDL đảm bảo việc thực thi
đồng thời các giao dịch, không vi phạm tính nhất quán,
với điều kiện là giao dịch được thực hiện chính xác,
nghĩa là tuân theo các qui tắc toàn vẹn của CSDL.
TS. Phan Thị Hà, HVCNBCVT
21. Hiệu năng của CSDL PT được cải tiến dựa vào hai điểm:
Khả năng phân mảnh CSDL khái niệm và cục bộ hoá
dữ liệu. Có hai ưu điểm:
• Vì mỗi vị trí chỉ xử lý một phần cơ sở dữ liệu, sự
tranh chấp CPU và các dịch vụ vào/ra không
nghiêm trọng như trong môi trường tập trung.
• Tính cục bộ làm giảm thời gian trễ truy nhập từ xa.
Lợi ích của việc phân mảnh và phân tán dữ liệu hợp lý sẽ
làm giảm tranh chấp và giảm chi phí truyền thông.
Đặc điểm CSDL phân tán
Cải tiến hiệu năng
TS. Phan Thị Hà, HVCNBCVT
22. Hiệu năng của CSDL PT được cải tiến dựa vào hai điểm:
Tính song song của hệ thống phân tán có thể được khai
thác để thực hiện
• Song song liên truy vấn: là khả năng thực hiện
nhiều truy vấn tại cùng thời điểm
• Nội truy vấn song song là phương pháp tách một
truy vấn đơn thành các truy vấn con và mỗi truy vấn
con được thực hiện tại các trạm khác nhau, truy
nhập các phần khác nhau của cơ sở dữ liệu phân tán.
Đặc điểm CSDL phân tán: Cải tiến hiệu năng
TS. Phan Thị Hà, HVCNBCVT
23. Phân mảnh và nhân bản dữ liệu sao cho khai thác tốt
nhất tính song song;
Trường hợp rất nhiều NSD cùng truy nhập vào một
quan hệ chỉ được đọc, một số site yêu cầu xử lý song song,
thì càng nhiều bản sao càng tăng tính sẵn sàng.
Tăng bản sao làm giảm khối lượng thông tin trao đổi
giữa các site. Tuy nhiên tính phức tạp tăng khi thực
hiện cập nhật dữ liệu, phải đảm bảo tất cả các bản sao
trên mạng phải thỏa các điều kiện toàn vẹn dữ liệu.
Đặc điểm CSDL phân tán: Cải tiến hiệu năng
TS. Phan Thị Hà, HVCNBCVT
24. Tóm lại, việc nhân bản dữ liệu sẽ làm tăng hiệu quả
các phép đọc, tăng tính sẵn sàng trong các giao tác đọc dữ
liệu. Vấn đề điều khiển các giao tác tương tranh có sử dụng
kỹ thuật bản sao trong các cơ sở dữ liệu phân tán rất phức
tạp. Việc quản lý có thể đơn giản hóa bằng việc sinh ra các
bản sao sơ cấp quan hệ.
Đặc điểm CSDL phân tán: Cải tiến hiệu năng
TS. Phan Thị Hà, HVCNBCVT
25. Dễ dàng tăng kích thước dữ liệu, bằng cách tăng khả
năng lưu trữ và xử lý của mạng. Phụ thuộc vào chi phí
phân tán. Tuy nhiên, khả năng mở rộng hệ thống dễ dàng
mang tính kinh tế, chi phí giảm.
Đặc điểm CSDL phân tán
Dễ dàng mở rộng
TS. Phan Thị Hà, HVCNBCVT
26. Tính toàn vẹn, phục hồi và điều khiển tương tranh có
quan hệ chặt chẽ với nhau thông qua các giao tác.
Mỗi một giao tác là một nguyên tố, nghĩa là một dãy
các thao tác hoặc được thực hiện hoàn toàn, hoặc
không được thực hiện hay chỉ thực hiện một phần.
Như vậy giao tác nguyên tố là phương tiện để đạt được
tính toàn vẹn dữ liệu, vì các giao tác đảm bảo tất cả các
thao tác biến đổi cơ sở dữ liệu từ trạng thái toàn vẹn
này sang trạng thái toàn vẹn khác.
Đặc điểm CSDL phân tán:
Tính toàn vẹn, phục hồi và điều khiển tương tranh
TS. Phan Thị Hà, HVCNBCVT
27. Tác động sự cố kỹ thuật và tương tranh có ảnh hưởng
đến tính nguyên tố của giao tác.
Sự cố kỹ thuật làm cho hệ thống dừng giao tác đang
thực hiện, vì vậy vi phạm phải mang tính nguyên tố.
Sự tương tranh của các giao tác cho phép một giao tác
nào đó quan sát một trạng thái chuyển tiếp không toàn
vẹn, tạo ra bởi một giao tác khác trong quá trình thực
hiện nó.
Đặc điểm CSDL phân tán:
Tính toàn vẹn, phục hồi và điều khiển tương tranh
TS. Phan Thị Hà, HVCNBCVT
28. Sự phục hồi liên quan đến đảm bảo tính nguyên tố của
giao tác khi có sự cố về kỹ thuật, khi có một số vị trí
(site) tham gia thực hiện giao tác có thể bị hỏng.
Điều khiển tương tranh nhằm đảm bảo tính nguyên tố
của giao tác khi xuất hiện sự tương tranh giao tác. Vấn
đề điều khiển tương tranh trong môi trường phân tán
phức tạp hơn nhiều trong môi trường tập trung.
Đặc điểm CSDL phân tán:
Tính toàn vẹn, phục hồi và điều khiển tương tranh
TS. Phan Thị Hà, HVCNBCVT
29. Ưu điểm csdlpt
Chia sẽ dữ liệu và điều khiển phân tán: Người sử dụng tại một vị
trí này có thể truy xuất dữ liệu (được phép) ở vị trí khác. Hơn nữa
việc quản trị cơ sở dữ liệu có thể được phân tán và thực hiện tự
quản tại mỗi vị trí.
Độ tin cậy và tính sẵn sàng: Nếu một vị trí bị hỏng thì các vị trí
còn lại trong hệ thống cơ sở dữ liệu phân tán vẫn tiếp tục hoạt
động. Nếu dữ liệu được nhân bản ở một số vị trí thì một giao dịch
cần truy xuất một mục dữ liệu có thể tìm thấy ở bất kỳ vị trí nào
trong số vị trí đó. Như thế sự cố tại một vị trí không ảnh hưởng
đến hệ thống.
Tăng tốc độ xử lý truy vấn: Nếu một truy vấn cần dữ liệu ở một
số vị trí thì có thể chia câu truy vấn đó thành các câu truy vấn con
rồi thực thi nó song song tại các vị trí.
TS. Phan Thị Hà, HVCNBCVT
30. TS. Phan Thị Hà, HVCNBCVT
Nhược điểm
Chi phí phát triển phần mềm: Việc phát triển
một hệ thống cơ sở dữ liệu phân tán khá phức
tạp vì thế cần chi phí lớn.
Khó phát hiện lỗi: Việc phát hiện lỗi và đảm bảo
tính đúng đắn của các thuật toán song song sẽ
rất khó khăn.
Chi phí xử lý tăng: Sự trao đổi các thông báo và
xử lý phối hợp giữa các vị trí sẽ tăng chi phí xử
lý hơn trong các hệ thống tập trung.
31. Mô hình kiến trúc cơ sở dữ liệu phân tán dựa trên sự
mở rộng của mô hình kiến trúc ba mức của cơ sở dữ
liệu tập trung ANSI/SPARC.
Mô hình kiến trúc cơ sở dữ liệu phân tán bao gồm lược
đồ tổng thể, lược đồ phân mảnh và lược đồ cấp phát.
Mô hình tham chiếu cơ sở dữ liệu phân tán
TS. Phan Thị Hà, HVCNBCVT
32. Kiến trúc ANSI/SPARC
www.ptit.edu.v
n
Giới thiệu 32
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
External
Schema
Conceptual
Schema
Internal
Schema
Internal view
Users
External
view
Conceptual
view
External
view
External
view
TS. Phan Thị Hà, HVCNBCVT
33. Mô hình tham chiếu cơ sở dữ liệu phân tán
Hình 2.4 Mô hình tham chiếu của cơ sở dữ liệu phân tán
Lược đồ
toàn cục
Lược đồ
phân mảnh
Lược đồ
cấp phát
Lược đồ ánh
xạ cục bộ 2
CSDL
cục bộ 1
DBMS_2
Lược đồ ánh
xạ cục bộ 1
CSDL
cục bộ 1
DBMS_2
CSDL
cục bộ 1
DBMS_2
Lược đồ ánh
xạ cục bộ 2
TS. Phan Thị Hà, HVCNBCVT
34. Lược đồ toàn cục định nghĩa tất cả dữ liệu được chứa
trong CSDLphân tán như trong CSDL tập trung.
Lược đồ toàn cục được định nghĩa chính xác như định
nghĩa lược đồ cở sở dữ liệu tập trung.
Tuy nhiên, mô hình dữ liệu lược đồ toàn cục cần phải
tương thích với việc định nghĩa các ánh xạ tới các mức
của cở sở dữ liệu phân tán.
Sơ đồ toàn cục bao gồm thông tin về các thực thể, tập
các phụ thuộc hàm và mối quan hệ giữa các thực thể .
Lược đồ toàn cục
TS. Phan Thị Hà, HVCNBCVT
35. Từ quan hệ toàn cục có thể chia thành nhiều quan hệ
con được gọi là các mảnh, tách biệt với nhau nhau
Ánh xạ giữa các quan hệ toàn cục và phân mảnh được
định nghĩa bởi lược đồ phân mảnh. Ánh xạ này là mối
quan hệ một-nhiều.
Các mảnh được chỉ ra bằng tên của quan hệ toàn cục
với một chỉ số (chỉ số phân mảnh)
Các mảnh có thể được cài đặt tại một hay nhiều vị trí
khác nhau trên mạng.
Lược đồ phân mảnh
TS. Phan Thị Hà, HVCNBCVT
36. Các kiểu phân mảnh dữ liệu bao gồm:
• Phân mảnh ngang
• Phân mảnh dọc và một kiểu phân mảnh là
• Sự hết hợp của phân mảnh ngang và phân mảnh
dọc, phức tạp hơn
Trong các kiểu phân mảnh, một mảnh được định nghĩa
bằng một biểu thức đại số quan hệ, các toán hạng là các
quan hệ toàn cục.
Lược đồ phân mảnh
TS. Phan Thị Hà, HVCNBCVT
37. Các mảnh được chứa ở một hay nhiều site trên mạng.
Lược đồ cấp phát chứa thông tin các mảnh được chứa
trên những site nào.
Các mảnh của một quan hệ lưu trên site j tạo thành một
mô hình vật lý của quan hệ toàn cục lên site j.
Ký hiệu Rij là mảnh thứ i của quan hệ R trên site j.
Lược đồ cấp phát
TS. Phan Thị Hà, HVCNBCVT
38. Hình 2.5: Các mảnh và mô hình vật lý cho một quan hệ
R1
R2
R3
R4
Site 1
Site 2
Site 3
R11
R21
R22
R12
R23
R33
R43
Quan hệ
R
toàn cục
Lược đồ cấp phát
TS. Phan Thị Hà, HVCNBCVT
39. Quan hệ toàn cục R được phân thành 4 mảnh quan hệ
con R1, R2, R3 và R4, và được cấp phát trên 3 site của
mạng máy tính, tạo nên ba mô hình vật lý:
• Trên site 1: Một bản sao của R1 và một bản sao của
R2. Ký hiệu R11 và R21
• Trên site 2: Một bản sao của R1 và một bản sao của
R2. Ký hiệu R12 và R22
• Trên site 3: Một bản sao của R2, R3 và R4. Ký hiệu
R23 , R33 và R43
Lược đồ cấp phát
TS. Phan Thị Hà, HVCNBCVT
40. Trong suốt trong phân mảnh là mức trong suốt cao
nhất, NSD làm việc trên mối quan hệ tổng thể.
Trong suốt trong cấp phát là mức trong suốt thấp hơn
và yêu cầu người sử dụng chỉ được làm việc trên các
mảnh địa phương, thay cho làm việc trên quan hệ toàn
cục mà không biết mảnh đó ở đâu.
Cần phân biệt sự khác nhau giữa khái niệm phân mảnh
và cấp phát. Khái niệm phân mảnh dữ liệu khác với
khái niệm cấp phát tối ưu dữ liệu.
Phân mảnh và cấp phát dữ liệu
TS. Phan Thị Hà, HVCNBCVT
41. Lược đồ ánh xạ cục bộ
- Ba mức đầu của các site là độc lập, ko phụ thuộc vào mô hình
dữ liệu của HQTCSDL cục bộ
- Ở mức thấp hơn: phụ thuộc vào kiểu của hệ QTCSDL cụ
bộ.Cần pải có ánh xạ của mô hình vật lý thành các đối tượng
thao tác bởi hệ QTCSDL cụ bộ.Trong hệ thống không thuần
nhất có các kiểu khác nhau của AX cục bộ tại các site khác
nhau. Yếu tố quan trong để thiết kế kiến trúc này là:
- PM và CP dữ liệu
- QL dư thừa dl
- Sự độc lập của các DBMS cục bộ
TS. Phan Thị Hà, HVCNBCVT
42. Hệ QTCSDL ở các site cục bộ
- Hệ CSDLPT đồng nhất: Lược đồ của 1 site
đc đn như trong hệ CSDL tập trung
- Hệ CSDLPT Không đồng nhất: Lược đồ
ánh xạ cục bộ dùng để phối hợp các kiểu
khác nhau của hệ QTCSDL
TS. Phan Thị Hà, HVCNBCVT
44. Chức năng của hệ QTCSDL quan hệ
TS. Phan Thị Hà, HVCNBCVT
45. Hệ quản trị cơ sở dữ liệu
phân tán
-Hệ quản trị cơ sở dữ liệu phân tán hỗ trợ việc tạo lập, quản lý,
điều khiển và duy trì cơ sở dữ liệu phân tán, làm cho sự phân tán
trong suốt với người sử dụng
-Chúng chứa các thành phần bổ sung mở rộng các khả năng của
các hệ quản trị cơ sở dữ liệu tập trung như hỗ trợ sự truyền thông
và sự cộng tác giữa các hệ quản trị cơ sở dữ liệu trên các địa điểm
khác nhau qua mạng máy tính.
TS. Phan Thị Hà, HVCNBCVT
46. Các thành phần cơ bản cần thiết của
hệ QTCSDLPT tại mỗi trạm (site) cần
cài đăt:
1. Thành phần quản trị cơ sở dữ liệu (DB: Database
Management)
2. Thành phần truyền dữ liệu (DC: Data Communication)
3. Tự điển dữ liệu (DD : Data Dictionnary) mở rộng để biểu
diễn thông tin về sự phân tán dữ liệu trên mạng.
4. Thành phần cơ sở dữ liệu phân tán (DDB:Distributed
Database)
TS. Phan Thị Hà, HVCNBCVT
47. Các dịch vụ của hệ thống
- Các ứng dụng truy cập từ xa
- Cung cấp các mức phân tán
-Hỗ trợ quản trị và điều khiển CSDL
- Khả năng mở rộng các hệ thống khác nhau
- Cung cấp khả năng thực hiện đồng thời và phục hối các
giao tác phân tán
TS. Phan Thị Hà, HVCNBCVT
48. Các trình ứng dụng trên Client yêu cầu truy nhập trực
tiếp vào các hệ cơ sở dữ liệu từ xa. Yêu cầu này được
máy chủ CSDL thực hiện và gửi kết quả về Client.
Tính trong suốt phân tán cao. Có thể thực hiện được
bằng việc cung cấp các file chung và có thể truy nhập
tự động theo địa chỉ các truy nhập trước đó.
Tuy nhiên việc điều khiển tương tranh và khôi phục các
tiến trình phân tán khi số người sử dụng tăng lên là khó
khăn và phức tạp.
Truy nhập dữ liêu từ xa trực tiếp
TS. Phan Thị Hà, HVCNBCVT
50. Các kiểu truy xuất đến cơ sở dữ
liệu phân tán
TS. Phan Thị Hà, HVCNBCVT
51. Middware là bộ phần mềm trung gian, thực hiện việc
điều khiển các tiến trình truyên thông và điều khiển cấp
phát tài nguyên cho các tiến trình theo yêu cầu của các
trình ứng dụng Client.
Truy nhập dữ liêu từ xa qua trung gian Middware
TS. Phan Thị Hà, HVCNBCVT
53. Hệ QTCSDL thuần nhấn
- Mọi site đều cài đặt cùng một hệ QTCSDL
TS. Phan Thị Hà, HVCNBCVT
54. Hệ QTCSDL Không thuần nhấn
-Mọi site đều Không cài đặt cùng một hệ
QTCSDL
- Hệ QTCSDLPT ko thuần nhất phải tích hợp
thêm việc chuyển đổi của các mô hình dữ
liệu khác nhau giữa các hệ QTCSDL để thống
nhất quản lý
TS. Phan Thị Hà, HVCNBCVT
56. Mô hình kiến trúc của Hệ QTCSDL
PT
www.ptit.edu.v
n
Giới thiệu 56
Heterogeneity
Autonomy
Client/server
Peer-to-peer
Distributed DBMS
Federated DBMS
Distributed
multi-DBMS
Multi-DBMS
Distribution
TS. Phan Thị Hà, HVCNBCVT
57. Các chiều kiến trúc
Tính phân tán
Các thành phần của hệ thống nằm trên cùng một máy hay
không
Tính không đồng nhất
Các mức khác nhau (phần cứng, truyền thông, Hệ điều hành)
DBMS: Mô hình dữ liệu, ngôn ngữ truy vấn, thuật toán quản lý
giao dịch
Tính tự chủ, tự trị
Tự chủ về thiết kế: Khả năng của DBMS trong quyết định các
vấn đề liên quan đến thiết kế của bản thân nó.
Tử chủ về truyền thông: Khả năng của DBMS trong quyết định
có/không và cách thức liên lạc với các DBMSs khác.
Tử chủ về thực thi: Khả năng của DBMS trong thực thi các hoạt
động theo các riêng của mỗi DBMS
www.ptit.edu.v
n
Giới thiệu 57
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
TS. Phan Thị Hà, HVCNBCVT
58. Các kiến trúc logic của hệ QTCSDLPT
Có 3 kiểu kiến trúc cho HQTCSDLPT:
- Client Server
- Per to per
- Đa hệ CSDL
TS. Phan Thị Hà, HVCNBCVT
59. Kiến trúc khách/chủ cho CSDL PT (dựa
trên dữ liệu)
Ý tưởng chung: Chia các chức năng
thành 2 lớp
Các chức năng phía chủ
Quản lý dữ liệu , tối ưu xử lý
truy vấn, quản lý giao dịch v.v
Các chức năng phía khách
Có thể bao gồm một phần chức
năng quản lý dữ liệu của nó,
không chỉ UI
Cung cấp kiến trúc 2 mức
Phân chia hiệu quả hơn công việc
Các loại kiến trúc C/S:
Multiple client/single server
Multiple client/multiple server
www.ptit.edu.v
n
Giới thiệu 59
Application
Communications Manager
Communications Manager
Lock Manager
Storage Manager
Page & Cache Manager
Query Optimizer
QL
Interface
Programmatic
Interface
…
SQL
query
result
table
Database
TS. Phan Thị Hà, HVCNBCVT
60. Multiclients/Single Server
www.ptit.edu.v
n
Giới thiệu 60
Communications
Client
Services
Applications
Communications
DBMS Services
LAN
High-level
requests
Filtered
data only
Communications
Client
Services
Applications
Communications
Client
Services
Applications
Database
Issues:
Server forms bottleneck
Server forms single point
of failure
TS. Phan Thị Hà, HVCNBCVT
61. Multi Clients/ Multi Servers (1)
www.ptit.edu.v
n
Giới thiệu 61
Communications
Client
Services
Applications
LAN
directory
caching
query decomposition
commit protocols
Communications
DBMS Services
Database
Communications
DBMS Services
Database
TS. Phan Thị Hà, HVCNBCVT
62. Multi Clients/ Multi Servers (2)
www.ptit.edu.v
n
Giới thiệu 62
Communications
DBMS Services
LAN
Communications
DBMS Services
SQL interface
programmatic
interface
other application
support environments
Communications
Client
Services
Applications
Database Database
TS. Phan Thị Hà, HVCNBCVT
63. Ưu điểm của kiến trúc Khách/Chủ
Phân chia hiệu quả công việc
Dễ dàng mở rộng tài nguyên
Khả năng sử dụng các công cụ quen thuộc trên các
máy khách
Truy cập đến dữ liệu từ xa thông qua chuẩn
Các chức năng đầy đủ của DBMS được cung cấp tới
các trạm khách
Tỷ lệ giá thành/hiệu năng tốt hơn
www.ptit.edu.v
n
Giới thiệu 63
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
TS. Phan Thị Hà, HVCNBCVT
65. Kiến trúc ngang hàng của Hệ CSDLPT
www.ptit.edu.v
n
Giới thiệu 65
TS. HÀ HẢI NAM
KHOA CÔNG NGHỆ THÔNG TIN 1
...
...
...
ES1 ES2 ESn
GCS
LCS1 LCS2 LCSn
LIS1 LIS2 LISn
ES: External Schema
GCS: Global Conceptual Schema
LCS: Local Conceptual Schema
LIS: Local Internal Schema
TS. Phan Thị Hà, HVCNBCVT
66. Kiến trúc ngang hàng theo thành phần
TS. Phan Thị Hà, HVCNBCVT
67. Kiến trúc đa Hệ quản trị CSDL (dựa trên dữ liệu)
www.ptit.edu.v
n
Giới thiệu 67
GCS
… …
GES1
LCS2 LCSn
…
…
LIS2 LISn
LES11 LES1n LESn1 LESnm
GES2 GESn
LIS1
LCS1
GES: Global External Schema
LES: Local External Schema
LCS: Local Conceptual Schema
LIS: Local Internal Schema
TS. Phan Thị Hà, HVCNBCVT
68. Kiến trúc đa Hệ quản trị CSDL (dựa trên thành phần)
www.ptit.edu.v
n
Giới thiệu 68
TS. Phan Thị Hà, HVCNBCVT
69. Tổng kết
Khái niệm chung về CSDL Phân tán
Các triển vọng của CSDL PT
Các vấn đề nghiên cứu trong CSDL PT
Kiến trúc hệ thống
Kiến trúc
Ba chiều cho kiến trúc Hệ CSDLPT: Tính phân tán, Tính tự
trị, Tính đồng nhất
Các kiến trúc khác nhau
Các hệ thống ngang hàng
Các hệ thống đa Hệ Quản trị CSDL
Các hệ thống khách/chủ
www.ptit.edu.v
n
Giới thiệu 69
TS. Phan Thị Hà, HVCNBCVT
Editor's Notes
- Hệ phân tán bao gồm các thành phần (máy tính) tự trị
- Thể hiện tới người dùng, ứng dụng như một hệ thống duy nhất: Các máy tính phải cộng tác
Các thành phần phần cứng (máy tính) và phần mềm (OS) là không đồng nhất
Phương pháp kết nối mạng (giao thức, topo…) không đồng nhất
A distributed computing system is a collection of autonomous
processing elements that are interconnected by a computer network.
I The elements cooperate in order to perform the assigned task.
I The term “distributed” is used very broadly. The exact meaning of
the word depends on the context. What can be distributed?
I Processing logic
I Functions
I Data
I Control
I Classification of distributed systems with respect to various criteria
I Degree of coupling, i.e., how closely the processing elements are
connected; e.g., measured as ratio of amount of data exchanged to
amount of local processing; weak coupling, strong coupling
I Interconnection structure; e.g., point-to-point connection between
processing elements, common interconnection channel
I Synchronization; synchronous, asynchronous
Tip: Add your own speaker notes here.
The ANSI-SPARC Architecture, where ANSI-SPARC stands for American National Standards Institute, Standards Planning And Requirements Committee, is an abstract design standard for a Database Management System (DBMS), first proposed in 1975 [1].
Most modern commercial DBMS are based on this system. The ANSI-SPARC model however never became a formal standard.
ANSI/SPARC architecture is based on data
I 3 views of data: external view, conceptual view, internal view
I Defines a total of 43 interfaces
Reference Model
A conceptual framework whose purpose is to divide standardization work into manageable pieces and to show at a general level how these pieces are related to one another.
Approaches
Component-based
Components of the system are defined together with the interrelationships between components.
Good for design and implementation of the system.
Function-based
Classes of users are identified together with the functionality that the system will provide for each class.
The objectives of the system are clearly identified. But how do you achieve these objectives?
Data-based
Identify the different types of describing data and specify the functional units that will realize and/or use data according to these views.
minh họa một ứng dụng đưa ra một yêu cầu tham khảo dữ liệu từ xa. Yêu cầu này được định tuyến bởi hệ quản trị cơ sở dữ liệu phân tán đến vị trí mà dữ liệu đó được lưu trữ, sau đó yêu cầu được thực thi tại vị trí đó và trả kết quả về.
ứng dụng yêu cầu sự thực thi của một chương trình bổ trợ (auxiliary program) tại vị trí từ xa. Chương trình bổ trợ này truy xuất cơ sở dữ liệu từ xa và trả kết quả cho ứng dụng yêu cầu.
Lợi ích của cách tiếp cận thứ nhất là cung cấp sự trong suốt phân tán nhiều hơn trong khi cách tiếp cận thứ hai có thể linh động hơn nếu nhiều truy xuất cơ sở dữ liệu được yêu cầu vì ứng dụng bổ trợ có thể thực hiện tất cả các truy xuất yêu cầu và chỉ gởi kết quả về.
Distribution
Whether the components of the system are located on the same machine or not
Heterogeneity
Various levels (hardware, communications, operating system)
DBMS important one
data model, query language,transaction management algorithms
Autonomy
Characteristics
1.The local operations of the individual DBMSs are not affected by their participation in the distributed system.
2.The manner in which the individual DBMSs process queries and optimize them should not be affected by the execution of global queries that access multiple databases.
3. System consistency or operation should not be compromised when individual DBMSs join or leave the distributed system.
Not well understood and most troublesome
Various versions
Design autonomy: Ability of a component DBMS to decide on issues related to its own design.
Communication autonomy: Ability of a component DBMS to decide whether and how to communicate with other DBMSs.
Execution autonomy: Ability of a component DBMS to execute local operations in any manner it wants to.
I Design autonomy: each individual DBMS is free to use the data
models and transaction management techniques that it prefers.
I Communication autonomy: each individual DBMS is free to decide
what information to provide to the other DBMSs
I Execution autonomy: each individual DBMS can execture the
transactions that are submitted to it in any way that it wants to.
General idea: Divide the functionality into two classes:
I server functions
I mainly data management,
including query processing,
optimization, transaction
management, etc.
I client functions
I might also include some
data management
functions (consistency
checking, transaction
management, etc.) not
just user interface
I Provides a two-level architecture
I More efficient division of work
I Different types of client/server architecture
I Multiple client/single server
I Multiple client/multiple server
Server forms bottleneck
Server forms single point of failure
Database scaling difficult
More efficient division of labor
Horizontal and vertical scaling of resources
Better price/performance on client machines
Ability to use familiar tools on client machines
Client access to remote data (via standards)
Full DBMS functionality provided to client workstations
Overall better system price/performance
Local internal schema (LIS)
Describes the local physical data organization (which might be different on each machine)
Local conceptual schema (LCS): Describes logical data organization at each site. Required since the data are fragmented and replicated
Global conceptual schema (GCS): Describes the global logical view of the data . Union of the LCSs
External schema (ES)
I Describes the user/application view of the data
Model with a GCS
I GCS is the union of parts of the LCSs
I Local DBMS define their own views on the local DB
I Fundamental difference to peer-to-peer DBMS is in the definition of
the global conceptual schema (GCS)
I In a MDBMS the GCS represents only the collection of some of the
local databases that each local DBMS want to share.
I The GCS is a (proper) subset of the union of the LCSs (no complete
view exists)
I This leads to the question, whether the GCS should even exist in a
MDBMS.
I Two different architecutre models:
I Models with a GCS
I Models without GCS
I Architecture defines the structure of the system. There are different ways to define the architecture: e.g., based on components or data
I DDBS might be based on identical components (homogeneous systems) or different components (heterogeneous systems)
I ANSI/SPARC architecture defines external, conceptual, and internal schemas
I There are three orthogonal implementation dimensions for DDBS: level of distribution, autonomity, and heterogeinity
I Different architectures are discussed:
I Client-Server Systems
I Peer-to-Peer Systems