1. DỰ ĐOÁN VỊ TRÍ TƯƠNG TÁC VỚI ADN TRONG CHUỖI PROTEIN BẰNG PHƯƠNG PHÁP HỌC MÁY Giáo viên hướng dẫn: PGS. TS. Từ Minh Phương Sinh viên thực hiện: Nguyễn Thị Lan Phương
2. Nội dung Dự đoán tương tác với ADN trong chuỗi protein 1 Mô hình dự đoán bằng phương pháp học máy 2 Thử nghiệm, đánh giá và Demo ứng dụng 4 Kết luận 5 Các phương pháp đề xuất 3
3. Dự đoán tương tác với ADN trong chuỗi protein MKRESHKHAEQARRNRLAVALHELALIPAEWKQQN 1. Protein Mỗi kí tự biểu diễn một axit amin 2. Bài toán dự đoán tương tác với ADN trong chuỗi protein MKRESHKHAEQARRNRLAVALHELALIPAEWKQQN Vị trí gắn với ADN
4. Phương pháp xác định tương tác giữa ADN và protein Các phương pháp Chụp X quang tinh thể Phân tích quang phổ cộng hưởng từ hạt nhân Tin sinh học MKRRIRRERNKMAAAKSRNRRRELTDTL MKRRIRRERNKMAAAKSRNRRRELTDTL 0000001001101001110010000000
5.
6.
7. Nội dung Dự đoán tương tác với ADN trong chuỗi protein 1 Mô hình dự đoán bằng phương pháp học máy 2 Thử nghiệm, đánh giá và Demo ứng dụng 4 Kết luận 5 Các phương pháp đề xuất 3
8.
9.
10. Thông tin tiến hóa Database 1A0A:A|PDBID|CHAIN|SEQUENCE 1AN4:A|PDBID|CHAIN|SEQUENCE 1HLO:A|PDBID|CHAIN|SEQUENCE 1NKP:A|PDBID|CHAIN|SEQUENCE 1J1V:A|PDBID|CHAIN|SEQUENCE MKRESHKHAEQARRNRLAVALHELASLIPAE Sử dụng chương trình PSI-Blast để lấy thông tin tiến hóa VFNVVTQDMINKSTK PYRGHRF TKENVRILESWFAKNIENPYL GRPR PYRGHRF AINKHEQEQISRLLEKGHPRQQLAIIFGIGVS ALSDTERAQLDVMKLLNVSLHEMSR PYRGHR TKILKDPVSYGTS Các chuỗi con được bảo tồn chức năng có khả năng gắn với ADN cao hơn
11.
12.
13. Nội dung Dự đoán tương tác với ADN trong chuỗi protein 1 Mô hình dự đoán bằng phương pháp học máy 2 Thử nghiệm, đánh giá và Demo ứng dụng 4 Kết luận 5 Các phương pháp đề xuất 3
14. Phương pháp đề xuất Phương pháp dự đoán sử dụng thuật toán SVMs Phương pháp dự đoán sử dụng thuật toán CRFs Phương pháp dự đoán sử dụng kết hợp SVMs/CRFs Dự đoán tương tác giữa ADN và Protein
16. Phương pháp dự đoán sử dụng CRFs KHYRGVRQRPWGKFAAEIRDPAKNGARVWLGTFETAEDAALAYDRA 0011111010101000111010001010101100000000001000 Chuỗi dữ liệu X cần gán nhãn Chuỗi nhãn Y Đặc trưng trạng thái: + thông tin chuỗi + cấu trúc thứ cấp + thông tin tiến hóa Đặc trưng chuyển đổi giữa các nhãn: 1->0 0->1 1->1 0->0
17. Phương pháp dự đoán kết hợp SVMs/CRFs Tạo vectơ đặc trưng Phân loại bằng SVMs Tạo đặc trưng đầu vào Gán nhãn bằng CRFs Xuất kết quả ra màn hình KHYRGVRQRPWGKFAAEIRDPAKNGARVWLGTFETAEDAALAYDRAAFRMR 001111101010100011101000101010110000000000100000000 Cực đại hóa biên độ phân tách Mô hình sự tương quan giữa các nhãn kề nhau
18. Nội dung Dự đoán tương tác với ADN trong chuỗi protein 1 Mô hình dự đoán bằng phương pháp học máy 2 Thử nghiệm, đánh giá và Demo ứng dụng 4 Kết luận 5 Các phương pháp đề xuất 3
23. Nội dung Dự đoán tương tác với ADN trong chuỗi protein 1 Mô hình dự đoán bằng phương pháp học máy 2 Thử nghiệm, đánh giá và Demo ứng dụng 4 Kết luận 5 Các phương pháp đề xuất 3
24.
25. Em xin chân thành cảm ơn thầy giáo và các bạn!
Editor's Notes
Protein cấu tạo từ 20 loại axit amin, có thể được biểu diễn như một xâu kí tự Protein có thể cuộn lại thành cấu trúc phức tạp trong không gian Các axit amin của protein gắn với ADN tạo thành một dạng phức hợp protein-ADN Bài toán dự đoán tương tác với ADN trong chuỗi protein là bài toán xác định vị trí axit amin gắn với ADN trong chuỗi protein
Chụp X-quang tinh thể Phân tích quang phổ cộng hưởng từ hạt nhân là hai phương pháp thực nghiệm có độ Chính xác tuyệt đối, tuy nhiên Chi phí cao và độ phức tạp lớn Không thể thực hiện trên quy mô lớn Phương pháp thứ hai là tin sinh học, áp dụng các phương pháp tính toán để dự đoán vị trí tương tác trong chuỗi protein. Phương pháp này có Độ chính xác chưa đạt được 100% Nhưng Giá thành rẻ và tốn ít thời gian Thực hiện trên quy mô lớn
Để thực hiện phương pháp tin sinh học, cần một tập dữ liêu gồm các protein đã được xác định vị trí gắn với ADN Từ tập dữ liệu này ta trích xuất ra các đặc trưng phân biệt các axit amin có gắn với AND và các acit amin không gắn với AND Các đặc trưng này được đưa vào một một thuật tóan học máy, xây dựng một bộ dự đóan tương tác giữa AND và Protein
Đây là một số ứng dụng có độ chính xác nhất hiện nay. các ứng dụng này đều sử dụng kĩ thuật cửa số trượt
Để xây dựng mô hình dự đoán ta cần tập huấn luyện. Từ ngân hàng dữ liệu protein, ta lấy ra các phức hợp ADN-protein. Thực hiện tính toán khoảng cách giữa ADN và các axit amin trên chuỗi protein, nếu khoảng cách này nhỏ hơn hoặc bằng 3.5 angstrom thì axit amin có gắn với AND và ngược lại
Ta thực hiện trích chọn đặc trưng từ tập dữ liệu. Ta dùng một cửa sổ trượt có kích thước là 11 để xác định thông tin chuỗi Hai đặc trưng khác được trích ra đó là thông tin tiến hóa và cấu trúc thứ cấp. Các đặc trưng này được trích xuất tạo ra véc tơ đặc trưng
Trong các chuỗi protein thường có các chuỗi con được bảo tồn qua các thế hệ Chúng thường biểu hiện những chức năng sinh học quan trọng Người ta thấy các chuỗi con này có khả năng gắn với ADN cao hơn Đồ án sử dụng công cụ PSI-blast để trích xuất thông tin tiến hóa Chuỗi protein được so sánh với các chuỗi trong cơ sở dữ liệu từ đó xác định ra các chuỗi tương tự nhất Chương trình sẽ tính toán để tạo ra một ma trận trọng số đặc tả vị trí, ma trận này được sử dụng làm đặc trưng trong đồ án
Cấu trúc thứ cấp là tương tác không gian giữa các gốc amino acid ở gần nhau trong chuỗi protein Các nghiên cứu chỉ rằng những chuỗi protein tương tự nhau nhưng có tương tác khác nhau với ADN khi có cấu trúc thứ cấp khác nhau Đồ án Sử dụng chương trình DSSP ( Define Secondary Structure of Proteins) để xác định cấu trúc thứ cấp cho các amino acid trong chuỗi
Với kích thước cửa sổ trượt là 11 sẽ có tổng cộng 320 đặc trưng đầu vào.
Ý tưởng là chuyển tập mẫu từ không gian biểu diễn Rn sang không gian Rd có số chiều lớn hơn để tìm một siêu phẳng tối ưu phân loại tập mẫu này Mặt siêu phẳng chia không gian vector đặc trưng thành hai phần, mỗi phần sẽ chứa các vector thuộc về một lớp Để xác định được một siêu phẳng tối ưu, phải bổ sung thêm điều kiện mặt siêu phẳng nghiệm phải có biên độ phân tách lớn nhất
CRFs là một kỹ thuật học máy được ứng dụng để giải quyết vấn đề gán nhãn chuỗi dữ liệu. Trong bài toán dự đoán tương tác giữa ADN và Protein, chuỗi protein là chuỗi dữ liệu cần được gán nhãn, chuỗi nhãn là chuỗi các trạng thái có gắn hay không gắn với ADN của các axit amin trong chuỗi protein Tính ưu việt của CRFs là nó có thể tích hợp những đặc trưng trạng thái giàu giá trị và đặc trưng chuyển đổi giữa các nhãn. Xác suất của chuỗi nhãn sẽ được xác định bởi công thức xác suất điều kiện như sau:
Thực tế các axit amin gắn với ADN thường tập hợp thành các chuỗi liền nhau. Người ta thấy rằng có sự tương quan giữa các axit amin này. Với hướng tiếp cận kết hợp hai thuật tóan học máy SVM và CRF, Mô hình dự đoán sẽ tận dụng được ưu điểm SVMs tối đa hóa biên độ giúp phân tách rõ ràng CRFs học sự tương quan giữa các nhãn đầu ra kề nhau giúp giải quyết sự nhập nhằng