Ứng dụng thuật toán Burrows – Wheeler Transform trong quá trình giải mã hệ gen lúa tại Việt Nam.docx

Viết đề tài giá sinh viên – ZALO:0973.287.149-TEAMLUANVAN.COM
Tải tài liệu tại kết bạn zalo : 0973.287.149
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------
Vũ Thị Diệu
ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – Năm 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------
Vũ Thị Diệu
ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM
Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60480104
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN CƯỜNG
Hà Nội – Năm 2015

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu nêu
trong luận văn là trung thực. Những kết luận khoa học của luận văn chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
TÁC GIẢ LUẬN VĂN
Vũ Thị Diệu

LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Cường, người đã tận tình giúp
đỡ và hướng dẫn tôi hoàn thành luận văn này.Thầy đã định hướng giúp tôi phương
pháp nghiên cứu và giúp tôi từng bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích và
vô cùng mới mẻ. Cho tôi thêm đam mê và động lực để hoàn thành luận văn một cách
tốt nhất.
Tôi xin gửi lời cám ơn tới tập thể các bạn, các anh chị làm việc tại phòng Tin
Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam. Cám ơn các
bạn, các anh chị đã nhiệt tình giúp đỡ em trong thời gian qua, giúp em tiếp cận một
cách gần nhất với môi trường thực tế của ngành Tin – Sinh để em có thể đưa ra những
kết quả nghiên cứu một cách trực quan và đầy đủ trong luận văn của mình.
Tôi cũng xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong và ngoài
trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp và gia đình đã giúp đỡ, động
viên tôi trong quá trình nghiên cứu, hoàn thành luận văn này.
Luận văn chắc chắn không tránh khỏi những thiếu sót. Rất mong được sự góp ý
của các Thầy, Cô và các đồng nghiệp đồng thời cũng rất mong được các nhà nghiên
cứu tiếp tục hiệu chỉnh, bổ sung. Tôi xin chân thành cảm ơn!
TÁC GIẢ LUẬN VĂN
Vũ Thị Diệu

MỤC LỤC
DANH MỤC CÁC HÌNH VẼ
DANH MỤC CÁC BẢNG BIỂU
MỞ ĐẦU .........................................................................................................................1
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ............................................................................3
1.1 Đặt vấn đề...............................................................................................................3
1.1.1 Tin – Sinh học.....................................................................................................3
1.1.2 Khai phá dữ liệu trong Tin – Sinh học................................................................4
1.1.3 Hướng phát triển của ngành Tin – Sinh học tại Việt Nam .................................5
1.2 Mục tiêu của luận văn...........................................................................................6
1.3 Các khái niệm cơ bản trong sinh học phân tử....................................................7
1.3.1 DNA....................................................................................................................7
1.3.2 Gen......................................................................................................................8
1.3.3 Hệ gen tham chiếu...............................................................................................9
1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh học................................................9
CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN.......................................14
BURROWS WHEELER TRANSFORM..................................................................14
2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tự ..............................14
2.1.1 Giải mã hệ gen và quy trình..............................................................................14
2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment).........................16
2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tự ...........................................17

2.1.4 Phân loại bài toán gióng hàng trình tự ..............................................................18
2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tự ............................20
2.2.1 Thuật toán ma trận điểm ...................................................................................20
2.2.2 Thuật toán quy hoạch động Smith-Waterman ..................................................24
2.3 Thuật toán Burrows – Wheeler Tranform (BWT )..........................................31
2.3.1 Chuyển đổi Burrows-Wheeler thuân.................................................................32
2.3.2 Chuyển đổi Burrows-Wheeler nghic ̣h...............................................................38
2.3.3 Tìm kiếm chính xác (Exact matching)..............................................................41
2.3.4 Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching) .................49
2.4 Kết luận ................................................................................................................53
CHƢƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ
LIỆU SINH HỌC .........................................................................................................55
3.1 Quy trình thực nghiệm........................................................................................55
3.2 Cài đặt ứng dụng .................................................................................................56
3.3 Chuẩn bị dữ liệu ..................................................................................................58
3.4 Kết quả và đánh giá.............................................................................................62
3.5 Đánh giá kết quả của luận văn ...........................................................................67
KẾT LUẬN...................................................................................................................69
TÀI LIỆU THAM KHẢO ...........................................................................................70

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mô hình cấu trúc phân tử DNA ....................................................................8
Hình 1.2 Mô hình cấu trúc gen....................................................................................8
Hình 1.3 Định dạng dữ liệu FASTA ..........................................................................10
Hình 1.4 Định dạng FASTQ ......................................................................................11
Hình 2.1 Quy trình xác định các biến dị di truyền. ...................................................16
Hình 2.2 Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2.................16
Hình 2.3 Các đột biến xác định khi gióng hàng 2 trình tự u – v ...............................18
Hình 2.4 Ví dụ bài toán Short Read Alignment.........................................................19
Hình 2.5 Ma trận chứ a tất cả các phép quay đầu vào của xâu ATGTAC.................33
Hình 2.6 Chuỗi BWT Thu được bằng cách sắp xếp ma trận L * L theo thứ tự từ điển
… ................................................................................................................34
Hình 2.7 Minh họa việc giải mã BWT xâu „CT$ATGA‟ ...........................................41
Hình 2.8 Mô tả quá trình tạo chuỗi BWT..................................................................42
Hình 2.9 Vị trí xuất hiện của kí tự “a” trong chuỗi X =”agcagcagact ....................43
Hình 2.10 Giá trị SA = [9,10] của chuỗi W=“gca” ...................................................44
Hình 2.11 Công thức tính khoảng cách SA .................................................................44
Hình 2.12 Kết quả của quá trình tìm kiếm W=”gca” .................................................48
Hình 3.1 Mô phỏng nhiệm vụ thực nghiệm trong chương 3......................................56
Hình 3.2 Ví dụ mô phỏng mục tiêu của ứng dụng .....................................................57

Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A. file fastq 1, B. file fastq
2).....................................................................................................................................61
Hình 3.4 Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng
hàng trình tự BWA và BWTAligner................................................................................65

DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1 Các thẻ định danh trong định dạng SAM ..................................................12
Bảng 3.2 Ví dụ về định dạng SAM.............................................................................12
Bảng 3.3 Mô tả chuỗi CIGAR ...................................................................................13
Bảng 3.1 Thông tin về máy chủ được sử dụng để cài đặt thử nghiệm.......................58
Bảng 3.2 Thông tin chi tiết về dữ liệu mô phỏng thu được. ......................................59
Bảng 3.3 Kết quả tìm kiếm SNP với BWA và BWTAligner với các độ sâu trình tự
khác nhau .......................................................................................................................62
Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả 63
Bảng 3.5 So sánh độ đúng giữa BWA và BWTAligner gọi SNP ...............................64
Bảng 3.6 Bảng thống kê số lượng trên từng SNP với 2 phần mềm...........................66

1
MỞ ĐẦU
Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân
tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Sự ra đời của Tin - Sinh học
là sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai
phá dữ liệu hiệu quả, Tin – Sinh học đã trở thành mục tiêu công nghệ của ngành Sinh
học trong thế kỉ mới. Bắt kịp xu thế phát triển của khoa học thế giới, những năm gần
đây các nhà Tin - Sinh học Việt Nam đã xác định được những hướng đi phù hợp và đạt
được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao.
Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong
việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán
bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống... Do đặc tính khí
hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu
ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng
góp của Tin - Sinh học.
Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung
cũng như những ưu điểm phát triển của nghành Tin - Sinh học nước nhà, học viên
đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá
trình giải mã hệ gen lúa”. Luận văn bao gồm ba chương chính, nội dung tóm lược
như sau:
Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử,
các định dạng dữ liệu trong bài toán Tin – Sinh học. Mục tiêu chính của chương này
nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương
tiếp theo của luận văn.

2
Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong
việc giải mã hệ gen. Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng
trình tự. Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán
Burrows–Wheeler Transform trong quá trình giải mã hệ gen.
Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu
sinh học. Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện
Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công
cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu. Đối chứng
kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA. Trong chương
này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra
kết quả thực nghiệm và đánh giá kết quả của luận văn.

3
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
Tin - Sinh học là một lĩnh vực mới mẻ trong phạm vi nghiên cứu tại Việt Nam.
Những năm gần đây, Tin - Sinh học đã được các nhà nghiên cứu Việt Nam tiếp cận
gần hơn và đạt được những thành công bước đầu nổi trội. Trong chương đầu của luận
văn, tác giả sẽ giới thiệu đến những khái niệm cơ bản của Tin - Sinh học, hướng phát
triển của Tin – Sinh học nói chung và tại Việt Nam nói riêng, từ đó làm tiền đề để phát
biểu mục tiêu của luận văn. Phần cuối chương một sẽ trình bày các định nghĩa cơ bản
trong bài toán Tin – Sinh học mà sẽ được nhắc đến xuyên suốt trong những phần sau
của luận văn này.
1.1 Đặt vấn đề
1.1.1 Tin – Sinh học
Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân
tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Tin - Sinh học thiên về việc
phát triển các giải thuật, lý thuyết và các kĩ thuật thống kê tính toán để giải quyết các
bài toán bắt nguồn từ nhu cầu quản lí và phân tích dữ liệu sinh học.
Những lĩnh vực nghiên cứu chính của Tin - Sinh học gồm phân tích trình tự, tìm
kiếm gen, tìm kiếm các đột biến, phân tích chức năng gen …vv. Mọi sinh vật đều có hệ
gen, và người ta khẳng định rằng hệ gen mã hóa hầu hết thông tin di truyền của sinh
vật. Do vậy, việc giải mã hệ gen là một bài toán có ý nghĩa vô cùng quan trọng trong
ngành sinh học trên thế giới nói chung, và với một nước đang phát triển như Việt Nam
nói riêng. Giải mã trình tự gen là một bài toán có quy mô rộng lớn trong ngành Tin –
Sinh học và đã đem lại được những thành tựu nghiên cứu có ý nghĩa vô cùng to lớn:
Năm 2003, thành công của dự án giải mã 1000 hệ gen người (Human Genome
Project ) đã mang tới bước đột phá lớn của sinh học trong công nghệ, khởi đầu cho

4
hàng loạt các dự án giải mã hệ gen cho các loài khác nhau trên thế giới. Một số dự án
nổi bật khác trên thế giới có thể kể tên như dự án “750 người Hà Lan” giải trình tự tại
BGI - Hongkong bắt đầu năm 2011, “một triệu người Trung Quốc” bắt đầu từ năm
2011, dự án “giải mã hệ gen một người Hàn Quốc” vào năm 2009, “giải mã hệ gen một
người Nhật Bản” vào năm 2010. Việc xây dựng và giải mã thành công hệ gen có tác
động lớn đến nhiều lĩnh vực khác nhau, trong đó nổi bật là y học, dược học, công nghệ
sinh học và tin học ứng dụng, đồng thời thúc đẩy sự phát triển nền kinh tế của các quốc
gia. Đặc biệt các nghiên cứu giải mã hệ gen có ý nghĩa to lớn trong việc đưa ra cảnh
báo, phòng ngừa và điều trị sớm, phát triển các các phương pháp điều trị và chữa bệnh
hướng đến từng cá thể, nghiên cứu duy trì và phát triển nguồn giống tốt.
Có thể nói rằng sự nhập cuộc của Tin - Sinh học với sự hợp tác chặt chẽ giữa các
nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả đã trở
thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới.
1.1.2 Khai phá dữ liệu trong Tin – Sinh học
Khai phá dữ liệu rất quan trọng trong các lĩnh vực khác nhau như: tài chính - thị
trường chứng khoán (phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu
trong thị trường chứng khoán,…), kinh doanh - thương mại (quảng cáo, thương mại
điện tử, phát hiện lỗi, chăm sóc sức khỏe, công nghiệp, thể thao, giải trí, truyền
thông,…), text mining & Web mining (phương tiện tìm kiếm, xử lý văn bản, phân lớp
văn bản và các trang web, tóm tắt văn bản,…), bảo hiểm, điều khiển, viễn thông,…
Không nằm ngoài các lĩnh vực này, sinh học phân tử cũng rất cần công nghệ khai phá
dữ liệu để khám phá tri thức mới. Cũng giống như hỗ trợ các lĩnh vực khác, khi khai
phá dữ liệu hỗ trợ lĩnh vực sinh học phân tử đã giúp cho lĩnh vực này phát triển một
cách vượt bậc. Như trong nghiên cứu về di truyền, khai phá dữ liệu đã giúp tìm kiếm
và phát hiện loài, xác định DNA, dự đoán protein, … chăm sóc sức khỏe cộng đồng,
điều trị y học. Khai phá dữ liệu đã giúp cho việc chẩn đoán bệnh, đưa ra phương pháp

5
điều trị tốt hơn, tìm ra mối liên hệ giữa các triệu chứng, tiên lượng gen gây bệnh,…
Ngoài ra, khai phá dữ liệu sinh học phân tử còn có nhiều tác động đến các lĩnh vực
khác như công nghệ sinh học (biotechnology) và y sinh (biomedical). Nó có các ứng
dụng như điều chế dược phẩm, khoa học pháp y (forensic DNA analysis), và công nghệ
sinh học trong nông nghiệp.
1.1.3 Hƣớng phát triển của ngành Tin – Sinh học tại Việt Nam
Bắt kịp xu thế phát triển của khoa học thế giới, các nhà Tin - Sinh học Việt Nam
đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một
số công trình nghiên cứu mang tính ứng dụng cao. Ví dụ như một số nghiên cứu trong
lĩnh vực phân tích gen, xác định trình tự DNA của một số loài để đánh giá về mặt di
truyền, biến dị, xác định hệ số di truyền tìm ra các họ hàng thân thích, đánh giá mức độ
biến đổi tính di truyền, nghiên cứu về đa dạng sinh học, xây dựng ngân hàng gen (gen
bank)...
Một số đơn vị nghiên cứu trong nước đã lựa chọn Tin - Sinh học là hướng nghiên
cứu và phát triển có thể kể đến như: Khoa Công nghệ Sinh học, Trường Đại học Khoa
học Tự nhiên TP Hồ Chí Minh; Viện Công nghệ Sinh học, Viện Khoa học và Công
nghệ Việt Nam; Trường Đại học Y Dược TP Hồ Chí Minh. Tuy là một ngành khoa học
mới mẻ tại Việt Nam trong những năm gần đây nhưng cộng đồng Tin - Sinh học Việt
Nam nói chung cũng đã có những đóng góp và thành tựu đang kể. Đáng chú ý là sản
phẩm phần mềm Tin - Sinh học do PGS. TS. Trần Văn Lăng (Viện Công nghệ thông
tin tại TP Hồ Chí Minh) chủ trì đã tạo ra phần mềm HiBio riêng với một số tính năng
cần thiết cho việc tìm hiểu về sinh học phân tử và việc tiếp cận với những bài toán Tin
Sinh trở nên trực quan và ưu Việt. Năm 2012, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam khởi động dự án xây dựng bản đồ gen người cho 54 dân tộc Việt Nam và
thành lập Viện hệ gen học. Cuối năm 2013, TS. Lê Sỹ Vinh – giảng viên Trường Đại
học Công nghệ và các cộng sự đã công bố những kết quả đầu tiên về việc nghiên cứu

6
xây dựng và phân tích hệ gen người Việt, bắt đầu từ tiếp cận của các kỹ thuật tính toán
Tin – Sinh học. Và còn nhiều công trình nghiên cứu khác đã được công bố thể hiện
những thành công bước đầu của Tin - Sinh học Việt Nam.
Xét về nguồn dữ liệu gen, Việt Nam có những lợi thế về những nguồn thông tin
to lớn, hữu ích, do đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến
sự đóng góp của Tin - Sinh học. Có thể kể đến những nguồn dữ liệu đa dạng, sẵn có
trong nước về nhiều lĩnh vực khác nhau như nông nghiệp, chăn nuôi, hải sản, phòng
chống bệnh văcxin, kit chẩn đoán và y dược phẩm. Kết hợp được sự đa dạng, sẵn có
của nguồn dữ liệu gen với những hiểu biết về Tin học ứng dụng hứa hẹn về sự phát
triển thành công của Tin - Sinh học nước nhà.
1.2 Mục tiêu của luận văn
Về mặt giải thuật: Với những tiếp cận đầu tiên về ngành Tin – Sinh học như đã
trình bày ở trên và trong khuôn khổ nghiên cứu luận văn của mình, tôi tập trung vào
nghiên cứu một bài toán quan trọng trong quá trình giải mã hệ gen nhằm tìm kiếm các
biến dị di truyền (đa hình) là: bài toán gióng hàng trình tự (Sequence Alignment). Cụ
thể trong nghiên cứu của mình, tôi tìm hiểu thuật toán Burrows – Wheeler Transform
(BWT) để giải bài toán gióng hàng trình tự, đồng thời so sánh thuật toán BWT với một
số thuật toán khác đã được ứng dụng.
Về mặt thực nghiệm: Với sự hỗ trợ nguồn dữ liệu từ Viện Di truyền Nông
nghiệp, Viện Khoa học Nông nghiệp Việt Nam, cùng với sự cộng tác của các thành
viên trong phòng Tin – Sinh, Viện Công nghệ Sinh học, Viện Hàn Lâm khoa học Việt
Nam về mặt công nghệ, tôi đã góp phần xây dựng công cụ gióng hàng trình tự
BWTAligner dựa trên thuật toán BWT đã nghiên cứu. Luận văn thực hiện trên dữ liệu
thực nghiệm là bộ dữ liệu lúa Chiêm Nhỡ (Bắc Ninh) của Viện Di truyền Nông nghiệp.
So sánh chất lượng gióng hàng trình tự trên công cụ đã xây dựng với công cụ BWA –
một công cụ gióng hàng trình tự được sử dụng rộng rãi hiện nay và đưa ra những biện

7
luận nhằm góp phần cải tiến và phát triển thêm công cụ đã xây dựng.
1.3 Các khái niệm cơ bản trong sinh học phân tử
Với những tổng quan về Tin – Sinh học và mục tiêu của luận văn mà tôi đã trình
bày ở nội dung trên, trong nội dung tiếp theo tôi sẽ trình bày về các khái niệm cơ bản
trong sinh học phân tử. Các khái niệm được trình bày dưới đây sẽ là những khái niệm
được sử dụng xuyên suốt trong nội dung tiếp theo của luận văn.
1.3.1 DNA
Acid Deoxyribo Nucleic (viết tắt ADN theo tiếng Pháp hay DNA theo tiếng Anh)
là một phân tử acid nucleic mang thông tin di truyền mã hóa cho hoạt động sinh
trưởng và phát triển của các vật chất hữu cơ bao gồm cả một số virus. ADN thường
được coi là vật liệu di truyền ở cấp độ phân tử tham gia quyết định các tính trạng.
Trong quá trình sinh sản, phân tử ADN được nhân đôi và truyền cho thế hệ sau.Về mặt
cấu trúc cơ bản, DNA là các đại phân tử (polymer) mà các đơn phân (monomer) là các
nucleotide. Mỗi nucleotide được tạo thành từ một phân tử đường ribose, một
gốc phosphate và một bazơ nitơ (nucleobase). Trong DNA chỉ có 4 loại nucleotide và
những loại này khác nhau ở thành phần nucleobase. Do đó tên gọi của các loại
nucleotide xuất phát từ gốc nucleobase mà nó mang: ademine (A), thy mine(T),
Cytosine (C), và guanine (G). Trong đó, A và G là các purine (có kích thước lớn)
còn T và X, có kích thước nhỏ hơn (pyrimidine).

8
Hình 1.1 Mô hình cấu trúc phân tử DNA
1.3.2 Gen
Gen hay còn gọi là gien, gene, ren hay di tố là một đoạn DNA mang một chức
năng nhất định trong quá trình truyền thông tin di truyền. Trên nhiễm sắc thể, một gen
thường có một vị trí xác định và liên kết với các vùng điều hòa phiên mã và các vùng
chức năng khác để bảo đảm và điều khiển hoạt động của gen.
Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong cơ thể.
Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể cho các cơ quan
trong cơ thể ta phải hoạt động ra sao. Việc tìm hiểu số lượng gen cũng như cơ cấu tổ
chức của gen trong cơ thể con người là một điều tất yếu để mang lại những tiến bộ mới
và quan trọng của y sinh học.
Hình 1.2 Mô hình cấu trúc gen

9
1.3.3 Hệ gen tham chiếu
Một hệ gen tham chiếu (A reference genome) có thể hiểu như một hệ gen đối
chứng, đó là một hệ gen đại diện ở một loài nào đó và người ta đã công nhận rõ mức độ
biểu hiện của gen ấy ở các mô đặc hiệu hay thời điểm quan trọng nào đó. Nói cách
khác, hệ gen tham chiếu của một loài là trình tự được lấy trên cơ sở dữ liệu bao gồm
tập hợp các gen mang tính đại diện mà không đặc thù cho một cá thể riêng biệt. Như
vậy, bộ gen tham chiếu được lấy làm đối chứng để so sánh trong việc định lượng và
giải mã hệ gen. Hệ gen tham chiếu được lựa chọn phải là hệ gen tiêu biểu trên thế giới
và mang đầy đủ các tính trạng đại diện của loài. Bài toán giải mã hệ gen sẽ lấy dữ liệu
gen cần xét – để đưa vào đối chứng với hệ gen tham chiều và qua các công cụ Tin -
Sinh học, các đa hình trên hệ gen được tìm thấy và phân tích. Như vậy hẹ gen tham
chiếu có ý nghĩa quan trọng trong việc đánh giá và xác định tính trạng loài, làm tiền đề
cho việc lựa chọn tính trạng tốt trong thực tiễn.
1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh học
Dữ liệu về các chuỗi DNA được giải mã bởi các trung tâm công nghệ sinh học
khác nhau trên thế giới. Và một trong những khó khăn đầu tiên của các nhà quản lý
thông tin gặp phải là dữ liệu từ các trung tâm khác nhau có thể được lưu trữ dưới các
định dạng khác nhau. Để giải quyết bài toán liên quan đến sự khác biệt về định dạng
dữ liệu, chúng ta cần định ra xác định dạng dữ liệu chuẩn nhằm mục đích lưu trữ và
chia sẻ dữ liệu trong bài toán Tin – Sinh học.
Fasta và Fastq là những định dạng dữ liệu chuẩn, đơn giản và quan trọng nhằm
lưu trữ thông tin về các chuỗi DNA. SAM là định dạng dữ liệu đầu ra sau khi xử lý bài
toán gióng hàng trình tự sẽ được trình bày trong chương sau. Do đó, những tiểu mục
sau đây sẽ giới thiệu chi tiết về các định dạng dữ liệu cơ bản này.

10
a. Định dạng FASTA
Định dạng FASTA là định dạng phổ biến nhất được dùng để lưu trữ thông tin
về một chuỗi ADN hoặc protein. Định dạng dữ liệu FASTA lưu trữ thông tin hệ
gen tham chiếu (giới thiệu hệ gen tham chiếu: 1.3.3), bao gồm 2 phần: phần tiêu
đề và phần nội dung
- Phần tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí
tự xuống dòng. Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự ADN
(protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã, loại dữ liệu
(nếu có)
- Phần nội dung: Chứa trình tự có thể là nucleotide hoặc axit amin. Các trình
tự này có thể ở trên một dòng hoặc có thể được chia thành nhiều dòng.
Hình 1.3 Định dạng dữ liệu FASTA
b. Định dạng FASTQ
Định dạng FASTQ là định dạng được sử dụng để lưu trữ dữ liệu được tạo ra từ
các máy giải trình tự thế hệ mới (FastQ = FastA + Quality). Do đó, FASTQ chỉ chứa
trình tự nucleotit mà không dùng để lưu trữ các trình tự axit amin. So với định dạng
FASTA thì định dạng FASTQ gồm có 4 dòng như sau:

11
- Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về dãy
DNA này (giống với FASTA)
- Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
- Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để định
danh chuỗi, chức năng của dòng này là để phân biệt giữa dòng trình tự và dòng
điểm chất lượng.
- Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc
trình tự. Chất lượng của trình tự được mã hóa dưới dạng mã ASCII.
Hình 1.4 Định dạng FASTQ
c. Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chuẩn lưu trữ dữ liệu trình tự
được lắp ráp hoặc ánh xạ tới hệ gen tham chiếu được cộng đồng Tin - Sinh học trên
thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm.
Định dạng SAM là định dạng dữ liệu có thể đọc được, chính là file dữ liệu đầu
ra sau khi chạy các công cụ gióng hàng trình tự.
Định dạng SAM bao gồm các thẻ được định danh. Tiêu đề được bắt đầu với
ký hiệu @ và có các thành phần khác theo thứ tự sau:

12
1 Tên truy vấn / khuôn mẫu / cặp
2 Cờ (FLAG) (Cờ đảo bit)
3 Tên tham chiếu
4 Vị trí (tại 1 vị trí cuối cùng bên trái)
5 Chất lượng ánh xạ (Trong quy mô Phred )
6 CIGAR(Dạng chuỗi )
7 Tên tham chiếu ghép nối ( = nếu tương tự như tên tham chiếu )
8 Vị trí ghép nối ( tại 1 vị trí )
9 Kích thước đoạn chèn
10 Trình tự truy vấn
11 Chất lượng truy vấn
12 Trường biến tùy chọn
Bảng 3.1 Các thẻ định danh trong định dạng SAM
Bảng 3.2 Ví dụ về định dạng SAM

13
CHUỗI MÔ Tả
M Trùng khớp vị trí căn chỉnh (trùng khớp trình tự hoặc không trùng
khớp)
I Chèn vào tham chiếu
D Xóa từ tham chiếu
N Bỏ qua vùng của tham chiếu
S Trích đoạn mềm (trích đoạn trình tự có mặt trong trình tự)
H Trích đoạn cứng (trích đoạn trình tự không có mặt trong trình tự )
P Đệm (xóa từ bảng tham chiếu đã được thêm)
= Trình tự trùng khớp
X Trình tự không trùng khớp
Bảng 3.3 Mô tả chuỗi CIGAR

14
CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN
BURROWS WHEELER TRANSFORM
Trong quy trình giải mã hệ gen, bước xác định biến dị/ đa hình là một bước quan
trọng và góp phần lớn trong việc đưa ra cảnh báo, phòng ngừa và điều trị sớm, phát
triển các phương pháp điều trị và chữa bệnh hướng đến từng cá thể của loài. Trong
chương hai, tác giả giới thiệu về bài toán gióng hàng trình tự - một bài toán quan
trọng nhằm xác định biến dị/ đa hình trong quá trình giải mã hệ gen. Tiếp theo của
chương 2 sẽ giới thiệu một số thuật toán cơ bản giải quyết bài toán gióng hàng trình
tự. Nội dung trọng tâm của chương hai là giới thiệu thuật toán Burrows – Wheeler
Tranform (BWT) nhằm giải quyết hiệu quả bài toán gióng hàng trình tự một cách
nhanh chóng, chính xác và hiệu quả.
2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tự
2.1.1 Giải mã hệ gen và quy trình
Hệ gen được cấu tạo từ các phân tử ADN là một phân tử acidnucleic mang
thông tin di truyền mã hóa cho hoạt động sinh trưởng và phát triển của sinh vật. Hệ
gen bao gồm 4 loại nucleotide: A (Adenine), T (Thymine), G (Guanine) và C
(Cytosine). Máy giải trình tự thế hệ mới (Next-generation sequencing) có thể giải
trình tự được toàn bộ hệ gen. Máy giải trình tự không chỉ tạo ra duy nhất một chuỗi
trình tự toàn bộ hệ gen, mà tạo ra hàng triệu đoạn trình tự nhỏ được cắt ra từ hệ gen,
gọi là các trình tự đoạn ngắn (read). Các read được gióng hàng với một trình tự tham
chiếu để tìm kiếm các khác biệt. Trong phần này, luận văn sẽ nêu tầm quan trọng của
gióng hàng trong quy trình để phát hiện các biến dị/đa hình.

15
a. Quy trình
Các biến dị di truyền bao gồm đa hình đơn nucleotide viết tắt là SNP (single
nucleotide polymorphisms) là một biến thể của nucleotide xảy ra ở một vị trí nhất
định trong hệ gen và đa hình thêm hoặc mất nucleotide được gọi là InDel(Insertion/
Deletion). Những loại đa hình này ít nhiều có thể dẫn đến thay đổi các tính trạng của
sinh vật.
Quy trình thực hiện việc tìm kiếm các biến dị di truyền (SNP và InDel)
bao gồm 4 bước chính (Hình):
Bước 1: Tách chiết hệ gen của sinh vật.
Bước 2: Hệ gen của sinh vật được giải trình tự (theo một số phương pháp như:
Pyrosequencing, giải trình tự bằng gắn nối, hoặc giải trình tự bằng tổng hợp). Các
đoạn trình tự ngắn cần đước đánh giá chất lượng trước khi gióng hàng. Các đoạn
trình tự có chất lượng thấp cần loại bỏ.
Bước 3: Gióng hàng trình tự các đoạn ngắn (read) được tạo ra từ máy giải trình
tự thế hệ mới với một trình tự tham chiếu được chọn trên cơ sở dữ liệu bằng phần
mềm ứng dụng thuật toán Burrows – Wheeler transform. Chất lượng gióng hàng của
phần mềm cần được đánh giá bởi phần trăm các đoạn trình tự ngắn gióng hàng với
trình tự tham chiếu.
Bước 4: File dữ liệu đầu ra của phần mềm gióng hàng được sử dụng cho việc
tìm kiếm các biến dị di truyền bằng một số phần mềm SAMtools và VarScan.

16
Hình 2.1 Quy trình xác định các biến dị di truyền.
Thuật toán BWT được ứng dụng trong bài toán gióng hàng trình tự là một
bước để xác định biến dị (đa hình) trên hệ gen.
2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment)
Bài toán gióng hàng trình tự, hay là còn gọi là bài toán sắp xếp thẳng hàng trình
tự (Sequence Alignment) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự
(sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một
chuỗi các thành phần (ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau
giữa các trình tự.
Sequence 1  G A A T T C A G T T A
| | | | | |
Sequence 2  G G A T - C - G - - A
Hình 2.2 Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2

17
Nội dung của bài toán so sánh cặp trình tự được trình bày như sau :
+ Cho 2 chuỗi trình tự sinh học S1,S2. Gióng cặp chuỗi này được thực hiện
bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (“gap” kí hiệu là “-“) tại các
vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1‟ và S2‟ tương ứng, sau đó
đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự
của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách.
+ Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1‟ và S2‟
ta sẽ có S1 và S2 ban đầu.
2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tự
Gióng hàng trình tự nhằm nghiên cứu sự tiến hóa Hoặc để tìm kiếm, so sánh mức
độ tương đồng giữa các trình tự
Đánh giá mức độ sai khác giữa các trình tự do nhiều nguyên nhân. Có thể ứng
dụng để:
 phát hiện các đột biến điểm hoặc mất đoạn Nucleotide.
 Xác định được các Intron, exon(khi so sánh một trình tự mRNA với trình
tự DNA).
 Xác định được các vùng bảo thủ trong các trình tự chẳng hạn như vùng
Promoter(kỹ thuật footprinting).
 Nghiên cứu và xây dựng cây phát sinh chủng loại(Phylogenetic).
 Là một phần không thể thiếu khi đăng ký trình tự vào ngân hàng EMBL.
 Là cơ sở xây dựng cây phát sinh chủng loại.
Trong sự tiến hóa, các điểm gióng hàng giống nhau chính là một phần của trình tự
sinh học tổ tiên. Còn các điểm gióng hàng không giống nhau chính là sự đột biến của
trình tự.

18
Các trường hợp xác định được khi gióng hàng trình tự là việc thêm/ bớt một
nucleotide (insertion/ deletion) hay còn gọi là SNP, việc thay thế một nucleotide
(mismatch) hay còn gọi là Indel và việc trùng khớp các nucleotide(match).
Ví dụ hai trình tự u = “ATCTGATG” và v = “TGCATAC”. Khi lấy u làm căn cứ,
thì v có: 4 điểm match, 1 điểm mismatch, 3 điểm insertion và 2 điểm deletion như mô
tả dưới đây:
Hình 2.3 Các đột biến xác định khi gióng hàng 2 trình tự u – v
2.1.4 Phân loại bài toán gióng hàng trình tự
Bài toán gióng hàng trình tự được phân làm 2 loại : gióng hàng toàn cục và gióng
hàng cục bộ :
+ Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên
toàn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần
tương đương và các trình tự này có độ tương đồng, giống nhau cao.

19
Ví dụ: So sánh tổng thể cả chuỗi (toàn cục)
L G S S K Q T G K G S - R I T D
| | | | | | |
L N - Y K S A G K G A I R L G D
+Phép so sánh trình tự theo hướng cục bộ: Phép toán so sánh được sử dụng trên
một phần của chuỗi trình tự. Thường được sử dụng khi các trình tự có chiều dài lớn, độ
tương đồng giống nhau không cao, chỉ có một số ít các gen giống nhau trên 2 trình tự,
hoặc khi 2 trình tự có kích thước khác biệt lớn
Ví dụ: So sánh cục bộ một đoạn chuỗi(cục bộ)
A G A A C C T G C G A - R A T G
| | | |
T G - G A
Phương pháp giải bài toán gióng hàng trình tự theo hướng cục bộ áp dụng cho
bài toán con : Short Read Alignment – là bài toán gióng hàng số lượng lớn các đoạn
trình tự (read) vào hệ gen tham chiếu (reference Sequence)
Hình 2.4 Ví dụ bài toán Short Read Alignment

20
Các phần tiếp theo của chương hai giới thiệu một số thuật toán cơ bản giải
quyết bài toán gióng hàng trình tự và trọng tâm của chương sẽ giới thiệu thuật toán
Burrows – Wheeler Tranform (BWT) có ưu điểm nổi trội cho dạng bài toán gióng hàng
trình tự theo hướng cục bộ nói trên.
2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tự
2.2.1 Thuật toán ma trận điểm
Thuật toán ma trận điểm nhằm giải quyết bài toán gióng hàng trình tự khá đơn
giản và là thuật toán áp dụng giải bài toán gióng hàng trình tự toàn cục. Thuật toán
được ra đời năm 1970 bởi Gibbs và G.A.McIntyre (Gibbs and McIntyre 1970) để so
sánh hai trình tự nucleotide và trình tự axit amin.
Bài toán: Cho hai chuỗi S1 và S2. Từ đó tạo ra hai chuỗi S1‟ và S2‟ sao cho có
độ tương đồng cao nhất.
- Input:
Hai chuỗi S1, S2.
Ma trận F.
-Output:
Hai chuỗi S1‟, S2‟ có độ tương đồng cao nhất.
THUẬT TOÁN:
Bước 1. Thiết lập bảng ô vuông và chép trình tự một chuỗi theo hàng và một
chuỗi theo cột dọc vuông góc với nhau.
Bước 2. Đánh dấu vào tất cả các ô vuông tương ứng cùng với một nucleotide,
dùng thước kẻ nối tất cả các ô được đánh dấu liền kề nhau theo chiều đường chéo phía
góc trên bên trái kẻ xuống để xác định đoạn chuỗi tương đồng.
VÍ DỤ MINH HỌA:
Cần so sánh hai chuỗi sau:
S1 = “GAGTAGAAACCGGTAGTC”
S2 = “ACGTAGGTCCAGGTGTC”

21
Bƣớc 1: Tạo ma trận với một chuỗi là hàng và một chuỗi là cột
G A G T A G A A A C C G G T A G T C
A
C
G
T
A
G
G
T
C
C
A
G
G
T
G
T
C

22
Bƣớc 2:
A x x x X x x
C x x x
G x x x x x x
T x x x
A x x x X x x
G x x x x x x
G X x x x x x
T x x x
C x x x
C x x x
A x x x X x x
G x x x x x x
G x x x x x x
T x x x
G x x x x x x
T x x x
C x x x

23
Bƣớc 3:
A x x x X x x
C x x x
G x x x x x x
T x x x
A x x x X x x
G x x x x x x
G X x x x x x
T x x x
C x x x
C x x x
A x x x X x x
G x x x x x x
G x x x x x x
T x x x
G x x x x x x
T x x x
C x x x
Từ ma trận điểm nhận được kết quả S1‟, S2‟ theo mô tả sau:
S1’ = G A G T A G A A A C C G G T A G T C
S2’ = A C G T A G G T C C A G G T - G T C
Position 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

24
Như vậy, nhận được chuỗi S1‟, S2‟ có sự đột biến xảy ra tại các vị trí 1 ( G -> A),
vị trí 2 (A -> G), vị trí 8 (A -> T), vị trí 9 (A -> C), vị trí 11 (A -> C). Có sự mất 1
nucleotide tại vị trí 15.
Ưu điểm: Phương pháp này cho phép phát hiện sự có mặt của các dạng mất
đoạn hoặc thêm đoạn giữa hai trình tự.
Phương pháp này nó thể hiện một số đặc điểm, chẳng hạn sự tương đồng giữa các
nhiễm sắc thể, các vùng lặp lại trong trình tự protein, các trình tự bổ sung trong RNA
mà có thể dẫn đến hình thành cấu trúc bậc 2.
2.2.2 Thuật toán quy hoạch động Smith-Waterman
Thuật toán Smith-Waterman là một thuật toán quy hoạch động dùng để tìm
kiếm cơ sở dữ liệu phát triển bởi TF.Smith và MS.Waterman vào năm 1981 và dựa trên
một mô hình thích hợp trước đó có tên Needleman và Wunsch.
Đặc điểm: Thuật toán Smith-Waterman là thuật toán gióng cặp chuỗi cục bộ
dựa trên quy hoạch động để tính điểm cho quá trình gióng chuỗi.
Ý nghĩa: Giải thuật này giúp nhận ra những miền tương đồng giữa hai chuỗi tìm
kiếm cho gióng chuỗi cục bộ tối ưu hơn.
Giải thuật xây dựng trên ý tưởng so sánh tìm ra những đoạn hay những miền của
hai chuỗi mà có độ tương đồng cao nhất, để từ đó đánh giá mức độ tương đồng giữa
hai chuỗi.
Quá trình gióng chuỗi được thực hiện bởi việc gióng chuỗi từng cặp trong 2
chuỗi. Khi đó điểm cho gióng chuỗi từng cặp ký tự phụ thuộc vào hai ký tự là giống
nhau (matches), hai ký tự không giống nhau (mismatches) và điểm cho việc thêm/bớt
khoảng trống (gap penalty). Kết quả của gióng cặp cục bộ là tìm ra được những đoạn
trong 2 chuỗi có độ tương đồng cao nhất.
Bài toán:Giả sử có hai chuỗi S1 và S2. Để việc sắp trình tự cặp chuỗi S1, S2 có
kết quả tương đồng cao nhất, một ma trận hai chiều F được tạo ra. Mỗi vị trí trong ma

25
trận được kí hiệu là Fij. Điểm đánh giá cho việc sắp trình tự được đặc trưng bằng ma
trận thay thế S, trong đó:
S(i,j) là điểm tương đồng giữa hai kí tự i và j.
d là một điểm phạt tuyến tính cho các gap (gap penalty).
Trục hoành là các kí tự của chuỗi S1 (có chiều dài n).
Trục tung là các kí tự của chuỗi S2 (có chiều dài m).
THUẬT TOÁN
Input:
+ 2 chuỗi S1, S2 với chiều dài tương ứng là n, m
+ Ma trận thay thế S
+ Điểm phạt tuyến tính (Gap penalty) d
Output:
2 chuỗi tương đồng S1‟,S2‟
Bước 1: Khởi tạo
+ F(0,0) =0
+ F(i,0) =0 0≤ i ≤ m
+ F(0,j) =0 0≤ j ≤ n
Bước 2: Điền giá trị vào ma trận
+ Tính F(i,j) theo công thức:
0
F(i-1,j-1) + S(i,j)
F(i,j) = Max F(i-1,j)+d
F(i,j-1)+d
{
{

26
{
Bước 3: Tìm ô (i_max,j_max) có điểm cao nhất.
(0≤ i ≤ m,0≤ j ≤ n)
Bước 4: Traceback
Truy vết: Xuất phát từ ô (i_max, j_max), đến khi gặp F(i, j) = 0 thì dừng
theo quy tắc sau:
F(i-1,j-1) + S(i,j) thì vết (i, j) -> (i-1, j-1) đi theo đường chéo
F(i-1,j)+d thì vết (i, j) - > (i-1, j) đi lui
Nếu F(i,j) = F(i,j-1)+d thì vết (i, j) -> (i, j-1) đi lên
Tạo chuỗi S1’, S2’: Song song với quá trình lưu vết, chuỗi kết quả S1‟, S2‟
được tạo theo quy tắc sau:
Vết (i, j) -> (i-1, j-1): Thêm S1(i) vào S1‟ và thêm S2(j) vào S1‟
Vết (i, j) -> (i-1, j): Thêm „-“ vào S1‟ và thêm S2(j) vào S2‟
Nếu Vết (i, j) -> (I, j-1): Thêm S1(i) vào S1‟ và thêm „-„ vào S2‟
Chuỗi S1‟, S2‟ nhận được là 2 chuỗi tương đồng cần tìm.
{

27
Ví dụ minh họa.
S1 = “GTCAGAATCGT”
S2 =”GTACAGTAGT”
Bước 1: Khởi tạo.
G T C A G A A T C G T
0 0 0 0 0 0 0 0 0 0 0 0
G 0
T 0
A 0
C 0
A 0
G 0
T 0
A 0
G 0
T 0

28
Bước 2: Điền giá trị vào ma trận theo công thức
F(i,j)=Max(0, F(i-1,j-1) + S(i,j), F(i-1,j)+d, F(i,j-1)+d)
Cho Match = 2 , Mismatch= -1, d= -1
0 0 0 0 0 0 0 0 0 0 0 0
G 0 2 1 0 0 2 1 0 0 0 2 1
T 0 1 4 3 2 1 1 0 2 1 1 4
A 0 0 3 3 5 4 3 3 2 1 0 3
C 0 0 2 5 4 4 3 2 2 4 3 2
A 0 0 1 4 7 6 6 5 4 3 3 2
G 0 2 1 3 6 9 8 7 6 5 5 4
T 0 1 4 3 5 8 8 7 9 8 7 7
A 0 0 3 3 5 7 10 10 9 8 7 6
G 0 2 2 2 4 7 9 9 9 8 10 9
T 0 1 4 3 3 6 8 8 11 10 9 12

29
Bước 3: Tìm ô (i_max,j_max) có điểm cao nhất
0 0 0 0 0 0 0 0 0 0 0 0
G 0 2 1 0 0 2 1 0 0 0 2 1
T 0 1 4 3 2 1 1 0 2 1 1 4
A 0 0 3 3 5 4 3 3 2 1 0 3
C 0 0 2 5 4 4 3 2 2 4 3 2
A 0 0 1 4 7 6 6 5 4 3 3 2
G 0 2 1 3 6 9 8 7 6 5 5 4
T 0 1 4 3 5 8 8 7 9 8 7 7
A 0 0 3 3 5 7 10 10 9 8 7 6
G 0 2 2 2 4 7 9 9 9 8 10 9
T 0 1 4 3 3 6 8 8 11 10 9 12

30
Bước 4: Traceback
0 0 0 0 0 0 0 0 0 0 0 0
G 0 2 1 0 0 2 1 0 0 0 2 1
T 0 1 4 3 2 1 1 0 2 1 1 4
A 0 0 3 3 5 4 3 3 2 1 0 3
C 0 0 2 5 4 4 3 2 2 4 3 2
A 0 0 1 4 7 6 6 5 4 3 3 2
G 0 2 1 3 6 9 8 7 6 5 5 4
T 0 1 4 3 5 8 8 7 9 8 7 7
A 0 0 3 3 5 7 10 10 9 8 7 6
G 0 2 2 2 4 7 9 9 9 8 10 9
T 0 1 4 3 3 6 8 8 11 10 9 12
Quá trình truy vết ta nhận được:
S1’ = “G T – C A G A A T C G T”
S2’ = “G T A C A G - - T A G T”
- Ưu điểm: giảm không gian tìm kiếm của lời giải, tốc độ tìm kiếm nhanh.
- Nhược điểm: do phương pháp tìm kiếm cục bộ chỉ đảm bảo tính đúng chứ
không đảm bảo tính đầy đủ (complete) và do việc lựa chọn các bước đi để thoát

31
khỏi tình trạng tối ưu cục bộ là ngẫu nhiên nên có thể thuật toán sẽ không tìm ra
được lời giải tốt trong một số lần chạy (phụ thuộc vào việc ấn định các tham số
đầu vào).
2.3 Thuật toán Burrows – Wheeler Tranform (BWT )
Số lượng lớn các đoạn trình tự read được tạo ra bởi công nghệ đọc trình tự thế hệ
mới đã dẫn tới sự phát triển của hàng loạt các thuật toán nhằm giải quyết bài toán
gióng hàng trình tự một cách nhanh chóng, chính xác và ngày càng hiệu quả. Bài toán
Short Read Alignment – bài toán gióng hàng số lượng lớn các đoạn trình tự „ read „ vào
hệ gen tham chiếu được giải quyết bởi thuật toán cơ bản Smith – Waterman đã được
trình bày ở phần trước. Tuy nhiên, với thuật toán Smith – Waterman khi ứng dụng
gióng hàng trên số lượng lớn n read (lên tới hàng triệu read) với một hệ gen reference
thì số lượng bài toán phải giải là n bài toán. Vượt trội so với thuật toán Smith –
Waterman, năm 1994, hai nhà toán học Burrows M và Wheeler D giới thiệu thuật toán
Burrows-Wheeler Transform (BWT). BWT đã thành công trong việc giải quyết bài
toán Short Read Alignment với tốc độ nhanh và đòi hỏi yêu cầu dung lượng bộ nhớ
thấp. Khi áp dụng BWT, hệ gen tham chiếu sẽ được tính toán và tìm ra 1 chuỗi chuyển
đổi BWT. Việc gióng hàng số lượng lớn read trên hệ gen tham chiếu tương đương với
tính toán vị trí của read trên chuỗi chuyển đổi BWT đã có. Khi đó tốc độ, thời gian tìm
kiếm được giảm thiểu đáng kể và khối lượng read lên tới hàng triệu hay nhiều hơn nữa
cũng không ảnh hưởng đáng kể đến tốc độ tìm kiếm. Với thuật toán Smith –
Waterman, số lượng vị trí sai khác không được hạn chế, từ đó dẫn đến việc gióng hàng
có thể không chính xác, đưa ra số vị trí sai khác quá lớn trong kết quả gióng hàng. Tuy
nhiên thuật toán Burrows-Wheeler Transform đã đưa ra giải thuật cho phép giới hạn số
vị trí sai khác trong mỗi lần chạy, từ đó kết quả gióng hàng vị trí các read vào hệ gen
tham chiếu reference chính xác và hiệu quả hơn.

32
BWT có thể được phát biểu lại là bài toán tìm kiếm vị trí xuất hiện của xâu kí tự W
trong chuỗi tham chiếu X với tổng số vị trí sai khác (mismatch/ gap) không quá z vị trí.
Thuật toán BWT cho bài toán tìm kiếm xâu kí tự W trong chuỗi tham chiếu X được
phát biểu chung thành 2 giai đoạn :
Giai đoạn 1 : Xây dựng chuỗi chuyển đổi BWT dựa trên chuỗi tham chiếu X.
Giai đoạn 2 : Quá trình tìm kiếm xâu kí tự W trong X dựa vào chuỗi chuyển đổi
BWT.
Trong các phần tiếp theo trong mục giới thiệu thuật toán BWT, tác giả sẽ lần lượt
trình bày từng phần trong hai giai đoạn trên để giải bài toán. Giai đoạn 1 bao gồm nội
dung chuyển đổi BWT thuận (mã hóa X thành chuỗi chuyển đổi BWT) và chuyển đổi
BWT nghịch (giải mã chuỗi BWT thành chuỗi X ban đầu). Giai đoạn 2 bao gồm thuật
toán tìm kiếm chính xác (exact matching) và thuật toán tìm kiếm có giới hạn số vị trí
sai khác dựa vào chuỗi chuyển đổi BWT (Inexac matching).
2.3.1 Chuyển đổi Burrows-Wheeler thuâṇ
Input: Văn bản X gồm n kí tự X[1..n]. trên một bảng chữ cái Σ gồm |Σ| kí tự.
Output: Chuỗi chuyển đổi BWT
Chuyển đổi thuân về bản chất liên quan đến việc sắp xếp tất cả các phép quay
của xâu đầu vào , nhóm cá c ký tự xuất hiện trong các ngữ cảnh tương tự laị với nhau .
Từng bước xác định chuỗi chuyển đổi BWT được thực hiện như sau:
Bƣớc 1: Thêm kí tự “$” làm kí tự kết thúc của xâu
Bƣớc 2: Xâu cần mã hóa được dịch chuyển vòng tròn và tạo thành một ma
trận L*L (với L là độ dài xâu kí tự)
Bƣớc 3: Sắp xếp lại các dòng của ma trận theo thứ tự từ điển
Bƣớc 4: Trích xâu từ các kí từ cuối ở mỗi dòng, thông báo xâu này và cho biết
từ gốc là thứ tự thứ mấy trong ma trận nhận được ở bước 2.
Ví Dụ: Xâu đầu vào X = “ATGTAC”

33
xâu)
Bước 1: Thêm kí tự “$” vào làm kí tự kết thúc xâu. Ta được X‟ = “ATGTAC$”
Bước 2: Dịch chuyển vòng xâu X‟ để nhận được 1 ma trận L * L (L là độ dài
Hình 2.5 Ma trận chứ a tất cả các phép quay đầu vào của xâu ATGTAC

34
Bước 3: Sắp xếp lại các dòng của ma trận theo thứ tự từ điển
Hình 2.6 Chuỗi BWT Thu được bằng cách sắp xếp ma trận L * L theo thứ tự từ điển
Cột cuối của ma trận (kí hiệu L) là chuỗi chuyển đổi BWT cần tìm
BWT(“ATGTAC$”) = “CT$ATGA”
Bước 4: Trích xâu từ các kí từ cuối ở mỗi dòng, thông báo xâu này và cho biết
từ gốc là thứ tự thứ mấy trong ma trận nhận được ở bước 2.
Ta có kết quả („CT$ATGA‟,4). Xâu CT$ATGA chính là xâu để thực hiện tìm
kiếm trong các bước tiếp theo.
Tuy nhiên, thay vì sử dụng không gian O (n2) để lưu trữ ma trận L * L như đã
đươc đề xuất thì ta có thể tạo ra một mảng R[1. . . n] tham chiếu đến các xâu đã được
quay trongvăn bản đầu vào T.
Khởi tạo R[i]=i với i = (1, n) để biểu diễn danh sách chưa được sắp xếp . Sau đó
nó được sắp xếp bằng cách sử dụng xâu con bắt đầu tại T[R[i]] như là khóa so sánh.
Chuyển đổi Burrows Wheeler không làm cho chuỗi “ATGTGC$” ngắn đi,
nhưng lại làm xuất hiện các run (xâu gồm các ký tự giống nhau hoặc rất gần với sự

35
xuất hiện trước đó).
Ƣu điểm: Sự phân cụm này làm cho quá trình tìm kiếm trở nên tập trung theo
từng kí tự và trở nên dễ dàng hơn
Nhƣơc điểm: Do chuyển đổi Burrows Wheeler làm việc theo phương pháp từ ng
khối (block-wise), vì vậy nó không thể xử lý văn bản theo từng ký tự một , mà phải đọc
một khối (thường là hàng chuc KB ) và sau đó nén nó . Điều này không có môt giới
hạn với hầu hết các mục đích, nhưng không loaị trừ môt số ứng duṇ g phaỉ xử lý dữ liệu
xen chương trình chạy (on-the-fly) khi nó đến. Mục đích quan trọng khác là văn bản
phải được săp xếp.
Trong suốt luân văn này, ta giả thiết viêc sắp thứ tự duy nhất trên các ký tự hoăc
các biểu tượng trong văn bản để các xâu con có thể được so sánh bằng các thuậtto án
sắp xếp.
Ngoài ra một nhược điểm lớn của phương pháp trên là dung lượng bộ nhớ tốn
kém khi phải lưu trữ và sắp xếp ma trận xoay vòng L*L. Văn bản X càng có độ dài lớn
thì phương pháp trên càng không khả thi khi thực hiện trên thực tế. Do vậy phương
pháp trên đã được cải tiến như sau:
Phƣơng pháp cải tiến:
Bƣớc 1: Cho xâu ban đầu là X. Điền kí tự “$” vào cuối xâu X
Bƣớc 2: Xâu nhận được được hoán vị xoay vòng, đồng thời xóa các kí tự sau kí tự
“$” trong mỗi xâu mới nhận được.
Bƣớc 3: Thực hiện sắp xếp lại các chuỗi nhận được theo thứ tự chữ cái.
Bƣớc 4: Trích xâu từ các kí từ cuối ở mỗi dòng, Đánh dấu xâu này và cho biết từ
gốc là thứ tự thứ mấy trong ma trận nhận được ở bước 2. Đánh dấu này được ghi nhận
thành mảng SA[]
Bƣớc 5: Từ mảng SA[] nhận được từ bước 4, tính ra các kí tự của chuỗi BWT
chuyển đổi bằng công thức sau:

36
BWT = {
X[SA[i] – 1] nếu SA[i] > 0
“$” nếu SA[i] = 0
Ví dụ: X = “agcagcagact”
Bƣớc 1: Thêm kí tự “$” vào cuối xâu X, ta nhận được: X = “agcagcagact$
Bƣớc 2: Xâu nhận được được hoán vị xoay vòng, đồng thời xóa các kí tự sau kí tự “$”
trong mỗi xâu mới nhận được.
Hình 2.7 Xoay vòng cải tiến xâu X ban đầu

37
Bƣớc 3,4 : Sắp xếp lại các chuỗi nhận được theo thứ tự từ điển. Nhận được mảng SA[]
Hình 2.8 Tính toán giá trị mảng SA[]
Bƣớc 5: Tính giá trị chuỗi chuyển đổi BWT.

38
Hình 2.9 Tính chuỗi chuyển đổi BWT
Như vậy, phương pháp cải tiến để tính toán chuỗi chuyển đổi BWT tối ưu hơn
về mặt thời gian chạy cũng như không gian nhớ.
2.3.2 Chuyển đổi Burrows-Wheeler nghic ̣h
Input: Chuỗi chuyển đổi BWT của văn bản X
Output: Khôi phục lại văn bản X ban đầu
Chuyển đổi BWT nghịch là lấy văn bản đã được hoán vị BWT và khôi phục lại
văn bản đầu vào gốc X. Chuyển đổi nghic ̣h có phần khó để cài đặt hơn chuyển đổi
thuận , nhưng nó vẫn có thể được thực hiện trong thời gian và không gian O (n). Thông

39
thường hai mảng chỉsố O (n) sẽ cần thiết , cộng với hai mảng O (|Σ|) để đếm các ký tự
trong đầu vào. Có nhiều cách để thực hiện viêc giải mã.
Thuật toán chuyển đổi nghịch được thực hiện qua các bước đơn giản như sau:
Bước 1: Lấy các kí tự trong xâu cuối cùng , sắp xếp lại theo thứ tự từ điển
Bước 2: (Lặp)
- Lấy các kí tự ở xâu cuối cùng, thêm vào các xâu đã có.
- Sắp xếp lại theo thứ tự từ điển
Ví dụ: Ta cần giải mã xâu („CT$ATGA’)

40

41
Def inverseBWT(s):
B = [s1, s2, s3, …., sn]
For I = 1 …n:
Sort B
Prepend si to B[i]
Return row of B that ends with $
Hình 2.10 Minh họa việc giải mã BWT xâu „CT$ATGA‟
Thuật toán kết thúc khi xâu nhận được có đủ độ dài L và xâu văn bản đầu vào là
văn bản nhận được cuối cùng khi có kí tự kết thúc “$”. Theo ví dụ trên, văn bản đầu
vào tìm được là xâu “ATGTAC$” ở vị trí thứ 2.
Mã giả của phương pháp giải mã:
2.3.3 Tìm kiếm chính xác (Exact matching)

42
Input: Xâu kí tự W, văn bản X
Output: vị trí xuất hiện của xâu W trong văn bản X
Phân tích ví dụ sau: Tìm kiếm những vị trí xuất hiện của chuỗi kí tự W = “gca”
trong chuỗi X = “agcagcagact”
B1: Lấy chuỗi kí tự BWT theo phương pháp đã hướng dẫn ở phần trên:
Ví dụ:
+ Chuỗi gốc ban đầu: X = “agcagcagact”
+ Thêm kí tự đặc biêt “$” vào làm kí tự kết thúc của chuỗi X: X =
“agcagcagact$”
+ Lấy các chuỗi xoay vòng của X, sắp xếp các chuỗi theo thứ tự từ điển
+ Lấy giá trị kí tự của cột cuối cùng là chuỗi BWT thu được
Hình 2.11 Mô tả quá trình tạo chuỗi BWT
Ta có: BWT(“agcagcagact$”)= “tgcc$ggaaaac”

43
B2: Tìm kiếm chuỗi W=“gca” trong chuỗi ban đầu X = “agcagcagact$”
Đánh giá: Dựa vào ma trận xoay vòng L * L ta thấy : tất cả các lần xuất hiện
của 1 chuỗi con trong ma trận xoay vòng L*L đều xuất hiện bên cạnh nhau (vì ma trận
L*L nhận được là ma trận đã được sắp xếp theo thứ tự từ điển).
Ví dụ: Kí tự “a” xuất hiện trong khoảng hàng [1,4] của ma trận L*L, tương ứng
với SA[1,4] = {9,7,4,1}. Điều đó có ý nghĩa, kí tự “a” xuất hiện trong chuỗi ban đầu X
tại các vị trí 9, 7, 4, 1
cách :
Hình 2.12 Vị trí xuất hiện của kí tự “a” trong chuỗi X =”agcagcagact
Do đó, để tìm vị trí của chuỗi W trong chuỗi X ban đầu, ta xác định 1 khoảng
SA =[ 𝑹(𝑾), 𝑹(𝑾)]
Với W=”gca” ta nhận thấy khoảng cách SA được xác định là : SA = [9,10]
tương ứng với giá trị {5, 2} trong mảng hậu tố SA. Do đó W=”gca” được xuất hiện
trong chuỗi ban đầu X = “agcagcagact $” 2 lần tại vị trí 5 và vị trí 2 như mô tả dưới:

44
𝑹(𝑎𝑾) = 𝑪(𝑎) + 𝑶(𝑎, 𝑹(𝑾) − 𝟏) + 𝟏
𝑹(𝑎𝑾) = 𝑪(𝑎) + 𝑶 (𝑎, 𝑹(𝑾))
Hình 2.13 Giá trị SA = [9,10] của chuỗi W=“gca”
Công thức tổng quát tính khoảng cách SA[] cho chuỗi W như sau:
đầu)
Hình 2.14 Công thức tính khoảng cách SA
Nếu W là chuỗi rỗng: R(W) = 1 và R(W) = n − 1 ( n là độ dài của chuỗi ban
C(α): là mảng đánh dấu số lần xuất hiện của những kí tự nhỏ hơn kí tự α trong
bảng chữ cái tại chuỗi X[0,n-2] (Không tính kí tự $)
O(α,i): số lần xuất hiện của kí tự a trong chuỗi BWT[0,i]
Áp dụng vào ví dụ trên với X = “agcagcagact$”, W = “gca”, ta có các bảng giá
trị:

45
a c g T
C 0 4 7 10
Bảng 2.1 Bảng C(α): số lần xuất hiện của những kí tự nhỏ hơn kí tự α trong X

46
WT O(α,i): số lần xuất hiện của kí tự α trong chuỗi WT[0,i]
Bảng 2.2 Bảng O(α,i): số lần xuất hiện của kí tự α trong chuỗi BWT[0,i]
a c g t
0 0 0 1
0 0 1 1
0 1 1 1
0 2 1 1
0 2 1 1
0 2 2 1
0 2 3 1
1 2 3 1
2 2 3 1
3 2 3 1
4 2 3 1
4 3 3 1
t
g
c
c
$
g
g
a
a
a
a
c

47
Tính toán SA với W=”gca”, X=”agcagcagact$” từng bước như sau:
B1: W’ = “a”
Có 𝑅("") = 1 và 𝑅("") = 𝑛 − 1 = 11
C(a) = 0 ta có:
𝑅("𝑎") = 𝐶("𝑎") + 𝑂("𝑎", 𝑅("") − 1) + 1 = 0 + 𝑂("𝑎", 0) + 1 = 0 + 0 + 1
= 1
𝑅("𝑎") = 𝐶(a) + 𝑂 (a, 𝑅("")) = 0 + 𝑂(a, 11) = 0 + 4 = 4
 SA(“a”) = [1,4]
(SA[1,4] = {9,7,4,1} => Cho thấy kí tự “a” xuất hiện tại các vị trí 9,7,4,1 của
chuỗi X )
B2: W’ = “ca” = “cW’”
𝑅("𝑐𝑎") = 𝐶("𝑐") + 𝑂("𝑐", 𝑅("𝑎") − 1) + 1 = 4 + 𝑂(c, 1 − 1) + 1
= 4 + 0 + 1 = 5
𝑅("𝑐𝑎") = 𝐶(c) + 𝑂 (c, 𝑅(𝑎)) = 4 + 𝑂(c, 4)
 SA(“ca”) = [5,6]
 (SA[5,6] = {6,3} => Cho thấy kí tự “ca” xuất hiện tại các vị trí 6, 3 của chuỗi
X)
B3: W=”gca” = “gW’”
𝑅("𝑔𝑐𝑎") = 𝐶("𝑔") + 𝑂("𝑔", 𝑅("𝑐𝑎") − 1) + 1 = 7 + 𝑂(g, 5 − 1) + 1
= 7 + 𝑂("g", 4) + 1 = 7 + 1 + 1 = 9
𝑅("𝑔𝑐𝑎") = 𝐶("g") + 𝑂 ("g", 𝑅("𝑐𝑎"))

48
= 7 + 𝑂(g, 6) = 7 + 3 = 10
 SA(“gca”) = [9,10]
 SA[9,10] = {5,2}
 Cho thấy chuỗi kí tự W = “gca” xuất hiện tại vị trí 5 và 2 trong chuỗi X =
“agcagcagact$”.
Kết thúc quá trình tìm kiếm:
Hình 2.15 Kết quả của quá trình tìm kiếm W=”gca”

49
Backward_Search( P[1, p] )
{
i = p, c = P [ p], First = C [ c]+1, Last = C [ c+1];
while ( ( First ≦ Last) and i ≧ 2 )
{
c = P [ i-1];
First = C[ c] + Occ( c, First-1)+1;
Last = C[ c] + Occ( c, Last); i = i-1;
}
if ( Last < First )
then return “no occurrence” ;
else
return ( First, Last );
}
+ Mã giả của quá trình tìm kiếm chính xác
2.3.4 Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching)
Input: chuỗi gốc ban đầu X
Chuỗi tìm kiếm W
Số lượng sai khác cho phép: z
Output: Những vị trí xuất hiện của W trong chuỗi ban đầu X mà có sai khác không
quá z kí tự.

50
Ví dụ: X = “TTAACGTTTATTACGTTTAAGTTTAACCTT”
W= “AACG”
Số lượng sai khác cho phép: z = 2
Ý tƣởng thuật toán: Thực hiện tìm kiếm chính xác theo kỹ thuật đã được giới thiệu ở
trên từ phải sang trái của chuỗi W xuất hiện trong chuỗi ban đầu X. Khởi tạo 1 ngân
sách z. Nếu Quá trình tìm kiếm phát hiện 1 điểm sai khác, ngân sách sẽ được giảm đi 1.
Dừng lại khi ngân sách trở về 0 hoặc đã tìm thấy đủ chuỗi W trong X.
Các trường hợp sai khác có thể xảy ra tại 1 kí tự:
+ W được tìm thấy trong X nhưng thừa 1 kí tự (insertion)
+ W được tìm thấy trong X nhưng thiếu 1 kí tự (deletion)
+ W được tìm thấy chính xác trong X (match)
+ W được tìm thấy trong X nhưng bị thay đổi 1 kí tự (mismatch)
Để giảm không gian tìm kiếm, Inexact matching sử dụng mảng D[] trong đó D (i)
là giới hạn dưới của các số sai khác trong W [0… i]

51
CALCULATED(W)
z  0
j  0
for i = 0 to |W| - 1 do
if W[j…i] is not a substring of X then
z  z + 1
j  I + 1
D(i)  z
InexactSearch(W; z)
{
CalculateD(W)
return InexRecur(W; |W| - 1, z, |X| - 1)
}
D[i] được tính toán như sau:
Ví dụ với chuỗi ban đầu: X = “gaagax” và W=”xag” ta sẽ tính toán được với vòng lặp
từ 0 đến 2 ta có: D(0) = 0, D(1) = 1, D(2) = 1
Tổng quan thuật toán tìm kiếm Inexact matching được định nghĩa như sau:
Trong đó InexRecur(W; i ; z; k; l) trả lại giá trị là khoảng cách SA của chuỗi W
trong chuỗi X với số sai khác không quá z sai khác.
W: chuỗi tìm kiếm
i: vị trí đang tìm kiếm W[i]
z: số lượng sai khác cho phép
k, l : khoảng cách SA tìm kiếm
InexRecur() được tính toán đệ quy như sau:

52
𝑹(𝑎𝑾) = 𝑪(𝑎) + 𝑶(𝑎, 𝑹(𝑾) − 𝟏) + 𝟏
𝑹(𝑎𝑾) = 𝑪(𝑎) + 𝑶 (𝑎, 𝑹(𝑾))
+ Nếu z nhỏ hơn giới hạn dưới của vị trí đang xét thì chương trình dừng. Hàm trả
về giá trị null
+ Nếu i < 0, trả về khoảng cách SA cần tìm
+ Khởi tạo I là tập hợp chứa các khoảng cách SA tìm kiếm được.
+ Mỗi kí tự b đang xét b € ∑ = {A, C, G, T}, khoảng cách SA được tính theo công
thức như đã định nghĩa trong tìm kiếm chính xác:

53
k = C(b) + O(b, k – 1) + 1
l = C(b) + O(b,l) + 1
Cụ thể ta có:
+ Khi tìm thấy trong X chèn thêm 1 kí tự của W (insertion), chuyển sang xét kí tự
tiếp theo, ngân sách z giảm đi 1 đơn vị
I = I U InexRecur(W, (i-1), (z-1), k, l)
+ Khi tìm thấy trong X mất 1 kí tự của W (deletion), vẫn đứng ở kí tự đang xét,
ngân sách z giảm đi 1 đơn vị
I = I U InexRecur(W, i, (z-1), k, l)
+ Khi tìm thấy trong X chính xác W (match), chuyển sang xét kí tự tiếp theo, ngân
sách không thay đổi
I = I U InexRecur(W, (i-1), z, k, l)
+ Khi tìm thấy trong X nhưng sai khác 1 kí tự của W (mismatch), chuyển sang xét
tiếp kí tự tiếp theo, ngân sách giảm đi 1 đơn vị.
I = I U InexRecur(W, (i-1), (z-1), k, l)
2.4 Kết luận
Trong chương này tác giả đã trình bày ý tưởng và thuật toán BWT áp dụng trong
việc tìm kiếm trên hệ gen tham chiếu trong bài toán gióng hàng trình tự. Đối với thuật
toán Smith – Waterman khi ứng dụng gióng hàng trên số lượng lớn n read (lên tới hàng
triệu read) với một hệ gen reference thì số lượng bài toán phải giải là n bài toán. Tuy
nhiên khi áp dụng BWT, hệ gen tham chiếu sẽ được tính toán và tìm ra 1 chuỗi chuyển
đổi BWT. Việc gióng hàng số lượng lớn read trên hệ gen tham chiếu tương đương với
tính toán vị trí của read trên chuỗi chuyển đổi BWT đã có. Khi đó tốc độ, thời gian tìm
kiếm được giảm thiểu đáng kể. Với thuật toán Smith – Waterman, số lượng vị trí sai
khác không được hạn chế, từ đó dẫn đến việc gióng hàng có thể không chính xác, đưa

54
ra số vị trí sai khác quá lớn trong kết quả gióng hàng. Tuy nhiên thuật toán Burrows-
Wheeler Transform đã đưa ra giải thuật cho phép giới hạn số vị trí sai khác trong mỗi
lần chạy, từ đó kết quả gióng hàng vị trí các read vào hệ gen tham chiếu reference
chính xác và hiệu quả hơn.

55
CHƢƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ
LIỆU SINH HỌC
Tại chương hai của luận văn, tác giả đã trình bày về cơ sở lý thuyết và thuật
toán BWT. Để hiểu sâu hơn về mặt ứng dụng của thuật toán, tác giả sẽ giới thiệu
chương ba với các kết luận cụ thể về mặt thực nghiệm của thuật toán trên dữ liệu sinh
học.
3.1 Quy trình thực nghiệm
Mô phỏng phần thực nghiệm bao gồm các bước sau:
Bƣớc 1: Lựa chọn hệ gen tham chiếu
Bƣớc 2: Giả lập dữ liệu và lựa chọn dữ liệu thực nghiệm
Bƣớc 3: Sử dụng công cụ đã xây dựng – BWTAligner để gióng hàng trình tự trên
dữ liệu giả lập và dữ liệu thực nghiệm
Bƣớc 4: Sử dụng công cụ thông dụng BWA để gióng hàng trình tự trên dữ liệu
giả lập và dữ liệu thực nghiệm
Bƣớc 5: Đánh giá kết quả SNP chạy trên dữ liệu giả lập của 2 phần mềm
BWTAligner và BWA
Bƣớc 6: Đánh giá kết quả SNP chạy trên dữ liệu thực nghiệm của 2 phần mềm
BWTAligner và BWA

56
Hình 3.1 Mô phỏng nhiệm vụ thực nghiệm trong chương 3
Các báo cáo chi tiết của phần thực nghiệm sẽ được trình bày tại các mục tiếp theo
của chương 3.
3.2 Cài đặt ứng dụng
Input : Hệ gen tham chiếu (reference genome)
Hệ gen dữ liệu (reads) – là dữ liệu giả lập và dữ liệu thực nghiệm sẽ được mô
tả chi tiết trong mục chuẩn bị dữ liệu 3.2
Output : Đưa ra kết quả tìm kiếm Inexact matching của các đoạn dữ liệu reads
trên hệ gen tham chiếu (reference genome)
 Đánh giá kết quả thực nghiệm : Dựa trên các điểm sai khác trong kết quả tìm
kiếm

57
Hình 3.2 Ví dụ mô phỏng mục tiêu của ứng dụng
Cùng với sự cộng tác của các thành viên trong phòng Tin – Sinh học, Viện Công
nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Viêt Nam, chúng tôi đã xây
dựng thành công công cụ gióng hàng trình tự BWTAligner sử dụng thuật toán BWT đã
được giới thiệu chi tiết tại chương 2.
Công cụ BWTAligner được cài đặt trên máy chủ (server) của phòng Tin - Sinh
học, Viện Công nghệ sinh học (IBT), Viện Hàn lâm Khoa học và Công nghệ Viêt Nam
(VAST). Các trình biên dịch như perl, C++, thư viện và công cụ cần thiết cũng được
cài đặt trên máy chủ. Thông tin về máy chủ được mô tả chi tiết ở bảng sau :

58
Hệ điều hành Ubuntu 14.10
HDD 6 TB
SSD 120 GB
CPU X5650 @ 2.67 GHz; 24
processors
RAM 198 GB
Bảng 3.1 Thông tin về máy chủ được sử dụng để cài đặt thử nghiệm
3.3 Chuẩn bị dữ liệu
a. Hệ gen tham chiếu
Để tìm kiếm các biến dị trên hệ gen, quá trình thực nghiệm sử dụng phần mềm
đã được nhóm xây dựng là BWTAligner và phần mềm BWA (Burrows -Wheeler
Aligner) để gióng hàng trình tự. Hệ tham chiếu – định nghĩa tại mục 1.3.3 - được
chọn là hệ gen lúa Nipponbare, bản 7.0 từ Dự án chú giải hệ gen lúa (kích thước hệ
gen tham chiếu là 373,245,519 bp).
Hệ gẹ Nipponbare được lựa chọn là hệ gen được nghiên cứu bởi các nhà khoa
học Nhật Bản. Có nhiều bài báo được công bố, cũng như nhiều nghiên cứu khoa
học khác trên thế giới cũng đã lựa chọn và sử dụng hệ gen Nipponbare làm hệ gen
tham chiếu. Hệ gen Nipponbare là hệ gen duy nhất được chú giải hoàn toàn chức
năng hệ gen tính đến đầu năm 2014. Do vậy hệ gen Nipponbare là hệ gen tham
chiếu phù hợp được lựa chọn để tiến hành thực nghiệm.

59
b. Dữ liệu giả lập
Dữ liệu giả lập là dữ liệu được trích chọn một phần từ hệ gen tham chiếu. Dữ
liệu giả lập sẽ được thay đổi sai ngẫu nhiên một số vị trí Nucleotid rồi đưa vào chạy
gióng hàng trình tự bởi hai công cụ BWTAligner và BWT. Kết quả thu được sau khi
gióng hàng trình tự sẽ được đem kiểm chứng với giả thiết trước đó và đưa ra đánh giá
hiệu quả của phần mềm.
Dữ liệu giả lập lựa chọn nhiễm sắc thể số 9 của hệ gen tham chiều (kích thước
23,012,720 bp). Dữ liệu đã được thay đổi ngẫu nhiên 0.085% SNP. Để đánh giá phần
mềm gióng hàng, dữ liệu được giả lập các độ sâu (depth coverage) khác nhau là 5X,
10X và 30X với chất lượng trình tự tốt .
Các thông số giả lập dữ liệu được thể hiện qua bảng dưới đây :
Thông số Giá trị
Tỷ lệ lỗi base 0.020
Tỷ lệ đột biến 0.085%
Kích thước đoạn trình tự 100 bp
Định dạng giải trình tự Paired-end
(Giải trình tự 2 chiều)
Bảng 3.2 Thông tin chi tiết về dữ liệu mô phỏng thu được.
Nói cách khác, dữ liệu giả lập được trích chọn từ dữ liệu tham chiếu sau đó
được thay đổi 0.085% vị trí nucleotide trên hệ gen. Dữ liệu giả lập sẽ được đưa vào
làm đầu vào gióng hàng trình tự bởi 2 công cụ : BWTAligner và BWA và tham số
mismatch lựa chọn là z = 2% độ dài của dữ liệu. Kết quả biến dị/ đa hình thu được

60
sẽ đưa ra so sánh với kết quả thực trước khi giả lập để đưa ra đánh giá độ chính xác
của 2 công cụ đã sử dụng.
c. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được lựa chọn là giống lúa Chiêm nhỡ Bắc Ninh được cung
cấp bởi Viện Di truyền Nông nghiệp, Viện Khoa học Nông nghiệp Việt Nam. Tham số
mismatch được lựa chọn trong quá trình gióng hàng là z = 2% độ dài của read. Với dữ
liệu thật của hệ gen giống lúa Chiêm nhỡ Bắc Ninh, các đoạn trình tự sau khi giải trình
tự cần phải đánh giá chất lượng theo quy trình đã nêu ở mục 1.2.1 trước khi gióng hàng
trình tự, nếu tồn tại các đoạn trình tự chất lượng thấp thì cần được loại bỏ. Như vậy, kết
quả gióng hàng trình tự sẽ không bị ảnh hưởng bởi những trình tự có chất lượng không
tốt. Với tổng số đoạn trình tự 100bp là 129,251,948 và độ sâu 30X, trình tự đều có chất
lượng tốt với các vị trí nucleotit trong trình tự đều có điểm Phred ở ngưỡng cao (vùng
màu xanh) thay vì các vùng chất lượng trung bình (màu da cam) và chất lượng kém
(vùng màu đỏ). Biểu đồ sau thể hiện đánh giá chất lượng dữ liệu :

61
A
B
Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A. file fastq 1, B. file fastq 2)

62
3.4 Kết quả và đánh giá
a. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu giả lập
Dữ liệu giả lập có số lượng đoạn trình tự ngắn (read) tương ứng với độ sâu 5X là
575,318 ; 10X là 1,150,636 ; và 30X là 3,451,908 trình tự đọc 2 chiều (paired-end). Từ
bảng kết quả 3.3, nghiên cứu nhận thấy số lượng trình tự gióng hàng của BWA nhiều
hơn so với BWT aligner ở cả 3 độ sâu, tuy nhiên, điểm chất lượng trình tự của
BWTAligner cao hơn BWA. Khi mô phỏng dữ liệu giả lập, nghiên cứu đã tạo 19,560
SNP. Với việc gióng hàng bằng 2 phần mềm khác nhau cho ra định dạng file SAM,
nghiên cứu kết hợp với 2 phần mềm khác là SAMtools và VarScan để tìm gọi các SNP.
Kết quả cho thấy, độ sâu trình tự ảnh hưởng đến việc tìm SNP mặc dù số phần trăm
trình tự gióng hàng giữa 2 phần mềm là tương đương nhau, cụ thể càng tăng độ sâu, số
SNP dương tính thật (TP : true-positive) càng gần với số lượng SNP nghiên cứu giả
lập. So sánh giữa BWA và BWTAligner, số lượng SNP dương tính thật khi gióng hàng
bằng BWA luôn cao hơn, trong khi thấp hơn BWTAligner về số lượng dương tính giả
(FP : false-positive) và âm tính giả (FN : false-negative).
BWA BWTAligner
5X 10X 30X 5X 10X 30X
Số lƣợng
trình tự
gióng hàng
1,145,700 2,291,628 6,875,059 1,143,567 2,287,918 6,862,792
Phần trăm số
lƣợng trình
tự gióng hàng
(%)
99.57 99.58 99.58 99.38 99.41 99.41
Bảng 3.3 Kết quả tìm kiếm SNP với BWA và BWTAligner với các độ sâu trình tự
khác nhau.

63
BWA BWTAligner
Số lượng SNP
5X
TP 1,182 6.01% 891 4.55%
FP 3 0.02% 9 0.05%
FN 18,468 93.97% 18,669 95.40%
Số lượng SNP
10X
TP 9,439 47.98% 8,223 41.92%
FP 21 0.11% 58 0.30%
FN 10,211 51.91% 11,337 57.79%
Số lượng SNP
30X
TP 19,155 96.56% 18,951 96.10%
FP 187 0.94% 161 0.82%
FN 495 2.50% 609 3.09%
Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả
Ngoài ra, để đánh giá việc gọi SNP với hai phần mềm gióng hàng BWA và
BWTAligner, nghiên cứu sử dụng phép đo độ chính xác (precision), độ bao phủ (hay
còn gọi là độ nhạy, recall) và F-score. Độ chính xác được định nghĩa là TP/(TP+FP),
độ bao phủ bằng TP/(TP+FN), và F-score bằng 2*độ chính xác*độ bao phủ/(độ chính
xác+độ bao phủ). Độ nhạy được hiểu là số lượng dương tính thật trong số lượng các
trường hợp dương tính dữ liệu ban đầu, còn độ chính xác là số lượng các dương tính
thật trong số lượng dương tính trong dữ liệu thống kê được sau khi chạy gióng hàng và
các phần mềm gọi SNP. Từ bảng 3.4, nghiên cứu cho thấy ở độ sâu thấp (5X và 10X),
độ chính xác của BWA cao hơn, tuy nhiên với độ sâu 30X, độ chính xác của
BWTAligner cao hơn (99.16% so với 99.03% của BWA). Độ nhạy của BWA luôn cao
hơn BWTAligner ở các độ sâu khác nhau. F-score là một tỷ lệ trung bình điều hòa
(harmonic mean) của độ chính xác và độ nhạy. Với cả 2 phần mềm BWA và

64
BWTAligner, F-score tăng khi độ sâu tăng, và đạt đến hơn 98% với độ sâu 30X. F-
score của BWA cao hơn BWTAligner với 98.25% so với 98.01%.
BWA BWTAligner
5X 10X 30X 5X 10X 30X
Độ chính xác 0.9974 0.9978 0.9903 0.9900 0.9930 0.9916
Độ nhạy 0.0601 0.4804 0.9748 0.0456 0.4204 0.9689
F-score 0.1134 0.6485 0.9825 0.0871 0.5907 0.9801
Bảng 3.5 So sánh độ đúng giữa BWA và BWTAligner gọi SNP
b. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu hệ gen lúa Việt Nam
Do nghiên cứu với dữ liệu giả lập, độ sâu 30X đủ tốt và đủ độ tin cậy cao, nên
dữ liệu hệ gen lúa được lựa chọn giải trình tự với độ sâu 30X bởi công ty Illumina. kết
quả gióng hàng trình tự của hệ gen với trình tự tham chiếu của BWA là 96.33% so với
BWTAligner là 87,17%. Nghiên cứu cũng kết hợp sử dụng các công cụ hỗ trợ :
SAMtools và VarScan để tìm số lượng SNP. Kết quả cho thấy, số lượng SNP khi chạy
với BWA cao hơn 7.65% số lượng SNP khi chạy với BWTAligner (Hình 3.3, Bảng
3.6). Tuy nhiên để đánh giá được sự thành công và chính xác của công cụ thì cần có
thêm nhiều thử nghiệm trên công cụ đã xây dựng trên các bộ dữ liệu khác nhau. Đòi
hỏi những nghiên cứu tiếp theo chuyên sâu hơn để củng cố cho các kết quả đạt được.
Dưới đây là một số thống kê chi tiết trong kết quả thu được :

65
Hình 3.4 Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng hàng trình
tự BWA và BWTAligner
BWTAligner BWA
Nhiễm sắc thể 1
233,111 245,277
204,691 215,775
200,651 206,575
149,505 168,166
147,436 157,540
177,397 191,447
156,409 171,765
151,679 166,634

66
133,830 144,964
142,862 156,476
167,507 186,928
142,749 162,764
Tổng số
2,007,827 2,174,311
Bảng 3.6 Bảng thống kê số lượng trên từng SNP với 2 phần mềm
Tốc độ và tỷ lệ gióng hàng được thể hiện ở hình ảnh sau:
Hình 3.5 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWA

67
Hình 3.6 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWTAligner
3.5 Đánh giá kết quả của luận văn
Việt Nam là một đất nước có nền nông nghiệp phát triển mạnh hàng đầu Châu Á.
Đặc biệt, đây chính là một trong những trung tâm phát sinh và đa dạng di truyền nguồn
gen cây lúa. Với sự đa dạng về khí hậu vùng miền, hiện nay đất nước ta có nhiều tập
đoàn giống lúa địa phương phong phú, đa đạng và rất nhiều nguồn giống lúa có các đặc
tính nông sinh học quí (như: chịu hạn, chịu mặn, kháng rầy nâu, đạo ôn, khô vằn, bạc
lá, v.v) nhưng chưa được khai thác và sử dụng một cách có hiệu quả. Để khai thác và
sử dụng có hiệu quả các nguồn gen lúa bản địa trong các chương trình chọn và lai tạo
giống, đòi hỏi chúng ta không những cần có những hiểu biết đầy đủ về công nghệ sinh

68
học mà bên cạnh đó còn cần sự hiểu biết sâu rộng về nền tảng công nghệ nhằm ứng
dụng hiệu quả công nghệ thông tin vào lĩnh vực sinh học nước nhà.
Trước những thách thức ngày càng lớn cho nghành nông nghiệp Việt Nam trong
thời đại hội nhập và phát triển kinh tế trên thị trường quốc tế, việc nghiên cứu giải mã
hệ gen cây lúa được đặc biệt coi trọng. Dưới góc độ nghiên cứu về lĩnh vực Tin sinh
học và trên khuôn khổ đề tài luận văn của mình, em đã hiểu được nhu cầu giải mã hệ
gen lúa bản địa tại Việt Nam là cần thiết.
Song song với đề tài giải mã hệ gen 36 giống lúa tại Việt Nam của phòng Tin Sinh,
thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam, bản thân em đã
cùng nhóm xây dựng công cụ gióng hàng trình tự BWTAigner và đưa ra đánh giá về
kết quả thu được so với công cụ gióng hàng phổ biến hiện nay (BWA). Có thể thấy
công cụ xây dựng BWTAligner có kết quả thu được đạt hiệu quả chưa bằng công cụ
gióng hàng phổ biến BWA. Tuy nhiên với những gì bản thân đã tìm hiểu và đóng góp
thì hiệu quả đạt được của công cụ BWTAlinger gần đã đạt được hiệu quả mong muốn.
Cần có những thử nghiệm trên nhiều bộ dữ liệu khác trong tương lai và với những góp
ý, nghiên cứu tiếp tục của các nhà Tin – Sinh học giúp công cụ BWTAligner có thể trở
nên hoàn thiện hơn nữa.

69
KẾT LUẬN
Trong luận văn này,tôi đã nghiên cứu một số thuật toán liên quan đến gióng
hàng trình tự như thuật toán ma trận điểm và thuật toán Smith Waterman, tập trung
trọng tâm vào thuật toán Burrow – Wheeler Tranform. Luận văn đã nêu bật được ưu
nhược điểm của từng thuật toán, BWT cho thấy sự tối ưu khi ứng dụng với dữ liệu
lớn. Điều này có ý nghĩa quan trọng trong các bài toán về sinh học. Bởi vì với sự phát
triển mạnh mẽ của công nghệ giải trình tự sẽ cho ra đời một số lượng lớn đoạn trình
tự. Do đó, so sánh và gióng hàng lượn lớn trình tự này trên hệ gen tham chiếu với tốc
độ nhanh, chính xác là một vấn đề không hề nhỏ. Với ưu điểm có thể thực hiện được
với dữ liệu lớn nên có rất nhiều phần mềm dựa trên thuật toán BWT được phát triển để
gióng hàng trình tự vào dữ liệu tham chiếu từ đó tìm ra biến dị/ đa hình
Tôi đã tham gia xây dựng, cài đặt và thử nghiệm thành công công cụ gióng
hàng trình tự BWTAligner. Thực nghiệm công cụ trên dự liệu giả lập từ hệ gen lúa với
3 mức độ bao phủ khác nhau 5X, 15X và 30X và đặc biệt thực nghiệm trên giống lúa
Chiêm Nhỡ (Bắc Ninh) và đưa ra những đánh giá kết quả so với công cụ BWA đã
được triển khai trên thực tế.

70
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật,
Hà Nội..
Tiếng Anh
2. Burrows, M. and Wheeler, D.J. (1994), “A block-sorting lossless data
compression algorithm”, Technical report, 124.
3. Campagna, D. et al. (2009), “PASS: a program to align short sequences”,
Bioinformatics, 25, pp. 967–968.
4. Li, H. et al (2008), “Mapping short DNA sequencing reads and calling
variants using mapping quality scores”, Genome Res, 18, 1851–1858.
5. Li, H. et al (2009), “The sequence alignment/map format and SAMtools”,
Bioinformatics, 25(16), PP. 2078-2079.
6. Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read
Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp.
1754–1760.
7. Li, H., et al. (2009), "The sequence alignment/map format and SAMtools."
Bioinformatics, 25(16), PP. 2078-2079.
8. Alkan, C., et al. (2011), "Genome structural variation discovery and
genotyping", Nature Reviews Genetics, 12(5), pp. 363-376.
9. Chen, K., et al. (2009), "BreakDancer: an algorithm for high-resolution
mapping of genomic structural variation", Nat Meth, 6(9), pp. 677-681.

71
10. Feuk. L., et al. (2010), "Inversion variants in the human genome: role in
disease and genome architecture.", Genome Med, 2(11), pp. 250-276.

Ứng dụng thuật toán Burrows – Wheeler Transform trong quá trình giải mã hệ gen lúa tại Việt Nam.docx

Recommended

Recommended

More Related Content

Similar to Ứng dụng thuật toán Burrows – Wheeler Transform trong quá trình giải mã hệ gen lúa tại Việt Nam.docx

Similar to Ứng dụng thuật toán Burrows – Wheeler Transform trong quá trình giải mã hệ gen lúa tại Việt Nam.docx (14)

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149

More from DV Viết Luận văn luanvanmaster.com ZALO 0973287149 (20)

Recently uploaded

Recently uploaded (20)

Ứng dụng thuật toán Burrows – Wheeler Transform trong quá trình giải mã hệ gen lúa tại Việt Nam.docx