Bé GI¸O DôC Vµ §µo t¹oBé GI¸O DôC Vµ §µo t¹o
tr­êng ®¹i häc n«ng nghiÖp hµ néitr­êng ®¹i häc n«ng nghiÖp hµ néi
Bµi gi¶ng Tin sinh häCBµi gi¶ng Tin sinh häC
TThS. Phan Träng NhËthS. Phan Träng NhËt
Bé m«n C«ng nghÖsinh häcBé m«n C«ng nghÖsinh häc
CHƯƠNG I: GIỚI THIỆU VỀ INTERNET VÀ
SỰ RA ĐỜI CỦA TIN SINH HỌC
1.1. Giới thiệu về Internet
Khái niệm
• Internet là mạng máy tính toàn cầu để liên kết các tổ
chức, trung tâm, viện nghiên cứu, trường học....
• Để máy tính hoạt động hiệu quả thì chúng phải cùng
chia sẻ một phương tiện truyền thông được gọi chung là
TCP/IP.
Các máy tính giao tiếp với nhau bằng cách nào?
TCP/IP (Transmission Control Protocol/ Internet Protocol)
gọi là giao thức truyền dữ liệu/ giao thức Internet. Giao
thức này cho phép các máy tính trên mạng trao đổi dữ
liệu với nhau một cách thống nhất, tương tự như một
ngôn ngữ quốc tế được mọi người cùng sử dụng để có
thể hiểu nhau.
Mỗi máy tính trên internet được đặt một tên duy nhất đó là
địa chỉ IP
Ví dụ: IP: 203.162.8.82 hay IP: http:// www.hau1.edu.vn
1.1.1. Lịch sử ra đời của Internet
• Năm 1969: Mạng ARPANET được ra đời dưới sự tài
trợ của cơ quan quản lý các dự án nghiên cứu phát
triển ARPA (American Research Projects Agency)
thuộc Bộ Quốc phòng Mỹ (US Department of Defence).
• Khởi điểm là 4 nút mạng đặt tại 4 trường đại học của
Mỹ:
 Đại học California Los Angeles (UCLA)
 Học viện nghiên cứu Standford (SRI)
 Đại học California Santa Barbara (UCSB)
 Đại học Utah
 Đó là mạng liên khu vực (WAN: Wide Area Network)
đầu tiên được xây dựng, đánh dấu sự ra đời của internet
ngày nay.
 Trung tâm nghiên cứu Xeroc Corporation Palo Alto phát
triển chuẩn kết nối Ethernet. Những năm 1980, giao thức
TCP/IP trên Ethernet trở thành giao thức thông dụng trên
mạng cục bộ.
 Năm 1983, Bộ Quốc phòng Mỹ đã tách ARPANET làm
hai mạng con:
 MILNET: dành cho các hoạt động quân sự.
 ARPANET mới: dành cho các hoạt động phi quân sự,
trường đại học, viện nghiên cứu.
• Năm 1986, Tổ chức quỹ khoa học quốc gia NSF (National
Science Foudation) thành lập mạng NSFNET. Nhiều
doanh nghiệp chuyển từ ARPANET sang NSFNET.
• Năm 1990, ARPANET ngừng hoạt động sau gần 20 năm.
• Năm 1995, NSFNET thu lại thành một mạng nghiên cứu
còn Internet thì vẫn tiếp tục phát triển.
• Năm 1991, WWW (World Wide Web) ra đời đặt nền
móng cho việc chuyển tải thông tin đa phương tiện
(multimedia) thông qua các siêu liên kết (hyperlink) rất tiện
dụng cho việc khai thác internet. Tổ chức W3C (World
Wide Web Consorticum) ra đời: nghiên cứu các chuẩn
chung cho Web.
 Cuối năm 1992, xuất hiện nhà cung cấp thông tin thương
mại đầu tiên là Delphi.
 Tháng 6/1993: có khoảng 130 website.
 Năm 1994: có khoảng 3.000 website.
 Hiện nay: Vài trăm triệu website.
 Không có bất kỳ cá nhân hay tổ chức nào có toàn quyền
kiểm soát internet mà mỗi nhà quản trị chỉ quản lý phần
mạng của tổ chức mình.
 Để internet hoạt động theo một chiều hướng thống nhất
thì hiệp hội internet và W3C có nhiệm vụ phát triển các
giao thức truyền thông tin chung trên internet và theo dõi
các chuẩn về web.
 Số lượng máy chủ:
Năm 1981: khoảng 200 máy
Năm 1985: khoảng 2000 máy
Nay: > 9.000.000 máy
 Internet trở thành mạng lớn nhất thế giới: mạng của các
mạng và xuất hiện trong mọi lĩnh vực: Chính trị, quân sự,
thương mại, nghiên cứu, giáo dục, văn hoá, xã hội...
1.1.2. Sự hình thành Internet ở Việt Nam
• Năm 1993 mạng VARENET (Vietnam Academic
Research Education Network) được thành lập, tạo tiền đề
cho việc hình thành mạng lưới internet Việt Nam.
VARENET ra đời từ Chương trình hợp tác nghiên cứu khoa
học, triển khai công nghệ mạng tại Viện Công nghệ Thông
tin thuộc Viện Khoa học và Công nghệ Việt Nam với sự
hợp tác khoa học của Đại học Quốc gia Australia (ANU).
Máy chủ của mạng VARENET đặt tại ANU.
• Năm 1993: VARENET chỉ có một chức năng duy nhất là
phục vụ thư điện tử (E-mail) cho các văn phòng đại diện
nước ngoài, các Cty liên doanh hay 100% vốn nước ngoài
do tính chất mới và chi phí tài chính cao tại Việt Nam.
• Ngày 19 – 11 - 1997, khi Chính phủ Việt Nam quyết định
chính thức kết nối internet thì tên miền (.vn) được phía
Australia bàn giao cho Tổng cục Bưu điện Việt Nam. Sự
hình thành của hàng loạt các nhà cung cấp dịch vụ
internet sau đó đã làm mờ nhạt vai trò của VARENET.
• Sau VARENET, mạng diện rộng thứ hai là VINANET
(Vietnam Network) ra đời ở Việt Nam của Trung tâm
Thông tin Thương mại thuộc Bộ Thương mại. VINANET
cung cấp thông tin giá cả thị trường trong nước và quốc tế,
địa chỉ doanh nghiệp, văn bản tư pháp.... Tốc độ truy cập
thời kỳ này là 2,4kbps qua đường dây điện thoại.
• Năm 1997, hàng loạt các nhà cung cấp dịch vụ internet
(ISP) và các nhà cung cấp thông tin lên internet (ICP)
như: VNN, FPT, Saigonnet, Netnam và CINET.
• VNN (Vietnam Network) là mạng máy tính của Công ty
Điện toán và truyền số liệu VDC (Vietnam
Datacommunication Company) thuộc Tổng công ty Bưu
chính viễn thông Việt Nam, hình thành năm 1997.
• FPT (Company for Financing and Promoting
Technology) là Công ty Tài chính và Kỹ thuật Quảng
cáo, thành lập năm 1997.
• Saigonnet thuộc Công ty Cổ phần Bưu chính viễn
thông Sài gòn SPT (Saigon Post and
Telecommunication Service Corporation), thành lập năm
1997.
• Netnam thuộc Viện Công nghệ thông tin, thành lập năm
1998.
• CINET (Culture and Information Net) thuộc Bộ Văn
hoá và Thông tin, thành lập năm 1997.
• Trong số các ISP kể trên, VNN dẫn đầu danh sách với
ưu thế vừa là IAP (cung cấp cổng truy cập internet) vừa
là cung cấp dịch vụ internet ISP (Internet Service
1.2. Kết cấu mạng Internet
1.2.1. Các kiểu mạng:
• Mạng cục bộ LAN (Local Area Network)
• Mạng vùng trung tâm MAN (Metropolitan Area
Network)
• Mạng diện rộng WAN (Wide Area Network)
 Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài
km, ngoại trừ trường hợp máy tính đơn kết nối trực tiếp
với internet, tất cả các máy tính có nối mạng đều nối vào
mạng LAN. Mạng LAN được dùng cho một toà nhà,
trường học, thư viện, bệnh viện…
 Một đặc điểm của mạng LAN là khi một máy tính truyền
dữ liệu thì tất cả các máy tính trong mạng đều có thể
nhận dữ liệu đó, đặc tính này gọi là broadcasting.
 Máy tính trong mạng LAN sử dụng kỹ thuật gọi là Carrier
Sense Multiple Access/ Collision Detect (CSMA/CD)
nghĩa là không gửi khi máy tính khác đang gửi và kiểm
tra những gì gửi đi có xung đột với các máy tính khác.
 Công nghệ LAN mới nhất hiện nay là mạng không dây
sử dụng tia hồng ngoại hay sóng radio thay cho cáp để
truyền tín hiệu mạng. Tốc độ truyền từ 1 đến 11 Mbps,
nó thích hợp cho những người di chuyển thường xuyên
hay những nơi mà không thể đặt dây cáp.
 Mạng vùng trung tâm MAN
Khác với mạng LAN là dùng chung một thiết bị truyền trong
mạng nên cho phép nhiều máy tính kết nối vào cùng một
sợi dây, mạng MAN sử dụng các kết nối điểm đến điểm
(point to point) với chỉ một máy tính tại cuối mỗi liên kết.
Các máy tính tại cuối mỗi liên kết của MAN cũng có thể
kết nối với các mạng LAN, MAN và WAN.
 Mạng diện rộng WAN
Phạm vi của mạng có thể là một quốc gia hay thậm chí cả
lục địa. Cũng giống như đa số MAN, mạng WAN dùng
các kết nối vật lý điểm đến điểm nhưng dùng cáp xoắn.
Công nghệ WAN thường có nguồn gốc từ các hệ thống
xây dựng để phục vụ cho các công ty điện thoại.
1.2.2. Kết nối Internet
 Kết nối vật lý: kết nối các thiết bị phần cứng như modem,
dây cáp để thực hiện việc nối từ một máy tính đến mạng
internet thông qua các nhà cung cấp mạng.
 Sau khi kết nối vật lý, việc kết nối internet có thể thực hiện
theo hai cách:
 Kết nối trực tiếp: cần có modem tốc độ cao nối với cổng
V35 của thiết bị định tuyến (Router) để kết nối trực tiếp
vào internet thông qua kênh thuê bao riêng. Các loại dịch
vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm:
Đường truyền thường trực (Leased Line)
Đường dây thuê bao số bất đối xứng ADSL
(Asymetrical Digital Subcribe Line)
 Kết nối gián tiếp: chỉ cần một modem và một đường dây
điện thoại để quay số vào mạng. Dịch vụ này có:
Quay số kết nối qua mạng điện thoại Dial-Up
Mạng số tích hợp đa dịch vụ (Intergrated Service
Digital Network)
 So với kết nối internet gián tiếp, kết nối internet trực tiếp có
nhiều ưu điểm như: băng thông rộng, tốc độ cao và ổn
định, hoạt động liên tục (online 24/24). Đương nhiên chi
phí cho việc kết nối trực cũng tốn kém hơn nhiều so với
loại gián tiếp.
Sau khi đã lựa chọn cách kết nối internet thì chúng ta quan
tâm đến dịch vụ nào cho phép chúng ta lướt trên
internet. Có 2 nhóm chính là:
 Các dịch vụ trực tuyến (online service) như America
Online (AOL) và CompuServe thường cung cấp một
lượng lớn các dịch vụ Intergrative Digital bao gồm
Information retrieval, thư điện tử (e-mail), bảng tin
(bulletin board) và “chat room’’ nhờ đó người sử dụng
trực tuyến đồng thời có thể quan tâm đến một vài lĩnh
vực cùng một lúc.
 Các nhà cung cấp dịch vụ internet ISP (Internet Service
Provider) bao gồm việc cấp tài khoản truy cập internet
cho người sử dụng đồng thời cung cấp các dịch vụ
internet.
1.3. Một số nét khái quát về WWW (World Wide
Web) và trình duyệt Web
1.3.1. WWW và nguyên lý hoạt động
WWW là gì? :
WW là dịch vụ cung cấp thông tin trên hệ thống mạng
Internet/Intranet. Các thông tin này được lưu trữ dưới dạng
tập tin siêu văn bản (hypertext) và được truy xuất bởi trình
duyệt web (Web Browser).
 Siêu văn bản là các tư liệu chứa văn bản, hình ảnh tĩnh,
hình ảnh động, âm thanh, video… được liên kết với nhau
qua các siêu liên kết (hyperlink). Thông qua các siêu liên
kết, người dùng có thể nhanh chóng tham khảo các tư
liệu liên quan một cách dễ dàng.
 Để truy xuất các thông tin trên Web Server, các khách
hàng sử dụng web (Web Client) phải sử dụng chương
trình có chức năng duyệt các thông tin dạng siêu văn
bản gọi là trình duyệt web. Có nhiều loại trình duyệt web
như: Internet Explorer, Netscape Navigator, Opera,
Neoplanet… Trong số đó, 2 trình duyệt được sử dụng
phổ biến là Internet Explorer và Netscape Navigator.
1.3.2. Vài nét cơ bản của trình duyệt Web
Tiềm năng của Internet chỉ thực sự phát huy được khi có
các trình duyệt web ra đời. Chúng cho phép truy cập tới
nguồn thông tin ở các vị trí khác nhau. Các Browser là
các trạm công tác có khả năng xử lý hoặc yêu cầu lấy
thông tin hoặc các chương trình ứng dụng từ máy chủ
của mạng. Trong đó trang chủ là điểm trung gian giữa
browser và server. Hiện nay có một số Web browser
đang dùng phổ biến là Lynx cho hệ điều hành Unix hoặc
VMS; Mosaic cho các máy Apple Mac, X-Windows;
Internet Explorer và Netscape Navigator cho các máy
Windows.
Ưu điểm:
 Sử dụng dễ dàng, không cần phải hiểu biết nhiều về tin
học – máy tính.
 Người sử dụng không cần biết vị trí chính xác của trang
văn bản, hình ảnh… trên mạng internet, mà chỉ cần chọn
nó bằng cách nhấp chuột vào các liên kết để có được nội
dung muốn tìm.
Các nguyên tắc duyệt Web:
 Xác định rõ thông tin muốn tìm trên web.
 Xác định được những Web site nào thích hợp cho việc
truy tìm thông tin.
 Có thể mở nhiều của sổ cho mỗi website trong việc tìm
kiếm bằng cách chọn File/New Windows hoặc tổ hợp
phím Ctrl + N.
 Muốn mở một liên kết trong một cửa sổ mới, nhấp phải
chuột và chọn Open link in new windows.
Chức năng của trình duyệt:
 Cho phép xem trang web.
 Lưu lại những địa chỉ URL của trang web.
 Sử dụng dịch vụ FPT bằng trình duyệt web (Web FPT)
 Sử dụng các chương trình E-mail trên web (Webmail)
 Các trình duyệt đều sử dụng đĩa cứng để tạm ghi các địa
chỉ trang web (gọi là cache) mà người sử dụng vừa lướt
qua, có thể điều chỉnh tuỳ theo nhu cầu của mỗi người.
 Các chức năng hỗ trợ khác bao gồm: Ngăn chặn những
trang web mang nội dung xấu, phản động và có thể thay
đổi phông chữ, kích thước.
1.4. Các dịch vụ, tài nguyên và đạo đức trên
Internet
1.4.1. Các dịch vụ:
• E-mail (Electronic mail): Thư điện tử
• WWW: Mạng thông tin toàn cầu thể hiện thông tin dạng
siêu văn bản.
• FTP (File Transfer Protocol): Giao thức truyền tập tin
trên mạng.
• VoIP (Voice over Internet Protocol): Kỹ thuật chuyển tải
giọng nói qua giao thức Internet hay còn gọi là điện thoại
Internet.
• Video Conference: Hội nghị truyền hình.
• WAI (Wireless Application Protocol): Giao thức sử dụng
công nghệ không dây.
1.4.2. Luật lệ, đạo đức và các quy định hoạt động
của Internet
• Không được truy cập (Access) bất hợp pháp vào những
hệ thống đòi hỏi phải có Username và Password.
• Không phá hoại và gây rối loạn hệ thống lưu thông trên
Internet (gieo rắc, phát tán virus).
• Không lãng phí nguồn tài nguyên (không download
những tập tin quá lớn mà chẳng để làm gì, đặc biệt trong
giờ cao điểm.
• Không xoá tập tin của người khác.
• Không xâm phạm, phát tán những thông tin có tính chất
riêng tư của người khác.
1.5. Sự ra đời và vai trò của tin sinh học
1.5.1. Buổi bình minh của trình tự
Trình tự Protein
Trình tự axit nucleic
1.5.2. Sự ra đời của tin sinh học
Do sự xuất hiện của các thông tin về cấu trúc, chức năng
và trình tự của protein, DNA từ đó dẫn tới nhu cầu quản
lý, so sánh và dự đoán cấu trúc và chức năng của sinh
vật và sự phát triển của các ngành khoa học khác đặc
biệt là công nghệ thông tin, máy tính. Do nhu cầu đó mà
Tin sinh học đã được ra đời.
1.5.3. Khái niệm Tin sinh học
 Là một môn khoa học phân tích các cơ sở dữ liệu sinh học
nhờ sự hỗ trợ của máy tính và các công cụ thống kê.
 Các ngành học của Tin sinh học bao gồm:
 Tin sinh học genome
 Tin sinh học protein
 Tin sinh học tiến hoá
 Tin sinh học nông nghiệp
 Tin sinh học y học
 Phát triển các công cụ và cơ sở nền
1.5.4. Vai trò và xu hướng phát triển của Tin sinh
học
a/ Vai trò của Tin sinh học:
 Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở dữ
liệu.
 Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự đoán
các kết quả nghiên cứu.
 Hỗ trợ trong các nghiên cứu về cấu trúc không gian
phân tử.
 Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của sinh
vật
b/ Xu hướng phát triển của Tin sinh họcb/ Xu hướng phát triển của Tin sinh học
Những lĩnh vực của Tin sinh học đang được tập trungNhững lĩnh vực của Tin sinh học đang được tập trung
nghiên cứu:nghiên cứu:
 Quản lý cơ sở dữ liệuQuản lý cơ sở dữ liệu
 Phân tích, biên dịch dữ liệuPhân tích, biên dịch dữ liệu
 Phát triển các thuật toánPhát triển các thuật toán
 Các cấu trúc cơ sở dữ liệuCác cấu trúc cơ sở dữ liệu
 Thiết kế các giao diện và hiển thịThiết kế các giao diện và hiển thị
c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin sinhc/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin sinh
học:học:
 http://www.iscb.orghttp://www.iscb.org
 http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
 http://www.bioinformatics.orghttp://www.bioinformatics.org
 Các tạp chí về BioinformaticsCác tạp chí về Bioinformatics
 Các công cụ tìm kiếm (Google, Yahoo…)Các công cụ tìm kiếm (Google, Yahoo…)
 Các hội nghị, hội thảoCác hội nghị, hội thảo
 Các thư việnCác thư viện
CHƯƠNG 2
TÌM KIẾM THÔNG TIN TRÊN INTERNET
2.1. Khái niệm về thông tin
1. Thông tin là gì?
Thông tin là các dữ liệu và tri thức được sử dụng trong thực
tiễn để giải quyết một số vấn đề hoặc một nhiệm vụ nào đó.
2. Các thuộc tính của thông tin
 Giá trị của thông tin phụ thuộc vào:
Chất lượng của thông tin
Trình độ của người sử dụng
 Thông tin có chất lượng khi nó có những tính chất sau:
Chính xác và đáng tin cậy
Kịp thời
Đặc trưng và định hướng cho người dùng thi cụ thể
 Khái niệm chung về tìm tin:
Tìm tin là một thuật ngữ chung để chỉ công việc tìm tài liệu
hay nguồn của tài liệu, cũng như thông tin về dữ liệu và
sự kiện mà tài liệu đó cung cấp.
2.2. Các công cụ tìm kiếm thông tin
 Biểu thức tìm tin:
 Biểu thức tìm tin là một tập hợp các từ khóa được liên kết
với nhau bằng các toán tử logic.
 Các loại toán tử logic thường sử dụng khi tìm tin:
 Phép nối đồng thời hai từ khóa hay và (and, +): Ví dụ:
“Cây lúa” + “hoa màu” hoặc “Cây lúa” & “Hoa màu”.
 Phép lựa chọn hay hoặc: Ví dụ: “Cây lúa” or
“Hoa màu”.
 Phép loại trừ: Ví dụ: “Cây lúa” – “Hoa màu”.
 Phép phủ định (Not, !): Ví dụ: Internet &!
Computer.
 Sử dụng các dấu ngoặc: Ví dụ: (PCR or RAPD)
and not (AFLP or SSR).
 Các toán tử gần đúng: NEAR (gần như), ADJ
(gần như) , SAME (đại loại giống như), FBY
(theo sau bởi).
 Những lưu ý về việc chọn lựa từ khóa
 Tốt nhất chỉ nên dùng danh từ làm từ khóa.
 Trong khi tìm kiếm các tài liệu tiếng nước ngoài không nên
sử dụng các mạo từ, giới từ.
 Sắp xếp các từ khóa quan trọng trước theo thứ tự ưu tiên.
 Nên sử dụng ít nhất là hai từ khoá (thường là 3) và kết hợp
các từ khóa thành những cụm từ.
 Tránh sử dụng các từ thường sử dụng (tần suất lặp lại rất
nhiều ở hầu hết các tài liệu).
 Để tìm thông tin cụ thể tốt nhất hay chọn những từ khóa
mà có thể sẽ là tiêu đề cho tài liệu hoặc tên trang Web.
2.3. Cách tìm kiếm thông tin
 Nguyên tắc chung
 Mở nhiều cửa sổ trình duyệt (Web browser) trong khi khai
thác thông tin để tăng tốc độ tìm tin (Ctrl + N).
 Không nên mở trực tiếp một hyperlink ngay trên trang web
chính mà mở riêng thông tin đó trên một trang Web mới
(Open in new windows).
 Các cách tìm tin
a/ Tìm tin theo thư mục chủ đề: Thư mục chủ đề là một tập
hợp các tài liệu có liên quan đến thông tin mà chúng ta
cần tìm kiếm.
Các ưu điểm và hạn chế của thư mục chủ đề: Chứa các
thông tin cụ thể, chính xác và ít xuất hiện trong các kết
quả tìm kiếm.
 Khi nào nên sử dụng các thư mục chủ đề:
Khi muốn xem thông tin nào sẵn có trên trang Web trong
một lĩnh vực, phạm vi cụ thể liên quan đến vấn đề mình
quan tâm trong thời gian ngắn.
 Các thư mục chủ đề tiêu biểu:
Yahoo! (http://www.yahoo.com)
Excite (http://www.excite.com/)
LookSmart (http://www.looksmart.com)
Magellan (http://magellan.excite.com/)
Open Directory Project (http://www.dmoz.org)
Snap (http://www.snap.com/)
b/ Tìm tin theo từ khóa:
 Để tìm thông tin theo từ khoá ngoài việc xác định từ khóa
và biểu thức tìm tin chúng ta cần phải lựa chọn một công
cụ để tìm kiếm tin hay còn gọi là các search engine.
 Việc tìm kiếm nhờ các search engine có rất nhiều lợi thế vì:
Thứ nhất thông tin tìm được sẽ cụ thể và chi tiết hơn.
Thứ hai có rất nhiều tiêu chuẩn để lọc thông tin như: tìm
thông tin theo thời gian, ngôn ngữ, định dạng file...
c/ Tìm tin theo các trường
 Tìm kiếm theo tiêu đề: Title: “từ khóa”, kết quả sẽ cho ra
tất cả các trang Web có tên như từ khóa đã chọn. Nhanh
hơn rất nhiều so với tìm kiếm từ khóa trong toàn bộ tài
liệu.
 Tìm kiếm theo tên miền: Tên miền gồm 3 chữ viết tắt
của một lĩnh vực mà trang web đó chứa thông tin liên
quan. Vi dụ: www.hau1.edu.vn khi đó domain là: edu
 Tìm kiếm các hình ảnh: image: bones.gif
 Ngoài ra còn có nhiều trường tìm kiếm khác như: object,
text, sound, pictures, date, anchor, applet và language.
2.4. Cách chọn và đánh giá độ tin
cậy của thông tin
2.4.1. Cách chọn thông tin
2.4.2. Đánh giá độ tin cậy của thông tin
CHƯƠNG 3: CƠ SỞ DỮ LIỆU SINH HỌC VÀ
CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU
3.1. Khái quát chung về cơ sở dữ liệu sinh học
 Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ
yếu đề cập đến các thông tin về trình tự axit nucleic
(ADN, ARN), trình tự axit amin của các phân tử protein,
thông tin về cấu trúc và giải phẫu của một số genom, mô
hình cấu trúc không gian của các đại phân tử.
 Các thông tin này được sắp xếp và lưu trữ bởi một hệ
thống các máy chủ rất mạnh của 3 ngân hàng gen lớn
nhất thế giới là NCBI, EMBL và DDBJ.
3.2. Phân tích dữ liệu ADN và Protein3.2. Phân tích dữ liệu ADN và Protein
 Các thông tin về dữ liệu ADN, protein: chủ yếu là trình tự
nucleotit và trình tự axit amin
 Ngân hàng gen cũng có thể được coi như một thư viện
sách, trong đó mỗi cuốn sách chính là một trình tự
nucleotit ADN hoặc axit amin của protein và chúng đều
được đánh số.
 Bằng cách này hay cách khác chúng ta có thể tìm được
trình tự cần quan tâm. Tuy nhiên, vấn đề ở đây không
phải là tìm bằng cách nào mà chúng ta phải hiểu được
cuốn sách đó viết về cái gì và sử dụng nó như thế nào?
a/ Dữ liệu ADN và Protein là gi?a/ Dữ liệu ADN và Protein là gi?
 Dữ liệu về trình tự nucleotit trong ADN và trình tự axit
amin trong protein là những thông tin sinh học ở mức độ
phân tử. Đối với ADN đó là số lượng, thành phần và trật
tự sẵp xếp của các nucleotit, ribonucleotit trên một phân
tử ADN, mRNA.
 Các thông tin về ADN thường được chỉ rõ chúng mã hóa
cho sản phẩm gen gì? có mặt ở đối tượng sinh vật nào?
phân bố ở đâu. Ngoài ra các thông tin này còn liên quan
đến vấn đề nghiên cứu gì và của tác giả nào?
Đối với Protein, đó là số lượng và trật tự sắp
xếp của các axit amin trong một phân tử
protein. Các thông tin này cũng bao gồm
đặc tính và vai trò của protein vị trí có mặt
trong tế bào, mô, cơ quan, tác giả công
bố… thậm chí còn đưa ra những giả thiết
về cấu trúc của phân tử.
b/ Genomic và Proteomic
Genomic: Là tất cả những dữ liệu về thông tin di truyền
của một loài sinh vật nhất định. Tức là hướng tiếp cận từ
ADN.
Proteomic: Là tất cả các sản phẩm gen (protein) của một
tế bào, mô hoặc cơ quan của một sinh vật nào đó trong
một giai đoạn sinh lý nhất định. Xét ở phạm vi hẹp, có thể
nói đó là tập hợp sản phẩm dịch mã của tất cả các mRNA
có mặt trong tế bào sinh vật tại thời điểm nghiên cứu. Tức
là hướng tiếp cận từ protein.
Luận thuyết trung tâm
RNA
DNA
Protein
Phiên mã Dịch mã
c/ Sử dụng các dữ liệu ADN và Protein để làm gì?c/ Sử dụng các dữ liệu ADN và Protein để làm gì?
 Đối với trình tự nucleotit:
 So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân
hàng gen có thể chúng ta xác định được đoạn ADN đó
của sinh vật nào (Bài thực hành tìm kiếm trình tự tương
đồng).
 Biết được trình tự sắp xếp các nucleotit của một đoạn
ADN có thể suy ra trình tự các axit amin tương ứng trên
mạch polypeptide nếu đoạn ADN đó mã hóa (Bài thực
hành dịch mã 1 phân tử ADN sang trình tự axit amin).
 Xác định đột biến, sự sai khác về trình tự nucleotit trong
cùng một sản phẩm gen (isozyme, allozyme…) có ý
nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.
 Về mặt phân loại sinh học, đối với một số gen có tính bảo
thủ cao, mang tính đặc thù loài, chẳng hạn các gen mã
hóa cho ARN ribosome (rRNA). Dựa vào những trình tự
ADN của các gen này ở những loài sinh vật khác nhau mà
người ta có thể so sánh chúng trên cơ sở xác định mức độ
sai khác về trình tự nucleotit từ đó mô phỏng mối quan hệ
loài, dưới loài.
 (Bài thực tập xác định mối quan hệ di truyền bằng cách
so sánh trình tự nucleotit)
Hình thái giống nhau  Vật chất di truyền như thế nào?
Early globin gene
mouse α
ß-chain geneα-chain gene
cattle ß human ß mouse ßhuman α cattle α
Gene Duplication
 Biết được trình tự của một gen (chẳng hạn gen ung thư
hay sự có mặt của các virus nguy hiểm chẳng hạn
H5N1, bệnh virus đốm trắng ở tôm…) người ta có thể
phát hiện sớm bằng kỹ thuật PCR, lai ADN để ngăn
chặn, điều trị.
 Thiết kế những cặp mồi (primer) để nhân bản các đoạn
này cho những mục đích nghiên cứu khác nhau như :
Nghiên cứu sự có mặt của gen đó trong các sinh vật
khác nhau (xác định sự có mặt gen chống bệnh bạc lá,
đạo ôn, xác định giới tính, bệnh di truyền…). Ngoài ra,
còn sử dụng các kỹ thuật microarray, DNA chip để phát
hiện sự có mặt và mức độ hoạt động của các gen trong
những điều kiện nhất định.
 Từ trình tự nucleotit của một phân tử ADN có thể biết
được bản đồ các vị trí nhận biết của các enzym cắt hạn
chế. Điều này đặc biệt có ý nghĩa trong kỹ nghệ ADN tái
tổ hợp.
 (Bài thực hành xác dịnh bản đồ giới hạn của genome ADN
λ)
 Một trong những phương pháp trị liệu gen (gene therapy)
dựa trên trình tự ribonucleotit trên phân tử mRNA để tổng
hợp sợi bổ sung (antisense) nhằm ngăn chặn sự hoạt
động của các gen đó.
 Một trong những ứng dụng quan trọng đó là chuyển gen
để tạo ra các sinh vật mới mang những đặc tính mong
muốn hoặc có thể chuyển gen vào các tế bào vi khuẩn,
nấm men… để sản xuất sản phẩm gen theo con đường
tái tổ hợp (protein, enzym, vaccine và các hợp chất có
hoạt tính sinh học).
 Nếu như chúng ta biết được thành phần, trình tự sắp xếp
của các axit amin trong phân tử protein, enzym nào đó
có thể đánh giá được sự sai khác giữa các axit amin
trong các phân tử protein, enzym cùng chức năng ở các
loài khác nhau để biết được thành phần axit amin nào
đóng vai trò quan trọng.
 Đối với trình tự axit amin
 Nếu như chúng ta biết được thành phần, trình tự sắp xếp
của các axit amin trong phân tử protein, enzym nào đó
có thể đánh giá được sự sai khác giữa các axit amin
trong các phân tử protein, enzym cùng chức năng ở các
loài khác nhau để biết được thành phần axit amin nào
đóng vai trò quan trọng.
 Từ trình tự axit amin của phân tử protein, có thể suy diễn
ra trình tự nucleotit của gen mã hóa.
 Từ trình tự axit amin có thể dự đoán được cấu trúc ba
chiều, vị trí hoạt động (domain) của phân tử protein,
enzym đó.
 Ngày nay, việc phát hiện sự tương đồng hay sự có mặt
của phân tử protein có thể được thực hiện bằng các kỹ
thuật hiện đại như khối phổ. Tuy nhiên việc xác định
trình tự các axit amin là không thể thiếu được.
3.2. CSDL của các ngân hàng gen
Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều
có đầy đủ thông tin cơ bản về các CSDL trên.
Tuy nhiên mỗi ngân hàng có một cách phân loại
và tổ chức các loại dữ liệu khác nhau. Trong
phạm vi bài giảng, chương này chỉ đề cập đến
những CSDL chính, được sử dụng thường
xuyên.
3.2.1. CSDL của EMBL/EBI
a/ CSDL tài liệu (Literature Databases)
 Medline: Bao quát tất cả các lĩnh vực của y học, chăm
sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức
khỏe và khoa học tiền lâm sàng.
 Omim: Di truyền Mendel ở người (Online Mendelian
Inheritance in Man -OMIM) là một tập hợp của các gen và
các rối loạn di truyền.
 Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH
của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu
của European Patent Office (EPO).
 Taxonomy: CSDL phân loại của ISDC (International
Sequence Database Collaboration) chứa các tên của các
sinh vật được trình bày dưới dạng CSDL trình tự.
b/ CSDL Microarray (Microarray Databases)
 ArrayExpress: Một CSDL cho microarry dựa vào dữ
liệu biểu hiện gen.
 Miame : Thông tin tối thiểu về một thí nghiệm microarry
(Minimum Information About a Microarray Experiment
(MIAME).
 Công nghệ microarry tận dụng các nguồn trình tự được
tạo ra từ các dự án xác định trình tự genom để trả lời câu
hỏi là các gen nào đang được biểu hiện ở một dạng tế
bào nhất định của một sinh vật ở một thời gian nhất định
trong những điều kiện nhất định
c/ CSDL Nucleotide (Nucleotide Databases)c/ CSDL Nucleotide (Nucleotide Databases)
 CSDL trình tự nucleotide của EMBL là một thành viên cácCSDL trình tự nucleotide của EMBL là một thành viên các
nước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truynước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truy
cập vào hàng trăm trình tự genom hoàn chỉnh cùng vớicập vào hàng trăm trình tự genom hoàn chỉnh cùng với
các sản phẩm protein dịch mã nhờ máy chủ của EBI.các sản phẩm protein dịch mã nhờ máy chủ của EBI.
 ASD:ASD: CSDL phân cắt nảy sinhCSDL phân cắt nảy sinh ((Alternative SplicingAlternative Splicing
Database) chứa dữ liệu về các exon phân cắt phát sinhDatabase) chứa dữ liệu về các exon phân cắt phát sinh
cùng với các thông tin bổ sung đi kèm. Dự án ASD nhằmcùng với các thông tin bổ sung đi kèm. Dự án ASD nhằm
hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy môhiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô
genome.genome.
 ATD: CSDL đa dạng về các bản phiên mã nảy
sinh (Alternate Transcript Diversity Database ATD)
chứa dữ liệu về các bản phiên mã trong đó mỗi bản
phiên mã được mô tả cho một dạng cắt ghép nảy sinh và
sự polyadenyl hóa nảy sinh (alternative polyadenylation).
 EMBL-Align database: CSDL so sánh nhiều trình tự.
 EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL
trình tự nucleotide EMBL, đóng góp vào nguồn trình tự
nucleotide sơ cấp của châu Âu.
 EMBL CDS: là một CSDL của trình tự nucleotide của
trình tự mã hóa (CDS coding sequence)
 Ensembl: Mô tả tự động của các genome eukaryote.
 Genomes Server: một cái nhìn tổng quan của các
genom hoàn chỉnh ở EBI. Những trang web này cho phép
truy cập với một số lượng lớn các genom hoàn chỉnh.
 Genome Reviews: CSDL genom được chỉnh sửa bao
gồm các phiên bản chính xác của các mục tra cứu (entry)
genom hoàn chỉnh từ CSDL trình tự nucleotide của
EMBL/GenBank/DDBJ
 Karyn's Genomes: thu thập và mô tả một số trình tự
genom.
 IMGT/HLA: CSDL di truyền miễn dịch, bao gồm CSDL
IMGT/HLA của phức hệ phù hợp tổ chức (MHC). CSDL
di truyền miễn dịch IMGT/LIGM bao gồm CSDL
IMGT/LIGM của các Ig và các thụ thể tế bào T.
 IPD: CSDL đa hình miễn dịch (Immuno Polymorphism
Database IPD), bao gồm các gen đa hình của hệ thống
miễn dịch, chẳng hạn như KIR, HPA và MHC không phải
của người.
 LGICdb: CSDL các chất gắn các kênh Ion (Ligand
Gated Ion Channel Database)
 Mutations: Dự án CSDL sự đa hình trình tự (Sequence
variation database project)
 Parasites: CSDL genome ký sinh (Parasite Genome
databases).
 d/ CSDL protein (Protein Databases)d/ CSDL protein (Protein Databases)
EBI đã phát triển và duy trì một số CSDL protein có liênEBI đã phát triển và duy trì một số CSDL protein có liên
quan với nhau. Danh sách của các dự án và CSDL:quan với nhau. Danh sách của các dự án và CSDL:
 CluSTr:CluSTr: Đề xuất một sự phân loại tự động củaĐề xuất một sự phân loại tự động của
UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.
 CSA:CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) làTập hợp các vị trí xúc tác (Catalytic Site Atlas) là
một nguồn của các vị trí xúc tác và các gốc được tìmmột nguồn của các vị trí xúc tác và các gốc được tìm
thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.
 GO:GO: Các trang của hiệp hội Gene Ontology của EBI.Các trang của hiệp hội Gene Ontology của EBI.
 GOAGOA: Cung cấp các thông tin về sản phẩm gen vào: Cung cấp các thông tin về sản phẩm gen vào
nguồn GOnguồn GO..
 HPIHPI: Các proteomic của người ban đầu (Human: Các proteomic của người ban đầu (Human
Proteomics Initiative) là một khởi xướng bởi SIB và EBIProteomics Initiative) là một khởi xướng bởi SIB và EBI
để mô tả tất cả các trình tự đã biết của người theo tiêuđể mô tả tất cả các trình tự đã biết của người theo tiêu
chuẩn chất lượng của UniProtKB/Swiss-Prot.chuẩn chất lượng của UniProtKB/Swiss-Prot.
 IntActIntAct: Là một CSDL đi kèm với hệ thống phân tích, nó: Là một CSDL đi kèm với hệ thống phân tích, nó
cung cấp một giao diện truy vấn và một module để phâncung cấp một giao diện truy vấn và một module để phân
tích các dữ liệu.tích các dữ liệu.
 IntEnz:IntEnz: CSDL liên quan giữa các enzym (IntegratedCSDL liên quan giữa các enzym (Integrated
relational Enzyme database) chứa các dữ liệu enzymrelational Enzyme database) chứa các dữ liệu enzym
được chứng nhận bởi hội đồng định tên (Nomenclatuređược chứng nhận bởi hội đồng định tên (Nomenclature
Committee) với mục đích là để tạo ra một CSDL cácCommittee) với mục đích là để tạo ra một CSDL các
enzym có mối quan hệ đơn.enzym có mối quan hệ đơn.
 InterPro:InterPro: CSDL là một sự kết hợp của nguồn tài liệuCSDL là một sự kết hợp của nguồn tài liệu
trích dẫn cho các họ proein, các domain và các vị trítrích dẫn cho các họ proein, các domain và các vị trí
hoạt động.hoạt động.
 IPI:IPI: (International Protein Index) một hệ thống proteom(International Protein Index) một hệ thống proteom
không dư thừa (non-redundant) được xây dựng từkhông dư thừa (non-redundant) được xây dựng từ
UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl vàUniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và
RefSeq.RefSeq.
 PANDITPANDIT: là một bộ các chương trình so sánh trình tự và: là một bộ các chương trình so sánh trình tự và
xây dựng cây phân loại.xây dựng cây phân loại.
 Proteome Analysis:Proteome Analysis: Phân tích so sánh và thống kêPhân tích so sánh và thống kê
các proteom của các sinh vật.các proteom của các sinh vật.
 UniProtUniProt: Nguồn Protein phổ biến cho các trình tự: Nguồn Protein phổ biến cho các trình tự
protein và trung tâm của các CSDL protein cho các ngânprotein và trung tâm của các CSDL protein cho các ngân
hàng CSDL khác.hàng CSDL khác.
 UniProt ArchiveUniProt Archive:: Một phần trình tự protein được tríchMột phần trình tự protein được trích
ra từ CSDL công khai chỉ chứa các trình tự protein.ra từ CSDL công khai chỉ chứa các trình tự protein.
 UniProt/UniRefUniProt/UniRef Features clustering of similarFeatures clustering of similar
sequences to yield a representative subset ofsequences to yield a representative subset of
sequences. This produces very fast search times.sequences. This produces very fast search times.
 UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot : CSDL trình tự protein được: CSDL trình tự protein được
mô tả, một phần của UniProtKB.mô tả, một phần của UniProtKB.
 UniProtKB/TrEMBL:UniProtKB/TrEMBL: Một CSDL protein được tạo raMột CSDL protein được tạo ra
bằng máy tính, là một phần của UniProtKB.bằng máy tính, là một phần của UniProtKB.
e/ CSDL Proteomic (Proteomic Databases)
EBI đã phát triển và lưu giữ một số lượng lớn các CSDL
liên quan proteom. Dưới đây là một số CSDL proteom.
 ChEBI (Chemical Entities of Biological Interest ChEBI):
một từ điển của các phân tử nhỏ (small molecular ).
 IntAct : Cung cấp một hệ thống CSDL mở, sẵn có và
các công cụ phân tích cho các dữ liệu tương tác protein.
 IntEnz (Integrated relational Enzyme database IntEnz)
sẽ chứa dữ liệu enzym được hội định tên quốc tế
(Nomenclature Committee) xác nhận. Mục tiêu là để tạo
ra một CSDL quan hệ enzym đơn.
 IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực
của dược học theo nghĩa rộng nhất của nó từ lý thuyết
cho đến lâm sàng ở quy mô thế giới.
 PRIDE (PRoteomics IDEntifications database) cho
phép đăng ký (submit) dữ liệu protein ở dạng PRIDE
f/ CSDL cấu trúc (Structure Databases)f/ CSDL cấu trúc (Structure Databases)
EBI đã phát triển và duy trì một số lượng các CSDL có liênEBI đã phát triển và duy trì một số lượng các CSDL có liên
quan đến cấu trúc của các đại phân tử. Trong đó quanquan đến cấu trúc của các đại phân tử. Trong đó quan
trọng nhất là (Macromolecular Structure Database MSD).trọng nhất là (Macromolecular Structure Database MSD).
 DALI:DALI: Thư mục cấu trúc domain của các protein.Thư mục cấu trúc domain của các protein.
 MSDMSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm: CSDL cấu trúc các đại phân tử (MSD), bao gồm
các công cụ tìm kiếm PDB.các công cụ tìm kiếm PDB.
 MSDchem:MSDchem: Thư viện hóa học của các thành phần hóaThư viện hóa học của các thành phần hóa
học tìm thấy trong PDB.học tìm thấy trong PDB.
 MSDliteMSDlite: Cung cấp các công cụ dễ dàng truy cập vào: Cung cấp các công cụ dễ dàng truy cập vào
PDB.PDB.
 MSDtargetMSDtarget: Máy chủ chung cấp các công cụ tìm kiếm: Máy chủ chung cấp các công cụ tìm kiếm
 RESIDRESID: CSDL các protein cải biến là một tập hợp các: CSDL các protein cải biến là một tập hợp các
cấu trúc và mô tả cho cấccỉ biến bao gồm đầu amino,cấu trúc và mô tả cho cấccỉ biến bao gồm đầu amino,
carboxyl tận cùng…carboxyl tận cùng…
 ReactomeReactome: CSLD chính xác về các quá trình sinh học ở: CSLD chính xác về các quá trình sinh học ở
cơ thể người. Reactome sẽ không chỉ hữu ích đối với cáccơ thể người. Reactome sẽ không chỉ hữu ích đối với các
nhà sinh học nói chung như là một cuốn sách về sinhnhà sinh học nói chung như là một cuốn sách về sinh
học trực tuyến mà còn có ích đối với các nhà tin sinh họchọc trực tuyến mà còn có ích đối với các nhà tin sinh học
phát hiện ra các con đường sinh học mới.phát hiện ra các con đường sinh học mới.
 BioModelsBioModels: CSDL của các mô hình sinh học cho phép: CSDL của các mô hình sinh học cho phép
các nhà sinh học lưu giữ, tìm kiếm và công bố các môcác nhà sinh học lưu giữ, tìm kiếm và công bố các mô
hình toán học trong lĩnh vực sinh học.hình toán học trong lĩnh vực sinh học.
3.2.2. CSDL của NCBI
a/ CSDL tài liệu (Literature Database)
 Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các
chủ đề nghiên cứu mới, miễn phí, có một phần ở PubMed.
 PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần
tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong lĩnh
vực sinh y học.
 PubMed Central: Là một tạp chí khoa học sự sống, kết
hợp với hệ thống Enztrez, PMC cho phép truy cập tự do và
không hạn chế với hơn 160 tạp chí khoa học sự sống.
 Online Mendelian Inheritance in Man (OMIM): Với
hơn 15.000 đăng mục, OMIM được duy trì bởi tiến sỹ
Victor A. McKusick và cộng sự (đại học Johns Hopkins),
đăng tải một hệ thống các bệnh di truyền và liên tục được
update.
 Online Mendelian Inheritance in Animals (OMIA):
Là một CSDL của các gen, các rối loạn di truyền và các
tính trạng của các loài động vật.
 Journals: Tìm kiếm các CSDL tạp chí cho phép kết nối
(link) các tạp chí với hệ thống Entrez kể cả CSDL di
truyền.
b/ CSDL Nucleotide (Nucleotide databases)
 GenBank: Tập hợp tất cả các trình tự nucleotide
và axit amin hiện có
 GenBank® là CSDL trình tự di truyền của NIH. Có khoảng
51.674.486.881 base trong 46.947.388 bản trình tự trong
các nhánh của GenBank và 53.346.605.784 base trong
10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005.
 Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của
Saccharomyces cerevisiae thì GenBank đã cung cấp đầy
đủ. Cứ sau 2 tháng, một phiên bản update được đưa ra.
 GenBank là một phần của (
International Nucleotide Sequence Database Collaboration
) bao gồm ở DDBJ, EMBL và NCBI. Ba tổ chức này trao
đổi dữ liệu với nhau hàng ngày.
 Trong lần công bố gần đây nhất, INSDC cho biết CSDL
trình tự DNA đã vượt quá 100 Gb. GenBank là một thành
viên quan trọng đóng góp cho mức này và tất nhiên đó là
kết quả đóng góp của rất nhiều các nhà khoa học trên
toàn thế giới.
 dbEST (data base of Expressed Sequence Tags): Theo
Nature Genetics 4:332-3; 1993 thì dbEST là một tập hợp
của các trình tự đeo thẻ hoặc các trình tự ngắn, duy nhất
lấy từ mRNA (cDNA). dbEST cũng là một nhánh của
GenBank.
 dbGSS (data base of Genome Survey Sequences): cũng
là một nhánh của GenBank nhưng khác với dbEST là hầu
hết các trình tự đều có nguồn gốc từ genomic chứ không
phải là cDNA (mRNA). Nhánh dbGSS chứa các dạng dữ
liệu sau:
• Single - pass genom sequence
• Các trình tự tận cùng của cosmid/BAC/YAC
• Các trình tự Alu PCR
• Các trình tự transposon được đeo thẻ (transposon –
tagged).
 dbSNP (data base of Single-base Nucleotide
Polymorphism): là CSDL các đa hình do sự thay thế hoặc
thêm, bớt một nucleotide.
 RefSeq: CSDL của các trình tự tra cứu không có sự dư
thừa (non-redundant reference sequence) bao gồm: các
đoạn contig DNA genom, các mRNA, các protein của các
gen đã biết.
 dbSTS (data base of sequence tagged sites): CSDL của
các vị trí trình tự được đeo thẻ hoặc các trình tự ngắn
thường chỉ có mặt một lần duy nhất trong genom.
 UniSTS: là một cơ sở dữ liệu toàn diện của các STS
(các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS
và các thí nghiệm khác.
 UniGene: Tập hợp của các trình tự EST và các trình tự
mRNA có chiều dài đầy đủ được nhóm vào các cụm và
mỗi cụm đại diện cho một gene duy nhất được biết hoặc
gene người được mô tả cùng với bản đồ và những thông
tin về quá trình biểu hiện gen.
 dbHTG (data base of high-throughput
genom sequence): tập hợp của các trình tự
genom thu được từ các trung tâm xác định trình
tự genom.
 HomoloGene: Sử dụng để so sánh trình tự
nucleotide giữa hai sinh vật để đánh giá mức độ
ortholog giả định.
 MGC: (Mamalian Gene Collection) cung cấp các
dòng đầy đủ chiều dài các khung đọc mở (full-
length open reading frame FL-ORF) cho người,
chuột nhắt và chuột cống.
 PopSet: PopSet là một hệ thống các trình tự
DNA được thu thập để phân tích mối quan hệ tiến
hóa của một quần thể.
 RefSeq: Cung cấp hệ thống các trình tự: DNA, các loại
RNA và sản phẩm protein để nghiên cứu các sinh vật.
 TPA: Third Party Annotation (TPA) Sequence:
Được thiết kế để thu hút các kết quả thực nghiệm và hỗ
trợ cho những người đăng ký mô tả, giải thích về trình tự
mà người đăng ký không xác định được trực tiếp nhưng
có thể lấy từ dữ liệu sơ cấp của GenBank.
 RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử
dụng trong việc thiết kế các bản đồ lai phóng xạ. Nó bao
gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm
và các tra cứu chéo.
c. CSDL Protein (Protein Databases) 3D Domains:
Bao gồm các trình tự và cấu trúc 3 chiều của các domain
trong các phân tử protein.
 Proteins: Tập hợp các CSDL trình tự protein
 RefSeq: Cung cấp một CSDL không dư thừa (non-
redundant) bao gồm DNA, RNA và Protein.
 PROW: CSDL về protein trên Web (Protein Reviews on
the Web PROW) ...
d/ Cơ sở dữ liệu cấu trúc (Structure Databases) 3D
Domain
 MMDB (Molecular Modeling Database) : CSDL mô hình
cấu trúc phân tử 3D, bao gồm các protein và các
polynucleotide. MMDB chứa hơn 28.000 cấu trúc và được
liên kết với phần còn lại của CSDL ở NCBI, bao gồm các
trình tự, các trích dẫn, phân loại học, và các trình tự và
cấu trúc lân cận.
 Conserved Domains: Tập hợp các CSDL về các vùng
domain bảo thủ của các protein, họ protein.
e/ Cơ sở dữ liệu hệ thống học (Taxonomy
Databases)
 Cơ sở dữ liệu hệ thống học (Taxonomy database)
chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di
truyền với ít nhất một trình tự nucleotide hoặc protein.
NCBI cung cấp một hệ thống hệ thống phân loại cùng với
các đơn vị phân loại (taxa).
f/ Cơ sở dữ liệu genom (genome database)
 Các nhiễm sắc thể ung thư:
Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI
SKY?M-FISH và CGH.
 COGs (Clusters of Orthologous Groups of proteins):
Nhóm của các nhóm Orthologous của protein được dẫn
xuất từ việc so sánh trình tự protein được mã hóa thành
các genom hoàn chỉnh, đại diện cho các dòng giống chủ
yếu của phân loại hệ thống học.
 Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ
trong một hệ thống, để truy cập có thể sử dụng các công
cụ như Entrez Gene.
 Cơ sở dữ liệu của các dự án giải trình tự:
Genome Project: Các trình tự hoàn tất, đang ở giai
đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong
một hệ thống. Chúng ta có thể sử dụng công cụ Entrez
Genome Project để truy cập.
 Genomes: Các nguồn genom đặc thù từng loại sinh vật:
Chứa toàn bộ genom của hơn 1000 sinh vật gồm những
genom hoàn chỉnh và đang tiến hành: Aspergillus,
Bacteria, Bee, Cat, Chickent, Cow, Dog, các bào quan
của eukaryote, Frog, Fruit fly, Human, Mosquito, Mouse,
Pig, plant genome, rat, Retrovirus, Sheep, Viral
Genomes, Yeast, Zebrafish...
g/ Cơ sở dữ liệu hệ thống học
 Cơ sở dữ liệu hệ thống học (Taxonomy database)
chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di
truyền với ít nhất một trình tự nucleotide hoặc protein.
NCBI cung cấp một hệ thống hệ thống phân loại cùng
với các đơn vị phân loại (taxa).
h/ Cơ sử dữ liệu cấu trúc (Structure Databases)
 MMDB (Molecular Modeling Database): CSDL mô hình
phân tử chứa các cấu trúc 3D của đại phân tử, bao gồm
các protein và các polynucleotide. MMDB chứa hơn
28,000 cấu trúc và nó được kết nối với phần còn lại của
NCBI bao gồm các trình tự, trích dẫn, hệ thống phân loại
và các trình tự và cấu trúc liên quan.
 GEO Datasets: CSDL này lưu giữ các gen biểu hiện (
Gene Expression Omnibus GEO)
 SAGE: Để hỗ trợ cho việc sử dụng công cộng và công
bố các dữ liệu gen biểu hiện (serial analysis of gene
expression SAGE), NCBI gần đây đã chỉnh sửa lại
website này.
 SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu truy
vấn, thu nhân và phân tích các dữ liệu SAGE từ một loài
sinh vật bất kỳ. Tất cả các dữ liệu có mặt trong website
này có thể được truy cập từ các kho lưu trữ của GEO
(Gene Expression Omnibus).
k/ Cơ sở dữ liệu hóa học (Chemical Databases)
 Các phản ứng, test..
 Danh sách các chất hóa học
 Danh sách các hợp chất
3.3. Các công cụ tìm kiếm, phân tích các CSDL
3.3.1. Công cụ của EMBL/EBI
a/ Similarity & Homology: Công cụ phân tích mức độ giống
nhau và tương đồng giữa các trình tự.
 Các công cụ như: Fasta, Blast, MPsrch và Scanps. Dạng
tìm kiếm và kết quả trả về qua email cũng được phát triển.
 Hai chương trình có thể được sử dụng để tìm kiếm, so
sánh mức độ giống nhau và mức độ tương đồng suy diễn
là BLAST or Fasta.
Công cụ tìm kiếm DNA và Protein chungCông cụ tìm kiếm DNA và Protein chung
Công cụ Ứng dụng, mô tả
Blast2-WU Protein Tìm kiếm CSDL protein (Blast 2.0 with gaps) của Washington
University
Blast2-WU Nucleotide Tìm kiếm CSDL nucleotide (Blast 2.0 with gaps) Washington
University
Blast2-NCBI Protein Chương trình tìm kiếm CSDL protein của NCBI.(blastall)
Blast2-NCBI Nucleotide Chương trình tìm kiếm CSDL nucleotide của NCBI.(blastall)
Blast2-NCBI EVEC Chương trình nhằm phát hiện các trình tự lẫn với trình tự của các
vector.
Fasta Nucleotide Sử dụng FASTA để tìm các trình tự giống với trình tự nucleotide trong
CSDL
Fasta Protein Sử dụng FASTA để tìm các trình tự giống với trình tự protein trong
CSDL
Fasta-Proteome server Tìm kiếm bằng Fasta trong máy chủ Proteome
Fasta-Genome server Tìm kiếm bằng Fasta trong máy chủ genome
Fasta-WGS server Tìm kiếm bằng Fasta trong máy chủ WGS (các genome thu được bằng
phương pháp shotgun Whole genome shotgun - WGS)
Các công cụ tìm kiếm chuyên biệt cho Protein
Công cụ Ứng dụng, mô tả
Blitz Blitz là một dịch vụ tìm kiếm CSDL thông qua email.
Thực chất là việc trả kết quả tìm trình tự tương
đồng với trình tự cần quan tâm thông qua Email.
EBI đã phát triển hai phương pháp khác nhau gọi là
MPsrch và Scanps.
Các công cụ tìm kiếm chuyên biệt cho DNA
Công cụ Ứng dụng, mô tả
Blast2-ASD Tìm kiếm trình tự giống nhau nhờ máy chủ Blast2-ASD
Blast2-Parasite Tìm kiếm trình tự giống nhau nhờ máy chủ Parasite Genomes
blast
Fasta-ASD Sử dụng Fasta để tìm trình tự protein giống với CSDL ASD
Fasta
-LGIC Protein server
Sử dụng Fasta để tìm trình tự protein giống với CSDL Ligand
Gated Ion Channel.
Fasta
-LGIC Nucleotide server
Sử dụng Fasta để tìm trình tự nucleotide giống với CSDL Ligand
Gated Ion Channel.
Fasta-SNP server Fasta tìm kiếm trình tự tương đồng trong CSDL European SNP
(HGBASE).
b/ Protein Functional Analysis: Phân tích chức
năng của protein
Một trong những nghiên cứu phân tích chức năng của
protein là phát hiện các vùng hoạt động đặc trưng (motif)
trong các trình tự protein. Phần này cung cấp các công cụ
sử dụng để xác định chức năng của protein với nhiều
phương pháp và CSDL khác nhau. Dịch vụ quan trọng
nhất trong phần này là InterProscan cùng kết hợp với rất
nhiều phương pháp khác trong một giao diện rất dễ sử
dụng.
Công cụ Ứng dụng, mô tả
CluSTr Search Tìm kiếm các UniProtKB (UniProtKB/Swiss-Prot +
UniProtKB/TrEMBL) bằng số truy cập
FingerPRINTScan Tìm kiếm các PRINTS Protein fingerprint
GeneQuiz Phân tích trình tự tự động các trình tự sinh học
Inquisitor Inquisitor cung cấp một giao diện truy vấn đơn để xác định các
trình tự protein giốn nhau trong các proteome. Các trình tự chưa
biết được phân tích sử dụng FASTA và InterProScan.
InterProScan Tìm kiếm các trình tự protein trong các CSDL thành viên InterPro.
PPSearch Tìm kiếm các motif của protein
Pratt Phát hiện các mô hình trong các trình tự protein chưa được so sánh
(alignment)
Radar Phát hiện các protein lặp lại.
c/ Proteomic Services
Bao gồm các phương thức truy cập vào các dịch vụ
proteomic do EBI cung cấp. Trong đó quan trọng nhất là
máy chủ UniProt DAS nó cho phép các nhà nghiên cứu
trình bày kết quả nghiên cứu của mình dưới dạng mô tả
của UniProtKB/Swiss-Prot.
Công cụ Ứng dụng, mô tả
Dasty Công cụ cho phép trình bày những thông tin về đặc
điểm trình tự protein dưới dạng dễ quan sát.
UniProt
DAS
Máy chủ UniProt DAS cho phép các nhà nghiên
cứu trình bày kết quả nhiên cứu của mình, chẳng
hạn xác định các peptide hoặc các trình tự tín
hiệu trên máy chủ UniProt dưới dạng mô tả của
UniProtKB/Swiss-Prot.
d/ Sequence Analysis: Phân tích trình tự
 Sử dụng rất nhiều phương pháp tin sinh học để xác
định chức năng sinh học, cấu trúc của các gen và protein
mà chúng mã hóa.
 Các công cụ như Transeq có thể giúp xác định các
vùng mã hóa protein của một trình tự DNA. ClustalW
được sử dụng để so sánh trình tự DNA hoặc protein để
làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa
của chúng.
Các công cụ phân tích do EBI cung cấp:
Công cụ Ứng dụng, mô tả
Align Công cụ so sánh cặp trình tự theo 2 kiểu toàn bộ và cục bộ.
ClustalW Cô cụ so sánh nhiều trình tự.
CpG Plot/CpGreport Công cụ tìm và vẽ CpG Island
Dna Block Aligner Form So sánh hai trình tự DNA dưới dạng khối mạch thẳng (colinear block), rất thích
hợp cho các promoter.
GeneMark Dịch vụ dự đoán gen
Genetic Code Viewer Công cụ tổng kết các sự khác nhau về mã di truyền
GeneWise So sánh một trình tự protein hoặc một hồ sơ protein HMM với trình tự DNA.
Muscle Công cụ so sánh nhiều trình tự với độ chính xác và tốc độ cao hơn so với Clustal
W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau.
Mutation Checker Đánh giá độ trính xác của trình tự, phát hiện đột biến.
Pepstats/Pepwindow/Pepinfo Chương trình phân tích trình tự protein
PromoterWise So sánh hai trình tự DNA cho phép đảo ngược và đổi vị trí, rất lý tưởng cho các
promoter.
Reverse Translator Kiểm tra trình tự đảo ngược, bổ sung
SAPS Phân tích thống kê trình tự protein
T-Coffee Chương trình so sánh trình tự cho phép người sử dụng kết hợp các kết quả thu
được với một số phương pháp so sánh khác nhau.
Transeq Công cụ dịch mã trình tự DNA
e/ Phân tích cấu trúc (Structural Analysis): Việc
xác định cấu trúc 2D/3D của một protein là một công
việc quan trọng nhất khi nghiên cứu chức năng của nó.
Người sử dụng sẽ tìm thấy rất nhiều dịch vụ giúp cho
việc phân tích cấu trúc do EBI cung cấp. Một trong
những công cụ đó là DALI. và MSDfold. Công cụ của
MSDfold hoặc DALI cho phép xác định cấu trúc
protein cần nghiên cứu và so sánh nó với các cấu trúc
trong PDB (Protein Data Bank).
Công cụ Ứng dụng, mô tả
DALI So sánh cấu trúc protein ở dạng 3D
DaliLite Chương trình so sánh cấu trúc cặp (hai cấu trúc). So sánh cấu trúc cần
quan tâm (cấu trúc thứ nhất) với một cấu trúc tham chiếu (cấu trúc
thứ hai)
MSD Services Bảng tóm tắt và danh sách của tất cả các công cụ và dịch vụ của
Macromolecular Structure Database (MSD)
MSDfold So sánh các chuỗi/cấu trúc và tìm kiếm các chuỗi/cấu trúc tương đồng
trong CSDL PDB hoặc trong các domain SCOP.
MSDpro Một chương trình ứng dụng cho phép xây dựng các truy vấn quan hệ
phức tạp của MSD mà không cần biết sự sắp xếp của dữ liệu trong
CSDL hoặc ngân như mà truy vấn đó sử dụng.
MSDsite Công cụ cho phép tìm các vị trí hoạt động dựa vào chất gắn (chẳng hạn
ATP) hoặc thông tin vị trí hoạt động (CYS CYS CYS CYS).
NMR Representatives Tìm kiếm các cấu trúc thu được từ NMR trong PDB
PQS Xác định cấu trúc bậc 4
PQS-Quick Công cụ cho phép xác định được thông tin cấu trúc bậc 4 từ mã ID của
PDB một cách nhanh chóng.
f/ Các công cụ khácf/ Các công cụ khác
Công cụ Ứng dụng, mô tả
BioLayout Trình bày, hình ảnh hóa các biểu đồ và mạng lưới sinh học, chẳng hạn như độ
giống nhau giữa các trình tự protein và các mạng lưới tương tác protein.
CAST Lọc để phát hiện các thành phần trình tự protein bias của Computational
Genomics Group.
EBIMed NEW Là một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.
EMBL Computational ServicesTập hợp các công cụ do EMBL cung cấp ở Heidelberg Đức để phân tích trình tự
DNA/protein.
Expression Profiler Một bộ các công cụ cho phép phân tích, nhóm và hiển thị sự biểu hiện gen và các
dữ liệu genom.
NEWT CSDL taxon, kết hợp các dữ liệu taxon ở NCBI với CSDL của UniProtKB/Swiss-
Prot
Protein Colourer Một công cụ cho phép tô màu các trình tự axit amin.
Protein Corral NEW Một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.
Readseq Công cụ chuyển các trình tự sang các dạng format khác nhau.
Webservices Cung cấp các chương trình truy cập vào các CSDL sinh học khác nhau.
Whatizit Có thể nói cho người sử dụng biết ý nghĩa của các từ tìm thấy trong văn bản
phục thuộc vào dạng thông tin mà người dùng muốn xem ở dạng được hightlight.
3.3.2. Công cụ của NCBI
a/ Các công cụ phân tích trình tự
 Cluster of Orthologous Groups (COGs): Một hệ
thống của các họ gen từ các genom hoàn chỉnh.
 Gene Expression Omnibus (GEO): Kho dữ liệu gen
biểu hiện và các nguồn trực tuyến cho việc thu nhận các
dữ liệu gen biểu hiện.
 HomoloGene: So sánh các trình tự nucleotide giữa các
cặp sinh vật để xác định các gen ở các loài khác nhau
được tiến hóa từ một gen tổ tiên chung do quá trình phân
loài và chúng thường vẫn giữ được nguyên chức năng
trong quá trình tiến hóa.
 CSDL các vùng bảo thủ (
Conserved Domain Database CDD): Tập hợp các
bản so sánh trình tự (sequence alignment) và các profile
của các vùng bảo thủ của các phân tử protein trong quá
trình tiến hóa phân tử.
 Tập hợp các gen động vật có vú (
Mammalian Gene Collection MGC): Một nỗ lực mới
của NIH để thu được các nguồn cDNA với chiều dài đầy
đủ.
 Clone Registry: Một CSDL được sử dụng bởi sự tham
gia của các trung tâm trình tự genom người và chuột để
lưu giữ những dòng được lựa chọn từ việc đọc trình tự, các
dòng đang được đọc trình tự và các dòng đã hoàn tất và
 Trace Archive: Được phát triển để lưu giữ các dữ liệu
trình tự thô được tạo ra từ các dự án xác định trình tự.
 Tìm khung đọc mở (ORF Finder): Một công cụ phân
tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung
đọc mở của một đoạn trình tự hoặc một trình tự có trong
CSDL.
 VecScreen: Một công cụ cho phép xác định các đoạn
trình tự nucleotide mà có thể là của vector, các vùng
linker hoặc các điểm khởi đầu sao chép (origin) trước khi
sử dụng các công cụ phân tích trình tự hoặc đăng ký trình
tự.
 Electronic-PCR (e-PCR): Có thể được sử dụng để so
sánh một trình tự truy vấn (query sequence) với các vị trí
trong trình tự đánh dấu (sequence-tagged sites) để tìm ra
một vị trí bản đồ có thể cho trình tự truy vấn.
b/ Tìm kiếm trình tự giống nhau (Sequence Similarity
Searching)
 BLAST Homepage: Cho phép truy cập vào chương
trình và công cụ BLAST (Basic Local Alignment Search
Tool), các trợ giúp…
 BLink: Trình bày các kết quả tìm kiếm của BLAST đối
với mỗi trình tự protein trong CSDL protein Entrez.
 Network-Client BLAST: cho phép tiếp cận các công
cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả
các trình tự trong file FASTA và tạo ra một hay nhiều các
bản so sánh trình tự dưới dạng text hoặc HTML.
 Stand-alone BLAST: Chương trình có thể sử dụng sau
khi download và cài đặt vào trong máy tính cá nhân.
c/ Hệ thống đơn vị phân loại (Taxonomy)
 Taxonomy Browser: Công cụ cho phép tìm kiếm các
CSDL taxonomy của NCBI
 Taxonomy BLAST: Các nhóm công cụ BLAST sắp xếp
các nguồn sinh vật theo CSDL Taxonomy của NCBI.
 TaxTable: Bảng tóm tắt các dữ liệu taxon của BLAST và
các mối quan hệ của sinh vật với nhau thông qua dạng đồ
hoạ màu.
 ProtTable: Cung cấp một bảng tóm tắt các vùng mã hóa
protein trong một gene
 TaxPlot: Cung cấp các dạng quan sát genom giống nhau
(three-way view of genome similarities).
 d/ Đăng ký trình tự (Sequence Submission)
 Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF
finder, một công cụ để sửa chữa và xem trình tự.
 BankIt: Đăng ký một hay nhiều trình tự một lúc thông qua
WWW.
e/ Tìm kiếm các thuật ngữ (Text Term Searching)
 Entrez: Truy cập vào các dữ liệu trình tự protein và DNA
từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D,
các thông tin và bản đồ gen và PubMed MEDLINE.
 LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết
nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong
Entrez với các nguồn trang Web bên ngoài.
 Citation Matcher: Cho phép tìm các ID của PubMed
hoặc các UID của MEDLINE của bất kỳ bài báo nào trong
CSDL PubMed.
f/ Các công cụ cho thể hiện cấu trúc 3D và các kết
quả tìm kiếm trình tự giống nhau (Tools for 3d
structure display and similarity searching)
 CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ
(Conserved Domain Search Service (CD-Search) có thể
được sử dụng để xác định các vùng bảo thủ có mặt trong
các trình tự protein.
 Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc
3D cho các CSDL NCBI.
 Domain Architecture Retrieval Tool: Displays the
functional domains that make up a protein and lists
proteins with similar domain architectures.
 VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so
sánh cấu trúc protein của mọt cấu trúc protein mới xác
định với các CSDL MMDB/PDB.
g/ CSDL bản đồ (MAPS)
Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau.
 Công cụ quan sát bản đồ (Map Viewer): Cung cấp
công cụ quan sát bản đồ nhiễm sắc thể của hơn 17 loài
sinh vật. Map Viewer trình bày một hoặc nhiều bản đồ đã
được so sánh với nhau dựa trên các chỉ thị và các gen,
đối với bản đồ trình tự dựa vào mức độ giống nhau giữa
các trình tự. Hiện nay, có các bản đồ của Arabidopsis,
Ruồi giấm (fruit fly), người (human), bản đồ tương đồng
của người và chuột, sốt rét, muỗi, chuột, giun tròn
(nemato), chuột (rat), Zebrafish…
3.4. ExpaSy
3.4.1. Cơ sở dữ liệu ExpaSy
 Swiss-Prot and TrEMBL – CSDL protein đã biết
 PROSITE – Các họ protein và các domain.
 SWISS-2DPAGE – CSDL protein (điện di 2 chiều trên gel
polyacrylamide)
 ENZYME - Định tên các enzym (Enzyme nomenclature)
 SWISS-MODEL Repository – Các mô hình protein được
tạo ra tự động (Automatically generated protein models)
 GermOnLine – CSDL về sự biệt hóa tế bào mầm.
 Ashbya Genome Database
 Và các đường dẫn đến các CSDL khác.
 SWISS-PROT
 Swiss-Prot là một cơ sở dữ liệu protein được khởi đầu
vào năm 1986 do sự hợp tác của Department of Medical
Biochemistry ở Trường đại học Geneva và EMBL. Sau
năm 1994, tổ chức này chuyển tới một trạm của EMBL ở
Anh gọi là EBI. Vào tháng 4 năm 1998, nó được chuyển
tới Swiss Institute of Bioinformatics (SIB), do đó cơ sở dữ
liệu này bây giờ được duy trì bởi SIB và EBI/EMBL. Cơ sở
dữ liệu này cố gắng để cung cấp những thông tin ở mức
độ cao bao gồm: các mô tả về chức năng của các protein
và cấu trúc của các domain của nó, sự cải biến sau phiên
mã, các dạng biến đổi và những thông tin khác. SWISS-
PROT mục đích là để giảm thiểu sự dư thừa, và nó liên
kết với nhiều nguồn khác. Vào năm 1996, một chương
trình hỗ trợ máy tính cho SWISS-PROT được tạo ra gọi là
TrEMBL (sẽ được mô tả chi tiết dưới đây). Trước hết
chúng ta hãy tìm hiểu kỹ hơn về cấu trúc của SWISS-
PROT.
 Cấu trúc của SWISS-PROT
 Cấu trúc của cơ sở dữ liệu, và số lượng các mô tả
của nó, các bộ SWISS-PROT tách khỏi các nguồn trình
tự protein khác và nó đã trở thành một trong những cơ sở
dữ liệu được lựa chọn cho hầu hết các mục đích nghiên
cứu. Vào giữa những năm 1998, cơ sở dữ liệu chứa
70000 mục đăng nhập từ hơn 5000 loài khác nhau tập
trung chủ yếu là Homo sapiens, Saccharomyces
cerevisiae, Escherichia coli, Mus musculus và Rattus
norvegicus.
3.4.2. Các công cụ phân tích
3.4.2.1. Nhận dạng và xác định các đặc điểm của protein
a/ Nhận dạng và xác định các protein thông qua các dữ liệu
peptide thu được từ khối phổ.
 Aldente - Nhận dạng các protein với các dữ liệu khối phổ
peptide. Đây là một tiến bộ mới trong vịêc nhận dạng
protein.
 FindMod - Dự đoán những khả năng cải biến sau dịch mã
và khả năng thay thế các amino acid trong chuỗi peptide.
Các thực nghiệm đo khối lượng peptide với các peptide
tính toán lý thuyết từ CSDL Swiss-Prot hoặc từ các trình tự
do người sử dụng đăng ký. So sánh sự khác biệt về khối
lượng của các peptide cũng là một trong những biện pháp
hiệu quả trong việc nhận dạng protein.
 FindPept - Nhận dạng các peptide do kết quả từ các thí
nghiệm khối phổ từ đó giải thích cho những cải biến hóa
học, cải biến sau dịch mã và hoạt động tự thủy phân.
 GlycoMod - Dự đoán các cấu trúc oligosacharide xảy ra
trên phân tử protein từ các thí nghiệm khác định khối
lượng.
 PepMAPPER – Công cụ nhận dạng khối lượng peptide từ
UMIST, UK
 ProFound – Tìm kiếm các trình tự protein đã biết với thông
tin về khối lượng peptide từ trường đại học Rockefeller and
NY.
b/ Nhận dạng và xác định các đặc điểm của protein nhờ dữ
liệu MS/MS.
 Popitam - Công cụ nhận dạng và xác định protein cho các
peptide với những cải biến không đoán trước được, chẳng
hạn đột biết hoặc những cải biến sau dịch mã nhờ vào
khối phổ xen kẽ (tandem mass spectrometry)
 Phenyx - Nhận dạng, xác định đặc điểm của protein và
peptide từ dữ liệu MS/MS từ GeneBio, Switzerland
 OMSSA - Nhận dạng các phổ peptide MS/MS bằng cách
so sánh các thư viện của các protein đã biết.
 PepFrag – Tìm kiếm các trình tự protein đã biết với thông
tin về khối phổ mảnh peptide từ Rockefeller và NY
Universities hoặc từ Genomic Solutions
 ProteinProspector - UCSF tools for fragment-ion masses
data (MS-Tag, MS-Seq, MS-Product, etc.)
 SearchXLinks – Phân tích khối phổ của các protein đã bị
cải biến, liên kết ngang, phân giải mà có các trìh tự axit
amin đã biết từ Caesar, Đức.
c/c/ Nhận dạng protein dựa vào thành phần axit amin, pI, khốidạng protein dựa vào thành phần axit amin, pI, khối
lượng phân tử…lượng phân tử…
 AACompIdent - Xác định một protein nhờ vào thành phầnAACompIdent - Xác định một protein nhờ vào thành phần
axit amin của nó.axit amin của nó.
 AACompSim - So sánh thành phần axit amin của mộtAACompSim - So sánh thành phần axit amin của một
đăng nhập trong UniProtKB/Swiss-Prot với các đăng nhậpđăng nhập trong UniProtKB/Swiss-Prot với các đăng nhập
khác (other entries)khác (other entries)
 TagIdent - Nhận dạng các protein nhờ vào pI, Mw và cácTagIdent - Nhận dạng các protein nhờ vào pI, Mw và các
trình tự đeo thẻ (sequence tag) hoặc đưa ra một danhtrình tự đeo thẻ (sequence tag) hoặc đưa ra một danh
sách các protein có pI và Mw gần với protein truy vấnsách các protein có pI và Mw gần với protein truy vấn
nhất.nhất.
 MultiIdent - Nhận dạng các protein dựa vào thành phầnMultiIdent - Nhận dạng các protein dựa vào thành phần
axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổaxit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổ
peptide.peptide.
d/ Các công cụ dự đoán khác (other prediction tools)
 GlycanMass - Tính toán khối lượng của một cấu trúcGlycanMass - Tính toán khối lượng của một cấu trúc
oligosacharide.oligosacharide.
 PeptideCutter - Dự đoán các vị trí phân cắt và thủy phânPeptideCutter - Dự đoán các vị trí phân cắt và thủy phân
bởi các hóa chất đối với một trình tự nhất định.bởi các hóa chất đối với một trình tự nhất định.
PeptideMass - Tính toán khối lượng peptide và các cảiPeptideMass - Tính toán khối lượng peptide và các cải
biến sau dịch mã đối với một đăng nhập củabiến sau dịch mã đối với một đăng nhập của
UniProtKB/Swiss-Prot hoặc UniProtKB/TrEMBL hoặcUniProtKB/Swiss-Prot hoặc UniProtKB/TrEMBL hoặc
một trình tự bất kỳ do người sử dụng đưa vào.một trình tự bất kỳ do người sử dụng đưa vào.
 IsotopIdent - Dự đoán sự phân bố đồng vị về mặt lýIsotopIdent - Dự đoán sự phân bố đồng vị về mặt lý
thuyết của một chuối peptide, protein, polynucleotidethuyết của một chuối peptide, protein, polynucleotide
hoặc các chất hóa học.hoặc các chất hóa học.
3.4.2.2. Các công cụ chuyển DNA -> Protein
 Translate - Dịch mã một trình tự nucleotide thành một
trình tự protein.
 Transeq - Dịch mã từ trình tự nucleotide thành protein từ
phần mềm EMBOSS.
 Graphical Codon Usage Analyser – Hiển thị “codon bias”
dưới dạng đồ họa.
 “Codon bias” là một thuật ngữ chỉ hiện tượng tần suất
một bộ ba được sử dụng để mã hóa cho một axit amin
nào đó ở một sinh vật nhất định cao hơn so với các bộ
ba khác cùng mã hóa.Mỗi loài sinh vật có dạng “codon
bias” khác nhau.
 BCM search launcher - Dịch mã ra 6 khung từ một trình
tự nucleotide.
 Backtranslation - Dịch mã một trình tự protein ngược trở
lại thành trình tự nucleoide.
 Reverse Translate - Dịch mã một trình tự protein thành
trình tự nucleotide.
 Genewise – So sánh trình tự của một protein với trình tự
DNA genomic để nghiên cứu intron, các đột biến lệch
khung.
 FSED – Phát hiện đột biến lệch khung đọc.
 List of gene identification software sites
3.4.2.3. Tìm kiếm các trình tự giống nhau
BLAST và WU-BLAST - kết hợp với rất nhiều các phiên bản
BLAST (Basic Local Alignment Search Tool)
 BLAST Mạng lưới dịch vụ của ExPASy
 BLAST ở EMBnet-CH/SIB (Switzerland)
 BLAST ở NCBI
 WU-BLAST của EMBL (Heidelberg)
 WU-BLAST và BLAST ở EBI (Hinxton)
 BLAST ở PBIL (Lyon)
 Fasta3 – Phiên bản FASTA 3 ở EBI
 MPsrch – So sánh trình tự của Smith/Waterman ở EBI
 PropSearch – Tìm kiếm cấu trúc tương đồng
 Scanps – Tìm kiếm trình tự giống nhau bằng thuật toán
của Barton

Tin sinh hoc

  • 1.
    Bé GI¸O DôCVµ §µo t¹oBé GI¸O DôC Vµ §µo t¹o tr­êng ®¹i häc n«ng nghiÖp hµ néitr­êng ®¹i häc n«ng nghiÖp hµ néi Bµi gi¶ng Tin sinh häCBµi gi¶ng Tin sinh häC TThS. Phan Träng NhËthS. Phan Träng NhËt Bé m«n C«ng nghÖsinh häcBé m«n C«ng nghÖsinh häc
  • 2.
    CHƯƠNG I: GIỚITHIỆU VỀ INTERNET VÀ SỰ RA ĐỜI CỦA TIN SINH HỌC 1.1. Giới thiệu về Internet Khái niệm • Internet là mạng máy tính toàn cầu để liên kết các tổ chức, trung tâm, viện nghiên cứu, trường học.... • Để máy tính hoạt động hiệu quả thì chúng phải cùng chia sẻ một phương tiện truyền thông được gọi chung là TCP/IP.
  • 3.
    Các máy tínhgiao tiếp với nhau bằng cách nào? TCP/IP (Transmission Control Protocol/ Internet Protocol) gọi là giao thức truyền dữ liệu/ giao thức Internet. Giao thức này cho phép các máy tính trên mạng trao đổi dữ liệu với nhau một cách thống nhất, tương tự như một ngôn ngữ quốc tế được mọi người cùng sử dụng để có thể hiểu nhau. Mỗi máy tính trên internet được đặt một tên duy nhất đó là địa chỉ IP Ví dụ: IP: 203.162.8.82 hay IP: http:// www.hau1.edu.vn
  • 4.
    1.1.1. Lịch sửra đời của Internet • Năm 1969: Mạng ARPANET được ra đời dưới sự tài trợ của cơ quan quản lý các dự án nghiên cứu phát triển ARPA (American Research Projects Agency) thuộc Bộ Quốc phòng Mỹ (US Department of Defence). • Khởi điểm là 4 nút mạng đặt tại 4 trường đại học của Mỹ:  Đại học California Los Angeles (UCLA)  Học viện nghiên cứu Standford (SRI)  Đại học California Santa Barbara (UCSB)  Đại học Utah
  • 5.
     Đó làmạng liên khu vực (WAN: Wide Area Network) đầu tiên được xây dựng, đánh dấu sự ra đời của internet ngày nay.  Trung tâm nghiên cứu Xeroc Corporation Palo Alto phát triển chuẩn kết nối Ethernet. Những năm 1980, giao thức TCP/IP trên Ethernet trở thành giao thức thông dụng trên mạng cục bộ.  Năm 1983, Bộ Quốc phòng Mỹ đã tách ARPANET làm hai mạng con:  MILNET: dành cho các hoạt động quân sự.  ARPANET mới: dành cho các hoạt động phi quân sự, trường đại học, viện nghiên cứu.
  • 6.
    • Năm 1986,Tổ chức quỹ khoa học quốc gia NSF (National Science Foudation) thành lập mạng NSFNET. Nhiều doanh nghiệp chuyển từ ARPANET sang NSFNET. • Năm 1990, ARPANET ngừng hoạt động sau gần 20 năm. • Năm 1995, NSFNET thu lại thành một mạng nghiên cứu còn Internet thì vẫn tiếp tục phát triển. • Năm 1991, WWW (World Wide Web) ra đời đặt nền móng cho việc chuyển tải thông tin đa phương tiện (multimedia) thông qua các siêu liên kết (hyperlink) rất tiện dụng cho việc khai thác internet. Tổ chức W3C (World Wide Web Consorticum) ra đời: nghiên cứu các chuẩn chung cho Web.
  • 7.
     Cuối năm1992, xuất hiện nhà cung cấp thông tin thương mại đầu tiên là Delphi.  Tháng 6/1993: có khoảng 130 website.  Năm 1994: có khoảng 3.000 website.  Hiện nay: Vài trăm triệu website.  Không có bất kỳ cá nhân hay tổ chức nào có toàn quyền kiểm soát internet mà mỗi nhà quản trị chỉ quản lý phần mạng của tổ chức mình.  Để internet hoạt động theo một chiều hướng thống nhất thì hiệp hội internet và W3C có nhiệm vụ phát triển các giao thức truyền thông tin chung trên internet và theo dõi các chuẩn về web.
  • 8.
     Số lượngmáy chủ: Năm 1981: khoảng 200 máy Năm 1985: khoảng 2000 máy Nay: > 9.000.000 máy  Internet trở thành mạng lớn nhất thế giới: mạng của các mạng và xuất hiện trong mọi lĩnh vực: Chính trị, quân sự, thương mại, nghiên cứu, giáo dục, văn hoá, xã hội...
  • 9.
    1.1.2. Sự hìnhthành Internet ở Việt Nam • Năm 1993 mạng VARENET (Vietnam Academic Research Education Network) được thành lập, tạo tiền đề cho việc hình thành mạng lưới internet Việt Nam. VARENET ra đời từ Chương trình hợp tác nghiên cứu khoa học, triển khai công nghệ mạng tại Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam với sự hợp tác khoa học của Đại học Quốc gia Australia (ANU). Máy chủ của mạng VARENET đặt tại ANU. • Năm 1993: VARENET chỉ có một chức năng duy nhất là phục vụ thư điện tử (E-mail) cho các văn phòng đại diện nước ngoài, các Cty liên doanh hay 100% vốn nước ngoài do tính chất mới và chi phí tài chính cao tại Việt Nam.
  • 10.
    • Ngày 19– 11 - 1997, khi Chính phủ Việt Nam quyết định chính thức kết nối internet thì tên miền (.vn) được phía Australia bàn giao cho Tổng cục Bưu điện Việt Nam. Sự hình thành của hàng loạt các nhà cung cấp dịch vụ internet sau đó đã làm mờ nhạt vai trò của VARENET. • Sau VARENET, mạng diện rộng thứ hai là VINANET (Vietnam Network) ra đời ở Việt Nam của Trung tâm Thông tin Thương mại thuộc Bộ Thương mại. VINANET cung cấp thông tin giá cả thị trường trong nước và quốc tế, địa chỉ doanh nghiệp, văn bản tư pháp.... Tốc độ truy cập thời kỳ này là 2,4kbps qua đường dây điện thoại.
  • 11.
    • Năm 1997,hàng loạt các nhà cung cấp dịch vụ internet (ISP) và các nhà cung cấp thông tin lên internet (ICP) như: VNN, FPT, Saigonnet, Netnam và CINET. • VNN (Vietnam Network) là mạng máy tính của Công ty Điện toán và truyền số liệu VDC (Vietnam Datacommunication Company) thuộc Tổng công ty Bưu chính viễn thông Việt Nam, hình thành năm 1997. • FPT (Company for Financing and Promoting Technology) là Công ty Tài chính và Kỹ thuật Quảng cáo, thành lập năm 1997.
  • 12.
    • Saigonnet thuộcCông ty Cổ phần Bưu chính viễn thông Sài gòn SPT (Saigon Post and Telecommunication Service Corporation), thành lập năm 1997. • Netnam thuộc Viện Công nghệ thông tin, thành lập năm 1998. • CINET (Culture and Information Net) thuộc Bộ Văn hoá và Thông tin, thành lập năm 1997. • Trong số các ISP kể trên, VNN dẫn đầu danh sách với ưu thế vừa là IAP (cung cấp cổng truy cập internet) vừa là cung cấp dịch vụ internet ISP (Internet Service
  • 13.
    1.2. Kết cấumạng Internet 1.2.1. Các kiểu mạng: • Mạng cục bộ LAN (Local Area Network) • Mạng vùng trung tâm MAN (Metropolitan Area Network) • Mạng diện rộng WAN (Wide Area Network)  Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài km, ngoại trừ trường hợp máy tính đơn kết nối trực tiếp với internet, tất cả các máy tính có nối mạng đều nối vào mạng LAN. Mạng LAN được dùng cho một toà nhà, trường học, thư viện, bệnh viện…
  • 14.
     Một đặcđiểm của mạng LAN là khi một máy tính truyền dữ liệu thì tất cả các máy tính trong mạng đều có thể nhận dữ liệu đó, đặc tính này gọi là broadcasting.  Máy tính trong mạng LAN sử dụng kỹ thuật gọi là Carrier Sense Multiple Access/ Collision Detect (CSMA/CD) nghĩa là không gửi khi máy tính khác đang gửi và kiểm tra những gì gửi đi có xung đột với các máy tính khác.  Công nghệ LAN mới nhất hiện nay là mạng không dây sử dụng tia hồng ngoại hay sóng radio thay cho cáp để truyền tín hiệu mạng. Tốc độ truyền từ 1 đến 11 Mbps, nó thích hợp cho những người di chuyển thường xuyên hay những nơi mà không thể đặt dây cáp.
  • 15.
     Mạng vùngtrung tâm MAN Khác với mạng LAN là dùng chung một thiết bị truyền trong mạng nên cho phép nhiều máy tính kết nối vào cùng một sợi dây, mạng MAN sử dụng các kết nối điểm đến điểm (point to point) với chỉ một máy tính tại cuối mỗi liên kết. Các máy tính tại cuối mỗi liên kết của MAN cũng có thể kết nối với các mạng LAN, MAN và WAN.
  • 16.
     Mạng diệnrộng WAN Phạm vi của mạng có thể là một quốc gia hay thậm chí cả lục địa. Cũng giống như đa số MAN, mạng WAN dùng các kết nối vật lý điểm đến điểm nhưng dùng cáp xoắn. Công nghệ WAN thường có nguồn gốc từ các hệ thống xây dựng để phục vụ cho các công ty điện thoại.
  • 17.
    1.2.2. Kết nốiInternet  Kết nối vật lý: kết nối các thiết bị phần cứng như modem, dây cáp để thực hiện việc nối từ một máy tính đến mạng internet thông qua các nhà cung cấp mạng.  Sau khi kết nối vật lý, việc kết nối internet có thể thực hiện theo hai cách:  Kết nối trực tiếp: cần có modem tốc độ cao nối với cổng V35 của thiết bị định tuyến (Router) để kết nối trực tiếp vào internet thông qua kênh thuê bao riêng. Các loại dịch vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm: Đường truyền thường trực (Leased Line) Đường dây thuê bao số bất đối xứng ADSL (Asymetrical Digital Subcribe Line)
  • 18.
     Kết nốigián tiếp: chỉ cần một modem và một đường dây điện thoại để quay số vào mạng. Dịch vụ này có: Quay số kết nối qua mạng điện thoại Dial-Up Mạng số tích hợp đa dịch vụ (Intergrated Service Digital Network)  So với kết nối internet gián tiếp, kết nối internet trực tiếp có nhiều ưu điểm như: băng thông rộng, tốc độ cao và ổn định, hoạt động liên tục (online 24/24). Đương nhiên chi phí cho việc kết nối trực cũng tốn kém hơn nhiều so với loại gián tiếp.
  • 19.
    Sau khi đãlựa chọn cách kết nối internet thì chúng ta quan tâm đến dịch vụ nào cho phép chúng ta lướt trên internet. Có 2 nhóm chính là:  Các dịch vụ trực tuyến (online service) như America Online (AOL) và CompuServe thường cung cấp một lượng lớn các dịch vụ Intergrative Digital bao gồm Information retrieval, thư điện tử (e-mail), bảng tin (bulletin board) và “chat room’’ nhờ đó người sử dụng trực tuyến đồng thời có thể quan tâm đến một vài lĩnh vực cùng một lúc.  Các nhà cung cấp dịch vụ internet ISP (Internet Service Provider) bao gồm việc cấp tài khoản truy cập internet cho người sử dụng đồng thời cung cấp các dịch vụ internet.
  • 20.
    1.3. Một sốnét khái quát về WWW (World Wide Web) và trình duyệt Web 1.3.1. WWW và nguyên lý hoạt động WWW là gì? : WW là dịch vụ cung cấp thông tin trên hệ thống mạng Internet/Intranet. Các thông tin này được lưu trữ dưới dạng tập tin siêu văn bản (hypertext) và được truy xuất bởi trình duyệt web (Web Browser).
  • 21.
     Siêu vănbản là các tư liệu chứa văn bản, hình ảnh tĩnh, hình ảnh động, âm thanh, video… được liên kết với nhau qua các siêu liên kết (hyperlink). Thông qua các siêu liên kết, người dùng có thể nhanh chóng tham khảo các tư liệu liên quan một cách dễ dàng.  Để truy xuất các thông tin trên Web Server, các khách hàng sử dụng web (Web Client) phải sử dụng chương trình có chức năng duyệt các thông tin dạng siêu văn bản gọi là trình duyệt web. Có nhiều loại trình duyệt web như: Internet Explorer, Netscape Navigator, Opera, Neoplanet… Trong số đó, 2 trình duyệt được sử dụng phổ biến là Internet Explorer và Netscape Navigator.
  • 22.
    1.3.2. Vài nétcơ bản của trình duyệt Web Tiềm năng của Internet chỉ thực sự phát huy được khi có các trình duyệt web ra đời. Chúng cho phép truy cập tới nguồn thông tin ở các vị trí khác nhau. Các Browser là các trạm công tác có khả năng xử lý hoặc yêu cầu lấy thông tin hoặc các chương trình ứng dụng từ máy chủ của mạng. Trong đó trang chủ là điểm trung gian giữa browser và server. Hiện nay có một số Web browser đang dùng phổ biến là Lynx cho hệ điều hành Unix hoặc VMS; Mosaic cho các máy Apple Mac, X-Windows; Internet Explorer và Netscape Navigator cho các máy Windows.
  • 23.
    Ưu điểm:  Sửdụng dễ dàng, không cần phải hiểu biết nhiều về tin học – máy tính.  Người sử dụng không cần biết vị trí chính xác của trang văn bản, hình ảnh… trên mạng internet, mà chỉ cần chọn nó bằng cách nhấp chuột vào các liên kết để có được nội dung muốn tìm.
  • 24.
    Các nguyên tắcduyệt Web:  Xác định rõ thông tin muốn tìm trên web.  Xác định được những Web site nào thích hợp cho việc truy tìm thông tin.  Có thể mở nhiều của sổ cho mỗi website trong việc tìm kiếm bằng cách chọn File/New Windows hoặc tổ hợp phím Ctrl + N.  Muốn mở một liên kết trong một cửa sổ mới, nhấp phải chuột và chọn Open link in new windows.
  • 25.
    Chức năng củatrình duyệt:  Cho phép xem trang web.  Lưu lại những địa chỉ URL của trang web.  Sử dụng dịch vụ FPT bằng trình duyệt web (Web FPT)  Sử dụng các chương trình E-mail trên web (Webmail)  Các trình duyệt đều sử dụng đĩa cứng để tạm ghi các địa chỉ trang web (gọi là cache) mà người sử dụng vừa lướt qua, có thể điều chỉnh tuỳ theo nhu cầu của mỗi người.  Các chức năng hỗ trợ khác bao gồm: Ngăn chặn những trang web mang nội dung xấu, phản động và có thể thay đổi phông chữ, kích thước.
  • 26.
    1.4. Các dịchvụ, tài nguyên và đạo đức trên Internet 1.4.1. Các dịch vụ: • E-mail (Electronic mail): Thư điện tử • WWW: Mạng thông tin toàn cầu thể hiện thông tin dạng siêu văn bản. • FTP (File Transfer Protocol): Giao thức truyền tập tin trên mạng.
  • 27.
    • VoIP (Voiceover Internet Protocol): Kỹ thuật chuyển tải giọng nói qua giao thức Internet hay còn gọi là điện thoại Internet. • Video Conference: Hội nghị truyền hình. • WAI (Wireless Application Protocol): Giao thức sử dụng công nghệ không dây.
  • 28.
    1.4.2. Luật lệ,đạo đức và các quy định hoạt động của Internet • Không được truy cập (Access) bất hợp pháp vào những hệ thống đòi hỏi phải có Username và Password. • Không phá hoại và gây rối loạn hệ thống lưu thông trên Internet (gieo rắc, phát tán virus). • Không lãng phí nguồn tài nguyên (không download những tập tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm. • Không xoá tập tin của người khác. • Không xâm phạm, phát tán những thông tin có tính chất riêng tư của người khác.
  • 29.
    1.5. Sự rađời và vai trò của tin sinh học 1.5.1. Buổi bình minh của trình tự Trình tự Protein Trình tự axit nucleic 1.5.2. Sự ra đời của tin sinh học Do sự xuất hiện của các thông tin về cấu trúc, chức năng và trình tự của protein, DNA từ đó dẫn tới nhu cầu quản lý, so sánh và dự đoán cấu trúc và chức năng của sinh vật và sự phát triển của các ngành khoa học khác đặc biệt là công nghệ thông tin, máy tính. Do nhu cầu đó mà Tin sinh học đã được ra đời.
  • 30.
    1.5.3. Khái niệmTin sinh học  Là một môn khoa học phân tích các cơ sở dữ liệu sinh học nhờ sự hỗ trợ của máy tính và các công cụ thống kê.  Các ngành học của Tin sinh học bao gồm:  Tin sinh học genome  Tin sinh học protein  Tin sinh học tiến hoá  Tin sinh học nông nghiệp  Tin sinh học y học  Phát triển các công cụ và cơ sở nền
  • 31.
    1.5.4. Vai tròvà xu hướng phát triển của Tin sinh học a/ Vai trò của Tin sinh học:  Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở dữ liệu.  Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự đoán các kết quả nghiên cứu.  Hỗ trợ trong các nghiên cứu về cấu trúc không gian phân tử.  Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của sinh vật
  • 32.
    b/ Xu hướngphát triển của Tin sinh họcb/ Xu hướng phát triển của Tin sinh học Những lĩnh vực của Tin sinh học đang được tập trungNhững lĩnh vực của Tin sinh học đang được tập trung nghiên cứu:nghiên cứu:  Quản lý cơ sở dữ liệuQuản lý cơ sở dữ liệu  Phân tích, biên dịch dữ liệuPhân tích, biên dịch dữ liệu  Phát triển các thuật toánPhát triển các thuật toán  Các cấu trúc cơ sở dữ liệuCác cấu trúc cơ sở dữ liệu  Thiết kế các giao diện và hiển thịThiết kế các giao diện và hiển thị
  • 33.
    c/ Địa chỉcó thể tìm hiểu thêm những tài liệu về Tin sinhc/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin sinh học:học:  http://www.iscb.orghttp://www.iscb.org  http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov  http://www.bioinformatics.orghttp://www.bioinformatics.org  Các tạp chí về BioinformaticsCác tạp chí về Bioinformatics  Các công cụ tìm kiếm (Google, Yahoo…)Các công cụ tìm kiếm (Google, Yahoo…)  Các hội nghị, hội thảoCác hội nghị, hội thảo  Các thư việnCác thư viện
  • 34.
    CHƯƠNG 2 TÌM KIẾMTHÔNG TIN TRÊN INTERNET 2.1. Khái niệm về thông tin 1. Thông tin là gì? Thông tin là các dữ liệu và tri thức được sử dụng trong thực tiễn để giải quyết một số vấn đề hoặc một nhiệm vụ nào đó. 2. Các thuộc tính của thông tin  Giá trị của thông tin phụ thuộc vào: Chất lượng của thông tin Trình độ của người sử dụng  Thông tin có chất lượng khi nó có những tính chất sau: Chính xác và đáng tin cậy Kịp thời Đặc trưng và định hướng cho người dùng thi cụ thể
  • 35.
     Khái niệmchung về tìm tin: Tìm tin là một thuật ngữ chung để chỉ công việc tìm tài liệu hay nguồn của tài liệu, cũng như thông tin về dữ liệu và sự kiện mà tài liệu đó cung cấp. 2.2. Các công cụ tìm kiếm thông tin  Biểu thức tìm tin:  Biểu thức tìm tin là một tập hợp các từ khóa được liên kết với nhau bằng các toán tử logic.  Các loại toán tử logic thường sử dụng khi tìm tin:  Phép nối đồng thời hai từ khóa hay và (and, +): Ví dụ: “Cây lúa” + “hoa màu” hoặc “Cây lúa” & “Hoa màu”.
  • 36.
     Phép lựachọn hay hoặc: Ví dụ: “Cây lúa” or “Hoa màu”.  Phép loại trừ: Ví dụ: “Cây lúa” – “Hoa màu”.  Phép phủ định (Not, !): Ví dụ: Internet &! Computer.  Sử dụng các dấu ngoặc: Ví dụ: (PCR or RAPD) and not (AFLP or SSR).  Các toán tử gần đúng: NEAR (gần như), ADJ (gần như) , SAME (đại loại giống như), FBY (theo sau bởi).
  • 37.
     Những lưuý về việc chọn lựa từ khóa  Tốt nhất chỉ nên dùng danh từ làm từ khóa.  Trong khi tìm kiếm các tài liệu tiếng nước ngoài không nên sử dụng các mạo từ, giới từ.  Sắp xếp các từ khóa quan trọng trước theo thứ tự ưu tiên.  Nên sử dụng ít nhất là hai từ khoá (thường là 3) và kết hợp các từ khóa thành những cụm từ.  Tránh sử dụng các từ thường sử dụng (tần suất lặp lại rất nhiều ở hầu hết các tài liệu).  Để tìm thông tin cụ thể tốt nhất hay chọn những từ khóa mà có thể sẽ là tiêu đề cho tài liệu hoặc tên trang Web.
  • 38.
    2.3. Cách tìmkiếm thông tin  Nguyên tắc chung  Mở nhiều cửa sổ trình duyệt (Web browser) trong khi khai thác thông tin để tăng tốc độ tìm tin (Ctrl + N).  Không nên mở trực tiếp một hyperlink ngay trên trang web chính mà mở riêng thông tin đó trên một trang Web mới (Open in new windows).  Các cách tìm tin a/ Tìm tin theo thư mục chủ đề: Thư mục chủ đề là một tập hợp các tài liệu có liên quan đến thông tin mà chúng ta cần tìm kiếm. Các ưu điểm và hạn chế của thư mục chủ đề: Chứa các thông tin cụ thể, chính xác và ít xuất hiện trong các kết quả tìm kiếm.
  • 39.
     Khi nàonên sử dụng các thư mục chủ đề: Khi muốn xem thông tin nào sẵn có trên trang Web trong một lĩnh vực, phạm vi cụ thể liên quan đến vấn đề mình quan tâm trong thời gian ngắn.  Các thư mục chủ đề tiêu biểu: Yahoo! (http://www.yahoo.com) Excite (http://www.excite.com/) LookSmart (http://www.looksmart.com) Magellan (http://magellan.excite.com/) Open Directory Project (http://www.dmoz.org) Snap (http://www.snap.com/)
  • 42.
    b/ Tìm tintheo từ khóa:  Để tìm thông tin theo từ khoá ngoài việc xác định từ khóa và biểu thức tìm tin chúng ta cần phải lựa chọn một công cụ để tìm kiếm tin hay còn gọi là các search engine.  Việc tìm kiếm nhờ các search engine có rất nhiều lợi thế vì: Thứ nhất thông tin tìm được sẽ cụ thể và chi tiết hơn. Thứ hai có rất nhiều tiêu chuẩn để lọc thông tin như: tìm thông tin theo thời gian, ngôn ngữ, định dạng file...
  • 43.
    c/ Tìm tintheo các trường  Tìm kiếm theo tiêu đề: Title: “từ khóa”, kết quả sẽ cho ra tất cả các trang Web có tên như từ khóa đã chọn. Nhanh hơn rất nhiều so với tìm kiếm từ khóa trong toàn bộ tài liệu.  Tìm kiếm theo tên miền: Tên miền gồm 3 chữ viết tắt của một lĩnh vực mà trang web đó chứa thông tin liên quan. Vi dụ: www.hau1.edu.vn khi đó domain là: edu  Tìm kiếm các hình ảnh: image: bones.gif  Ngoài ra còn có nhiều trường tìm kiếm khác như: object, text, sound, pictures, date, anchor, applet và language.
  • 45.
    2.4. Cách chọnvà đánh giá độ tin cậy của thông tin 2.4.1. Cách chọn thông tin 2.4.2. Đánh giá độ tin cậy của thông tin
  • 46.
    CHƯƠNG 3: CƠSỞ DỮ LIỆU SINH HỌC VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU 3.1. Khái quát chung về cơ sở dữ liệu sinh học  Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử.  Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.
  • 48.
    3.2. Phân tíchdữ liệu ADN và Protein3.2. Phân tích dữ liệu ADN và Protein  Các thông tin về dữ liệu ADN, protein: chủ yếu là trình tự nucleotit và trình tự axit amin  Ngân hàng gen cũng có thể được coi như một thư viện sách, trong đó mỗi cuốn sách chính là một trình tự nucleotit ADN hoặc axit amin của protein và chúng đều được đánh số.  Bằng cách này hay cách khác chúng ta có thể tìm được trình tự cần quan tâm. Tuy nhiên, vấn đề ở đây không phải là tìm bằng cách nào mà chúng ta phải hiểu được cuốn sách đó viết về cái gì và sử dụng nó như thế nào?
  • 49.
    a/ Dữ liệuADN và Protein là gi?a/ Dữ liệu ADN và Protein là gi?  Dữ liệu về trình tự nucleotit trong ADN và trình tự axit amin trong protein là những thông tin sinh học ở mức độ phân tử. Đối với ADN đó là số lượng, thành phần và trật tự sẵp xếp của các nucleotit, ribonucleotit trên một phân tử ADN, mRNA.  Các thông tin về ADN thường được chỉ rõ chúng mã hóa cho sản phẩm gen gì? có mặt ở đối tượng sinh vật nào? phân bố ở đâu. Ngoài ra các thông tin này còn liên quan đến vấn đề nghiên cứu gì và của tác giả nào?
  • 50.
    Đối với Protein,đó là số lượng và trật tự sắp xếp của các axit amin trong một phân tử protein. Các thông tin này cũng bao gồm đặc tính và vai trò của protein vị trí có mặt trong tế bào, mô, cơ quan, tác giả công bố… thậm chí còn đưa ra những giả thiết về cấu trúc của phân tử.
  • 51.
    b/ Genomic vàProteomic Genomic: Là tất cả những dữ liệu về thông tin di truyền của một loài sinh vật nhất định. Tức là hướng tiếp cận từ ADN. Proteomic: Là tất cả các sản phẩm gen (protein) của một tế bào, mô hoặc cơ quan của một sinh vật nào đó trong một giai đoạn sinh lý nhất định. Xét ở phạm vi hẹp, có thể nói đó là tập hợp sản phẩm dịch mã của tất cả các mRNA có mặt trong tế bào sinh vật tại thời điểm nghiên cứu. Tức là hướng tiếp cận từ protein.
  • 52.
    Luận thuyết trungtâm RNA DNA Protein Phiên mã Dịch mã
  • 53.
    c/ Sử dụngcác dữ liệu ADN và Protein để làm gì?c/ Sử dụng các dữ liệu ADN và Protein để làm gì?  Đối với trình tự nucleotit:  So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào (Bài thực hành tìm kiếm trình tự tương đồng).  Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide nếu đoạn ADN đó mã hóa (Bài thực hành dịch mã 1 phân tử ADN sang trình tự axit amin).  Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme…) có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.
  • 54.
     Về mặtphân loại sinh học, đối với một số gen có tính bảo thủ cao, mang tính đặc thù loài, chẳng hạn các gen mã hóa cho ARN ribosome (rRNA). Dựa vào những trình tự ADN của các gen này ở những loài sinh vật khác nhau mà người ta có thể so sánh chúng trên cơ sở xác định mức độ sai khác về trình tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới loài.  (Bài thực tập xác định mối quan hệ di truyền bằng cách so sánh trình tự nucleotit)
  • 56.
    Hình thái giốngnhau  Vật chất di truyền như thế nào?
  • 57.
    Early globin gene mouseα ß-chain geneα-chain gene cattle ß human ß mouse ßhuman α cattle α Gene Duplication
  • 58.
     Biết đượctrình tự của một gen (chẳng hạn gen ung thư hay sự có mặt của các virus nguy hiểm chẳng hạn H5N1, bệnh virus đốm trắng ở tôm…) người ta có thể phát hiện sớm bằng kỹ thuật PCR, lai ADN để ngăn chặn, điều trị.  Thiết kế những cặp mồi (primer) để nhân bản các đoạn này cho những mục đích nghiên cứu khác nhau như : Nghiên cứu sự có mặt của gen đó trong các sinh vật khác nhau (xác định sự có mặt gen chống bệnh bạc lá, đạo ôn, xác định giới tính, bệnh di truyền…). Ngoài ra, còn sử dụng các kỹ thuật microarray, DNA chip để phát hiện sự có mặt và mức độ hoạt động của các gen trong những điều kiện nhất định.
  • 59.
     Từ trìnhtự nucleotit của một phân tử ADN có thể biết được bản đồ các vị trí nhận biết của các enzym cắt hạn chế. Điều này đặc biệt có ý nghĩa trong kỹ nghệ ADN tái tổ hợp.  (Bài thực hành xác dịnh bản đồ giới hạn của genome ADN λ)  Một trong những phương pháp trị liệu gen (gene therapy) dựa trên trình tự ribonucleotit trên phân tử mRNA để tổng hợp sợi bổ sung (antisense) nhằm ngăn chặn sự hoạt động của các gen đó.
  • 60.
     Một trongnhững ứng dụng quan trọng đó là chuyển gen để tạo ra các sinh vật mới mang những đặc tính mong muốn hoặc có thể chuyển gen vào các tế bào vi khuẩn, nấm men… để sản xuất sản phẩm gen theo con đường tái tổ hợp (protein, enzym, vaccine và các hợp chất có hoạt tính sinh học).  Nếu như chúng ta biết được thành phần, trình tự sắp xếp của các axit amin trong phân tử protein, enzym nào đó có thể đánh giá được sự sai khác giữa các axit amin trong các phân tử protein, enzym cùng chức năng ở các loài khác nhau để biết được thành phần axit amin nào đóng vai trò quan trọng.
  • 61.
     Đối vớitrình tự axit amin  Nếu như chúng ta biết được thành phần, trình tự sắp xếp của các axit amin trong phân tử protein, enzym nào đó có thể đánh giá được sự sai khác giữa các axit amin trong các phân tử protein, enzym cùng chức năng ở các loài khác nhau để biết được thành phần axit amin nào đóng vai trò quan trọng.  Từ trình tự axit amin của phân tử protein, có thể suy diễn ra trình tự nucleotit của gen mã hóa.
  • 62.
     Từ trìnhtự axit amin có thể dự đoán được cấu trúc ba chiều, vị trí hoạt động (domain) của phân tử protein, enzym đó.  Ngày nay, việc phát hiện sự tương đồng hay sự có mặt của phân tử protein có thể được thực hiện bằng các kỹ thuật hiện đại như khối phổ. Tuy nhiên việc xác định trình tự các axit amin là không thể thiếu được.
  • 63.
    3.2. CSDL củacác ngân hàng gen Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều có đầy đủ thông tin cơ bản về các CSDL trên. Tuy nhiên mỗi ngân hàng có một cách phân loại và tổ chức các loại dữ liệu khác nhau. Trong phạm vi bài giảng, chương này chỉ đề cập đến những CSDL chính, được sử dụng thường xuyên.
  • 64.
  • 65.
    a/ CSDL tàiliệu (Literature Databases)  Medline: Bao quát tất cả các lĩnh vực của y học, chăm sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức khỏe và khoa học tiền lâm sàng.  Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền.  Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO).  Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự.
  • 67.
    b/ CSDL Microarray(Microarray Databases)  ArrayExpress: Một CSDL cho microarry dựa vào dữ liệu biểu hiện gen.  Miame : Thông tin tối thiểu về một thí nghiệm microarry (Minimum Information About a Microarray Experiment (MIAME).  Công nghệ microarry tận dụng các nguồn trình tự được tạo ra từ các dự án xác định trình tự genom để trả lời câu hỏi là các gen nào đang được biểu hiện ở một dạng tế bào nhất định của một sinh vật ở một thời gian nhất định trong những điều kiện nhất định
  • 69.
    c/ CSDL Nucleotide(Nucleotide Databases)c/ CSDL Nucleotide (Nucleotide Databases)  CSDL trình tự nucleotide của EMBL là một thành viên cácCSDL trình tự nucleotide của EMBL là một thành viên các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truynước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truy cập vào hàng trăm trình tự genom hoàn chỉnh cùng vớicập vào hàng trăm trình tự genom hoàn chỉnh cùng với các sản phẩm protein dịch mã nhờ máy chủ của EBI.các sản phẩm protein dịch mã nhờ máy chủ của EBI.  ASD:ASD: CSDL phân cắt nảy sinhCSDL phân cắt nảy sinh ((Alternative SplicingAlternative Splicing Database) chứa dữ liệu về các exon phân cắt phát sinhDatabase) chứa dữ liệu về các exon phân cắt phát sinh cùng với các thông tin bổ sung đi kèm. Dự án ASD nhằmcùng với các thông tin bổ sung đi kèm. Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy môhiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome.genome.
  • 70.
     ATD: CSDLđa dạng về các bản phiên mã nảy sinh (Alternate Transcript Diversity Database ATD) chứa dữ liệu về các bản phiên mã trong đó mỗi bản phiên mã được mô tả cho một dạng cắt ghép nảy sinh và sự polyadenyl hóa nảy sinh (alternative polyadenylation).  EMBL-Align database: CSDL so sánh nhiều trình tự.  EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL trình tự nucleotide EMBL, đóng góp vào nguồn trình tự nucleotide sơ cấp của châu Âu.
  • 71.
     EMBL CDS:là một CSDL của trình tự nucleotide của trình tự mã hóa (CDS coding sequence)  Ensembl: Mô tả tự động của các genome eukaryote.  Genomes Server: một cái nhìn tổng quan của các genom hoàn chỉnh ở EBI. Những trang web này cho phép truy cập với một số lượng lớn các genom hoàn chỉnh.  Genome Reviews: CSDL genom được chỉnh sửa bao gồm các phiên bản chính xác của các mục tra cứu (entry) genom hoàn chỉnh từ CSDL trình tự nucleotide của EMBL/GenBank/DDBJ  Karyn's Genomes: thu thập và mô tả một số trình tự genom.
  • 72.
     IMGT/HLA: CSDLdi truyền miễn dịch, bao gồm CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC). CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T.  IPD: CSDL đa hình miễn dịch (Immuno Polymorphism Database IPD), bao gồm các gen đa hình của hệ thống miễn dịch, chẳng hạn như KIR, HPA và MHC không phải của người.  LGICdb: CSDL các chất gắn các kênh Ion (Ligand Gated Ion Channel Database)  Mutations: Dự án CSDL sự đa hình trình tự (Sequence variation database project)  Parasites: CSDL genome ký sinh (Parasite Genome databases).
  • 74.
     d/ CSDLprotein (Protein Databases)d/ CSDL protein (Protein Databases) EBI đã phát triển và duy trì một số CSDL protein có liênEBI đã phát triển và duy trì một số CSDL protein có liên quan với nhau. Danh sách của các dự án và CSDL:quan với nhau. Danh sách của các dự án và CSDL:  CluSTr:CluSTr: Đề xuất một sự phân loại tự động củaĐề xuất một sự phân loại tự động của UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.  CSA:CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) làTập hợp các vị trí xúc tác (Catalytic Site Atlas) là một nguồn của các vị trí xúc tác và các gốc được tìmmột nguồn của các vị trí xúc tác và các gốc được tìm thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.  GO:GO: Các trang của hiệp hội Gene Ontology của EBI.Các trang của hiệp hội Gene Ontology của EBI.  GOAGOA: Cung cấp các thông tin về sản phẩm gen vào: Cung cấp các thông tin về sản phẩm gen vào nguồn GOnguồn GO..  HPIHPI: Các proteomic của người ban đầu (Human: Các proteomic của người ban đầu (Human Proteomics Initiative) là một khởi xướng bởi SIB và EBIProteomics Initiative) là một khởi xướng bởi SIB và EBI để mô tả tất cả các trình tự đã biết của người theo tiêuđể mô tả tất cả các trình tự đã biết của người theo tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot.chuẩn chất lượng của UniProtKB/Swiss-Prot.
  • 75.
     IntActIntAct: Làmột CSDL đi kèm với hệ thống phân tích, nó: Là một CSDL đi kèm với hệ thống phân tích, nó cung cấp một giao diện truy vấn và một module để phâncung cấp một giao diện truy vấn và một module để phân tích các dữ liệu.tích các dữ liệu.  IntEnz:IntEnz: CSDL liên quan giữa các enzym (IntegratedCSDL liên quan giữa các enzym (Integrated relational Enzyme database) chứa các dữ liệu enzymrelational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclatuređược chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL cácCommittee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.enzym có mối quan hệ đơn.  InterPro:InterPro: CSDL là một sự kết hợp của nguồn tài liệuCSDL là một sự kết hợp của nguồn tài liệu trích dẫn cho các họ proein, các domain và các vị trítrích dẫn cho các họ proein, các domain và các vị trí hoạt động.hoạt động.  IPI:IPI: (International Protein Index) một hệ thống proteom(International Protein Index) một hệ thống proteom không dư thừa (non-redundant) được xây dựng từkhông dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl vàUniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq.RefSeq.  PANDITPANDIT: là một bộ các chương trình so sánh trình tự và: là một bộ các chương trình so sánh trình tự và xây dựng cây phân loại.xây dựng cây phân loại.
  • 76.
     Proteome Analysis:ProteomeAnalysis: Phân tích so sánh và thống kêPhân tích so sánh và thống kê các proteom của các sinh vật.các proteom của các sinh vật.  UniProtUniProt: Nguồn Protein phổ biến cho các trình tự: Nguồn Protein phổ biến cho các trình tự protein và trung tâm của các CSDL protein cho các ngânprotein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác.hàng CSDL khác.  UniProt ArchiveUniProt Archive:: Một phần trình tự protein được tríchMột phần trình tự protein được trích ra từ CSDL công khai chỉ chứa các trình tự protein.ra từ CSDL công khai chỉ chứa các trình tự protein.  UniProt/UniRefUniProt/UniRef Features clustering of similarFeatures clustering of similar sequences to yield a representative subset ofsequences to yield a representative subset of sequences. This produces very fast search times.sequences. This produces very fast search times.  UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot : CSDL trình tự protein được: CSDL trình tự protein được mô tả, một phần của UniProtKB.mô tả, một phần của UniProtKB.  UniProtKB/TrEMBL:UniProtKB/TrEMBL: Một CSDL protein được tạo raMột CSDL protein được tạo ra bằng máy tính, là một phần của UniProtKB.bằng máy tính, là một phần của UniProtKB.
  • 79.
    e/ CSDL Proteomic(Proteomic Databases) EBI đã phát triển và lưu giữ một số lượng lớn các CSDL liên quan proteom. Dưới đây là một số CSDL proteom.  ChEBI (Chemical Entities of Biological Interest ChEBI): một từ điển của các phân tử nhỏ (small molecular ).  IntAct : Cung cấp một hệ thống CSDL mở, sẵn có và các công cụ phân tích cho các dữ liệu tương tác protein.
  • 80.
     IntEnz (Integratedrelational Enzyme database IntEnz) sẽ chứa dữ liệu enzym được hội định tên quốc tế (Nomenclature Committee) xác nhận. Mục tiêu là để tạo ra một CSDL quan hệ enzym đơn.  IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực của dược học theo nghĩa rộng nhất của nó từ lý thuyết cho đến lâm sàng ở quy mô thế giới.  PRIDE (PRoteomics IDEntifications database) cho phép đăng ký (submit) dữ liệu protein ở dạng PRIDE
  • 82.
    f/ CSDL cấutrúc (Structure Databases)f/ CSDL cấu trúc (Structure Databases) EBI đã phát triển và duy trì một số lượng các CSDL có liênEBI đã phát triển và duy trì một số lượng các CSDL có liên quan đến cấu trúc của các đại phân tử. Trong đó quanquan đến cấu trúc của các đại phân tử. Trong đó quan trọng nhất là (Macromolecular Structure Database MSD).trọng nhất là (Macromolecular Structure Database MSD).  DALI:DALI: Thư mục cấu trúc domain của các protein.Thư mục cấu trúc domain của các protein.  MSDMSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm: CSDL cấu trúc các đại phân tử (MSD), bao gồm các công cụ tìm kiếm PDB.các công cụ tìm kiếm PDB.  MSDchem:MSDchem: Thư viện hóa học của các thành phần hóaThư viện hóa học của các thành phần hóa học tìm thấy trong PDB.học tìm thấy trong PDB.  MSDliteMSDlite: Cung cấp các công cụ dễ dàng truy cập vào: Cung cấp các công cụ dễ dàng truy cập vào PDB.PDB.  MSDtargetMSDtarget: Máy chủ chung cấp các công cụ tìm kiếm: Máy chủ chung cấp các công cụ tìm kiếm
  • 83.
     RESIDRESID: CSDLcác protein cải biến là một tập hợp các: CSDL các protein cải biến là một tập hợp các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu amino,cấu trúc và mô tả cho cấccỉ biến bao gồm đầu amino, carboxyl tận cùng…carboxyl tận cùng…  ReactomeReactome: CSLD chính xác về các quá trình sinh học ở: CSLD chính xác về các quá trình sinh học ở cơ thể người. Reactome sẽ không chỉ hữu ích đối với cáccơ thể người. Reactome sẽ không chỉ hữu ích đối với các nhà sinh học nói chung như là một cuốn sách về sinhnhà sinh học nói chung như là một cuốn sách về sinh học trực tuyến mà còn có ích đối với các nhà tin sinh họchọc trực tuyến mà còn có ích đối với các nhà tin sinh học phát hiện ra các con đường sinh học mới.phát hiện ra các con đường sinh học mới.  BioModelsBioModels: CSDL của các mô hình sinh học cho phép: CSDL của các mô hình sinh học cho phép các nhà sinh học lưu giữ, tìm kiếm và công bố các môcác nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình toán học trong lĩnh vực sinh học.hình toán học trong lĩnh vực sinh học.
  • 85.
    3.2.2. CSDL củaNCBI a/ CSDL tài liệu (Literature Database)  Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ đề nghiên cứu mới, miễn phí, có một phần ở PubMed.  PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong lĩnh vực sinh y học.  PubMed Central: Là một tạp chí khoa học sự sống, kết hợp với hệ thống Enztrez, PMC cho phép truy cập tự do và không hạn chế với hơn 160 tạp chí khoa học sự sống.
  • 86.
     Online MendelianInheritance in Man (OMIM): Với hơn 15.000 đăng mục, OMIM được duy trì bởi tiến sỹ Victor A. McKusick và cộng sự (đại học Johns Hopkins), đăng tải một hệ thống các bệnh di truyền và liên tục được update.  Online Mendelian Inheritance in Animals (OMIA): Là một CSDL của các gen, các rối loạn di truyền và các tính trạng của các loài động vật.  Journals: Tìm kiếm các CSDL tạp chí cho phép kết nối (link) các tạp chí với hệ thống Entrez kể cả CSDL di truyền.
  • 88.
    b/ CSDL Nucleotide(Nucleotide databases)  GenBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có  GenBank® là CSDL trình tự di truyền của NIH. Có khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GenBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005.  Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, một phiên bản update được đưa ra.  GenBank là một phần của ( International Nucleotide Sequence Database Collaboration ) bao gồm ở DDBJ, EMBL và NCBI. Ba tổ chức này trao đổi dữ liệu với nhau hàng ngày.
  • 89.
     Trong lầncông bố gần đây nhất, INSDC cho biết CSDL trình tự DNA đã vượt quá 100 Gb. GenBank là một thành viên quan trọng đóng góp cho mức này và tất nhiên đó là kết quả đóng góp của rất nhiều các nhà khoa học trên toàn thế giới.  dbEST (data base of Expressed Sequence Tags): Theo Nature Genetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự đeo thẻ hoặc các trình tự ngắn, duy nhất lấy từ mRNA (cDNA). dbEST cũng là một nhánh của GenBank.
  • 90.
     dbGSS (database of Genome Survey Sequences): cũng là một nhánh của GenBank nhưng khác với dbEST là hầu hết các trình tự đều có nguồn gốc từ genomic chứ không phải là cDNA (mRNA). Nhánh dbGSS chứa các dạng dữ liệu sau: • Single - pass genom sequence • Các trình tự tận cùng của cosmid/BAC/YAC • Các trình tự Alu PCR • Các trình tự transposon được đeo thẻ (transposon – tagged).  dbSNP (data base of Single-base Nucleotide Polymorphism): là CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide.
  • 91.
     RefSeq: CSDLcủa các trình tự tra cứu không có sự dư thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết.  dbSTS (data base of sequence tagged sites): CSDL của các vị trí trình tự được đeo thẻ hoặc các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.  UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS và các thí nghiệm khác.  UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen.
  • 92.
     dbHTG (database of high-throughput genom sequence): tập hợp của các trình tự genom thu được từ các trung tâm xác định trình tự genom.  HomoloGene: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ ortholog giả định.  MGC: (Mamalian Gene Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full- length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống.  PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể.
  • 93.
     RefSeq: Cungcấp hệ thống các trình tự: DNA, các loại RNA và sản phẩm protein để nghiên cứu các sinh vật.  TPA: Third Party Annotation (TPA) Sequence: Được thiết kế để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng ký không xác định được trực tiếp nhưng có thể lấy từ dữ liệu sơ cấp của GenBank.  RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử dụng trong việc thiết kế các bản đồ lai phóng xạ. Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và các tra cứu chéo.
  • 95.
    c. CSDL Protein(Protein Databases) 3D Domains: Bao gồm các trình tự và cấu trúc 3 chiều của các domain trong các phân tử protein.  Proteins: Tập hợp các CSDL trình tự protein  RefSeq: Cung cấp một CSDL không dư thừa (non- redundant) bao gồm DNA, RNA và Protein.  PROW: CSDL về protein trên Web (Protein Reviews on the Web PROW) ...
  • 97.
    d/ Cơ sởdữ liệu cấu trúc (Structure Databases) 3D Domain  MMDB (Molecular Modeling Database) : CSDL mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận.  Conserved Domains: Tập hợp các CSDL về các vùng domain bảo thủ của các protein, họ protein.
  • 99.
    e/ Cơ sởdữ liệu hệ thống học (Taxonomy Databases)  Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa).
  • 101.
    f/ Cơ sởdữ liệu genom (genome database)  Các nhiễm sắc thể ung thư: Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI SKY?M-FISH và CGH.  COGs (Clusters of Orthologous Groups of proteins): Nhóm của các nhóm Orthologous của protein được dẫn xuất từ việc so sánh trình tự protein được mã hóa thành các genom hoàn chỉnh, đại diện cho các dòng giống chủ yếu của phân loại hệ thống học.  Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ trong một hệ thống, để truy cập có thể sử dụng các công cụ như Entrez Gene.
  • 102.
     Cơ sởdữ liệu của các dự án giải trình tự: Genome Project: Các trình tự hoàn tất, đang ở giai đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong một hệ thống. Chúng ta có thể sử dụng công cụ Entrez Genome Project để truy cập.  Genomes: Các nguồn genom đặc thù từng loại sinh vật: Chứa toàn bộ genom của hơn 1000 sinh vật gồm những genom hoàn chỉnh và đang tiến hành: Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog, các bào quan của eukaryote, Frog, Fruit fly, Human, Mosquito, Mouse, Pig, plant genome, rat, Retrovirus, Sheep, Viral Genomes, Yeast, Zebrafish...
  • 104.
    g/ Cơ sởdữ liệu hệ thống học  Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa).
  • 105.
    h/ Cơ sửdữ liệu cấu trúc (Structure Databases)  MMDB (Molecular Modeling Database): CSDL mô hình phân tử chứa các cấu trúc 3D của đại phân tử, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28,000 cấu trúc và nó được kết nối với phần còn lại của NCBI bao gồm các trình tự, trích dẫn, hệ thống phân loại và các trình tự và cấu trúc liên quan.  GEO Datasets: CSDL này lưu giữ các gen biểu hiện ( Gene Expression Omnibus GEO)
  • 106.
     SAGE: Đểhỗ trợ cho việc sử dụng công cộng và công bố các dữ liệu gen biểu hiện (serial analysis of gene expression SAGE), NCBI gần đây đã chỉnh sửa lại website này.  SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu truy vấn, thu nhân và phân tích các dữ liệu SAGE từ một loài sinh vật bất kỳ. Tất cả các dữ liệu có mặt trong website này có thể được truy cập từ các kho lưu trữ của GEO (Gene Expression Omnibus).
  • 107.
    k/ Cơ sởdữ liệu hóa học (Chemical Databases)  Các phản ứng, test..  Danh sách các chất hóa học  Danh sách các hợp chất
  • 109.
    3.3. Các côngcụ tìm kiếm, phân tích các CSDL 3.3.1. Công cụ của EMBL/EBI a/ Similarity & Homology: Công cụ phân tích mức độ giống nhau và tương đồng giữa các trình tự.  Các công cụ như: Fasta, Blast, MPsrch và Scanps. Dạng tìm kiếm và kết quả trả về qua email cũng được phát triển.  Hai chương trình có thể được sử dụng để tìm kiếm, so sánh mức độ giống nhau và mức độ tương đồng suy diễn là BLAST or Fasta.
  • 110.
    Công cụ tìmkiếm DNA và Protein chungCông cụ tìm kiếm DNA và Protein chung Công cụ Ứng dụng, mô tả Blast2-WU Protein Tìm kiếm CSDL protein (Blast 2.0 with gaps) của Washington University Blast2-WU Nucleotide Tìm kiếm CSDL nucleotide (Blast 2.0 with gaps) Washington University Blast2-NCBI Protein Chương trình tìm kiếm CSDL protein của NCBI.(blastall) Blast2-NCBI Nucleotide Chương trình tìm kiếm CSDL nucleotide của NCBI.(blastall) Blast2-NCBI EVEC Chương trình nhằm phát hiện các trình tự lẫn với trình tự của các vector. Fasta Nucleotide Sử dụng FASTA để tìm các trình tự giống với trình tự nucleotide trong CSDL Fasta Protein Sử dụng FASTA để tìm các trình tự giống với trình tự protein trong CSDL Fasta-Proteome server Tìm kiếm bằng Fasta trong máy chủ Proteome Fasta-Genome server Tìm kiếm bằng Fasta trong máy chủ genome Fasta-WGS server Tìm kiếm bằng Fasta trong máy chủ WGS (các genome thu được bằng phương pháp shotgun Whole genome shotgun - WGS)
  • 111.
    Các công cụtìm kiếm chuyên biệt cho Protein Công cụ Ứng dụng, mô tả Blitz Blitz là một dịch vụ tìm kiếm CSDL thông qua email. Thực chất là việc trả kết quả tìm trình tự tương đồng với trình tự cần quan tâm thông qua Email. EBI đã phát triển hai phương pháp khác nhau gọi là MPsrch và Scanps.
  • 112.
    Các công cụtìm kiếm chuyên biệt cho DNA Công cụ Ứng dụng, mô tả Blast2-ASD Tìm kiếm trình tự giống nhau nhờ máy chủ Blast2-ASD Blast2-Parasite Tìm kiếm trình tự giống nhau nhờ máy chủ Parasite Genomes blast Fasta-ASD Sử dụng Fasta để tìm trình tự protein giống với CSDL ASD Fasta -LGIC Protein server Sử dụng Fasta để tìm trình tự protein giống với CSDL Ligand Gated Ion Channel. Fasta -LGIC Nucleotide server Sử dụng Fasta để tìm trình tự nucleotide giống với CSDL Ligand Gated Ion Channel. Fasta-SNP server Fasta tìm kiếm trình tự tương đồng trong CSDL European SNP (HGBASE).
  • 113.
    b/ Protein FunctionalAnalysis: Phân tích chức năng của protein Một trong những nghiên cứu phân tích chức năng của protein là phát hiện các vùng hoạt động đặc trưng (motif) trong các trình tự protein. Phần này cung cấp các công cụ sử dụng để xác định chức năng của protein với nhiều phương pháp và CSDL khác nhau. Dịch vụ quan trọng nhất trong phần này là InterProscan cùng kết hợp với rất nhiều phương pháp khác trong một giao diện rất dễ sử dụng.
  • 114.
    Công cụ Ứngdụng, mô tả CluSTr Search Tìm kiếm các UniProtKB (UniProtKB/Swiss-Prot + UniProtKB/TrEMBL) bằng số truy cập FingerPRINTScan Tìm kiếm các PRINTS Protein fingerprint GeneQuiz Phân tích trình tự tự động các trình tự sinh học Inquisitor Inquisitor cung cấp một giao diện truy vấn đơn để xác định các trình tự protein giốn nhau trong các proteome. Các trình tự chưa biết được phân tích sử dụng FASTA và InterProScan. InterProScan Tìm kiếm các trình tự protein trong các CSDL thành viên InterPro. PPSearch Tìm kiếm các motif của protein Pratt Phát hiện các mô hình trong các trình tự protein chưa được so sánh (alignment) Radar Phát hiện các protein lặp lại.
  • 115.
    c/ Proteomic Services Baogồm các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp. Trong đó quan trọng nhất là máy chủ UniProt DAS nó cho phép các nhà nghiên cứu trình bày kết quả nghiên cứu của mình dưới dạng mô tả của UniProtKB/Swiss-Prot. Công cụ Ứng dụng, mô tả Dasty Công cụ cho phép trình bày những thông tin về đặc điểm trình tự protein dưới dạng dễ quan sát. UniProt DAS Máy chủ UniProt DAS cho phép các nhà nghiên cứu trình bày kết quả nhiên cứu của mình, chẳng hạn xác định các peptide hoặc các trình tự tín hiệu trên máy chủ UniProt dưới dạng mô tả của UniProtKB/Swiss-Prot.
  • 116.
    d/ Sequence Analysis:Phân tích trình tự  Sử dụng rất nhiều phương pháp tin sinh học để xác định chức năng sinh học, cấu trúc của các gen và protein mà chúng mã hóa.  Các công cụ như Transeq có thể giúp xác định các vùng mã hóa protein của một trình tự DNA. ClustalW được sử dụng để so sánh trình tự DNA hoặc protein để làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa của chúng.
  • 117.
    Các công cụphân tích do EBI cung cấp: Công cụ Ứng dụng, mô tả Align Công cụ so sánh cặp trình tự theo 2 kiểu toàn bộ và cục bộ. ClustalW Cô cụ so sánh nhiều trình tự. CpG Plot/CpGreport Công cụ tìm và vẽ CpG Island Dna Block Aligner Form So sánh hai trình tự DNA dưới dạng khối mạch thẳng (colinear block), rất thích hợp cho các promoter. GeneMark Dịch vụ dự đoán gen Genetic Code Viewer Công cụ tổng kết các sự khác nhau về mã di truyền GeneWise So sánh một trình tự protein hoặc một hồ sơ protein HMM với trình tự DNA. Muscle Công cụ so sánh nhiều trình tự với độ chính xác và tốc độ cao hơn so với Clustal W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau. Mutation Checker Đánh giá độ trính xác của trình tự, phát hiện đột biến. Pepstats/Pepwindow/Pepinfo Chương trình phân tích trình tự protein PromoterWise So sánh hai trình tự DNA cho phép đảo ngược và đổi vị trí, rất lý tưởng cho các promoter. Reverse Translator Kiểm tra trình tự đảo ngược, bổ sung SAPS Phân tích thống kê trình tự protein T-Coffee Chương trình so sánh trình tự cho phép người sử dụng kết hợp các kết quả thu được với một số phương pháp so sánh khác nhau. Transeq Công cụ dịch mã trình tự DNA
  • 118.
    e/ Phân tíchcấu trúc (Structural Analysis): Việc xác định cấu trúc 2D/3D của một protein là một công việc quan trọng nhất khi nghiên cứu chức năng của nó. Người sử dụng sẽ tìm thấy rất nhiều dịch vụ giúp cho việc phân tích cấu trúc do EBI cung cấp. Một trong những công cụ đó là DALI. và MSDfold. Công cụ của MSDfold hoặc DALI cho phép xác định cấu trúc protein cần nghiên cứu và so sánh nó với các cấu trúc trong PDB (Protein Data Bank).
  • 119.
    Công cụ Ứngdụng, mô tả DALI So sánh cấu trúc protein ở dạng 3D DaliLite Chương trình so sánh cấu trúc cặp (hai cấu trúc). So sánh cấu trúc cần quan tâm (cấu trúc thứ nhất) với một cấu trúc tham chiếu (cấu trúc thứ hai) MSD Services Bảng tóm tắt và danh sách của tất cả các công cụ và dịch vụ của Macromolecular Structure Database (MSD) MSDfold So sánh các chuỗi/cấu trúc và tìm kiếm các chuỗi/cấu trúc tương đồng trong CSDL PDB hoặc trong các domain SCOP. MSDpro Một chương trình ứng dụng cho phép xây dựng các truy vấn quan hệ phức tạp của MSD mà không cần biết sự sắp xếp của dữ liệu trong CSDL hoặc ngân như mà truy vấn đó sử dụng. MSDsite Công cụ cho phép tìm các vị trí hoạt động dựa vào chất gắn (chẳng hạn ATP) hoặc thông tin vị trí hoạt động (CYS CYS CYS CYS). NMR Representatives Tìm kiếm các cấu trúc thu được từ NMR trong PDB PQS Xác định cấu trúc bậc 4 PQS-Quick Công cụ cho phép xác định được thông tin cấu trúc bậc 4 từ mã ID của PDB một cách nhanh chóng.
  • 120.
    f/ Các côngcụ khácf/ Các công cụ khác Công cụ Ứng dụng, mô tả BioLayout Trình bày, hình ảnh hóa các biểu đồ và mạng lưới sinh học, chẳng hạn như độ giống nhau giữa các trình tự protein và các mạng lưới tương tác protein. CAST Lọc để phát hiện các thành phần trình tự protein bias của Computational Genomics Group. EBIMed NEW Là một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline. EMBL Computational ServicesTập hợp các công cụ do EMBL cung cấp ở Heidelberg Đức để phân tích trình tự DNA/protein. Expression Profiler Một bộ các công cụ cho phép phân tích, nhóm và hiển thị sự biểu hiện gen và các dữ liệu genom. NEWT CSDL taxon, kết hợp các dữ liệu taxon ở NCBI với CSDL của UniProtKB/Swiss- Prot Protein Colourer Một công cụ cho phép tô màu các trình tự axit amin. Protein Corral NEW Một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline. Readseq Công cụ chuyển các trình tự sang các dạng format khác nhau. Webservices Cung cấp các chương trình truy cập vào các CSDL sinh học khác nhau. Whatizit Có thể nói cho người sử dụng biết ý nghĩa của các từ tìm thấy trong văn bản phục thuộc vào dạng thông tin mà người dùng muốn xem ở dạng được hightlight.
  • 121.
    3.3.2. Công cụcủa NCBI a/ Các công cụ phân tích trình tự  Cluster of Orthologous Groups (COGs): Một hệ thống của các họ gen từ các genom hoàn chỉnh.  Gene Expression Omnibus (GEO): Kho dữ liệu gen biểu hiện và các nguồn trực tuyến cho việc thu nhận các dữ liệu gen biểu hiện.  HomoloGene: So sánh các trình tự nucleotide giữa các cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa.
  • 122.
     CSDL cácvùng bảo thủ ( Conserved Domain Database CDD): Tập hợp các bản so sánh trình tự (sequence alignment) và các profile của các vùng bảo thủ của các phân tử protein trong quá trình tiến hóa phân tử.  Tập hợp các gen động vật có vú ( Mammalian Gene Collection MGC): Một nỗ lực mới của NIH để thu được các nguồn cDNA với chiều dài đầy đủ.  Clone Registry: Một CSDL được sử dụng bởi sự tham gia của các trung tâm trình tự genom người và chuột để lưu giữ những dòng được lựa chọn từ việc đọc trình tự, các dòng đang được đọc trình tự và các dòng đã hoàn tất và
  • 123.
     Trace Archive:Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự.  Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.  VecScreen: Một công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.  Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.
  • 124.
    b/ Tìm kiếmtrình tự giống nhau (Sequence Similarity Searching)  BLAST Homepage: Cho phép truy cập vào chương trình và công cụ BLAST (Basic Local Alignment Search Tool), các trợ giúp…  BLink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez.  Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML.  Stand-alone BLAST: Chương trình có thể sử dụng sau khi download và cài đặt vào trong máy tính cá nhân.
  • 125.
    c/ Hệ thốngđơn vị phân loại (Taxonomy)  Taxonomy Browser: Công cụ cho phép tìm kiếm các CSDL taxonomy của NCBI  Taxonomy BLAST: Các nhóm công cụ BLAST sắp xếp các nguồn sinh vật theo CSDL Taxonomy của NCBI.  TaxTable: Bảng tóm tắt các dữ liệu taxon của BLAST và các mối quan hệ của sinh vật với nhau thông qua dạng đồ hoạ màu.  ProtTable: Cung cấp một bảng tóm tắt các vùng mã hóa protein trong một gene  TaxPlot: Cung cấp các dạng quan sát genom giống nhau (three-way view of genome similarities).
  • 126.
     d/ Đăngký trình tự (Sequence Submission)  Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF finder, một công cụ để sửa chữa và xem trình tự.  BankIt: Đăng ký một hay nhiều trình tự một lúc thông qua WWW. e/ Tìm kiếm các thuật ngữ (Text Term Searching)  Entrez: Truy cập vào các dữ liệu trình tự protein và DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE.  LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài.  Citation Matcher: Cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed.
  • 127.
    f/ Các côngcụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure display and similarity searching)  CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ (Conserved Domain Search Service (CD-Search) có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein.  Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI.  Domain Architecture Retrieval Tool: Displays the functional domains that make up a protein and lists proteins with similar domain architectures.  VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của mọt cấu trúc protein mới xác định với các CSDL MMDB/PDB.
  • 128.
    g/ CSDL bảnđồ (MAPS) Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau.  Công cụ quan sát bản đồ (Map Viewer): Cung cấp công cụ quan sát bản đồ nhiễm sắc thể của hơn 17 loài sinh vật. Map Viewer trình bày một hoặc nhiều bản đồ đã được so sánh với nhau dựa trên các chỉ thị và các gen, đối với bản đồ trình tự dựa vào mức độ giống nhau giữa các trình tự. Hiện nay, có các bản đồ của Arabidopsis, Ruồi giấm (fruit fly), người (human), bản đồ tương đồng của người và chuột, sốt rét, muỗi, chuột, giun tròn (nemato), chuột (rat), Zebrafish…
  • 129.
    3.4. ExpaSy 3.4.1. Cơsở dữ liệu ExpaSy  Swiss-Prot and TrEMBL – CSDL protein đã biết  PROSITE – Các họ protein và các domain.  SWISS-2DPAGE – CSDL protein (điện di 2 chiều trên gel polyacrylamide)  ENZYME - Định tên các enzym (Enzyme nomenclature)  SWISS-MODEL Repository – Các mô hình protein được tạo ra tự động (Automatically generated protein models)  GermOnLine – CSDL về sự biệt hóa tế bào mầm.  Ashbya Genome Database  Và các đường dẫn đến các CSDL khác.
  • 130.
     SWISS-PROT  Swiss-Protlà một cơ sở dữ liệu protein được khởi đầu vào năm 1986 do sự hợp tác của Department of Medical Biochemistry ở Trường đại học Geneva và EMBL. Sau năm 1994, tổ chức này chuyển tới một trạm của EMBL ở Anh gọi là EBI. Vào tháng 4 năm 1998, nó được chuyển tới Swiss Institute of Bioinformatics (SIB), do đó cơ sở dữ liệu này bây giờ được duy trì bởi SIB và EBI/EMBL. Cơ sở dữ liệu này cố gắng để cung cấp những thông tin ở mức độ cao bao gồm: các mô tả về chức năng của các protein và cấu trúc của các domain của nó, sự cải biến sau phiên mã, các dạng biến đổi và những thông tin khác. SWISS- PROT mục đích là để giảm thiểu sự dư thừa, và nó liên kết với nhiều nguồn khác. Vào năm 1996, một chương trình hỗ trợ máy tính cho SWISS-PROT được tạo ra gọi là TrEMBL (sẽ được mô tả chi tiết dưới đây). Trước hết chúng ta hãy tìm hiểu kỹ hơn về cấu trúc của SWISS- PROT.
  • 131.
     Cấu trúccủa SWISS-PROT  Cấu trúc của cơ sở dữ liệu, và số lượng các mô tả của nó, các bộ SWISS-PROT tách khỏi các nguồn trình tự protein khác và nó đã trở thành một trong những cơ sở dữ liệu được lựa chọn cho hầu hết các mục đích nghiên cứu. Vào giữa những năm 1998, cơ sở dữ liệu chứa 70000 mục đăng nhập từ hơn 5000 loài khác nhau tập trung chủ yếu là Homo sapiens, Saccharomyces cerevisiae, Escherichia coli, Mus musculus và Rattus norvegicus.
  • 132.
    3.4.2. Các côngcụ phân tích 3.4.2.1. Nhận dạng và xác định các đặc điểm của protein a/ Nhận dạng và xác định các protein thông qua các dữ liệu peptide thu được từ khối phổ.  Aldente - Nhận dạng các protein với các dữ liệu khối phổ peptide. Đây là một tiến bộ mới trong vịêc nhận dạng protein.  FindMod - Dự đoán những khả năng cải biến sau dịch mã và khả năng thay thế các amino acid trong chuỗi peptide. Các thực nghiệm đo khối lượng peptide với các peptide tính toán lý thuyết từ CSDL Swiss-Prot hoặc từ các trình tự do người sử dụng đăng ký. So sánh sự khác biệt về khối lượng của các peptide cũng là một trong những biện pháp hiệu quả trong việc nhận dạng protein.
  • 133.
     FindPept -Nhận dạng các peptide do kết quả từ các thí nghiệm khối phổ từ đó giải thích cho những cải biến hóa học, cải biến sau dịch mã và hoạt động tự thủy phân.  GlycoMod - Dự đoán các cấu trúc oligosacharide xảy ra trên phân tử protein từ các thí nghiệm khác định khối lượng.  PepMAPPER – Công cụ nhận dạng khối lượng peptide từ UMIST, UK  ProFound – Tìm kiếm các trình tự protein đã biết với thông tin về khối lượng peptide từ trường đại học Rockefeller and NY.
  • 134.
    b/ Nhận dạngvà xác định các đặc điểm của protein nhờ dữ liệu MS/MS.  Popitam - Công cụ nhận dạng và xác định protein cho các peptide với những cải biến không đoán trước được, chẳng hạn đột biết hoặc những cải biến sau dịch mã nhờ vào khối phổ xen kẽ (tandem mass spectrometry)  Phenyx - Nhận dạng, xác định đặc điểm của protein và peptide từ dữ liệu MS/MS từ GeneBio, Switzerland  OMSSA - Nhận dạng các phổ peptide MS/MS bằng cách so sánh các thư viện của các protein đã biết.
  • 135.
     PepFrag –Tìm kiếm các trình tự protein đã biết với thông tin về khối phổ mảnh peptide từ Rockefeller và NY Universities hoặc từ Genomic Solutions  ProteinProspector - UCSF tools for fragment-ion masses data (MS-Tag, MS-Seq, MS-Product, etc.)  SearchXLinks – Phân tích khối phổ của các protein đã bị cải biến, liên kết ngang, phân giải mà có các trìh tự axit amin đã biết từ Caesar, Đức.
  • 136.
    c/c/ Nhận dạngprotein dựa vào thành phần axit amin, pI, khốidạng protein dựa vào thành phần axit amin, pI, khối lượng phân tử…lượng phân tử…  AACompIdent - Xác định một protein nhờ vào thành phầnAACompIdent - Xác định một protein nhờ vào thành phần axit amin của nó.axit amin của nó.  AACompSim - So sánh thành phần axit amin của mộtAACompSim - So sánh thành phần axit amin của một đăng nhập trong UniProtKB/Swiss-Prot với các đăng nhậpđăng nhập trong UniProtKB/Swiss-Prot với các đăng nhập khác (other entries)khác (other entries)  TagIdent - Nhận dạng các protein nhờ vào pI, Mw và cácTagIdent - Nhận dạng các protein nhờ vào pI, Mw và các trình tự đeo thẻ (sequence tag) hoặc đưa ra một danhtrình tự đeo thẻ (sequence tag) hoặc đưa ra một danh sách các protein có pI và Mw gần với protein truy vấnsách các protein có pI và Mw gần với protein truy vấn nhất.nhất.  MultiIdent - Nhận dạng các protein dựa vào thành phầnMultiIdent - Nhận dạng các protein dựa vào thành phần axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổaxit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổ peptide.peptide.
  • 137.
    d/ Các côngcụ dự đoán khác (other prediction tools)  GlycanMass - Tính toán khối lượng của một cấu trúcGlycanMass - Tính toán khối lượng của một cấu trúc oligosacharide.oligosacharide.  PeptideCutter - Dự đoán các vị trí phân cắt và thủy phânPeptideCutter - Dự đoán các vị trí phân cắt và thủy phân bởi các hóa chất đối với một trình tự nhất định.bởi các hóa chất đối với một trình tự nhất định. PeptideMass - Tính toán khối lượng peptide và các cảiPeptideMass - Tính toán khối lượng peptide và các cải biến sau dịch mã đối với một đăng nhập củabiến sau dịch mã đối với một đăng nhập của UniProtKB/Swiss-Prot hoặc UniProtKB/TrEMBL hoặcUniProtKB/Swiss-Prot hoặc UniProtKB/TrEMBL hoặc một trình tự bất kỳ do người sử dụng đưa vào.một trình tự bất kỳ do người sử dụng đưa vào.  IsotopIdent - Dự đoán sự phân bố đồng vị về mặt lýIsotopIdent - Dự đoán sự phân bố đồng vị về mặt lý thuyết của một chuối peptide, protein, polynucleotidethuyết của một chuối peptide, protein, polynucleotide hoặc các chất hóa học.hoặc các chất hóa học.
  • 138.
    3.4.2.2. Các côngcụ chuyển DNA -> Protein  Translate - Dịch mã một trình tự nucleotide thành một trình tự protein.  Transeq - Dịch mã từ trình tự nucleotide thành protein từ phần mềm EMBOSS.  Graphical Codon Usage Analyser – Hiển thị “codon bias” dưới dạng đồ họa.  “Codon bias” là một thuật ngữ chỉ hiện tượng tần suất một bộ ba được sử dụng để mã hóa cho một axit amin nào đó ở một sinh vật nhất định cao hơn so với các bộ ba khác cùng mã hóa.Mỗi loài sinh vật có dạng “codon bias” khác nhau.
  • 139.
     BCM searchlauncher - Dịch mã ra 6 khung từ một trình tự nucleotide.  Backtranslation - Dịch mã một trình tự protein ngược trở lại thành trình tự nucleoide.  Reverse Translate - Dịch mã một trình tự protein thành trình tự nucleotide.  Genewise – So sánh trình tự của một protein với trình tự DNA genomic để nghiên cứu intron, các đột biến lệch khung.  FSED – Phát hiện đột biến lệch khung đọc.  List of gene identification software sites
  • 140.
    3.4.2.3. Tìm kiếmcác trình tự giống nhau BLAST và WU-BLAST - kết hợp với rất nhiều các phiên bản BLAST (Basic Local Alignment Search Tool)  BLAST Mạng lưới dịch vụ của ExPASy  BLAST ở EMBnet-CH/SIB (Switzerland)  BLAST ở NCBI  WU-BLAST của EMBL (Heidelberg)  WU-BLAST và BLAST ở EBI (Hinxton)  BLAST ở PBIL (Lyon)  Fasta3 – Phiên bản FASTA 3 ở EBI  MPsrch – So sánh trình tự của Smith/Waterman ở EBI  PropSearch – Tìm kiếm cấu trúc tương đồng  Scanps – Tìm kiếm trình tự giống nhau bằng thuật toán của Barton