Group 3 presentation.pptx

MEMBERS
1) TAPIWANASHE V MTUNGWAZI
R206014X1
2)TERRENCE S SITHOLE R202731Q
3)EDMUND T MAPHOSA R202713Q
4) TINOTENDA DHLIWAYO R193986W
5) MUNASHE LUKE R202758C
6) CLEOPATRA MWARIRA R205306R
7) NHIKA TADIWANASHE R197095Z
8) YEMURAI NENZOU R202732E
9)HONOUR MUSVIBE.T R202714V
10)ANTONY SARANAVO R207297Z

QUESTION: EXPLAIN
#1 :DNA AND PROTEIN DATABASES
PROTEIN DATABASES
A PROTEIN DATABASE IS A COLLECTION OF DATA THAT HAS BEEN CONSTRUCTED FROM
PHYSICAL, CHEMICAL AND BIOLOGICAL INFORMATION ON SEQUENCE, DOMAIN
STRUCTURE, FUNCTION, THREE‐DIMENSIONAL STRUCTURE AND PROTEIN‐PROTEIN
INTERACTIONS.
COLLECTIVELY, PROTEIN DATABASES MAY FORM A PROTEIN SEQUENCE DATABASE.
IT IS THEREFORE IMPORTANT TO USE APPROPRIATE PROTEIN DATABASES WHICH
1) ANALYSE AND STORE DATA PERTAINING TO PROTEIN SCIENCE AND
2) FACILITATE USAGE OF ANALYTICAL SOFTWARE AVAILABLE TO THE SCIENTIFIC
COMMUNITY

CONT.…
• GENERALLY CAN BE DIVIDED INTO TWO TYPES.
THE FIRST TYPE
IT IS A UNIVERSAL DATABASE, WHICH COVERS THE PROTEINS PRESENT IN ALL KNOWN
BIOLOGICAL SPECIES.
THE SECOND TYPE
IS A SPECIALIZED DATABASE, AS DESCRIBED HERE, WHICH DEALS WITH THE PROTEINS
BELONGING TO A SPECIFIC GROUP OR FAMILY OF PROTEINS OF CERTAIN SPECIES . EACH
PROTEIN DATABASE CAN BE FURTHER CLASSIFIED INTO MORE SPECIALIZED CATEGORIES
ACCORDING TO THE TYPE OF INFORMATION SOUGHT.

DNA DATABASE
IT IS A DATABASE OF DNA PROFILES WHICH CAN BE USED IN THE ANALYSIS OF
GENETIC DISEASES, GENETIC FINGERPRINTING FOR CRIMINOLOGY, OR GENETIC
GENEALOGY.
ALSO CALLED A DNA DATABANK
DNA DATABASES MAY BE PUBLIC OR PRIVATE, THE LARGEST ONES BEING NATIONAL
DNA DATABASES.
For instance the National DNA Index System (NDSI) WHICH IS PART OF CODIS THE
NATIONAL LEVEL CONTAINING THE DNA PROFILES CONTRIBUTED BY FEDERAL, STATE
AND LOCAL PARTICIPATING FORENSIC LABORATORIES.
CODIS (COMBINED DNA INDEX SYSTEM)THIS DATABASE IS USED BY THE FBI IN
CRIMINOLOGY.

#2 DATA STORAGE, INFORMATION RETRIEVAL AND
FILE FORMATS
DATA STORAGE:
 IS THE RETENTION OF INFORMATION USING TECHNOLOGY SPECIFICALLY DEVELOPED TO KEEP THAT DATA
AND HAVE IT AS ACCESSIBLE AS NECESSARY
 DATA STORAGE REFERS TO THE USE OF RECORDING MEDIA TO RETURN DATA USING COMPUTER
 THE MOST PREVALENT FORMS OF DATA ARE STORAGE ARE FILE STORAGE, BLOCK STORAGE, AND OBJECT
STORAGE ,WITH EACH BEING IDEAL FOR DIFFERENT PURPOSES
INFORMATION RETRIEVAL(IR):
 IT THE FIELD OF COMPUTER SCIENCE THAT DEALS WITH THE PROCESSING OF DOCUMENTS CONTAINING
FREE TEXT, SO THAT THEY CAN BE RAPIDLY RETRIEVED BASED ON KEYWORDS SPECIFIED IN A USERS QUERY
FILE FORMATS:
 THE FILE FORMAT IS THE STRUCTURE OF A FILE THAT TELLS A PROGRAM HOW TO DISPLAY ITS CONTENTS
AND THE EXAMPLES INCLUDE;
THE FASTA FORMAT, FASTQ, THE SAM /BAM FORMAT, THE VCF AND GFF FORMAT

#3 NCBI AND EBI RESOURCES FOR THE MOLECULAR
DOMAIN OF BIOINFORMATICS, GENBANK UNIPROT,
ENTREZ AND GENE ONTOLOGY:
• NCBI DATABASES
• NCBI (NATIONAL CENTRE FOR BIOTECHNOLOGY INFORMATION)
• THE NCBI HOUSES A SERIES OF DATABASES RELEVANT TO BIOTECHNOLOGY AND
BIOMEDICINE AND IS AN IMPORTANT RESOURCE FOR BIOINFORMATICS TOOLS
AND SERVICES. MAJOR DATABASES INCLUDE GENBANK FOR DNA SEQUENCES
AND PUBMED, A BIBLIOGRAPHIC DATABASE FOR THE BIOMEDICAL LITERATURE

EBI
EUROPEAN BIOINFORMATICS INSTITUTE (EBI) MAINTAINS AND DISTRIBUTES THE
EMBL NUCLEOTIDE SEQUENCE DATA-BASE, EUROPE’S PRIMARY NUCLEOTIDE
SEQUENCE DATA RESOURCE.
THE EBI ALSO MAINTAINS AND DISTRIBUTES THE SWISS-PROT PROTEIN
SEQUENCE DATABASE. OVER FIFTY ADDITIONAL SPECIALIST MOLECULAR
BIOLOGY DATABASES, AS WELL AS SOFTWARE AND DOCUMENTATION OF
INTEREST TO MOLECULAR BIOLOGISTS ARE AVAILABLE. THE EBI NETWORK
SERVICES INCLUDE DATABASE SEARCHING AND SEQUENCE SIMILARITY
SEARCHING FACILITIES.
EBI IS A SINGLE FIGURE PROFIT INDEX AIMED AT HELPING FARMERS IDENTIFY
THE MOST PROFITABLE BULLS AND COWS FOR BREEDING DAIRY HERD
REPLACEMENTS. IT COMPRISES OF INFORMATION ON SEVEN SUB-INDEXES
RELATED TO PROFITABLE MILK PRODUCTION.

WHAT IS GENBANK?
• THE GENBANK DATABASE IS DESIGNED TO PROVIDE AND ENCOURAGE ACCESS WITHIN THE
SCIENTIFIC COMMUNITY TO THE MOST UP-TO-DATE AND COMPREHENSIVE DNA SEQUENCE
INFORMATION. THEREFORE, NCBI PLACES NO RESTRICTIONS ON THE USE OR DISTRIBUTION OF THE
GENBANK DATA. HOWEVER, SOME SUBMITTERS MAY CLAIM PATENT, COPYRIGHT, OR OTHER
INTELLECTUAL PROPERTY RIGHTS IN ALL OR A PORTION OF THE DATA THEY HAVE SUBMITTED. NCBI
IS NOT IN A POSITION TO ASSESS THE VALIDITY OF SUCH CLAIMS, AND THEREFORE CANNOT
PROVIDE COMMENT OR UNRESTRICTED PERMISSION CONCERNING THE USE, COPYING, OR
DISTRIBUTION OF THE INFORMATION CONTAINED
• A GENBANK RELEASE OCCURS EVERY TWO MONTHS AND IS AVAILABLE FROM THE FTP SITE. THE
RELEASE NOTES FOR THE CURRENT VERSION OF GENBANK PROVIDE DETAILED INFORMATION ABOUT
THE RELEASE AND NOTIFICATIONS OF UPCOMING CHANGES TO GENBANK. RELEASE NOTES FOR
PREVIOUS GENBANK RELEASES ARE ALSO AVAILABLE. GENBANK GROWTH STATISTICS FOR BOTH THE
TRADITIONAL GENBANK DIVISIONS AND THE WGS DIVISION ARE AVAILABLE FROM EACH RELEASE.

UNIPROT
UNIPROT IS THE UNIVERSAL PROTEIN RESOURCE
 TO PROVIDE THE SCIENTIFIC COMMUNITY WITH A SINGLE, CENTRALIZED, AUTHORITATIVE RESOURCE FOR PROTEIN
SEQUENCES AND FUNCTIONAL INFORMATION, THE SWISS-PROT, TREMBL AND PIR PROTEIN DATABASE ACTIVITIES
HAVE UNITED TO FORM THE UNIVERSAL PROTEIN KNOWLEDGEBASE (UNIPROT) CONSORTIUM.ITS MISSION IS TO
PROVIDE A COMPREHENSIVE, FULLY CLASSIFIED, RICHLY AND ACCURATELY ANNOTATED PROTEIN SEQUENCE
KNOWLEDGEBASE, WITH EXTENSIVE CROSS-REFERENCES AND QUERY INTERFACES.
IN UNIPROT, ANNOTATION CONSISTS OF THE DESCRIPTION OF THE FOLLOWING ITEMS:
• FUNCTION(S) OF THE PROTEIN;
• ENZYME-SPECIFIC INFORMATION (CATALYTIC ACTIVITY, COFACTORS, METABOLIC PATHWAY, REGULATION
MECHANISMS);
• MOLECULAR WEIGHT DETERMINED BY MASS SPECTROMETRY;
• POLYMORPHISM(S);
• SIMILARITIES TO OTHER PROTEINS;
• USE OF THE PROTEIN IN A BIOTECHNOLOGICAL PROCESS;
• DISEASES ASSOCIATED WITH DEFICIENCIES OR ABNORMALITIES OF THE PROTEIN;
• USE OF THE PROTEIN AS A PHARMACEUTICAL DRUG

ENTREZ
• A SEARCH AND RETRIEVAL TOOL DEVELOPED BY NCBI THAT IS CAPABLE OF SEARCHING
MULTIPLE NCBI DATABASES WITH JUST ONE QUERY. ENTREZ RETURNS SEARCH RESULTS
THAT CAN INCLUDE A COMBINATION OF MANY TYPES OF DATA ON THE QUERY, SUCH AS
NUCLEOTIDE SEQUENCES, PROTEIN SEQUENCES, MACROMOLECULAR STRUCTURES, AND
RELATED ARTICLES IN THE LITERATURE.
• PRIOR TO THE CREATION OF ENTREZ, AN INDIVIDUAL MIGHT HAVE TO PLACE ONE
QUERY TO A NUCLEOTIDE DATABASE TO FIND A NUCLEOTIDE SEQUENCE, SUBMIT
ANOTHER QUERY TO A STRUCTURAL DATABASE TO FIND THE PUBLISHED STRUCTURE OF
THE GENE PRODUCT, AND SUBMIT A FINAL QUERY TO A LITERATURE DATABASE TO FIND
CITATIONS FOR JOURNAL ARTICLES ON THE QUERY TOPIC.
• NCBI RECOGNIZED THE TIME AND EFFORT THAT COULD BE SAVED BY A TOOL THAT
COULD CROSS-LINK THESE DATABASES AND INTEGRATE ALL INFORMATION RELATED TO
A GIVEN QUERY SUBJECT INTO ONE REPORT

GENE ONTOLOGY
• THE GENE ONTOLOGY (GO) KNOWLEDGEBASE IS THE WORLD’S LARGEST SOURCE OF INFORMATION ON THE
FUNCTIONS OF GENES.
• THIS KNOWLEDGE IS BOTH HUMAN-READABLE AND MACHINE-READABLE, AND IS A FOUNDATION FOR
COMPUTATIONAL ANALYSIS OF LARGE-SCALE MOLECULAR BIOLOGY AND GENETICS EXPERIMENTS IN
BIOMEDICAL RESEARCH
• THE GENE ONTOLOGY ALLOWS USERS TO DESCRIBE A GENE/GENE PRODUCT IN DETAIL,
CONSIDERING THREE MAIN ASPECTS:
i. ITS MOLECULAR FUNCTION
ii. THE BIOLOGICAL PROCESS IN WHICH IT PARTICIPATES,
iii. AND ITS CELLULAR LOCATION.

GENE ONTOLOGY CONT.….
THE FUNCTIONS
• FINDING FUNCTIONAL SIMILARITIES IN GENES THAT ARE OVEREXPRESSED OR
UNDER EXPRESSED IN DISEASES AND AS WE AGE;
• PREDICTING THE LIKELIHOOD THAT A PARTICULAR GENE IS INVOLVED IN
DISEASES THAT HAVEN’T YET BEEN MAPPED TO SPECIFIC GENES;
• ANALYSING GROUPS OF GENES THAT ARE CO-EXPRESSED DURING
DEVELOPMENT;
• DEVELOPING AUTOMATED WAYS OF DERIVING INFORMATION ABOUT GENE
FUNCTION FROM THE LITERATURE;

#4.WHAT IS BLAST? WHAT TYPE OF INFORMATION
DOES A BLAST SEARCH GIVE YOU? BLASTN AND
BLASTP ETC.

BLAST
BASIC LOCAL ALIGNMENT SEARCH TOOL {BLAST}
 BLAST FINDS REGIONS OF SIMILARITY BETWEEN BIOLOGICAL SEQUENCES. THE PROGRAM COMPARES
NUCLEOTIDE OR PROTEIN SEQUENCES TO SEQUENCE DATABASES AND CALCULATES THE STATISTICAL
SIGNIFICANCE.
 IDENTIFIES SIMILARITIES BETWEEN BIOLOGICAL SEQUENCES BY COMPARING NUCLEOTIDE OR PROTEIN
SEQUENCES TO A DATABASE OF SEQUENCES.
 THE BASIC LOCAL ALIGNMENT SEARCH TOOL (BLAST) FINDS REGIONS OF LOCAL SIMILARITY BETWEEN
SEQUENCES. THE PROGRAM COMPARES NUCLEOTIDE OR PROTEIN SEQUENCES TO SEQUENCE DATABASES
AND CALCULATES THE STATISTICAL SIGNIFICANCE OF MATCHES. BLAST CAN BE USED TO INFER
FUNCTIONAL AND EVOLUTIONARY RELATIONSHIPS BETWEEN SEQUENCES AS WELL AS HELP IDENTIFY
MEMBERS OF GENE FAMILIES.
 . THE PROGRAM COMPARES NUCLEOTIDE OR PROTEIN SEQUENCES TO SEQUENCE DATABASES AND
CALCULATES THE STATISTICAL SIGNIFICANCE OF MATCHES. BLAST CAN BE USED TO INFER FUNCTIONAL
AND EVOLUTIONARY RELATIONSHIPS BETWEEN SEQUENCES AS WELL AS HELP IDENTIFY MEMBERS OF GENE
FAMILIES.

THERE ARE SEVERAL TYPES OF BLAST SEARCHES. NCBI'S WEB BLAST OFFERS FOUR MAIN SEARCH
TYPES.
BLASTN, BLASTX, BLASTP AND TBLASTN.
BUT IN THE PRESENTATION WILL LOOK AT THE 2 SEARCHES WHICH ARE COMMONLY USED
i. BLASTN (NUCLEOTIDE BLAST):
COMPARES ONE OR MORE NUCLEOTIDE QUERY SEQUENCES TO A SUBJECT NUCLEOTIDE
SEQUENCE OR A DATABASE OF NUCLEOTIDE SEQUENCES. THIS IS USEFUL WHEN TRYING TO
DETERMINE THE EVOLUTIONARY RELATIONSHIPS AMONG DIFFERENT ORGANISMS.
ii. BLASTP (PROTEIN BLAST):
COMPARES ONE OR MORE PROTEIN QUERY SEQUENCES TO A SUBJECT PROTEIN SEQUENCE OR
A DATABASE OF PROTEIN SEQUENCES. THIS IS USEFUL WHEN TRYING TO IDENTIFY A PROTEIN
(SEE FROM SEQUENCE TO PROTEIN AND GENE.)

#5. DETAIL ON HOW TO
CONDUCT SEARCHES AND
ILLUSTRATE 2 SEARCHES AND
EXPLAIN RESULTS

HOW TO CONDUCT A BLAST SEARCH
i)FROM PROTEIN NAME TO A GENE SEQUENCE
GO TO GenBank WEBSITE TO GET A SPECIFIC PROTEIN SEQUENCE FOR YOUR PROTEIN OF
CHOICE.
YOU CAN GET A PROTEIN SEQUENCE IN FASTA FORMAT OR AN ACCESSION NUMBER.
ii)IDENTIFYING SEQUENCES USING BLAST
1. NAVIGATE TO THE MAIN BLAST PAGE (HTTPS://BLAST.NCBI.NLM.NIH.GOV/BLAST.CGI).
2. SELECT THE APPROPRIATE TYPE OF BLAST FOR YOUR SEQUENCE
3. PASTE THE FIRST UNKNOWN SEQUENCE INTO THE BOX (FOR THIS ACTIVITY, YOU CAN
IGNORE THE SEARCH OPTIONS)
4. CLICK ON THE “BLAST” BUTTON AND WAIT FOR THE RESULTS. BLAST IS USUALLY
FAIRLY QUICK FOR SHORT SEQUENCES, BUT SHOULD STILL TAKE A FEW SECONDS.
5. ONCE THE RESULTS ARE DISPLAYED, NOTICE THERE ARE THREE MAIN HEADINGS:
GRAPHIC SUMMARY, DESCRIPTIONS, AND ALIGNMENTS (THESE MAY BE EXPANDED SO
YOU’LL HAVE TO SCROLL DOWN).

FASTA FORMAT
FASTA FORMAT IS USED TO REPRESENT EITHER NUCLEOTIDE OR PEPTIDE SEQUENCES.
THE FIRST LINE IS A COMMENT LINE, BEGINNING WITH “>” AND DESCRIBING THE
SEQUENCE. ALL THE FOLLOWING LINES ARE THE SEQUENCE, IN PLAIN TEXT.
EXAMPLE DNA SEQUENCE IN FASTA FORMAT:
 >GI|23423|REF|NM_23542.0| HOMO SAPIENS PROTEIN
ATGAATCGATACGATAGCTAGCTATCGATGCA
GATCAGAGAGGGGCTTTAGCTAGCTAAGCTAG
EXAMPLE PROTEIN SEQUENCE IN FASTA FORMAT:
 >MCHU - CALMODULIN - HUMAN, RABBIT, BOVINE, RAT, AND CHICKEN
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*

ACCESSION NUMBER
• XM 005537111.1
• THIS IS A UNIQUE IDENTIFIER ASSIGNED TO A RECORD IN SEQUENCE DATABASES
SUCH AS GENBANK
• HAS AN ALPHABETICAL PREFIX AND A SERIES OF DIGITS.

HOW TO INTERPRET RESULTS
BLAST RESULTS HAVE THE FOLLOWING FIELDS:
• E VALUE: THE E VALUE (EXPECTED VALUE) IS A NUMBER THAT DESCRIBES HOW MANY
TIMES YOU WOULD EXPECT A MATCH BY CHANCE IN A DATABASE OF THAT SIZE. THE
LOWER THE E VALUE IS, THE MORE SIGNIFICANT THE MATCH.
• PERCENT IDENTITY: THE PERCENT IDENTITY IS A NUMBER THAT DESCRIBES HOW SIMILAR
THE QUERY SEQUENCE IS TO THE TARGET SEQUENCE (HOW MANY CHARACTERS IN EACH
SEQUENCE ARE IDENTICAL). THE HIGHER THE PERCENT IDENTITY IS, THE MORE
SIGNIFICANT THE MATCH.
• QUERY COVER: THE QUERY COVER IS A NUMBER THAT DESCRIBES HOW MUCH OF THE
QUERY SEQUENCE IS COVERED BY THE TARGET SEQUENCE. IF THE TARGET SEQUENCE IN
THE DATABASE SPANS THE WHOLE QUERY SEQUENCE, THEN THE QUERY COVER IS 100%.
THIS TELLS US HOW LONG THE SEQUENCES ARE, RELATIVE TO EACH OTHER.

QUESTIONS
1. IN THE DESCRIPTIONS SECTION, LOOK AT THE TOP RESULT, WHICH SHOULD BE
THE RESULT WITH THE HIGHEST SCORE. WRITE DOWN INFORMATION ABOUT THE
BEST MATCH
 DESCRIPTION (NO NEED TO WRITE THE WHOLE THING)
 E VALUE IDENTITY
 QUERY COVER
2. NOW SCROLL DOWN TO THE ALIGNMENTS HEADING. LOOK AT THE TOP RESULT,
WHICH SHOULD BE THE SAME ONE. LOOK AT THE ALIGNMENT BETWEEN YOUR
QUERY AND THE REFERENCE. DO YOU SEE ANY MISMATCHES?
3. HOW CAN YOU JUDGE WHETHER THIS IS A GOOD MATCH?

REFERENCES
AFIQAH-ALENG N, MOHAMED-HUSSEIN ZA. CONSTRUCTION OF PROTEIN
EXPRESSION NETWORK. METHODS MOL BIOL. 2021;2189:119-132. DOI:
10.1007/978-1-0716-0822-7_10. PMID: 33180298.
STRUYF P, DE MOOR S, VANDEVIVER C, RENARD B, VANDER BEKEN T. THE
EFFECTIVENESS OF DNA DATABASES IN RELATION TO THEIR PURPOSE AND CONTENT:
A SYSTEMATIC REVIEW. FORENSIC SCI INT. 2019 AUG;301:371-381. DOI:
10.1016/J.FORSCIINT.2019.05.052. EPUB 2019 JUN 5. PMID: 31212144.
KANZ,C. ET AL. (2005) THE EMBL NUCLEOTIDE SEQUENCE DATABASE. NUCLEIC
ACIDS RES., 33, D29–D33.
ALTSCHUL SF, GISH W, MILLER W, MYERS EW, LIPMAN DJ: BASIC LOCAL ALIGNMENT
SEARCH TOOL. J MOL BIOL 1990, 215:403-410.2.
NCBI BLAST [HTTP://WWW.NCBI.NLM.NIH.GOV/BLAST/]

Group 3 presentation.pptx

More Related Content

Similar to Group 3 presentation.pptx

Recently uploaded

Group 3 presentation.pptx

Editor's Notes