SlideShare a Scribd company logo
1 of 22
Sequence analysis
HIV/SIV вирус халдварласан
организмуудад филогенетик
мод байгуулах
Биоинформатик 4
С.Ганчимэг
Оршил
• Энэ жишээ нь өвчин үүсгэгчдийн геномын мутаци, Африкын
ногоон сармагчингын /simian immunodeficiency virus- болон
хүний дархлал хомсдлын вирусын халдварлалтын тухай. Энэ
мэдээлэл нь халдварлах үйл явдлын түүх болон 2 өөр вирусын
strain-s үүссэн гэдгийг нотлох боломжтой юм.
• Хүний ДОХын вирусын 2 өөр төрлийн гинж
 type 1 (HIV-1) болон
 type 2 (HIV-2). 2 гинж нь хоёулаа ойр зүйлүүдэд
халдварласан. HIV-2 нь sooty mangabey (Cercocebus atys,Old
world monkey) –д байдаг . HIV-1 вирусыг common chimpanzee
(Pan troglodytes)-аас үүсэлтэй гэж таамагладаг.
Retrieve sequence
information from GenBank
• Энэжишээндфилогенетик модбайгуулахдаа ХүнийболонSimian
immunodeficiencyvirus–ийн17өөрөөргинжнээс 3 кодоныурттайдараалал
авсан.
Эдгээрдарааллуудыг ньтэдгээрийнхандалтындугаараарньГенбанкаас
татажавсан.
Биднийсонирхсон3кодныбүснь
• gagprotein(Group-specific antigen Gag proteins are encoded by
the gag gene, and provide structural elements of the virus)
• Pol polyprotein( pol генийгкодлодог.)
• envelope polyprotein precursor (вирус ) юм.
• Эдгээр дараалал ньГенбанкаас CDS ийн мэдээллээр дамжиж
ирнэ. ( CDS is a software package for generalised Information Storage
and Retrieval systems developed)
• % Description Accession CDS:gag/pol/env
• data = {'HIV-1 (Zaire)' 'K03454' [1 2 8] ;
• 'HIV1-NDK (Zaire)' 'M27323' [1 2 8] ;
• 'HIV-2 (Senegal)' 'M15390' [1 2 8] ;
• 'HIV2-MCN13' 'AY509259' [1 2 8] ;
• 'HIV-2UC1 (IvoryCoast)‘ 'L07625' [1 2 8] ;
• 'SIVMM251 Macaque' 'M19499‘ [1 2 8] ;
• 'SIVAGM677A Green monkey' 'M58410' [1 2 7] ;
• 'SIVlhoest L''Hoest monkeys' 'AF075269‘ [1 2 7] ;
• 'SIVcpz Chimpanzees Cameroon' 'AF115393' [1 2 8] ;
• 'SIVmnd5440 Mandrillus sphinx' 'AY159322' [1 2 8] ;
• 'SIVAGM3 Green monkeys' 'M30931' [1 2 7] ;
• 'SIVMM239 Simian macaque' 'M33262' [1 2 8] ;
• 'CIVcpzUS Chimpanzee' 'AF103818 ' [1 2 8] ;
• 'SIVmon Cercopithecus Monkeys' 'AY340701 ' [1 2 8] ;
• 'SIVcpzTAN1 Chimpanzee' 'AF44776 3' [1 2 8] ;
• 'SIVsmSL92b Sooty Mangabey' 'AF334679‘ [1 2 8] ;
• };
• numViruses = size(data,1)
Та getgenbank функцыг ашиглан GenBank ийн өгөгдлийн сангаас
MATLAB руу мэдээллээ хөрвүүлж болно. SearchURL нь бодит GenBank
ийн үр дүнг харуулна. Веб комманд ашиглан хандах боломжтой.
)
acc_num = data{1,2}
seqs_hiv = getgenbank(acc_num)
web(seqs_hiv(1).SearchURL
.
Хандалтын дугаараар нь NCBI GenBank ийн өгөгдлийн
сангаас мэдээлэл хүлээн авах.
• acc_num = K03454
• seqs_hiv =
• LocusName: 'HIVELICG'
LocusSequenceLength: '9176‘
LocusNumberofStrands: ''
• LocusTopology: 'linear'
• LocusMoleculeType: 'DNA‘
LocusGenBankDivision: 'VRL‘
LocusModificationDate: '27-FEB-2002'
• Definition: 'Human immunodeficiency virus type 1, isolate ELI, complete genome.'
• Accession: 'K03454 X04414'
• Version: 'K03454.1'
• GI: '326675'
• Keywords: []
• Segment: []
• Source: 'Human immunodeficiency virus 1 (HIV-1)'
• SourceOrganism: [3x56 char]
• Reference: {[1x1 struct]}
• Comment: 'On Feb 26, 2002 this sequence version replaced gi:60167.'
• Features: [128x74 char]
• CDS: [1x9 struct]
• Sequence: [1x9176 char]
• Search URL: 'http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=nucleotide&term=K03454&dopt=GenBank&mode=file'
• Retrieve URL: 'http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?cmd=Text&db=nucleotide&uid=326675&dopt=GenBank'
for ind = 2:numViruses
seqs_hiv(ind) = getgenbank(data{ind,2});
end
• Хэрвээ интернет холболт байхгүй бол та энэ коммандыг
ашиглаж өгөгдлөө хэрэглэх боломжтой.
load hivdemodata % <== Uncomment this if no Internet
connection
Extract CDS for the GAG, POL, and ENV coding regions. Then extract
the nucleotide sequences using the CDS pointers
For ind = 1:numViruses
temp_seq = seqs_hiv(ind).Sequence;
temp_seq = regexprep(temp_seq,'[nry]','a');
CDSs = seqs_hiv(ind).CDS(data{ind,3});
gag(ind).Sequence = temp_seq(CDSs(1).indices(1):CDSs(1).indices(2));
pol(ind).Sequence = temp_seq(CDSs(2).indices(1):CDSs(2).indices(2));
env(ind).Sequence = temp_seq(CDSs(3).indices(1):CDSs(3).indices(2));
end
Филогенетик мод байгуулах.
• seqpdist ба seqlinkage комманд нь филогенетик мод
байгуулахад хэрэглэгддэг. GAG coding region нь 'Tajima-
Nei‘ ийн аргыг ашигладаг. Энэ арга нь дарааллуудын хоорон
дахь зайг хэмждэг. Unweighted pair group арга нь арифметик
дундажыг тооцно.Өөрөөр энэ аргыг 'UPGMA' гэж нэрлэдэг.
'Tajima-Nei‘ ийн арга нь зөвхөн нуклеотидийн дарааллыг
тодорхойлдог. Энэ нь нуклеотидийн дарааллал амин хүчлийн
дарааллаас илүү хурдан хөрвүүлэгддэгээс шалтгаалдаг.
gagd = seqpdist(gag,'method','Tajima-Nei','Alphabet','NT','indel','pair');
gagtree = seqlinkage(gagd,'UPGMA',data(:,1))
plot(gagtree,'type','angular');
title('Immunodeficieny virus (GAG protein)')
• Дараагийн филогенетик мод байгуулахад POL
polyproteins нь 'Jukes-Cantor' ийн арга ашиглана.
Өөрөөр WPGMA арга гэж нэрлэдэг. Энэ арга нь амин
хүчлийн дарааллыг тодорхойлход хэрэглэгдэнэ.
% Convert nucleotide sequences to amino acid sequences using *nt2aa*.
for ind = 1:numViruses
aagag(ind).Sequence = nt2aa(gag(ind).Sequence);
aapol(ind).Sequence = nt2aa(pol(ind).Sequence);
aaenv(ind).Sequence = nt2aa(env(ind).Sequence);
end
% Calculate the distance and linkage, and then generate the tree.
pold = seqpdist(aapol,'method','Jukes-Cantor','indel','pair');
poltree = seqlinkage(pold,'WPGMA',data(:,1))
plot(poltree,'type','angular');
title('Immunodeficieny virus (POL polyprotein)')
Шаталсан 'UPGMA‘ аргыг ашиглан ENV polyproteins
дээр филогенетик мод байгуулах.
envd = seqpdist(aaenv,'method','Alignment','indel','score',...
'ScoringMatrix','Blosum62');
envtree = seqlinkage(envd,'UPGMA',data(:,1))
plot(envtree,'type','angular');
title('Immunodeficieny virus (ENV polyprotein)')
Нэгтгэсэн мод байгуулах.
Эдгээр 3 мод нь маш ойролцоо гарсан боловч нэг
сонирхол татахуйц ялгаа байна. Жишээлбэл POL
модонд 'SIVmnd5440 Mandrillus sphinx' дараалал нь
HIV-1 strain тай ойролцоо байрласан байна. Гэвч ENV
модонд HIV-1 дарааллаас маш хол байрласан байна.
Эдгээр 3 мод нь хоорондоо үл ялиг ялгаатай үр дүн
гарсан учраас нэгтгэсэн мод нь илүү сайн үр дүн гаргаж
магадгүй. Мод байгуулахдаа 3 модны weighted average
(is similar to an arithmetic mean ) -ийг ашигласан.
weights = [sum(gagd) sum(pold) sum(envd)];
weights = weights / sum(weights);
dist = gagd .* weights(1) + pold .* weights(2) + envd .* weights(3);
% Note that different metrics were used in the calculation of the pairwise
% distances. This could bias the consensus tree. You may wish to
% recalculate the distances for the three regions using the same metric to
% get an unbiased tree.
tree_hiv = seqlinkage(dist,'average',data(:,1));
plot(tree_hiv,'type','angular');
title('Immunodeficieny virus (Weighted tree)')
HIV вирусын үүсэл
• Филогенетик мод байгуулсан үр дүнд анализ хийхэд 2 салаасан
хэсэг ба зарим нэг хэсгүүд гарсан. Хамгийн том салаа нь бүх
HIV2 ийн дээжүүдийг агуулсан байсан.
• sooty mangabey (old world monkey) нь HIV2 вирусын үүсэл
гэдгийг тогтоосон.
• HIV1 гинжийг агуулсан салаа нь HIV1 ийн үүсэл нь Chimpanzee –
аас үүсэлтэй гэдгийг харуулж байна. Гэсэн хэдий ч HIV
судлаачдын дунд аль зүйлээс хүнд халдварлсан нь маргаантай
хэвээр байна.
% Add annotations
annotation1 = annotation(gcf,'textarrow',[0.2875 0.3089],[0.681 0.7571],...
'Color',[1 0.5 0],'String',{'Possible HIV type 1 origin'},...
'TextColor',[1 0.5 0]);
annotation(gcf,'textarrow',[0.4196 0.4893],[0.5929 0.5405],...
'Color',[1 0 0],'String',{'HIV type 2 origin'},'TextColor',[1 0 0]);
References:
• [1] "Origin of HIV-1 in the chimpanzee Pan troglodytes troglodytes" Nature
397(6718), 436-41 (1999)
• [2] "Comparison of simian immunodeficiency virus isolates" Nature
331(6157), 619-622 (1988)
• [3] "Genetic variability of the AIDS virus: nucleotide sequence analysis of
two isolates from African patients" Cell 46 (1), 63-74 (1986)
Copyright 2003-2005 The MathWorks, Inc.
Published with MATLAB® 7.

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Sequence analysis

  • 1. Sequence analysis HIV/SIV вирус халдварласан организмуудад филогенетик мод байгуулах Биоинформатик 4 С.Ганчимэг
  • 2. Оршил • Энэ жишээ нь өвчин үүсгэгчдийн геномын мутаци, Африкын ногоон сармагчингын /simian immunodeficiency virus- болон хүний дархлал хомсдлын вирусын халдварлалтын тухай. Энэ мэдээлэл нь халдварлах үйл явдлын түүх болон 2 өөр вирусын strain-s үүссэн гэдгийг нотлох боломжтой юм. • Хүний ДОХын вирусын 2 өөр төрлийн гинж  type 1 (HIV-1) болон  type 2 (HIV-2). 2 гинж нь хоёулаа ойр зүйлүүдэд халдварласан. HIV-2 нь sooty mangabey (Cercocebus atys,Old world monkey) –д байдаг . HIV-1 вирусыг common chimpanzee (Pan troglodytes)-аас үүсэлтэй гэж таамагладаг.
  • 3. Retrieve sequence information from GenBank • Энэжишээндфилогенетик модбайгуулахдаа ХүнийболонSimian immunodeficiencyvirus–ийн17өөрөөргинжнээс 3 кодоныурттайдараалал авсан. Эдгээрдарааллуудыг ньтэдгээрийнхандалтындугаараарньГенбанкаас татажавсан. Биднийсонирхсон3кодныбүснь • gagprotein(Group-specific antigen Gag proteins are encoded by the gag gene, and provide structural elements of the virus) • Pol polyprotein( pol генийгкодлодог.) • envelope polyprotein precursor (вирус ) юм. • Эдгээр дараалал ньГенбанкаас CDS ийн мэдээллээр дамжиж ирнэ. ( CDS is a software package for generalised Information Storage and Retrieval systems developed)
  • 4. • % Description Accession CDS:gag/pol/env • data = {'HIV-1 (Zaire)' 'K03454' [1 2 8] ; • 'HIV1-NDK (Zaire)' 'M27323' [1 2 8] ; • 'HIV-2 (Senegal)' 'M15390' [1 2 8] ; • 'HIV2-MCN13' 'AY509259' [1 2 8] ; • 'HIV-2UC1 (IvoryCoast)‘ 'L07625' [1 2 8] ; • 'SIVMM251 Macaque' 'M19499‘ [1 2 8] ; • 'SIVAGM677A Green monkey' 'M58410' [1 2 7] ; • 'SIVlhoest L''Hoest monkeys' 'AF075269‘ [1 2 7] ; • 'SIVcpz Chimpanzees Cameroon' 'AF115393' [1 2 8] ; • 'SIVmnd5440 Mandrillus sphinx' 'AY159322' [1 2 8] ; • 'SIVAGM3 Green monkeys' 'M30931' [1 2 7] ; • 'SIVMM239 Simian macaque' 'M33262' [1 2 8] ; • 'CIVcpzUS Chimpanzee' 'AF103818 ' [1 2 8] ; • 'SIVmon Cercopithecus Monkeys' 'AY340701 ' [1 2 8] ; • 'SIVcpzTAN1 Chimpanzee' 'AF44776 3' [1 2 8] ; • 'SIVsmSL92b Sooty Mangabey' 'AF334679‘ [1 2 8] ; • }; • numViruses = size(data,1)
  • 5. Та getgenbank функцыг ашиглан GenBank ийн өгөгдлийн сангаас MATLAB руу мэдээллээ хөрвүүлж болно. SearchURL нь бодит GenBank ийн үр дүнг харуулна. Веб комманд ашиглан хандах боломжтой. ) acc_num = data{1,2} seqs_hiv = getgenbank(acc_num) web(seqs_hiv(1).SearchURL
  • 6. . Хандалтын дугаараар нь NCBI GenBank ийн өгөгдлийн сангаас мэдээлэл хүлээн авах. • acc_num = K03454 • seqs_hiv = • LocusName: 'HIVELICG' LocusSequenceLength: '9176‘ LocusNumberofStrands: '' • LocusTopology: 'linear' • LocusMoleculeType: 'DNA‘ LocusGenBankDivision: 'VRL‘ LocusModificationDate: '27-FEB-2002' • Definition: 'Human immunodeficiency virus type 1, isolate ELI, complete genome.' • Accession: 'K03454 X04414' • Version: 'K03454.1' • GI: '326675' • Keywords: [] • Segment: [] • Source: 'Human immunodeficiency virus 1 (HIV-1)' • SourceOrganism: [3x56 char] • Reference: {[1x1 struct]} • Comment: 'On Feb 26, 2002 this sequence version replaced gi:60167.' • Features: [128x74 char] • CDS: [1x9 struct] • Sequence: [1x9176 char] • Search URL: 'http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=nucleotide&term=K03454&dopt=GenBank&mode=file' • Retrieve URL: 'http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?cmd=Text&db=nucleotide&uid=326675&dopt=GenBank' for ind = 2:numViruses seqs_hiv(ind) = getgenbank(data{ind,2}); end
  • 7. • Хэрвээ интернет холболт байхгүй бол та энэ коммандыг ашиглаж өгөгдлөө хэрэглэх боломжтой. load hivdemodata % <== Uncomment this if no Internet connection
  • 8. Extract CDS for the GAG, POL, and ENV coding regions. Then extract the nucleotide sequences using the CDS pointers For ind = 1:numViruses temp_seq = seqs_hiv(ind).Sequence; temp_seq = regexprep(temp_seq,'[nry]','a'); CDSs = seqs_hiv(ind).CDS(data{ind,3}); gag(ind).Sequence = temp_seq(CDSs(1).indices(1):CDSs(1).indices(2)); pol(ind).Sequence = temp_seq(CDSs(2).indices(1):CDSs(2).indices(2)); env(ind).Sequence = temp_seq(CDSs(3).indices(1):CDSs(3).indices(2)); end
  • 9. Филогенетик мод байгуулах. • seqpdist ба seqlinkage комманд нь филогенетик мод байгуулахад хэрэглэгддэг. GAG coding region нь 'Tajima- Nei‘ ийн аргыг ашигладаг. Энэ арга нь дарааллуудын хоорон дахь зайг хэмждэг. Unweighted pair group арга нь арифметик дундажыг тооцно.Өөрөөр энэ аргыг 'UPGMA' гэж нэрлэдэг. 'Tajima-Nei‘ ийн арга нь зөвхөн нуклеотидийн дарааллыг тодорхойлдог. Энэ нь нуклеотидийн дарааллал амин хүчлийн дарааллаас илүү хурдан хөрвүүлэгддэгээс шалтгаалдаг.
  • 10. gagd = seqpdist(gag,'method','Tajima-Nei','Alphabet','NT','indel','pair'); gagtree = seqlinkage(gagd,'UPGMA',data(:,1)) plot(gagtree,'type','angular'); title('Immunodeficieny virus (GAG protein)')
  • 11.
  • 12. • Дараагийн филогенетик мод байгуулахад POL polyproteins нь 'Jukes-Cantor' ийн арга ашиглана. Өөрөөр WPGMA арга гэж нэрлэдэг. Энэ арга нь амин хүчлийн дарааллыг тодорхойлход хэрэглэгдэнэ.
  • 13. % Convert nucleotide sequences to amino acid sequences using *nt2aa*. for ind = 1:numViruses aagag(ind).Sequence = nt2aa(gag(ind).Sequence); aapol(ind).Sequence = nt2aa(pol(ind).Sequence); aaenv(ind).Sequence = nt2aa(env(ind).Sequence); end % Calculate the distance and linkage, and then generate the tree. pold = seqpdist(aapol,'method','Jukes-Cantor','indel','pair'); poltree = seqlinkage(pold,'WPGMA',data(:,1)) plot(poltree,'type','angular'); title('Immunodeficieny virus (POL polyprotein)')
  • 14.
  • 15. Шаталсан 'UPGMA‘ аргыг ашиглан ENV polyproteins дээр филогенетик мод байгуулах. envd = seqpdist(aaenv,'method','Alignment','indel','score',... 'ScoringMatrix','Blosum62'); envtree = seqlinkage(envd,'UPGMA',data(:,1)) plot(envtree,'type','angular'); title('Immunodeficieny virus (ENV polyprotein)')
  • 16.
  • 17. Нэгтгэсэн мод байгуулах. Эдгээр 3 мод нь маш ойролцоо гарсан боловч нэг сонирхол татахуйц ялгаа байна. Жишээлбэл POL модонд 'SIVmnd5440 Mandrillus sphinx' дараалал нь HIV-1 strain тай ойролцоо байрласан байна. Гэвч ENV модонд HIV-1 дарааллаас маш хол байрласан байна. Эдгээр 3 мод нь хоорондоо үл ялиг ялгаатай үр дүн гарсан учраас нэгтгэсэн мод нь илүү сайн үр дүн гаргаж магадгүй. Мод байгуулахдаа 3 модны weighted average (is similar to an arithmetic mean ) -ийг ашигласан.
  • 18. weights = [sum(gagd) sum(pold) sum(envd)]; weights = weights / sum(weights); dist = gagd .* weights(1) + pold .* weights(2) + envd .* weights(3); % Note that different metrics were used in the calculation of the pairwise % distances. This could bias the consensus tree. You may wish to % recalculate the distances for the three regions using the same metric to % get an unbiased tree. tree_hiv = seqlinkage(dist,'average',data(:,1)); plot(tree_hiv,'type','angular'); title('Immunodeficieny virus (Weighted tree)')
  • 19.
  • 20. HIV вирусын үүсэл • Филогенетик мод байгуулсан үр дүнд анализ хийхэд 2 салаасан хэсэг ба зарим нэг хэсгүүд гарсан. Хамгийн том салаа нь бүх HIV2 ийн дээжүүдийг агуулсан байсан. • sooty mangabey (old world monkey) нь HIV2 вирусын үүсэл гэдгийг тогтоосон. • HIV1 гинжийг агуулсан салаа нь HIV1 ийн үүсэл нь Chimpanzee – аас үүсэлтэй гэдгийг харуулж байна. Гэсэн хэдий ч HIV судлаачдын дунд аль зүйлээс хүнд халдварлсан нь маргаантай хэвээр байна.
  • 21. % Add annotations annotation1 = annotation(gcf,'textarrow',[0.2875 0.3089],[0.681 0.7571],... 'Color',[1 0.5 0],'String',{'Possible HIV type 1 origin'},... 'TextColor',[1 0.5 0]); annotation(gcf,'textarrow',[0.4196 0.4893],[0.5929 0.5405],... 'Color',[1 0 0],'String',{'HIV type 2 origin'},'TextColor',[1 0 0]);
  • 22. References: • [1] "Origin of HIV-1 in the chimpanzee Pan troglodytes troglodytes" Nature 397(6718), 436-41 (1999) • [2] "Comparison of simian immunodeficiency virus isolates" Nature 331(6157), 619-622 (1988) • [3] "Genetic variability of the AIDS virus: nucleotide sequence analysis of two isolates from African patients" Cell 46 (1), 63-74 (1986) Copyright 2003-2005 The MathWorks, Inc. Published with MATLAB® 7.