background image

Filogenetyka 

Katedra Genetyki, Hodowli i Biotechnologii 

Roślin, SGGW 

Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki 

background image

Filogenetyka 

Cel 

– rekonstrukcja historii ewolucji 

wszystkich organizmów 

 

Klasyczne podejście: 

  historia ewolucji jest odtwarzana na 

podstawie porównań cech 

morfologicznych i fizjologicznych 

badanych organizmów. 

background image

Filogenetyka 

Molekularne podejście: 

  zadaniem filogenetyki molekularnej jest 

zrekonstruowanie związków filogenetycznych między 

badanymi sekwencjami 

 

Podstawowe założenie w filogenetyce molekularnej: 

 

sekwencje przodka mutują w sekwencje potomków 

podobne gatunki są genetycznie blisko spokrewnione 

 
 

background image

Mechanizmy ewolucji 

Mutacje w genach 

  Mutacje są rozprzestrzeniane w 

populacji poprzez dryf genetyczny i/lub 

selekcję naturalną 

 

Duplikacja i rekombinacja genów 

background image

tempo mutacji zależy od regionu w genomie, genie, rodzaju genu; 

 

częściej obserwuje się podstawienia w III pozycji kodonów; 

    

CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany 

aminokwasu 

  CTG (leucyna) zmiana C-T nie powoduje zmian 

 

zmiana SYNONIMICZNA 

zmiana NIESYNONIMICZNA 

 

częściej obserwuje się podstawienia typu tranzycji (puryna-

puryna, pirymidyna-pirymidyna) niż transwersji; 

 

częściej obserwowane są podstawienia między aminokwasami 

podobnymi do siebie, ze względu na swoje właściwości 

biochemiczne, biofizyczne, np.: 

izoleucyna – lecyna 

walina – izoleucyna 

Kwas asparaginowy – kwas glutaminowy 

 

 

background image

OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW 

 

Symbol 

 

3-literowy 

 

znaczenie 

 

kodony 

 

 

Ala 

 

Alanina 

 

GCT, GCC, GCA, GCG 

 

 

Asp, Asn 

 

Asparagina, Asparaginian 

 

GAT, GAC, AAT, AAC 

 

 

Cys 

 

Cysteina 

 

TGT, TGC 

 

 

Asp 

 

Asparaginian 

 

GAT, GAC 

 

 

Glu 

 

Glutaminian 

 

GAA, GAG 

 

 

Phe 

 

Fenyloalanina 

 

TTT, TTC 

 

 

Gly 

 

Glicyna 

 

GGT, GGC, GGA, GGG 

 

 

His 

 

Histydyna 

 

CAT, CAC 

 

 

Ile 

 

Izoleucyna 

 

ATT, ATC, ATA 

 

 

Lys 

 

Lizyna 

 

AAA, AAG 

 

 

Leu 

 

Leucyna 

 

TTG, TTA, CTT, CTC, CTA, CTG 

 

 

Met 

 

Metionina 

 

ATG 

 

 

Asn 

 

Asparagina 

 

AAT, AAC 

 

 

Pro 

 

Prolina 

 

CCT, CCC, CCA, CCG 

 

 

Gln 

 

Glutamina 

 

CAA, CAG 

 

 

Arg 

 

Arginina 

 

CGT, CGC, CGA, CGG, AGA, AGG 

 

 

Ser 

 

Seryna 

 

TCT, TCC, TCA, TCG, AGT, AGC 

 

 

Thr 

 

Treonina 

 

ACT, ACC, ACA, ACG 

 

 

Val 

 

Walina 

 

GTT, GTC, GTA, GTG 

 

 

Trp 

 

Tryptofan 

 

TGG 

 

 

Xxx 

 

Nieznany 

 

  

 

 

Tyr 

 

Tyrozyna 

 

TAT, TAC 

 

 

Glu, Gln 

 

Glutaminian, Glutamina 

 

GAA, GAG, CAA, CAG 

 

 

End 

 

Terminator 

 

TAA, TAG, TGA 

 

background image

rzadko obserwuje się podstawienia między 

aminokwasami bardzo różniącymi się swoimi 

właściwościami: 

     

tryptofan – izoleucyna 

 

rzadko obserwuje się podstawienia między 

aminokwasami pełniącymi ważne role w białkach: 

     tryptofan (

T

G

G

) na kodon stop (

T

A

G

 

mutacje 

missens 

– jeden aminokwas zastępowany 

innym 

 

mutacje 

nonsens

 – terminacja translacji 

 

zmiana ramki odczytu 

background image

Wyrazem analiz filogenetycznych są 

drzewa 

filogenetyczne 

 

między cząsteczkami – 

drzewo genów 

lub organizmami – 

drzewo gatunków 

background image

Korzeń

 – wspólny przodek dla wszystkich taksonów 

 

Gałąź 

– obrazuje związki ewolucyjne między 

porównywanymi jednostkami taksonomicznymi 

 

Długość gałęzi

 – zazwyczaj reprezentuje liczbę zmian, 

które się zdarzyły w danej linii ewolucyjnej 

 

Węzeł

 – reprezentuje miejsce rozgałęzień jednostek 

taksonimicznych (populacji, organizmu, genu). 

 

Liść 

– reprezentuje aktualnie analizowaną jednostkę 

taksonomiczną

  

background image

Drzewa

 

ukorzenione

 i 

nieukorzenione  

znany wspólny przodek lub istnieje hipoteza na temat 

wspólnego przodka / nieznany wspólny przodek 

 

Topologia drzewa 

 

Długość gałęzi (czas ewolucji, ilość zmian) 

 

background image

Przykładowe drzewa filogenetyczne 

 

background image

Po co konstruuje się drzewa filogenetyczne? 
 

•Poznanie i zrozumienie historii ewolucyjnej 
•Mapowanie różnicowania szczepów patogennych do 

opracowania szczepionek 

•Wsparcie dla epidemiologów 
– Choroby infekcyjne 
– Defekty genetyczne 
• Narzędzie do przewidywania funkcji nowo odkrytych 

genów  

• Badania różnicowania układów biologicznych 
• Poznanie ekologii mikroorganizmów 

background image

Filogenetyka zwana jest czasem 

kladystyką 

 

Klad

 – zbiór potomków pochodzących od pojedynczego przodka 

Podstawowe założenia kladystyki

 

1. każda grupa 

organizmów

 jest spokrewniona przez 

pochodzenie od wspólnego przodka 

2. kladogeneza ma charakter 

bifurkacyjny

 (rozwidlający się) 

3. zmiany 

w cechach pojawiają się w liniach 

filogenetycznych z upływem czasu

 

 

Drzewo genów: bifurkacja – mutacja 

Drzewo gatunków: bifurkacja – specjacja 

 

Mutacja –  

 

warunek niezbędny, ale nie zawsze wystarczający do 

specjacji 

background image
background image

Często zapominamy o: 

I   Domniemany znak równości między podobieństwem 

zestawu cech (np. nukleotydów), a pochodzeniem 

  

 

II  Mutacje somatyczne ≠ mutacje genetyczne 

 

Mutacja – DNA lub białka wydziela się z tkanek 

somatycznych, dla filogenezy istotne są tylko mutacje 

w gametach 

  

 

III Cechy używane do budowy drzewa gatunków mają 

się nijak do cech używanych do budowy drzewa 

genów 

 

background image
background image

Cechy, które mogą być użyte do budowy drzewa rzędów owadów:

 

 

Poruszanie się  

Okrycie stwardniałym oskórkiem lub kokonem, 

Widoczność niezupełnie rozwiniętych narządów 

Widoczność niecałkowicie wykształconych i nie funkcjonujących 

odnóży, 

Widoczność zawiązków skrzydeł 

Widoczność aparatu gębowego

  

Zdolność do aktywnego poruszania się 

Pełne wykształcenie narządów lokomotorycznych 

Pełne wykształcenie zmysłów 

Obecność członowanych odnóży krocznych  

Liczba członowanych odnóży krocznych  

Obecność pseudopodiów 

Liczba pseudopodiów 

 

Geny, które bierze się najczęściej do budowy drzew genów: 

  Cytochrom B 

NADH dehydrogenase subunit I (ND1)  

18S RNA 

28S RNA 

 

background image

Horyzontalny transfer genów 

background image

Niektóre domyślne założenia kladystyki: 

 

• sekwencje są poprawne 

• sekwencje są 

homologiczne 

 

 

Podobieństwo

 – to wielkość obserwowalna, którą można 

określić np. jako % identycznych aminokwasów. 

 

Homologia

 – określa 

wspólne pochodzenie

 porównywanych 

genów (to może być wniosek wyciągnięty z analizy 

podobieństwa) 

 

Termin 

homologiczne

 oznacza 

odziedziczone po 

wspólnym przodku 

 

background image

Niektóre domyślne założenia kladystyki (cd): 

 

 

• każda pozycja

 w sekwencjach dopasowanych (alignment)  

jest homologiczna z każdą odpowiednią pozycją w tym 

dopasowaniu 

 

 

 

• różnorodność sekwencji w danym zbiorze jest na tyle 

duża, że zawiera filogenetyczne sygnały, odpowiednie do 

rozwiązania postawionego problemu 

 

background image

Jakich sekwencji użyć ? 

 

•DNA (mt, rDNA, powoli czy szybko ewoluujące) 

– Bardzo szczegółowe, niejednolite tempo mutacji 

•cDNA/RNA 

– Użyteczne dla bardziej odległych sekwencji homologicznych 

•Sekwencje białkowe 

– Użyteczne do badania większości odległych sekwencji 

homologicznych, możliwość konstrukcji bardzo rozległych 

ewolucyjnie drzew, bardziej jednolite tempo zmienności 

mutacyjnej, więcej elementów zmienności 

background image

Jacek Leluk  

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski 

Sekwencje rybosomowego 16S RNA  

 

•Występują we wszystkich organizmach 

•Są wysoce konserwatywne 

•Nadają się do konstruowania bardzo rozległych 

ewolucyjnie drzew  

•Znane dla kilkudziesięciu tysięcy organizmów, głównie 

prokariotycznych 

background image

Co jest obliczane? 

 

Topologia drzewa 

  –porządek (kolejność) odgałęzień i korzeń 

Długość odgałęzień (czas ewolucji) 

Sekwencje przodków 

Wartości pokrewieństwa (np. 

prawdopodobieństwo poszczególnych przemian) 

Wiarygodność drzewa 

background image

Jacek Leluk  

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski 

Dopasowywanie sekwencji  

(Multiple Sequence Alignment) 
 

 

•  Dopasowanie spokrewnionych sekwencji w taki  

sposób, żeby odpowiadające sobie pozycje 

znajdowały się w tej samej kolumnie 

•  Wypełnienie brakujących miejsca kreskami 

(delecje, insercje) 

•  Każda kolumna znaków staje się pojedynczym 

elementem do dalszych obliczeń filogenetycznych 

background image

Dopasowanie i porównanie wielu sekwencji 

Celem porównania wielu sekwencji jest ułożenie w 

kolumnach aminokwasów (nukleotydów) pochodzących 

od jednego aminokwasu (nukleotydu) w białku (genie) 

wspólnego przodka we wszystkich sekwencjach od 

niego pochodzących. 

Wstawienie przerwy 

background image

Porównanie parami 

Porównanie parami wszystkich sekwencji  

 

- seq_1 & seq_ 2 

 0.91 

seq_ 1 & seq_ 3 

 0.23 

… 

seq_ 8 & seq_ 9 

 0.87 

 

background image

Porównanie wielu sekwencji 

W oparciu o 

dendrogram przewodni

 zaczyna 

się porównywanie grup sekwencji.  

 

Drzewo przewodnie

 wskazuje, które 

sekwencje są najbliższe – a więc najpierw 

porównuje się te  „łatwe”, a trudniejsze 

zostawia się na potem. 

background image

Sekwencje nieułożone 

a  mthislgslyshktaktingsdeaskmewhf 
b  mthvslgsmyshktgrtingsdqaskkmewhy 
c  mshisitmyshktartidgseqaskmewhy 
d  mthipigsmyshktaravngseqasklqwhy 
e  mthipigsmystartincseqasklewhy 

 

background image

Porównanie wielu sekwencji 

mthipigsmyshktaravngseqasklqwhy 
 
mthipigsmys--tartincseqasklewhy 

background image

Porównanie wielu sekwencji 

mthipigsmyshktaravngseqasklqwhy 
 
mthipigsmys--tartincseqasklewhy 

mthislgslyshktaktingsdeas-kmewhf 
 
mthvslgsmyshktgrtingsdqaskkmewhy 

background image

Porównanie wielu sekwencji 

mshisi-tmyshktartidgseqaskmewhy 
 
mthipigsmyshktaravngseqasklqwhy 
 
mthipigsmys--tartincseqasklewhy 

mthislgslyshktaktingsdeas-kmewhf 
 
mthvslgsmyshktgrtingsdqaskkmewhy 

background image

Porównanie wielu sekwencji 

mshisi-tmyshktartidgseqas-kmewhy 
 
mthipigsmyshktaravngseqas-klqwhy 
 
mthipigsmys--tartincseqas-klewhy 

mthislgslyshktaktingsdeas-kmewhf 
 
mthvslgsmyshktgrtingsdqaskkmewhy 

background image

Sekwencje ułożone 

a  mthislgslyshktaktingsdeas-kmewhf 
b  mthvslgsmyshktgrtingsdqaskkmewhy 
c  mshisi-tmyshktartidgseqas-kmewhy 
d  mthipigsmyshktaravngseqas-klqwhy 
e  mthipigsmys--tartincseqas-klewhy 
 

background image

Metody obliczeniowe konstruowania drzew 

filogenetycznych 

• 

Metody analizy odległościowe (distance methods) 

  – met. średnich połączeń – (UPGMA; unweighted pair group method 

with arithmetic mean,  

  - met. przyłączania sąsiadów (NJ; neighbor joining) 
  - met. Fitch-Margoliash (FM) 
  - met. minimalnych odległości (ME) 
• 

Metody oparte na cechach (character based methods) 

  - met. największej oszczędności (MP; Maximum Parsimony) 
  - met. największej wiarygodności (ML; Maximum Likelihood) 
• 

Łączenie drzew - drzewa konsensusowe, superdrzewa 

background image

Budowa dendrogramu przewodniego 

Skonstruowanie dendrogramu przewodniego w 

oparciu o porównania parami  

 

Metoda średnich połączeń

 - UPGMA 

– unweighted pair 

group method with arithmetic mean (PileUp & Clustal 
V) 

 

Metoda przyłączania sąsiada

 - Neighbor-Joining (NJ) 

(Clustal W, Clustal X) 

 
 

background image

Metody odległościowe 

Odległość wyrażana jest w ułamkach 

miejsc, którymi różnią się między sobą 2 

sekwencje w wielokrotnym przyrównaniu 
 

Para sekwencji różniąca się w 10% miejsc 
jest bliżej spokrewniona niż para różniąca 
się w 30%. 

background image

Metody odległościowe 

przodek   linia potomna   

liczba zmian 

   

A  

    

C – A   

 

 

   A  

  C – G   

 

 

   A  

 

C   

 

 

   

 

 

background image

Metoda nieważona grupowania parami ze średnią 

arytmetyczną UPGMA 

program znajduje najpierw 

parę taksonów

, którą 

dzieli 

najmniejsza różnica

 i ustala 

punkt 

rozejścia

 

między nimi, czyli węzeł, 

w

 

połowie 

odległości

.  

łączy je

 w klaster i wpisuje do nowej macierzy 

odległości dzielące ten klaster od pozostałych 

powtarzanie

 

tych etapów, aż macierz zostanie 

zredukowana do 1 obiektu 

background image

 

A  B  C  D  E 

0  6  9  11  9 

6  0  7 

9  7 

9  7  0 

8  6 

D  11  9  8 

0  4 

9  7  6 

4  0 

 

 

A B C DE

A

0

6

9

10

B

6

0

7

8

C

9

7

0

7

DE 10

8

7

0

AB C DE

AB

0

8

9

C

8

0

7

DE

9

7

0

AB CDE

AB

0

8.5

CDE

8.5

0

1. 

2. 

3. 

4. 

background image

UPGMA 

Hipoteza zegara molekularnego

 – ewolucja 

różnych gatunków zachodzi w takim samym 

tempie (FAŁSZ) 
 

Rzadko używana metoda przez filogenetyków, 

nadal popularna w epidemiologii 

drobnoustrojów 

background image

Metody odległościowe – 

przyłączanie 

sąsiadów (NJ) 

umożliwia konstruowanie 

nieukorzenionych

 drzew 

 

drzewa addytywne

 – odległość pomiędzy 

gatunkami reprezentowanymi przez liście drzewa 

są równe sumie długości łączących je gałęzi 

(odległości od obu taksonów do węzła nie muszą 

być identyczne)  
 

background image

Metody oparte na cechach 

metoda 

największej oszczędności

 (MP) 

 
 

metoda 

największej wiarygodności

 (ML) 

background image

Metoda największej oszczędności (MP) 

Metoda 

parsymonii 

(oszczędności) – 

najodpowiedniejsze jest takie drzewo, w 

którym potrzebujemy najmniejszej liczby 

zmian do wyjaśnienia danych występujących 

jako przyrównanie sekwencji. 

background image

Kryterium parsymonii 

 

 

 

 

     A    B    

C   D 

  A    

D   C

    B 

  A    

C   D   

B

 

+   + 

Które drzewo jest najprostszym wytłumaczeniem 
obserwowanego zróżnicowania cechy między gatunkami? 

+  wykształcenie się cechy 

*  utracenie cechy 

background image

Metoda największej wiarygodności 

Poszukiwanie drzewa, które zgodnie z określonym 

modelem ewolucji maksymalnie uwiarygodnia dane. 

 

Wiarygodność obliczamy dla: 

topologii drzewa 

długości gałęzi 

wartości wskaźników tempa podstawień (częstość występowania 

zasady, liczba tranzycji / liczby transwersji)  

 

Wyznaczenie wartości ML może posłużyć do utworzenia 

rankingu alternatywnych drzew. 

 

background image

Metoda bootstrap 

Pozwala oszacować wiarygodność rozgałęzień w 

drzewach 

 

Porównuje topologię drzewa dla losowo 

wygenerowanych dopasowań sekwencji (100 – 

1000 dopasowań) 

 

Drzewo z 

wartościami bootstrap

 (odsetek 

wygenerowanych drzew, w których obserwowano 

dokładnie takie samo rozgałęzienie linii 

ewolucyjnych) 

 

background image

Dobór właściwego algorytmu 

 

•Niedyskretny charakter zmiennych jednostek, duża ilość 

danych, niewielkie zasoby obliczeniowe ==> Metoda 

najbliższego sąsiedztwa (Neighbor joining) 

•Dyskretny charakter zmiennych, niewielka liczba 

mutacji/homoplazja ==> Maximum Parsimony 

•Dyskretny charakter zmiennych, ograniczona długość 

sekwencji, występowanie zjawiska homoplazji 

==>Maximum Likelihood 

• Dyskretny charakter zmiennych, wiele gatunków 

==>Superdrzewo 

•Kompletne genomy ==>Filogeneza całych genomów