background image

 

TTTTTTTT

AAAAA

TTTTTTT

C

TTTT

AAA 

#2 Metody 

dystansowe 

C

 

D

 

E

 

F

 

G

 

H

 

I

 

J

 

K

 

L

 

M

 

N

 

O

 

A

 

B

 

background image

Przykładowe rodzaje cech stosowanych w rekonstrukcji filogenii 

background image

Typy matryc danych  

 

 

 

matryca 

cech 

matryca 

dystansów 

background image

Czy cechy morfologiczne są nadal istotne? 

  

ukierunkowane 

konwergencje 

 

 ograniczona liczba cech 

 

 

trudności w znalezieniu cech 

homologicznych między 

odległymi taksonami 

 

Zalety 

Wady   

 

tanie 

 

 

możliwość korzystania ze 

źródeł muzealnych 

 

 

taksony wymarłe mogą być 

analizowane głównie na 
podstawie danych 
morfologicznych 

 

 

dane morfologiczne mogą 

być testowalne na wszystkich 
etapach analizy filogenetycznej 

 

background image

Metody konstruowania drzew filogenetycznych 

Metoda obliczeniowa 

optymalizacja 

analiza klastrów 

• Parsymonia 

• Maximum Likelihood 

• wnioskowanie                         
Bayesowskie 

Cechy 

 Minimum Evolution 

• UPGMA 

• Neighbor-Joining 

Dystanse 

background image

Zasada działania 

1.

Metody dystansowe zakładają stochastyczny 
model ewolucji (np. sekwencji) 

 

 

2.

Stosują ten model do określenia prawdziwej liczby 

różnic (np. substytucji) z obserwowanych różnic 
 

 

3.

Budują drzewo, które jest dopasowane najlepiej 
do oszacowanych dystansów ewolucyjnych 

 

background image

Zasada działania 

Liczona jest całkowita liczba substytucji, które występują 
w parze porównywanych sekwencji (=taksonów) od 
momentu dywergencji od wspólnego przodka. 

Liczba ta jest dzielona przez długość sekwencji. 

Dystans ten wyrażany jest w liczbie substytucji/miejsce 
(dystans p) 

przodek

 

sekwencja 1

 

sekwencja 2

 

substytucja 

substytucja 

substytucja 

substytucja 

substytucja 

background image

UPGMA 

UPGMA (unweighted pair group method with arithmetic mean) 

to najprostsza metoda grupująca taksony według ogólnego 

podobieństwa lub odległości. 
 

Pracuje wyłącznie na matrycach dystansowych np. 
hybrydyzacja DNA-DNA lub konstruowanych z danych 

sekwencyjnych na podstawie ilości substytucji.  
 

UPGMA 

umożliwia określenie długości gałęzi (odlegości 

ewolucyjnej) jak i uporządkowania gałęzi. 
 

Zakłada stały zegar molekularny – możliwe jest teoretycznie 

oszacowanie czasu dywergencji na podstawie różnic w 
sekwencjach. 

background image

Jak działa UPGMA 

OTU 

A  B  C 

7  12 

9  14 

-  11 

Matryca dystansowa 
– substytucje/100 nukleotydów 

1. Znajdź najbliższą parę gatunków. 

2. Połącz oba te gatunki w klaster. 
3. Policz na nowo pozostałe dystanse jako średnią od A-C. 

OTU  A-C  B 

A-C 

8,5  11,5 

14 

Matryca zredukowana 
 

4. Idź do kroku 1 i powtórz procedurę, jeśli w tabeli pozostała tylko jedna 

wartość to zakończ analizę. 

background image

Warunek „trzech punktów” 

Aby analiza UPGMA mogła być przeprowadzona z sukcesem dane 

muszą być zultrametryzowane. Oznacza to, że dla dowolnych trzech 

taksonów (x, y, z) dystanse (d) pomiędzy nimi muszą spełniać 

następujące wyrażenie: 

Powyższą formułę nazywa się także 

warunkiem „trzech punktów”

d(x,z) 

≤ max (d(x,y), d(y,z))

background image

Kiedy UPGMA zawodzi 

Prawdziwe drzewo          Matryca dystansów              Drzewo UPGMA 

background image

Neighbor-Joining (NJ) 

Metoda koncepcyjnie zbliżona do analizy klastrów, 
jednak dopuszcza niejednakowe tempo zmian 

molekularnych wśród gałęzi. 
 

• Zasada analizy NJ:  

 

Wyszukiwanie par taksonów (sąsiadów=neighbors), 

które minimalizują totalną długość gałęzi na każdym 

etapie grupowania taksonów początkowo zgrupowanych 

w całkowicie politomicznym drzewie („gwiazda”). 

 

background image

Jak działa NJ 

1. Inicjalne drzewo ma postać 

w pełni politomicznej 
gwiazdy.

 

3. Powtarzane jest to ze wszystkimi moż-

liwymi kombinacjami par, aż do znale-

zienia drzewa o najmniejszej całkowitej 

długości gałęzi. Para sekwencji z tego 

drzewa sąsiaduje ze sobą w finalnym 
drzewie.

 

2. Losowo wybierana jest para sekwencji i 

łączona gałęzią z centrum gwiazdy. 

Liczona jest całkowita długość gałęzi 
drzewa (=suma dystansów). Para jest 
zwracana do gwiazdy.

 

4. Para ta jest tymczasowo kombinowana 

w jednostkę, włączana do gwiazdy 

krótszej o jedną gałąź i matryca 
dystansów liczona jest na nowo.

 

5. Procedura jest powtarzana tak długo, aż wszyscy „sąsiedzi” zostaną 

znalezieni i otrzymamy gotowe drzewo.

 

G

 

A

 

B

 

C

 

D

 

E

 

F

 

H

 

G

 

A

 

B

 

C

 

D

 

E

 

F

 

H

 

G

 

A

 

B

 

C

 

D

 

E

 

F

 

H

 

G

 

C

 

D

 

E

 

F

 

H

 

G

 

(A,B) 

C

 

D

 

E

 

F

 

H

 

G

 

((A,B),H) 

C

 

D

 

E

 

F

 

((A,B),H) 

C

 

D

 

E

 

(G,F) 

((A,B),H) 

D

 

(G,F) 

(C,E) 

((A,B),H) 

(G,F) 

(D,(C,E)) 

(((A,B),H),(G,F)) 

(D,(C,E)) 

((((A,B),H),(G,F)),(D,(C,E))) 

H 

A 

B 

G 

F 

D 

C 

E 

background image

Minimum Evolution (ME) 

• 

Metoda ściśle „spokrewniona” z NJ.  

 

• ME stosuje kryterium minimalnej ewolucji, czyli 

wyszukiwania drzewa o totalnej najmniejszej długości gałęzi 
(=sumie dystansów).  

 

• 

Testowane są wszystkie możliwe topologie i wybierana ta o 

najmniejszej wartości – bardzo ekstensywna metoda. 

 

• Inicjalne drzewo produkowane jest przez NJ, mierzona 

totalna długość gałęzi dla tego drzewa oraz drzew 

pochodnych podobnych topologicznie, różniących się od 
inicjalnego drzewa o d

t

=2 i 4. Jest to powtarzane wielokrotnie - 

Close-Neighbor-Interchange (CNI)

 

 

background image

najprostszy 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
najbardziej 

złożony 

Modele ewolucji 

Frekwencje nukleotydów i są równe i wszystkie 

rodzaje substytucji są jednakowo prawdopodobne 
(Jukes-Cantor) 
 

Frekwencje nukleotydów i są równe, ale tranzycje i 

transwersje występują w różnych proporcjach 
(Kimura 2 parametrowy) 
 

Frekwencje nukleotydów i są różne oraz tranzycje i 

transwersje występują w różnych proporcjach 
(HKY) 
 

Frekwencje nukleotydów są różne oraz wszystkie 

typy substytucji występują w różnych proporcjach 
(GTR) 
 
 

background image

• stosuje kryterium optymalizacji 

• jak NJ 

• informacja z sekwencji jest 
zredukowana (dystanse) 

• 

daje tylko jedno możliwe 

drzewo 

• 

silnie zależy od rodzaju 

zastosowanego modelu ewolucji 

• 

bardzo szybka (długie 

sekwencje, bootstrap) 

• 

akceptuje linie wykazujące 

różne tempo ewolucji 

• 

bardzo wolna i wymaga dużej 

mocy komputera i/lub procedur 
heurystycznych (CNI) 

• jak NJ 

ME 

NJ 

• bardzo 

czuła na różne tempo 

ewolucji 

• 

grupowanie możliwe jest 

jedynie, jeśli dane są 

ultrametryczne tzn. spełniają 
warunek „trzech punktów” 

• bardzo prosta i bardzo szybka 

 

UPGMA 

Wady 

Zalety 

Metoda 

Wady i zalety metod dystansowych 

background image

Wady i zalety metod dystansowych 

Generalnie wszystkie 

metody dystansowe

 

są 

fenetyczne - 

konstruują drzewa poprzez 

grupowanie OTU na podstawie ogólnego 

podobieństwa (morfologicznego, sekwencji itp.). 

A ogólne podobieństwo nie koniecznie musi 

odzwierciedlać prawdziwe pokrewieństwo 
filogenetyczne. 

background image

Metody próbkowania (resampling

Są to metody statystyczne służące do określenia stabilności 
kladów. 
 

Pobierane są wielokrotnie losowe próbki (pseudoreplikacje) z 
danych.  
 

Konstruowane są drzewka z wszystkich pseudoreplikacji i 
procedura powtarzana jest wielokrotnie ( np. 1000 razy) 

Następnie liczony jest 50% majority rule consensus
 

Częstotliwość pojawiania się poszczególnych kladów w 

drzewie konsensusowym stanowi miarę stabilności testowanej 
topologii drzewa filogenetycznego. 
 

Stosowane do wszelkich danych dyskretnych, także 
dystansowych. 

background image

Jackknife 

• Losowo pobierane do próbki cechy (dystanse) bez 

zwracania danych do oryginalnej matrycy. 

Symulacje wykazały, że najodpowiedniejszą wielkością 
próbki jest 1/e (ok. 36,8%) danych.  

                           

Av.calidridis1    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridis2    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridis3    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridisalp  tatgaatgaattttctaagggttggtttttttg--ttttt-c 

Av.phalaropi      tatgaatgaatttactatgaattttttct---gaattttttc 

Av.philomachi     tatgaatgaattttctgaaaattttttttt--a--tttattc 

Av.totanigla1     tatgaatgaatgttctaaaaattttttttt--g--ttttttc 

Av.totanigla2     tatgaatgaatgttctaaaaattttttttt--g--ttttttc 

Av.totanitot1     tatgaatgaattttctaaaaattttttttt--g--ttttttc 

Av.totanitot2     tatgaatgaattttctaaaaattttttttt--g--ttttttc 

Av.tretekiae      tatgaatgaattttctaataattttttttt--g--ttttttc 

Av.tringae        tatgaatgaattttctaataatttttattattg--ttttt-- 

oryginalna matryca                                

N=42 

próbka  

N=15 

Procedura ta jest 
powtarzana 
wielokrotnie (np. 
1000 razy) i za 

każdym razem z 
próbki budowane 
jest drzewo (-a) 
filogenetyczne.  
Następnie 
konstruowany 
jest konsensus.  

background image

Bootstrap 

Losowo pobierane są pseudoreplikacje i, w odróżnieniu do 
jackknife

, dane zwracane są do oryginalnej matrycy. 

Wielkość próbki jest taka sama jak matrycy oryginalnej. 

Oznacza to, że pewne pseudoreplikacje są pobierane 

więcej niż jeden raz.  

                           

Av.calidridis1    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridis2    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridis3    tatgaatgaattttctgagaactgttttttctg--ttttt-c 

Av.calidridisalp  tatgaatgaattttctaagggttggtttttttg--ttttt-c 

Av.phalaropi      tatgaatgaatttactatgaattttttct---gaattttttc 

Av.philomachi     tatgaatgaattttctgaaaattttttttt--a--tttattc 

Av.totanigla1     tatgaatgaatgttctaaaaattttttttt--g--ttttttc 

Av.totanigla2     tatgaatgaatgttctaaaaattttttttt--g--ttttttc 

Av.totanitot1     tatgaatgaattttctaaaaattttttttt--g--ttttttc 

Av.totanitot2     tatgaatgaattttctaaaaattttttttt--g--ttttttc 

Av.tretekiae      tatgaatgaattttctaataattttttttt--g--ttttttc 

Av.tringae        tatgaatgaattttctaataatttttattattg--ttttt-- 

oryginalna matryca                               

N=42 

próbka                              

N=42

  

background image

Bootstrap – 

wartości krytyczne 


Document Outline