background image

 

TTTTTTTT

AAAAA

TTTTTTT

C

TTTT

AAA 

#6 Metody wiarygodnościowe 

background image

błędne drzewo z LBA 

prawdziwe drzewo 

MP jest nieodporna na long-branch attraction (LBA) 

 
 

synapomorfia 

 
 
 

homoplazja  

– pozorna  

synapomorfia 

background image

Metody wykrywania LBA 

Neighbor-nests generowane 
przez SplitTree4 

1.

Osobne analizy partycji

2.

Usuwanie potencjalnych 

długich gałęzi

3.

Dobór grup zewnętrznych

4.

Symulacje parametryczne 
(bootstrap)

5.

Split decomposition + 
analiza spektralna

6.

Niezgodność wyników z 

różnych metod

7.

Porównanie z filogenią 

morfologiczną

background image

Jak uniknąć wpadnięcia w „strefę 

Felsensteina” 

1.

Wyłączanie pewnych fragmentów 
sekwencji np. 3-cia pozycja kodonu, 
fragmenty hiperzmienne 

2. Dodawanie nowych taksonów (?) 
3.

Dodawanie nowych źródeł danych i 
analiza total evidence 

4.

Zastosowanie metod biorących pod 

uwagę długość gałęzi 

1.

Wyłączanie pewnych fragmentów 
sekwencji np. 3-cia pozycja kodonu, 
fragmenty hiperzmienne 

2. Dodawanie nowych taksonów 
3.

Dodawanie nowych źródeł danych i 
analiza total evidence 

4.

Zastosowanie metod biorących pod 

uwagę długość gałęzi 

Metody wiarygodnościowe 

są najbardziej odporne na ten problem,  

jeśli zostanie zastosowany odpowiedni 

model substytucji 

background image

Modele ewolucji sekwencji 

Modele mogą dotyczyć różnych aspektów ewolucji 
sekwencji:

Różnorodnego stosunku transwersji do tranzycji.

– Odmiennej frekwencji nukleotydów.

Różnorodnego tempa ewolucji w poszczególnych 
miejscach sekwencji.

Różnorodnego tempa ewolucji (=substytucji) w 

ramach linii (poszczególnych taksonów) czy całych 
partii drzewa.

background image

Modele ewolucji sekwencji 

• Bogactwo parametrów modeli ma pozytywne i 

negatywne strony:

im więcej parametrów do testowania tym lepiej można 

dopasować model do konkretnych danych.

im więcej parametrów do testowania tym wyższa 

wariancja oszacowania.

background image

Modele ewolucji sekwencji 

T

 

Jukes-Cantor 

T

 

Generalny 

T

 

2α 

α 

α 

Kimura 2 parametrowy 

2α 

2α 

2α 

background image

Metody wiarygodnościowe 

1. Maximum Likelihood (ML, metoda 

maksymalnej wiarygodności) 
 

2. Bayesian Phylogenetic Inference + 

Markov Chain Monte Carlo (BPI+ MCMC, 

wnioskowanie Bayesowkie z łańcuchem 
Markowa Monte Carlo) 

 

background image

Metody wiarygodnościowe 

 Zalety metod:

Dobrze pracują z danymi zawierającymi zarówno odlegle 
spokrewnione sekwencje jak i bliskie sobie gatunki – najbardziej 
uniwersalne

Wykorzystują wszystkie dane – zmienne i niezmienne, informatywne 
parsymonicznie i nieinformatywne

Dobrze sprawują się przy niejednorodnym tempie substytucji (biorą 

pod uwagę długość gałęzi) i w związku z tym są najbardziej odporne 

na LBA spośród wszystkich metod filogenetycznych

Mogą stosować szeroką gamę modeli ewolucji sekwencji (DNA i 
aminokwasy), a nawet modele ewolucji cech morfologicznych

 Wady metod:

Czułe na źle dobrany model ewolucji cech

Bardzo powolne i wymagają dużej mocy obliczeniowej komputera

background image

Metoda maksymalnej wiarygodności  

(Maximum Likelihood, ML) 

Metoda do szacowania parametrów w statystyce: najlepszą 

estymacją parametru jest wartość, która najbardziej 
prawdopodobnie wygeneruje obserwowane dane

Zaaplikowana do filogenetyki molekularnej przez Joe Felsensteina 
(1981) 

ML 

zakłada określony, niekiedy złożony model ewolucji sekwencji.

Celem analizy ML 

jest odpowiedź na pytanie: 

Jakie jest prawdopodobieństwo powstania obserwowanych 
danych (w tym wypadku alignmentu wielu sekwencji) dla danej 
topologii drzewa filogenetycznego 

przy określonym modelu 

ewolucji ME?

background image

Jak działa ML? 

1.

Warunkiem wstępnym analizy jest otrzymanie 
odpowiedniego modelu ewolucji sekwencji ME (np. 
Modeltest). 

 

2.

Dla każdej pozycji j w alignmencie generowane są 

wszystkie możliwe topologie drzewa dla danej liczby 
taksonów (sekwencji). 

3.

Opierając się na modelu ewolucji ME obliczamy 

prawdopodobieństwo układu nukleotydów L(j) dla 

każdego z tych drzew w pozycji j i je sumujemy. 
 

4.

Obliczamy prawdopodobieństwo całkowite powstania 
obserwowanego alignmentu dla topologii L poprzez 

iloczyn wszystkich prawdopodobieństw z 
poszczególnych pozycji. 

 

background image

Przykładowa analiza MJ dla przypadku 4 taksonów 

           1            j             N 

--------------------------------------- 

Takson 1:  

A... C G C G C T G G G ... C 

Takson 2:  

A... C G C G C T G G G ... C 

Takson 3:  

A... C G C A A T G A A ... C 

Takson 4:  

A... C A C A G G G A A ... C 

 
Wybieramy dowolną cechę j = pozycję w alignmencie 

 

background image

1 2 3 4 

C C A G 

   j 

---- 

1: 

2: 

3: 

4: 

Przykładowa analiza MJ  

dla przypadku 4 taksonów 

Wyszukujemy wszystkie ukorzenione 

topologie dla 4 taksonów i dodatko-

wo oznaczamy liście stanem cechy j 

1 2 3 4 

C C A G 

1 3 2 4 

C A C G 

2 3 1 4 

C A C G 

1 4 2 3 

C G C A 

2 4 1 3 

C G C A 

3 4 1 2 

A G C C 

1 2 3 4 

C C A G 

1 2 4 3 

C C G A 

3 4 1 2 

A G C C 

2 3 4 1 

C A G C 

1 2 3 4 

C C A G 

1 4 3 2 

C G A C 

1 3 2 4 

C A C G 

1 2 3 4 

C C A G 

1 3 2 4 

C A C G 

1 4 2 3 

C G C A 

2 1 3 4 

C C A G 

2 3 1 4 

C A C G 

2 4 1 3 

C G C A 

3 1 2 4 

A C C G 

3 2 1 4 

A C C G 

3 4 1 2 

A G C C 

4 1 2 3  

G C C A 

4 2 1 3 

G C C A 

4 3 2 1 

G A C C 

1 węzeł – 1 

2 węzły – 10 

3 węzły – 15 
----------- 

          26 

background image

   j 

---- 

1: 

2: 

3: 

4: 

Przykładowa analiza MJ  

dla przypadku 4 taksonów 

Dla każdego z tych drzew obliczamy prawdopodobieństwo L

(j) 

układu 

nukleotydów w pozycji j alignmentu 

jako sumę prawdopodobieństw 

wszystkich możliwych pośrednich stanów cechy prowadzących do tej 

topologii przy założonym modelu ewolucji sekwencji ME. 

1 2 3 4 

C C A G 

L(j) = P

(1)

                    + P

(2)

                    + ... + P

(16) 

1 2 3 4 

C C A G 

1 2 3 4 

C C A G 

1 2 3 4 

C C A G 

Liczba aranżacji k= 4   dla danej 
topologii o n 

węzłach 

 

 

 

AC 

GT 

 

 

 

AC 

GT 

background image

   j 

---- 

1: 

2: 

3: 

4: 

Przykładowa analiza MJ  

dla przypadku 4 taksonów 

P

(i)

 = P

A-C(5)

 x P

C-C(1)

 x P

C-C(2)

 x P

A-A(3)

 x P

A-G(4) 

1  2  3  4 

C  C  A  G 

background image

Obliczanie prawdopodobieństwa końcowego dla danej 
topologii drzewa 

Przykładowa analiza MJ dla przypadku 4 taksonów 

Ponieważ L jest bardzo małą wartością przedstawia się je w 
postaci logarytmu naturalnego: 

Preferowane jest drzewo o największej wartości 

prawdopodobieństwa L (Maximum Likelihood) 
albo najmniejszej –lnL.
 

L=L

(1)

× L

(2)

× .... × L

(N) 

=

=

N

j

L

(j)

1

=

N

1

lnL

(j)

lnL=lnL

(1)

+ lnL

(2)

+ ... + lnL

(N) 

=

=

N

1

lnL

(j)

lnL=lnL

(1)

+ lnL

(2)

+ ... + lnL

(N) 

=

background image

Wnioskowanie bayesowskie (BPI, Bayesian 

inference) 

• Jedna z najstarszych metod statystycznych – 1790, 

Thomas Bayes, zastosowana do filogenetyki od 1968. 

Metoda zbliżona koncepcyjnie do ML 

• Celem analizy BI 

jest odpowiedź na pytanie:  

 

Jakie jest prawdopodobieństwo P, że dana topologia 
drzewa 

przy określonym modelu ewolucji jest 

prawdziwa dla obserwowanych danych (w tym 
wypadku alignmentu wielu sekwencji)? 

ML: P(D/T) 

BPI: P (T/D) 

 

background image

Wnioskowanie bayesowskie  

100 kostek, 90 prawdziwych, 10 fałszywych 
Prawdopodobieństwo P wyrzucenia oczek wynosi: 

 

                                                        

prawdziwa     fałszywa 

background image

Wnioskowanie bayesowskie  

Wyjęto jedną kostkę i dwa razy rzucono – za 

pierwszym rzutem 4 oczka, za drugim 6. 

Jakie jest prawdopodobieństwo, że kostka jest 

fałszywa? 

 

  P [       | prawdziwa] = 1/6 x 1/6 = 1/36 

  

P [       | fałszywa] = 4/21 x 6/21 = 24/441 

 

  

P [fałszywa] / P [prawdziwa] = 1,93 

background image

Wnioskowanie bayesowskie  

Wnioskowanie bayesowskie opiera się na prawdopodobień-

stwie a posteriori 

(końcowym), które obrazuje jak zmieniła 

się nasza opinia, czyli prawdopodobieństwo a priori 
(początkowe) pod wpływem obserwacji.

 

 

 

 

prawdziwa + 

   

fałszywa - 

        P [-|      ] = 

P [      |-] x P [-] 

P [      |-] x P [-]x P [      |+ ] x P [+] 

P [-|      ] = 

           24/441 x 1/10 
24/441 x 1/10 + 1/36 x 9/10 

= 0,179 

stała normalizująca 

a priori 

obserwacji

background image

Zastosowanie formuły Bayesa  

do rekonstrukcji filogenii  

Bayesowskie oszacowanie filogenii opiera się na określeniu 

wartości prawdopodobieństwa a posteriori drzewa. 

 

 

 

 

 

s – liczba gatunków 

B(s) – 

liczba wszystkich możliwych drzew t

1

, t

2

, ... t

B(s) 

dla s 

gatunków 

D – obserwowane dane tzn. alignment sekwencji lub macierz 

morfologiczna 

 

                    P (D|t

j

) x P (t

j

P (D|t

i

) x P (t

i

B(s) 

j=1 

∑ 

P (t

i

|D) =  

background image

Łańcuch Markowa Monte Carlo (MCMC) 

Obliczenie prawdopodobieństwa a posteriori 

obejmuje sumę wszystkich możliwych drzew i 

wszystkich kombinacji długości gałęzi wraz z 

modelem ewolucyjnym dla każdego z drzew, co 
jest oprócz kilku bardzo prostych przypadków 

niemożliwe do uzyskania drogą analityczną.  

Zatem prawdopodobieństwo końcowe drzew z 

konieczności musi być szacowane. 

background image

Konstrukcja MCMC 

1.  Zacznij w dowolnym miejscu przestrzeni parametrów = wybierz dowo lne  

drzewo  T ze zbi

oru wszystkich możliwych drzew dla danej liczby taksonów 

2.  Wybierz losowo drzewo  T’ 

, które jest sąsiadem drzewa  T  pkt . 1 

3. 

Przelicz stosunek prawdopodobieństw dla zaproponowanych drzew pr zy  
danym modelu ewolucji cech  R=P(T’)/P(T) 

4. 

Jeżeli  R>=1  zaakceptuj nowe                                                  
drzewo ( T=T’ 

) i przejdź do  pkt . 2 

5. 

Jeżeli  R<1  wybierz losowo liczbę                                            

z przedziału (0,1) 
 

jeśli liczba ta jest mniejsza                                    
od  R  to zaakceptuj nowe drzewo 

 

jeśli nie, to obecne drzewo  

pozostaw jako  T  

6. 

Wróć do  pkt . 2 

Łańcuch Markowa Monte Carlo (MCMC) 

zbiór wszystkich topologii 

zawsze akceptuj 

R>1 

niekiedy akceptuj 

R~1  

pr

aw

dopodob

ieńs

tw

 

pos

ter

ior

nigdy nie 
 akceptuj 

R<<1 

background image

Łańcuch Markowa Monte Carlo (MCMC) 

okres początkowy  
(burn-in period

okres zbieżności 
(convergence period

generacje 

LnP

 

pos

ter

ior

background image

Powiązany MCMC Metropolisa (Metropolis 

Coupled MCMC, MCMCMC, (MC) 

Idea algorytmu polega równoległym uruchomieniu 

łańcuchów Markowa, z czego jeden łańcuch operuje na 

badanym rozkładzie prawdopodobieństwa P(t

i

|DX) jako 

dystrybucji referencyjnej (tzw. zimna dystrybucja, 

cold 

distribution

), zaś pozostałe łańcuchy operują na 

zmienionej dystrybucji, „podgrzanej” (

heated distribution

otrzymanej poprzez podniesienie rozkładu referencyjnego 

do potęgi 

β

i

, której wartość zawiera się w przedziale od 0 

do 1. 
 
 
T – czynnik „temperatury” 

β

= 1/1+(i-1)T 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

nieudana wymiana 

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

udana wymiana 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

udana wymiana 

wg. prezentacji Freda Ronquista 

background image

łańcuch zimny 

łańcuch gorący 

wg. prezentacji Freda Ronquista 

background image

Zależność między prawdopodobieństwem 

końcowym BPI a wartościami bootstrap 

Bayesowskie 

prawdopodobieństwo 
a posteriori 

wartości 
bootstrap 
analizy ML 

wg. Douady et al. (2003)  

95% BPI 

≈ 70% boot. 

background image

• Maximum Likelihood 

PHYML  

Garli 

background image

MrBayes  

• Wnioskowanie   
 

Bayesowskie 

background image

MrBayes  

background image
background image

Kalkulacja modeli substytucji  

background image

Porównanie tempa pracy  

różnych metod i programów  

dystanse < parsymonia ~ PHYML << BPI      <  klasyczna ML 

    NJ      DNAPARS     PHYML    MrBayes   fastDNAml,PAUP 


Document Outline