FILOGENETYKA

Bioinformatyka, wyk

ad 7

.XI.200

)

krzysztof_pawlowski@sggw.pl

Filogenetyka

Cel

–

rekonstrukcja historii ewolucji wszystkich

organizmów.

Klasyczne podejście:
historia ewolucji jest odtwarzana na podstawie
porównań

cech morfologicznych i fizjologicznych

badanych organizmów.

•

zadaniem

filogenetyki molekularnej

jest

zrekonstruowanie związków filogenetycznych
między badanymi sekwencjami

sekwencje przodka mutuj

w sekwencje potomk

podobne gatunki s

genetycznie blisko spokrewnione

•

podstawowe za

enia w filogenetyce molekularnej:

•

wyrazem analiz filogenetycznych są

drzewa filogenetyczne

Tree

life

(Darwin)

eukarionty

archea

bakterie

Tree

life

(dziś)

kręgowce

grzyby

rośliny

Taksony mono-

i polifiletyczne

gatunek A

gatunek B

gatunek C

gatunek D

gatunek E

łąź

korze

przykładowe

nieukorzenione

drzewo filogenetyczne

przykładowe

ukorzenione

drzewo filogenetyczne

ugo

ść

łę

gatunek A

gatunek B

gatunek C

łąź

ugo

ść

łę

ść

łąź

obrazuje związki ewolucyjne między porównywanymi

jednostkami taksonomicznymi.

ugo

ść

łę

zazwyczaj reprezentuje liczbę

zmian, które się

zdarzyły

w danej linii ewolucyjnej.

Korze

wspólny przodek dla wszystkich taksonów.

ść

reprezentuje aktualnie analizowaną

jednostkę

taksonomiczną.

reprezentuje jednostkę

taksonomiczną

(populację, organizm, gen).

Może przedstawiać

współcześnie istniejący takson, jak i jego przodka.

Mechanizmy ewolucji

Mutacje w genach.
Mutacje są

rozprzestrzeniane w populacji

poprzez dryf genetyczny

lub/i

selekcję

naturalną

Duplikacja i rekombinacja genów.

Etapy analizy filogenetycznej

Dobór i dopasowane sekwencji

Wybór modelu substytucji

Wybór metody oceny odległości ewolucyjnej

Konstrukcja drzewka

Ocena i analiza skonstruowanego drzewka

16S

rRNA

Dopasowanie wielu sekwencji

–

Multiple

sequence alignment (MSA)

E.coli

UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA

Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA

B.subtilis

UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA

Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA

Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA
match

** *** * ** ** * **

Thermus ruber

UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA

Grupa sekwencji

homologicznych

Dopasowanie

wielu sekwencji

Silne

podobieństwo

sekwencji?

Metoda

maksymalnej

parsymoni

Rozpoznawalne

podobieństwo

sekwencji?

Metody oparte

odległościach

(dystansowe)

Metoda

maksymalnej

wiarygodności

-ML

Sprawdzanie

poprawności

rekonstrukcji

tak

nie

tak

nie

Metody tworzenia drzewek filogenetycznych

Metoda maksymalnej

parsymonii

Drzewko filogenetyczne skonstruowane

metodą

to takie, które wymaga

najmniejszej liczby zmian aby wyjaśnić

obserwowane różnice w analizowanych

sekwencjach

Metoda

Seq1

A G A G

Seq2

G C C G

Seq3

G A T A

Seq4

G A G A

Miejsce „informatywne”

dla

sekwencji nukleotydowych to

takie, w którym obserwuje się

przynajmniej dwa różne

nukleotydy i są

one

prezentowane przynajmniej

w dwóch sekwencjach.

1 2

3 4

1 3

2 4

1 2

4 3

Position 2

Position 3

Position 4

Position 5

Position 7

Position 8

Seq1

A G A G

Seq2

G C C G

Seq3

G A T A

Seq4

G A G A

Sum

Position of

sequences on the

tree

mutacja

Metoda maksymalnej wiarygodności

–

Maksimum likelihood

(ML)

Drzewko filogenetyczne

skonstruowane metodą

to takie,

które z największym

prawdopodobieńswtem

odtwarza

obserwowane dane

Maximum

likelihood

method

(ML)

1. Wyliczana jest
wiarygodność

(prawdopodobieństwo -

dla każdego
informatywnego

miejsca

2. Następnie sumowane są

wszystkie wartości L dla
każdego możliwego drzewa

3. Porównywane są

sobą

wartości L dla

każdego możliwego drzewa
i wybierane jest to, które
ma najwyższą

wartość

L -

całościowe
czyli
Wybierane jest to drzewo,
które przy danym modelu
najbardziej pasuje do
analizowanych danych

Sekwencja 1: ACGCGTTGGG

Sekwencja 2: ACGCGTTGGG

Sekwencja 3: ACGCAATGAA

Sekwencja 4: AGACAGGGAA

ATGC

Rekonstrukcja drzewa metod

Analizujemy kolumnę

Proponujemy układ drzewa

Proponujemy układ nukleotydów

Przydzielenie
nukleotydów

Prawd = P(T) * P(T

G) * P(G

A) = 0.25*10

-6

*10

-6

Likelihood

konkretnej pozycji jest sumą

prawdopodobieństw wszystkich możliwych

rekonstrukcji przodków dla wybranego modelu .

Czyli różnice między sekwencjami dwóch gatunków są

proporcjonalne do czasu jaki upłynął

od momentu gdy oba

gatunki miały wspólnego przodka.

Hipoteza zegara molekularnego (MC)

Zaproponowana przez
Zuckerkandla

i Paulinga

roku 1962.

Opiera się

na założeniu, że

tempo ewolucji (akumulacja
mutacji) sekwencji
nukleotydowej czy
aminokwasowej

jest w

przybliżeniu stałe.

•

liwo

ść

wyst

pienia wielokrotnych podstawie

•

rewersja

•

rzadko obserwuje si

podstawienia mi

dzy a

minokwasami pe

cymi

ne role w bia

kach, jak

cysteina

(C)

czy

tryptofan

(W)

•

ęś

ciej obserwuje si

podstawienia mi

dzy a

minokwasami podobnymi do

siebie, ze wzgl

du na swoje w

ciwo

ci biochemiczne,

biofizyczne

izoleucyna

(I)

leucyna

(L),

valina

(V)

izoleucyna

(I),

kwas asparaginowy

(D)

kwas glutaminowy

(

E),

•

rzadko obserwuje si

podstawienia mi

dzy aminokwasami bardzo

cymi si

swoimi w

asno

ciami

tryptofan

(W)

izoleucyna

(I)

•

niekt

re aminokwasy, takie jak:

asparagina

(N)

, kwas asparaginowy

(D)

seryna

(S)

mutuj

ęś

ciej ni

inne

•

ęś

ciej obserwuje si

podstawienia typu

tranzycji

transwersji

•

ęś

ciej obserwuje si

podstawienia w III pozycjach kodon

•

tempo mutacji zale

y od regionu w genomie, genie, rodzaju genu,

Protein

Rate (mean replacements per site

per 10

years)

Fibrinopeptides

8.3

Insulin C

2.4

Ribonuclease

2.1

Haemoglobins

1.0

Cytochrome C

0.3

Histone H4

0.01

przodek

rzeczywista liczba podstawie

zaobserwowana

liczba r

nic

MELSK

TGDPAR

KEL

LSKLTGD

APFVYRV

KRL

MELSK

TGDPAR

KEL

MLM

LSKLTGDPAPF

YRV

KRL

MELSK

TGDPAR

KEL

MLM

LSKLTGDPAPF

YRV

KRL

MELSK

TGDPAR

KEL

MLM

LSKLTGDPAPFVYRV

KRL

MELSK

TGDPAR

KELKMLMELSKLTGDPAPFVYRVLKRL

MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL

potomek

3 zmiany

2 zmiany

2 zmiana

2 zmiany

= 12 zmian

2 zmiany w stosunku do przodka

5 zmian w stosunku do przodka

6 zmian w stosunku do przodka

4 zmian w stosunku do przodka

5 zmian w stosunku do przodka

czas ewolucji

nice mi

y sek

encjami

y sek

encjami

niedoszacowanie

tranzycje

i transwersje

Juckes-Cantor

K80

–

(Kimura)

TN93 –

rozróżnia

tranzycje

i transwersje,

oraz typ tranzycji:

czy

zaszła ona między
purynami czy
pirymidynami

TN93

(Tamura-Nei, 93)

Macierze

substutucji

nukleotyd

Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val

Ala A 9867

Arg R

9913

Asn N

9822

Asp D

9859

Cys C

9973

Gln Q

9876

Glu E

9865

Gly G

9935

His H

9912

Ile I

9872

Leu L

9947

Lys K

9926

Met M

9874

Phe F

9946

Pro P

9926

Ser S

9840

Thr T

9871

Trp W

9976

Tyr T

9945

Val V

9901

Elementy pomnożone zostały przez 10 000

ercent

ccepted

utation

PAM1 -

Dayhoff

1978r.

element

tej macierzy reprezentuje

prawdopodobieństwo z jakim aminokwas
w kolumnie

zostanie podstawiony przez

aminokwas z wiersza

w czasie

ewolucyjnym 1 PAM

element diagonalny

określa

prawdopodobieństwo, że dany

aminokwas nie ulegnie

substytucji w tym czasie

JEDNOSTKA PAM

(

ercent

ccepted

utation

)

–

miara odleg

ci ewolucyjnej mi

dzy sekwencjami

Dayhoff

i wsp

pracownicy

–

1978r.

1 PAM

–

odpowiada takiemu czasowi ewolucyjnemu,

podczas kt

rego, w por

wnywanych sekwencjach,

zmianie ulegnie 1 aminokwas na 100 (ok. 1

mln

lat)

MELSKLT

DPAPFVYR

LKR ..... SKLT

DPAP ..... KVVFRIS

IFKA

PLDI ..... MELSK

TGDPA ... REKEL

MLMELSKLTGDPAPFVYRV

KRL ..... LDIVLSSLIHER

KELKML

MELSKLT

DPAPFVYR

LKR ..... SKLT

DPAP ..... KVVFRIS

IFKA

PLDI ..... MELSK

TGDPA ... REKEL

MLMELSKLTGDPAPFVYRV

KRL ..... LDIVLSSLIHER

KELKML

1000 aminokwasów

zmienionych aminokwasów

Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1%

Ewolucyjna macierz PAM

Macierz PAM

Percent

Accepted

Mutations

(

Dayhoff

wsp

. 1978)

Utworzona przez por

wnanie blisko spokrewnionych sekwencji bia

ek (ponad

85% identyczno

ci) o znanych powi

zaniach filogenetycznych; naliczenie 1572

zmian zaakceptowanych (przez selekcj

) w 71 grupach bia

ek.

Uwzgl

dnia

mutabilno

poszczeg

lnych aminokwas

MWT

SALV

MWT

SALV

MWT

SALV

MWT

SALV

MWT

SALV

MWT

SALV

Macierz PAM

–

log

odds

eli

log

odds

dana substytucja zachodzi rzadziej ni

nale

o si

spodziewa

eli

log

odds

dana substytucja zachodzi cz

ęś

ciej ni

nale

o si

spodziewa

(

. +1 oznacza,

e dana substytucja jest obserwowana 10 razy cz

ęś

ciej ni

nale

o si

spodziewa

)

eli

log

odds

dana substytucja zachodzi z tak

sam

sto

jak w sekwencji

losowej

Wyliczenie warto

ci log

odds

–

obserwowana cz

stotliwo

ść

wyst

powania mutacji

–

oczekiwana cz

stotliwo

ść

wyst

powania mutacji

(losow

)

log

odds

= log (P

)

A R N D C Q E G H I L K M F P S T W Y V

2 6

N 0 0 2

D 0

1 2 4

5 12

Q 0 1 1 2

5 4

E 0

1 1 3

5 2 4

G 1

3 0 1

1 0 5

1 2 2 1

3 3 1

2 6

2 5

2 2 6

1 3 1 0

5 1 0

2 0

3 5

1 0

2 2 4 0 6

2 1 2

5 0 9

P 1 0

3 0

1 0

5 6

S 1 0 1 0 0

1 0 1

3 0

3 1 2

T 1

1 0 0

1 0

2 0

3 0 1 3

6 2

4 0

5 17

4 0

5 0

2 7

3 0 10

V 0

2 4 2

2 2

1 0

2 4

Rzadkie aminokwasy maj

e wagi

Pospolite

aminokwasy maj

e wagi

A R N D C Q E G H I L K M F P S T W Y V

2 6

N 0 0 2

D 0

1 2 4

5 12

Q 0 1 1 2

5 4

E 0

1 1 3

5 2 4

G 1

3 0 1

1 0 5

1 2 2 1

3 3 1

2 6

2 5

2 2 6

1 3 1 0

5 1 0

2 0

3 5

1 0

2 2 4 0 6

2 1 2

5 0 9

P 1 0

3 0

1 0

5 6

S 1 0 1 0 0

1 0 1

3 0

3 1 2

T 1

1 0 0

1 0

2 0

3 0 1 3

6 2

4 0

5 17

4 0

5 0

2 7

3 0 10

V 0

2 4 2

2 2

1 0

2 4

Dodatnie warto

ci dla cz

stszych

podstawie

A R N D C Q E G H I L K M F P S T W Y V

2 6

N 0 0 2

D 0

1 2 4

5 12

Q 0 1 1 2

5 4

E 0

1 1 3

5 2 4

G 1

3 0 1

1 0 5

1 2 2 1

3 3 1

2 6

2 5

2 2 6

1 3 1 0

5 1 0

2 0

3 5

1 0

2 2 4 0 6

2 1 2

5 0 9

P 1 0

3 0

1 0

5 6

S 1 0 1 0 0

1 0 1

3 0

3 1 2

T 1

1 0 0

1 0

2 0

3 0 1 3

6 2

4 0

5 17

4 0

5 0

2 7

3 0 10

V 0

2 4 2

2 2

1 0

2 4

Ujemne warto

ci dla rzadkich

podstawie

Ewolucyjna macierz PAM

Ekstrapolowanie cz

sto

podstawie

zaobserwowanych na kr

tkich

dystansach na d

sze

dystansy

ewolucyjne

–

mno

enie macierzy przez siebie

–

uzyskanie serii tablic PAM:

PAM1

> PAM60, PAM80, PAM120,

PAM250

Podobie

stwo:

99%

60%

50%

40%

20%

Liczba podstawie

na miejsce:

0.01

0.6

0.8

1.2

2.5

Macierz PAM

–

wady z powodu za

Podstawienia

aminokwas

w zachodz

niezale

nie od

siebie. W rzeczywisto

ci zmiany w r

nych regionach

sekwencji s

ze sob

skorelowane.

Te same tempo podstawie

w r

nych regionach

sekwencji. W rzeczywisto

ci r

ne regiony wykazuj

stopie

konserwatywno

ci i ewoluuj

z r

dko

W r

nych regionach r

podstawienia

zdarzaj

z r

sto

ść

poszczeg

lnych podstawie

nie zmieniaj

w czasie. W rzeczywisto

ci cz

sto

ci podstawie

mog

zmienia

w czasie.

Macierz BLOSUM

–

BLOcks

Substitution

Matrix

(

Henikoff

1992)

Utworzona przez por

wnanie oko

o 2000

zachowanych

blok

w (region

sekwencji) w ponad 500 rodzinach bia

ek o r

nej odleg

ci ewolucyjnej. Bloki s

regionami sekwencji odpowiedzialnymi za podobn

funkcj

biochemiczn

lub

struktur

Macierze dla r

nych odleg

ci ewolucyjnych zosta

y wyliczone z por

wnania

sekwencji odpowiednio odleg

ych:

BLOSUM30

–

bloki sekwencji o co najmniej 30% identyczno

ci reszt aminokwasowych

BLOSUM62

–

bloki sekwencji o co najmniej 62% identyczno

ci reszt aminokwasowych

BLOSUM80

–

bloki sekwencji o co najmniej 80% identyczno

ci reszt aminokwasowych

Macierz BLOSUM

–

BLOcks

Substitution

Matrix

bloki

A R N D C Q E G H I L K M F P S T W Y V

A 4

1 5

2 0 6

2 1 6

C 0

3 9

1 1 0 0

3 5

1 0 0 2

4 2 5

G 0

2 0

2 6

2 0 1

3 0 0

2 8

3 4

3 2 4

1 2 0

3 1 1

2 5

1 0

2 1 2

1 5

1 0 0

3 0 6

4 7

S 1

1 1 0

1 0 0 0

2 0

1 4

Macierz BLOSUM62

PAM Vs. BLOSUM

PAM100 =~ BLOSUM90

PAM120 =~ BLOSUM80
PAM160 =~ BLOSUM60
PAM200 =~ BLOSUM52
PAM250 =~ BLOSUM45

Bardziej odległe

sekwencje

Inne macierze

substutucji

aminokwasow

Oparte na kodzie genetycznym

zwi

zane z kodowaniem aminokwas

w przez

kodony (

Fitch

1966;

Benner

wsp

. 1994)

Uwzgl

dniaj

ce w

ciwo

ci fizyko

chemiczne aminokwas

w (

Vogt

wsp

. 1995)

i podobie

stwo strukturalne

cuch

w bocznych (

Feng

wsp

. 1985)

Uwzgl

dniaj

ce struktur

trzeciorz

dow

(

Risler

wsp

. 1988; Johnson i

Overington

1993;

Henikoff

1993;

Sander

i Schneider 1991)

Macierz

dwupeptyd

(

Gonnet

wsp

. 1994)

400 x 400, uwzgl

dnia wp

przyleg

ych aminokwas

w na cz

sto

ść

substytucji

Macierz PAM z uwzgl

dnieniem bia

ek transmembranowych (Jones i

wsp

1994)

Etapy analizy filogenetycznej

Dobór i dopasowane sekwencji

Wybór modelu substytucji

Wybór metody oceny odległości ewolucyjnej

Konstrukcja drzewka

Ocena i analiza skonstruowanego drzewka

–

Fitch

Margoliash

0.047

Human

Chimpanzee

Gorilla

0.056

0.047

Orangutan

0. 094

0.108

Gibbon

UPMGA –

Unweighted

Pair

Group

Method

with

Arithmetic

Mean

NJ -

Neighbour

joining

Ocena poprawności rekonstrukcji
filogenetycznej –

metoda bootstrap

Site

OTU 1

3 4 5 6 7 8

Site

OTU

4 5 6 7 8 9 10

G A T C T A G

G A A C T A G

G A T C G A G

T A A G G A C

oryginalne

dopasowanie

powtórne dopasowanie

Losujemy nowe kolumny dopasowania (z powtórzeniami!)

Powtarzamy 100 -

1000 i tworzymy drzewko konsensusowe

Wartości bootstrap:

> 95% topologia drzewka bardzo prawdopodobna

< 75% nie ma wystarczająco silnych dowodów potwierdzających
taką

topologię

drzewka co wcale nie oznacza, że nie jest ona

prawidłowa!!!

Document Outline