Bioinformatyka, wykład 6

(18.XI.2008)

krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji

–

c.d.

Sequence

alignment

Programowanie dynamiczne

Porównuje każdą

parę

znaków dwóch sekwencji i tworzy dopasowanie

Uwzględnia wszystkie możliwe przyrównania uwzględniając:

dopasowania (matches),

niedopasowania (mismatches),

przerwy (gaps).

Przerwy są

wstawiane, aby uzyskać

wzrost liczby dopasowań

w innych miejscach.

Przyjmuje pewien system punktacji (scoring system)

Rozpatruje wszystkie możliwości

Stara się

uzyskać

maksymalną

liczbę

dopasowań

między identycznymi lub

podobnymi znakami

Znajduje optymalne dopasowanie (może istnieć

więcej niż

jedno

takie dopasowanie)

Czas obliczeń

proporcjonalny do iloczynu długości sekwencji

Programowanie dynamiczne

Przyjęty system punktacji:

dopasowanie (match): +1

niedopasowanie (mismatch): -1

przerwa (gap): -1

AGA--TTGATACCCA

AGACATTAA---CTA

match

mismatch

gap

Programowanie dynamiczne

Programowanie dynamiczne uwzględnia każdą

dodawaną

parę

znaków

i z powrotem przelicza optymalne dopasowanie.

sekwencja 1:

G A T A C T A

sekwencja 2:

G A T T A C C A

T
|
T

Dotychczasowe dopasowanie musi być

optymalne!

A
|
A

G
|
G

T
|
T

A
|
A

G
|
G

+1 +1 +1 –1 –1 = +1

G A T - A C
| | | |
G A T T A -

+1 +1 +1 –1 +1 –1 = +2

- - G A T A C

G A T T A - -

–1 –1 –1 –1 –1 –1 –1 = –7

+1 +1 +1 –1 = +2

Już

utworzone dopasowanie, do którego jest dodawana kolejna para znaków,

musi być

optymalne.

- G A T A C

| |

G A T T A -

–1 –1 –1 +1 +1 –1 = –2

Tworzenie macierzy punktacji, w której każda komórka reprezentuje punktację

dla

najlepszego dopasowania kończącego się

w danej pozycji

Programowanie dynamiczne

Cofanie się

w macierzy, aby znaleźć

optymalne dopasowanie

sekwencja 1:

G A T A C T A

sekwencja 2

G A T T A C C A

Przyjęty system punktacji:

dopasowanie (match): +1

niedopasowanie (mismatch): -1

przerwa (gap): -1

G A T A C T A

G
A
T
T
A
C
C
A

Znaki sekwencji
ułożone wzdłuż

dwu-wymiarowej
siatki

Węzły siatki
znajdują

się

między znakami

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

Celem jest
znalezienie
optymalnej ścieżki

stąd

dotąd

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

Każda ścieżka
odpowiada
pewnemu
dopasowaniu

Które
dopasowanie
jest optymalne?

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

punktacja dla
ścieżki jest sumą

przyrastających
punktacji
krawędzi.

porównane z

match

= +1

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

porównane z

mismatch

= -1

punktacja dla
ścieżki jest sumą

przyrastających
punktacji
krawędzi.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

porównane z przerwą

gap

= -1

przerwa porównana z

punktacja dla
ścieżki jest sumą

przyrastających
punktacji
krawędzi.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

Znaczenie punktu w
macierzy:

wszystkie znaki do
tego miejsca są

sobą

porównane,

czego można dokonać

na wiele sposobów
(ścieżek).

Pozycja

“

”

oznacza:

przyrównanie

--GA

GA--

-GA

G-A

G A T A C T A

G
A
T
T
A
C
C
A

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

-1

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

-1

0 -1= -1

-1

0 -1
= -1

0 +

1= +

-2

-1 -1= -2

-2

-1

-1=

-2

-1

0 -1= -1

0 -1
= -1

0 +

1= +

-1 -1
= -2

-2

-1

-1=

-2

-1 -1= -2

+1 +

1= +

+1-1
= 0

+1 -1= 0

-1

0 -1= -1

0 -1
= -1

0 +

1= +

-2

-1 -1= -2

+1 -1= 0

-1

0 -1= -1

0 -1
= -1

0 +

1= +

+1 +

1= +

+1-1
= 0

-2

-1 -1= 0

-1

-2

-1 -

1= -2

-1-1
= -2

-2

G A T A C T A

G
A
T
T
A
C
C
A

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

-1

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

-1

-2

-1

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

-1

-2

-1

-2

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

-2

-1

-2

-1

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

-1

-2

-1

-3

-2

-3

-2

-1

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

-1

-2

-5

-4

-5

-4

-3

-1

-3

-2

-1

-3

-1

-2

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

A
T
T
A
C
C
A

-1

-2

-4

-3

-1

-2

-1

-2

-8

-7

-6

-5

-7

-6

-5

-3

-2

-3

-4

-1

-4

-6

-3

-2

-3

-1

-4

-5

-2

-1

Wybierana jest
najlepsza ścieżka
prowadząca do
każdego punktu
na siatce.

Rozszerzanie się

ścieżki i
przyrastanie
punktacji.

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

Cofanie się

tyłu i wybór
optymalnej
ścieżki i
dopasowania.

-1

-2

-4

-3

-1

-2

-1

-2

-8

-7

-6

-5

-7

-6

-5

-3

-2

-3

-4

-1

-4

-6

-3

-2

-3

-1

-4

-5

-2

-1

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

G A T A C T A

G
A
T
T
A
C
C
A

Uzyskane
dopasowanie

A
A

-
T

T
T

A
A

C
C

T
C

A
A

G
G

Programowanie dynamiczne

–

dopasowanie jako

cie

ka w macierzy

Optimalne

dopasowanie

globalne

Optymal ne

dopasowanie

lolalne

dopasowanie globalne i lokalne

dopasowanie globalne

(Needleman & Wunsch, 1970)

–

przyrównuje sekwencje na

całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe.

dopasowanie lokalne

(

Smith & Waterman

, 1981)

–

przyrównuje fragmenty sekwencji,

które wykazują

największe podobieństwo; poszukuje najlepiej pasujących regionów;

znajduje regiony konserwowane. Gdy obliczana wartość

punktacji w macierzy jest

mniejsza od zera, to wartość

ta jest ustawiana na zero, a dopasowanie ulega

zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego
miejsca

LGPSSKQTGKGS-SRIWDN

| | ||| | |

LN-ITKSAGKGAIMRLGDA

-------TGKG--------

|||

-------AGKG--------

sekwencje o podobnej

długości, blisko

spokrewnione

sekwencje o różnych

długościach, posiadające

regiony

i domeny zachowane,

podobne tylko

w niektórych obszarach

System punktacji

Zaawansowany system punktacji (nadawanie różnych wag dla
niedopasowań

i przerw w zależnosci

od ich długości):

Macierze podstawień

aminokwasów (PAM, BLOSUM)

Macierze podstawień

nukleotydów

System punktacji dla przerw: gap penalties, affine gap penalty

Prosty system punktacji:

match

: +1

mismatch

: -1

gap

: -1

-1

Typowe systemy punktacji

sekwencje DNA

–

Match = +1

–

Mismatch = -3

–

Gap penalty = -5

–

Gap extension penalty = -2

sekwencje białkowe

–

Macierz Blossum62

–

Gap open penalty = -11

–

Gap extension = -1

Istotno

ść

dopasowania

Czy punktacja dopasowanie jest znacząco większa od punktacji

oczekiwanej dla dopasowania losowych sekwencji o tej samej

długości i składzie?

3 > Z

–

brak homologii

3 < Z < 6

–

istnieje homologia

Z > 6

–

silna homologia

Tworzenie metodą

Monte Carlo

losowych(-ej) sekwencji (o tej samej

długości i składzie co rzeczywiste).

Przyrównanie losowych(-ej) sekwencji (powtórzenie 100-1000 razy) przy
tych samych parametrach.

Określenie rozkładu punktacji, średniej i odchylenie standardowego (SD).

Wyliczenie Z-score: Z = (score

obs

–

score

ran

)/SD

ran

Rozkład „score-ów”

nie jest normalny i dlatego nie można przekształcić

Z-score

na prawdopodobieństwo.

Istotno

ść

dopasowania

Wykres zależności logarytmu ułamka dopasowań

z punktacją

S równą

lub większą

od wartości punktacji S’

Określenie E-value –

Oczekiwana liczba przypadkowych dopasowań

z punktacją

większą

niż

obserwowana

Dla dopasowań

lokalnych rozkład maksymalnych „scorów”

dopasowania

dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych
(extreme

values

distribution)(Karlin

i Altschul

1990).

S’

Log
p(S>=S’)

Kmn

−

⋅

Oczekiwana (wg rozkładu prawdopodobieństwa)
liczba dopasowań

z punktacją

równą

przynajmniej S

−

Bit score-

znormalizowana punktacja uwzględniająca

warunki jego naliczania i przyjęte systemy punktacji

(parametry lambda i K)

Prawdopodobieństwo
znalezienia dokładnie a

dopasowań

o punktacji >= S:

Prawdopodobieństwo
znalezienia przynajmniej 1

dopasowania o punktacji >=S

−

= 1

Jeżeli spodziewamy się

znaleźć

przynajmniej 3

dopasowania o punktacji >= S, to

prawdopodobieństwo tego że znajdziemy co
najmniej jedno wynosi 0,95. Programy z grupy
BLAST posługują

się

wartością

E zamiast

bezpośrednim prawdopodobieństwem ze względu
na łatwiejsze rozróżnienie

dopasowanie wielu sekwencji (MSA)

przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji

HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST

HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN

HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-

HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-

GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT

MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT

LGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE

*: : : * . : .: * :

* : .

HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL

HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL

HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL

HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL

GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV

MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF

LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV

. .:: *. : . : *. * . : : .

HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------

HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------

HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------

HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------

GLB5_PETMA LAAVIADTVAAG---------DAGFEKLMSMICILLRSAY-------

MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG

LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA---

: : .: ... . :

Dopasowania wielu sekwencji

zastosowanie

Określanie powiązań

filogenetycznych między sekwencjami

Poszukiwanie odległych homologów

Poszukiwanie wspólnych, konserwowanych wzorów, motywów
i domen w sekwencjach, odpowiedzialnych za odpowiednie
funkcje biochemiczne lub strukturę

przestrzenną.

Grupowanie białek w rodziny o wspólnej funkcji biochemicznej
lub historii ewolucyjnej. Identyfikowanie członków rodzin białek.

Identyfikowanie zachodzących fragmentów sekwencji powstałych
w wyniku losowego sekwencjonowania genomów i ułatwienie ich
składania w jedną

całą

sekwencję.

Najbardziej wiarygodny dla sekwencji o podobnej długości
i posiadających zachowanie regiony.

Dopasowania wielu sekwencji a analizy filogenetyczne

sekw1

AWSQ

sekw2

AWSQ

sekw3

AWTQ

sekw4

AWSQ

AWTQ

Dopasowania wielu sekwencji

metody

Programowanie dynamiczne (PD) -

zbyt skomplikowane dla wielu

sekwencji; stosowany dla niewielu krótkich sekwencji
program MSA

(dopasowanie globalne)

Progresywne dopasowanie globalne (hierarchiczne)
programy: CLUSTALW, CLUSTALX

Metody iteracyjne
programy: MultAlin, PRRP, DIALIGN,

SAGA (algorytm genetyczny)

Metody aproksymacyjne:

Dopasowanie wielu sekwencji i PD

ono

ść

problemu

Optymalne dopasowanie dwóch sekwencji przy pomocy
programowania dynamicznego -

macierz punktacji

w kwadracie, wymagany czas: L

; L -

długość

sekwencji

Optymalne dopasowanie trzech sekwencji przy pomocy
programowania dynamicznego -

macierz punktacji w

sześcianie; wymagany czas: L

Optymalne dopasowanie N sekwencji przy pomocy
programowania dynamicznego -

macierz punktacji w N

wymiarach: wymagany czas: L

- rośnie wykładniczo ze

wzrostem liczby sekwencji (N)

Dopasowanie wielu sekwencji

trzy sekwencje

V S N - S

- S N A

- - - A S

start

Szukanie optymalnego dopasowania w objętości sześcianu.

Dopasowanie wielu sekwencji i PD

–

program MSA

Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla
wielokrotnego dopasowania.

Optymalne dopasowanie to takie, który posiada najlepszy SP score.

Punktacja dla wielokrotnego dopasowania jest sumą

punktacji

uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym
alignment-cie

(miara SP –

sum of

pairs).

Progresywne

dopasowanie

globalne

program CLUSTALW

>HBB_HUMAN

VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFA

TLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH*

>HBB_HORSE

VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFA

ALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH*

>HBA_HUMAN

VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDL

HAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR*

>HBA_HORSE

VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDL

HAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR*

>MYG_PHYCA

VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAEL

KPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG*

>GLB5_PETMA

PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVA

SMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY*

>LGB2_LUPLU

GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVT

DATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*

Sekwencje globin

•

Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP,

PILHB i LGHB

•

Dopasowujemy osobno każdą

możliwą

parę

sekwencji i obliczamy

według pewnego algorytmu wzajemne podobieństwo sekwencji w
obrębie każdej z 21 par

•

Wynik przedstawiamy w macierzy podobieństw

DOPASOWANIA WIELOKROTNE

(MULTIALIGNMENT)

Metoda hierarchiczna

HAHU

HBHU

HAHO

HBHO

MYWHP

PILHB

HBHU

21.1

HAHO

32.9

19.7

HBHO

20.7

39.0

20.4

MYWHP

11.0

9.8

10.3

9.7

PILHB

9.3

8.6

9.6

8.4

7.0

LGHB

7.1

7.3

7.5

7.4

7.3

4.3

Tworzenie drzewa przewodniego

LGHB

PILHB

MYWHB

HAHU

HAHO

HBHU

HBHO

Stopniowe zestawianie sekwencji

dopasowanych

HBHO

HBHU

Programowanie
dynamiczne

dopasowanie

HBHO

HBHU

HAHU

HAHO

Programowanie
dynamiczne

dopasowanie

HAHU

HAHO

HBHO

HBHU

HAHU

HAHO

Programowanie
dynamiczne

HBHO

HBHU

HAHU

HAHO

Nowa
przerwa

dopasowanie czterech sekwencji

Dodawanie kolejnych sekwencji, coraz

bardziej odległych według drzewa
przewodniego

Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na
drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie
dołączanie do już

utworzonego dopasowania pozostałych najbardziej podobnych

sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są

traktowane jako całość.

HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK

HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK

HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH

HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA

HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN

HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK

HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK

HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP

HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP

HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH

HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD

HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE

HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN

HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL

GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND

HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH

HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY-