background image

Wykład Bioinformatyka

Wykład 4, 2008

1

Bioinformatyka

Wykład 4.

E. Banachowicz

Zakład Biofizyki Molekularnej 

IF UAM

http://www.amu.edu.pl/~ewas

Formaty danych - GenBank

Poco wprowadza się dane do komputerów?
1. żeby je pobrać 
2. żeby coś odkryć

Jeśli baza danych nie pozwala na wyszukanie potrzebnej 
informacji, jest by bezużyteczna. (Nawet największa baza!)

background image

Wykład Bioinformatyka

Wykład 4, 2008

2

Formaty danych - GenBank

1. dane muszą mieć jednoznaczną strukturę 

i zdefiniowane powiązania

2. dane muszą być stabilne 

Model danych w NCBI oparty jest na sekwencji DNA 
(stabilność), i daje możliwość śledzenia informacji od literatury 
do sekwencji.

Stabilność danych

sekwencja

DNA

literatura

PubMed

sekwencja

białka

struktura 

3D

4 podstawowe dane

Full Text

el. Journal

OMIM

Mapy i 

genomy

Taksonomia

background image

Wykład Bioinformatyka

Wykład 4, 2008

3

pliki ASCII

• większość programów do analizy sekwencji 

nie akceptuje znaków spoza zestawu ASCII 

(różna interpretacja, problemy z transferem)

• Poza sekwencją DNA lub białka (raw sequence) –

odpowiedni format

• Kod DNA i białka ujednolicony został przez 

NC-IUB (

Nomenclature Committee of the International Union of 

Biochemistry and Molecular Biology -

http://www.chem.qmul.ac.uk/iubmb/

Zasady/kwasy nukleinowe

- ujednolicony kod

A

 adenozyna 

M  A C (amino) 

C

 cytozyna

S   G C (strong) 

G

 guanina 

W  A T (weak) 

T

 tymidyna 

B   G T C 

U

 urydyna 

D   G A T 

R  G A (puryna) 

H   A C T 

Y  T C (pyrymidyna) 

V   G C A 

K  G T (keto) 

N   A G C T (dowolna) 
- 

gap of indeterminate length

NC – IUP (1984)

background image

Wykład Bioinformatyka

Wykład 4, 2008

4

Standardowy kod aminokwasów

A  Ala alanina 

Pro prolina 

B

Asx kw. asparaginowy/asparagina  Q 

Gln glutamina 

C  Cys cysteina 

R

Arg arginina 

D  Asp kw. asparaginowy 

Ser seryna 

E  Glu kw. glutaminowy 

Thr treonina 

F  Phe fenyloanina 

U

selenocysteina 

G  Gly glicyna 

V  Val

walina 

H  His histydyna 

W  Trp tryptofan 

I  Ile izoleucyna 

Y  Tyr tyrozyna 

K  Lys lizyna 

Z

Glx kw.glutaminowy/glutamina 

L  Leu leucyna 

X

Xxx dowolny 

Met metionina 

stop translacji

N  Asn asparagina 

gap of indeterminate length 

Abstract Syntax Notation Sequence Format ASN.1

ASN.1 (skrót od Abstract Syntax Notation One
abstrakcyjna notacja składniowa numer jeden)

język opisu danych przejęty i rozwijany przez NCBI

background image

Wykład Bioinformatyka

Wykład 4, 2008

5

Integracja danych z wielu różnych źródeł

• np. PubMed

(np. wyszukiwanie według autorów)

Tag

Name

AB

Abstract

AD

Affiliation

AID

Article Identifier

AU

Author

CI

Copyright Information

CIN

Comment In

CN

Corporate Author

CON

Comment On

CRF

Corrected and republished from

CRI

Corrected and republished in

DA

Date Created

DCOM

Date Completed

DEP

Date of Electronic Publication

DP

Publication Date

EDAT

Entrez Date

EFR

Erratum For

EIN

Erratum In

FAU

Full Author Name

FIR

Full Investigator

FPS

Full Personal Name as Subject

GN

General Note

GR

Grant Number

GS

Gene Symbol

IP

Issue

IR

Investigator

IRAD

Investigator Affiliation

IS

ISSN

JID

NLM Unique ID

JT

Full Journal Title

LA

Language

LID

Location ID

MEDLINE Display

LR

Last Revision Date

MH

MeSH Terms

MHDA

MeSH Date

OAB

Other Abstract

OCI

Other Copyright Information

OID

Other ID

ORI

Original Report In

OT

Other Term

OTO

Other Term Owner

OWN

Owner

PG

Pagination

PHST

Publication History Status Date

PL

Place of Publication

PMID

PubMed Unique Identifier

PRIN

Partial Retraction In

PROF

Partial Retraction Of

PS

Personal Name as Subject

PST

Publication Status

PT

Publication Type

PUBM

Publishing Model

RF

Number of References

RIN

Retraction In

RN

EC/RN Number

ROF

Retraction Of

RPF

Republished From

RPI

Republished In

SB

Subset

SFM

Space Flight Mission

SI

Secondary Source Identifier

SO

Source

SPIN

Summary For Patients In

STAT

Status Tag

TA

Journal Title Abbreviation

TI

Title

TT

Transliterated Title

UIN

Update In

UOF

Update Of

VI

Volume

background image

Wykład Bioinformatyka

Wykład 4, 2008

6

streszczenie

brak streszczenia

dostępny w PMC

dostępny pełen teskt

cytowanie

nr stron

autorzy

tytuł

identyfikator

czasopismo

data publikacji

DDBJ/GenBank/EMBL

Podobna struktura i identyfikatory: A12345=A12345

PIR/ Swiss-Prot

Różne identyfikatory: A12345≠A12345

Seq-id klasa obiektów

background image

Wykład Bioinformatyka

Wykład 4, 2008

7

GenBank: 

http://www.ncbi.nlm.nih.gov/

nazwa lokusa
(locus)

długość i typ 
sekwencji

klasyfikacja 
organizmu

data 
wprowadzenia

nazwa lokusa
(locus)

długość i typ 
sekwencji

klasyfikacja 
organizmu

data 
wprowadzenia

background image

Wykład Bioinformatyka

Wykład 4, 2008

8

GenBank: 

http://www.ncbi.nlm.nih.gov/

opis objektu

ACCESSION

numer dostępu do oryginalnego 

źródła
VERSION numer kolejnej wersji
KEYWORDS

słowa kluczowe (cross reference)

SOURCE 

organizm, z którego pochodziło DNA

ORGANISM opis organizmu
REFERENCE bibliografia

GenBank: 

http://www.ncbi.nlm.nih.gov/

COMMENT np.funkcja biologiczna
FEATURES informacje o sekwencji przez 

podanie położenia zasad lub przedziału położeń

sourece, misc_signal, mRNA, CDS, 
intron, mutation

ORIGIN 

początek sekwencji

//

koniec sekwencji

background image

Wykład Bioinformatyka

Wykład 4, 2008

9

EMBL: 

http://www.ebi.ac.uk/embl/index.html/

European Molecular Biology Laboratory

Wygląd strony w 2006

background image

Wykład Bioinformatyka

Wykład 4, 2008

10

EMBL: 

http://www.ebi.ac.uk/embl/index.html/

European Molecular Biology Laboratory

ID

numer identyfikacyjny w bazie danych

AC

numer dostępowy do pierwotnej sekwencji

SV

wersja

DT

data wprowadzenia lub modyfikacji

DE

opis

OS,OC

– organizm pochodzenia DNA

RN

(

RP

RA

RT

RL

,…) bibliografia

FH

FT

– informacje o sekwencji (FEATUREs)

SQ

//

- początek i koniec sekwencji

background image

Wykład Bioinformatyka

Wykład 4, 2008

11

Format sekwencji FASTA

>embl|DQ423612|DQ423612 Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds. ...
caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat
gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca
ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca
acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat
aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa
gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa
acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaac
caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca
gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag
gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc
aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc
tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg
aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa
acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat
gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact
gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg

> jednoliniowy opis
wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków

>gi|89213215|gb|ABD64049.1| polymerase basic protein 1 [Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1))] 
MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID 
GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA 
TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ 
RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA 
KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR 
LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG 
VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF 
EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR 
CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP 
FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF 
PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK 

background image

Wykład Bioinformatyka

Wykład 4, 2008

12

NBRF/PIR (National Biomedical Research 

Foundation/Protein Information Resource

http://www-nbrf.georgetown.edu/pirwww/dbinfo/

>P1;gi|89213215|gb|ABD64049_1|
gi|89213215|gb|ABD64049_1|  757 bases  

MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS
EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP
GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF
RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV
TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG

READSEQ – konwersja formatów

http://www.ebi.ac.uk/cgi-bin/readseq.cgi

background image

Wykład Bioinformatyka

Wykład 4, 2008

13

ID

Name

Read

Write

Int'leaf

Features

Sequence

Content-type

Suffix

1

GenBank|gb

yes 

yes 

--

yes 

yes 

biosequence/genbank

.gb

2

EMBL|em

yes 

yes 

--

yes 

yes 

biosequence/embl

.embl

3

Pearson|Fasta|fa

yes 

yes 

--

--

yes 

biosequence/fasta

.fasta

4

GCG

yes 

yes 

--

--

yes 

biosequence/gcg

.gcg

5

MSF

yes 

yes 

yes 

--

yes 

biosequence/msf

.msf

6

Clustal

yes 

yes 

yes 

--

yes 

biosequence/clustal

.aln

7

NBRF

yes 

yes 

--

--

yes 

biosequence/nbrf

.nbrf

8

PIR|CODATA

yes 

yes 

--

--

yes 

biosequence/codata

.pir

9

ACEDB

yes 

yes 

--

--

yes 

biosequence/acedb

.ace

10

Phylip3.2

yes 

yes 

yes 

--

yes 

biosequence/phylip2

.phylip2

11

Phylip|Phylip4

yes 

yes 

yes 

--

yes 

biosequence/phylip

.phylip

12

Plain|Raw

yes 

yes 

--

--

yes 

biosequence/plain

.seq

13

PAUP|NEXUS

yes 

yes 

yes 

--

yes 

biosequence/nexus

.nexus

14

XML

yes 

yes 

--

yes 

yes 

biosequence/xml

.xml

15

FlatFeat|FFF

yes 

yes 

--

yes 

--

biosequence/fff

.fff

16

GFF

yes 

yes 

--

yes 

--

biosequence/gff

.gff

17

BLAST

yes 

--

yes 

--

yes 

biosequence/blast

.blast

18

Pretty

--

yes 

yes 

--

yes 

biosequence/pretty

.pretty

19

SCF

yes 

--

--

--

yes 

biosequence/scf

.scf

20

DNAStrider

yes 

yes 

--

--

yes 

biosequence/strider

.strider

21

IG|Stanford

yes 

yes 

--

--

yes 

biosequence/ig

.ig

22

Fitch

--

--

--

--

yes 

biosequence/fitch

.fitch

23

ASN.1

--

--

--

--

yes 

biosequence/asn1

.asn

znane formaty sekwencji

Anatomia danych SwissProt/TrEMBL

http://www.expasy.ch/

background image

Wykład Bioinformatyka

Wykład 4, 2008

14

background image

Wykład Bioinformatyka

Wykład 4, 2008

15

MeCP2

NCBI

http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d
b=protein&val=1708973

EMBL-EBI

http://www.ebi.ac.uk/

PIR

http://pir.georgetown.edu/cgi-bin/textsearch.pl

ReadSeq

http://www.ebi.ac.uk/cgi-bin/readseq.cgi

PDB

background image

Wykład Bioinformatyka

Wykład 4, 2008

16

plik PDB 

plik PDB 

background image

Wykład Bioinformatyka

Wykład 4, 2008

17

plik PDB 

plik PDB 

Ser

Lys

Val

background image

Wykład Bioinformatyka

Wykład 4, 2008

18

plik PDB 

Identyfikacja sekwencji w BD

• Identyfikacja przez porównanie z innymi 

sekwencjami

Zestawienia sekwencji = uliniowienie =
=porównanie = alignment

background image

Wykład Bioinformatyka

Wykład 4, 2008

19

Porównywanie sekwencji

• Pierwsze pytanie biologa molekularnego, 

kiedy odkryje nową sekwencję:

Czy w bazie sekwencji są już sekwencje podobne 

do mojej?

sekwencje są identyczne –

nic nowego….

 sekwencja jest podobna (ma „krewnych”)

– nowy członek 

znanej rodziny

 sekwencja ma kilka podobnych regionów, motywów lub 

domen 

– można zaproponować funkję

 Nie ma znaczącego podobieństwa

– dużo pracy…..

Porównywanie sekwencji

• Celem porównania białek jest między 

innymi przypisanie informacji znanej dla 
jednej cząsteczki drugiej cząsteczce

background image

Wykład Bioinformatyka

Wykład 4, 2008

20

39

Pokrycie sekwencji

• dopasowanie globalne – dopasowanie 

wzdłuż całej sekwencji 

(zastosowanie: do białek 

składających się z pojedynczej domeny lub 
homologicznych słabo zróżnicowanych)

• dopasowanie lokalne – uwzględnia 

domenową naturę białek, szuka 
subsekwencji (

zastosowanie: do białek 

wielodomenowych, mRNA z sekwencją genomową

)

BLAST

background image

Wykład Bioinformatyka

Wykład 4, 2008

21

background image

Wykład Bioinformatyka

Wykład 4, 2008

22

CDN …..

…..na ćwiczeniach