background image

Analiza sekwencji biologicznych 1 

dr inż. Marcin Pacholczyk 

 

W  trakcie  dwiczenia  poznamy  podstawowe  metody  obliczeniowe  służące  poszukiwaniu 

informacji na temat sekwencji nukleotydów lub aminokwasów. Do podstawowych zadao w  analizie 
sekwencji  należą  m.in.  identyfikacja  genów  na  podstawie  sekwencji,  poszukiwanie  podobieostwa 
genów,  określanie  jakie  białko  koduje  dany  gen  czy  przewidywanie  funkcji  genu  poprzez 
poszukiwanie podobnego genu o znanej funkcji w innym organizmie.   

 
 

Statystyki sekwencji 

 
Jedną  z  pierwszych  czynności  po  zsekwencjonowaniu  fragmentu  DNA  jest  ustalenie  zawartości 
nukleotydów w sekwencji oraz określenie położenia tzw. otwartych ramek odczytu (ang. ORFs). 
 
Zadania do wykonania: 
 
Analiza kompozycji sekwencji nukleotydów 
 

1.  Na stronie internetowej NCBI (www.ncbi.nlm.nih.gov) znajdź informacje na temat ludzkiego 

genomu  mitochondrialnego.  Można  posłużyd  się  bazą  Entrez  Genome  (homo  sapiens 
mitochondrion).  Strony  internetowe  można  wyświetlad  również  za  pomocą  Matlaba  – 
poleceniem web. 

2.  Pobierz  z  bazy  danych  sekwencję  ludzkiego  genomu  mitochondrialnego  (polecenie 

getgenbank  z  opcją  SequenceOnly).  Zmienne  utworzone  w  Matlabie  można  zapisywad  na 
dysk poleceniem save oraz odczytywad poleceniem load 

3.  Wykreśl  gęstości  monomerów  w  genomie  za  pomocą  polecenia  ntdensity,  a  następnie 

wyznacz liczbę poszczególnych nukleotydów w sekwencji prostej poleceniem basecount oraz 
odwrotnej  komplementarnej  utworzonej  poleceniem  seqrcomplement.  Odpowiedz  na 
pytanie czy genom jest AT czy GC bogaty? 

4.  W  celu  wizualizacji  gęstości  nukleotydów  na  wykresie  kołowym    wywołaj  polecenie 

basecount z opcją chart pie. 

5.  Wyznacz  liczbę  dimerów  w  genomie  i  wykreśl  ją  na  wykresie  słupkowym  za  pomocą 

polecenia basecount z opcją chart bar. 

6.   Określ  liczbową  zawartośd  trinukleotydów  (kodonów)  w  genomie  za  pomocą  polecenia 

codoncount 

7.  Wyświetl  informację  o  wykorzystaniu  poszczególnych  kodonów  w  genomie  za  pomocą 

polecenia codonbias z opcją pie 

8.  Wyznacz  ilośd  kodonów  dla  możliwych  sześciu  ramek  odczytu  i  wykreśl  rezultaty  na 

wykresach  typu  heat  map.  Do  wykonania  zadania  wykorzystaj  polecenie  codoncount  z 
opcjami framereverse i figure. 

9.  Wyspy CpG, czyli regiony o dużej koncentracji CpG, znajdują się w prawie 70% przypadków w 

regionach promotorów ludzkich genów. Wyznacz położenie wysp CpG za pomocą polecenia 
cpgisland z opcją plot. 

10. Sekwencje  DNA  często  zwierają  tzw.  fragmenty  palindromowi,  jednak  definicja  palindromu 

jest tu nieco inna niż w przypadku słów czy zdao. Palindrom w DNA oznacza sekwencje, która 
jest  tożsama  z  sekwencją  komplementarną  czytaną  wspak.  Często  regiony  palindromowe 
rozpoznawane  są  przez  enzymy  restrykcyjne.  Znajdź  palindromy  za  pomocą  polecenia 
palindromes

background image

S t r o n a

 | 

 

Otwarte ramki odczytu 
 

1.  Wyświetl otwarte ramki odczytu za pomocą polecenia seqshoworfs. Gdy porównamy wynik z 

liczbą  genów  podaną  na  stronie  NCBI,  okaże  się,  że  liczba  genów  jest  mniejsza  od 
spodziewanej.  Jest  to  spowodowane  faktem,  iż  w  przypadku  mitochondriów  kręgowców 
używany  jest  kod  genetyczny  odmienny  od  standardowego.  Wyświetl  ponownie  otwarte 
ramki odczytu, tym razem wykorzystując opcje GeneticCode (Vertebrate Mitochondrial) oraz 
alternativestart 

2.  W  pierwszej  ramce  odczytu  można  zauważyd  dwie  duże  otwarte  ramki  odczytu.  Pierwsza 

rozpoczynająca się od indeksu 4471 (gen ND2), a druga od 5905 (gen COX1). Jeżeli rezultat 
polecenia seqshoworfs zapiszemy do zmiennej, powstanie struktura z indeksami początków i 
kooców otwartych ramek odczytu. Znajdź koniec otwartej ramki odczytu zaczynającej się od 
indeksu 4471, a następnie sekwencję genu ND2 zapisz w osobnej zmiennej. Można to zrobid 
stosując operator zakresu nowa_zmienna= stara_zmienna(indeks_startu:index_stopu). 

3.  Określ  rozkład  kodonów  w  sekwencji  ND2  za  pomocą  polecenia  codoncount,  a  następnie 

sprawdź jakich kodonów jest najwięcej i jakim aminokwasom odpowiadają. Można skorzystad 
z polecenia aminolookup z opcją code. 

4.  Przeprowadź  translację  sekwencji  ND2  na  sekwencję  aminokwasową,  stosując  polecenie 

nt2aa. Nie zapomnij wskazad odpowiedniego kodu genetycznego (Vertebrate Mitochondrial). 

5.  Spróbuj znaleźd  na stronie NCBI oficjalną sekwencję aminokwasową dla genu  ND2. Czy jest 

ona  zgodna  z  wynikiem  otrzymanym  w  Matlabie?  Jeżeli  znamy  tzw.  Accesion  number 
sekwencji można ją pobrad z bazy danych za pomocą polecenia getgenpept. 

6.  W celu zbadania kompozycji aminokwasowej badanej sekwencji, wyświetl ją na wykresie, za 

pomocą polecenia aacount z opcją chart bar. 

7.  Określ kompozycję atomową i masę molekularną sekwencji, za pomocą poleceo odpowiednio 

atomiccomp  oraz  molweight.  Czy  jesteś  w  stanie  odnaleźd  właściwą  sekwencję  w  bazie 
danych, wyłącznie na podstawie powyższych danych? 

8.  Powrórz punkty 2-7 dla genu COX1. 

 
Wykonywanie  części  zadao  może  ułatwid  graficzna  przeglądarka  sekwencji  biologicznych, 
wywoływana poleceniem seqtool
 
Sprawozdanie oprócz rozwiązao i odpowiedzi na postawione w instrukcji pytania, powinno zawierad 
skrypty Matlaba umożliwiające realizację określonych zadao.