background image

Nowe generacje metod generowania Dna 
 
Sekwencjonowanie dna daje bezosredni dostep do informacji genetycznej: 
Badamy strukture, funkcjonowanie i ewolucje genomow 
Wyszukiwanie genow zaangazowanych w ksztalcenie danych cech 
Pozwala rekonstruowac filogeneze 
Ocena bioroznorodnosci dowolnych organizmow 
Analiza adaptacji na poziomie genomu 
Nauka biomedyczna 
NGS na naszych oczach zmienia biologie i medycyne 
 
SEKWENCJONOWANIE SANGERA (A SEKWENCJONOWANIE NOWEJ GENERACJI (NGS)) 
To technologia, ktora jest uzywana od 30 lat. Polega na dekodowaniu sekwencji dna przez dobudowywanie 
nici komplementarnej. Potrzebujemy kawalka sekwencji, ktory jest oddzielony od innych. Starter 
sekwencjonujacy+enzymsynteza 
 
Matryca->wysoka temp->obnizamy temp->w 60° polimeraza dobydowywuje kolejne nukleotydy. Fragment 
komplementarny do matrycy. Ten proces zachodzi cyklicznie. Na kazdej matrycy zachodzi ten sam proces.  
Wszystkie fragmenty o danej dlugosci beda mialy ten sam kolor. Dzieki temu mozemy odczytac ta 
sekwencje DNA.  
Ten proces jest dokladny, precyzyjny i dobrze poznany. 
Wada jest przygotowanie matrycy. Samo sekwencjonowanie – trudne do miniaturyzacji i paralelizacji: 
ograniczona wydajnosc. 
 
Projekty genomowe do 2005r. dzieki sekw.Sangera 
Human Genome Project (HGP)- cel: genom czlowieka w 1 dzien za 1000$ 
 
NGS: roznorodne technologie umozliwiajace sekwencjonowanie zlozonych mieszanin DNA; nie wymaga 
indywidualnego przygotowywania matrycy. Zazwyczaj stosunkowo krotkie sekwencje.  
 
Etapy procedury: 
1. przygotowanie matrycy: fragmentacja i selekcja fragmentow, przylaczenie adapterow, selekcja 
jednoniciowych fragmentow 
2. amplifikacja klonalna: produkujemy z kazdej czasteczki tysiace kopii oddzielonych od siebie; nie zawsze 
jest konieczna 
3. sekwencjonowanie DNA: synteza nici komplementarnej przez polimeraze DNA, rozne sposoby detekcji 
(odczytania) sygnalu 
 
TECHNOLOGIA 454: pierwsza technologia: zaczynamy od puli DNAfragmentacja np ultradzwiekami  
ligacja adapterow, wybor fragmentow i denaturacja wiazanie do kulek (1 fragment-1 kulka: sa 
komplementarne do adapterow)mieszanie z PCR=lancuchowa reakcja polimerazy ktora pozwala robic 
kopie fragmentow DNA. PCR w emulsji: efekt taki ze klonalnie namnozony DNA ok. 10^7 kopii 
Reakcja sekwencjonujaca: pirosekwencjonowanie. Maszyna sekwenator sklada sie z trzech czesci: miejsce 
gdzie klada sie te kulki, system ktory pompuje odczynniki potrzebne do reakcji, system obrazowania ktory 
wykrywa sygnal. W 454 sygnalem jest swiatlo.  
 
APS   ATP+ lucyferaza (enzym)+lucyferyna= swiatlo 
 
Wada 454: wysoki koszt na zasade 
 
ION TORRENT/ION PROTON: zasada podobna do 454; sygnal jest w postaci zmian PH. Urzadzenie nie 
zawiera optyki, nie modyfikuje nukleotydow, elektroniczna detekcja sygnalu. Ta technika pojawila sie w 
2010.  

background image

ILLUMINA: amplifikacja „mostkowa” na szkielku; nie ma amplifikacji DNA w emulsji lub na kulkach, lecz na 
szkielku. DNA przygotowane z przylaczonymi adapterami. Do szkielka przylaczone kowalencyjnie fragmenty 
DNA. (

www.illumina.com

) 

Startery przytwierdzone do szkielkadodanie jednoniciowej matrycy z adapterami na koncachreplikacja 
matrycy (powstaje dwuniciowy fragment)denaturacja- matryca przytwierdzona przylaczenie do 
starteraelongacja. 
Ten proces powtarza sie wielokrotnie. Sekwencjonowanie z odwracalnymi terminatorami: odplukanie 
niewykorzystanych terminatorow i obrazowanie; odciecie terminatora z barwnikiem- lancuch gotowy do 
kolejnego wydluzenia.  
 
Maszyna Illumina: do 600mld zasad w jednej analizie; mozliwosc odczytow 100par zasad z obu stron 
kazdego fragmentu DNA; trwa dosc dlugo 5-11 dni w zaleznosci od dlugosci odczytu; najczestsze bledy: 
podstawienia. 
Technika dosc tania. 
 
PACIFIC BIOSCIENCES: martwa technologia, droga i wymaga skomplikowanego sprzetu. Pozwala 
sekwencjonowac pojedyncze czasteczki DNA. Przylaczenie nukleotydu do lancuchu DNA produkuje blask 
swiatla w danym kolorze. W teorii oferuje bardzo dlugie odczyty >1000 zasad.  
ZMV na jednorazowych chipach. Wysoka czestosc bledow: ok 15%-zlozona analiza, wielokrotne 
sekwencjonowanie. 
 
„OSOBISTE” SEKWENATORY 
Tansze, mniejsze wersje urzadzen dostosowane do potrzeb pojedynczych laboratoriow 
Mniejsza przepustowosc 
Tansze i szybsze 
GS Junior Roche(454), MiSeq Illumina, Ion Torrent Life Technologies 
 
PRZYSZLOSC NGS? 
Sekwencjonowanie dlugich fragmentow (50-100kb) dramatycznie ulatwiloby skladanie 
Nanopory 
Mapowanie optyczne 
Wiele technologii moze i bedzie koegzystowac 
 
Koszty sekwencjonowania ludzkiego genomu spadaja dramatycznie  nie jak opisywane przez Prawo 
Moore’a na skali logarytmicznej 
 
POWODZ DANYCH 
Ogromne ilosci danych sekwencjonowanych mozna uzyskac szybko i tanio ale nie mozna zachowac 
wszystkich danych. Dane generowane sa w konkretnym celu 
 
DO CZEGO PRZYDAJE SIE NGS? 
Poznawanie Genomow patogenow 
Resekwencjonowanie genomow – choroby, farmakogenomika – zamiast GWAS 
Sekwencjonowanie eksomow – wykrywanie rzadkich mutacji w genach kodujacych bialka (ok.1-3%) 
Genomy wymarlych gatunkow 
Mikrobiom czlowieka i metagenomika 
Sekwencjonowanie amplikonow – np. HLA, mutacja somatyczne, nowotwory 
Badanie ekspresji – RNAseq – zamiast mikromacierzy 
Porownanie: Genomy nowotworowe a „normalne” 
 
 
 
 

background image

ANALIZA DANYCH Z NGS 
Sekwencjonowanie de novo – chcemy ustalic sekwencje nukleotydow w genomie dotychczas 
niezsekwencjonowanego gatunku – SKLADANIE (assembling) 
 
Resekwencjonowanie – mamy juz sekwencje genomu danego gatunku – MAPOWANIE (mapping) 
 
Potrzebujemy automatyczne sposoby analizy jakosci sekwencji 
Basecallers – „nazywaja” zasady i przypisuja do nich jakosc 
Phred-scores QV =-10log

10

P; P-prawdopodobienstwo, ze zasada zostala odczytana blednie; 10 – 1/10 ze 

bleldnie, 20 – 1/100 ze blednie... 
 
SKLADANIE GENOMOW DE NOVO 
Byloby stosunkowo proste gdyby pojedyncze odczyty byly dlugie, sekwencjonowanie odbywalo sie bez 
bledow (bledy czeste 0.1-10%) i jesli genomy nie zawieralyby powtorzen. Dlatego skladanie de novo jest 
trudne i wymaga ekstra informacji: klonowanie w wektorach o duzej ilosci, biblioteki sparowanych koncow 
Sposoby: 
-Na zakladke (overlap-based approach9 – problem NP-zupelny – gigantyczny wzrost zloznosci obliczeniowej 
wraz ze wzrostem ilosci danych 
-Poprzez grafy de Bruijna – duzo latwiejsze obliczeniowo 
 
ELEMENTY POWTARZALNE W GENOMACH powstaja w wyniku duplikacji, moga byc wynikiem 
niedoskonalosci rekombinacji mejotycznej (nierowny crossing over) lub aktywnosci elementow rychomych. 
Efektem dzialalnosci tych sil jest pojawianie sie paralogow (frammenti simili in più posti nella stessa 
sequenza) 
 
MAPOWANIE: odczyty sa przypasowywane do sekwencji referencyjnej – duzo prostsze obliczeniowo, 
istnieja wydajne algorytmy; wyniki mapowania w formacie SAM lub BAM 
 
Resekwencjonuje sie po to zeby odkryc ZMIENNOSC: na podstawie roznic w stosunku do referencji 
 
PRZEGLADARKI GENOMOW: 
UCSC 
ENSEMBL 
NCBI Map Viewer 
 
Anotowany genom 
Wizualizacja genomow 
Dodawanie informacji  
 
PROJEKT ENCODE 
Identyfikacja funkcjonalnych elementow w genomie czlowieka 
Ogromna role w projekcie odgrywa sekwencjonowanie nowej generacji 
3% bialka, 60%transkrypcja 
 
REGIONY WIAZANIA BIALEK – ChIPseq 
Identyfikacja miejsc gdzie przyczepiaja sie elementy transkrypcyjne 
 
ADAPTACJE U TYBETANCZYKOW: 
Sekwencjonowanie eksomow (>90% genow kodujacych bialka, eksony i czesci intronow) 50 Tybetanczykow 
z Chinczykami Han i Dunczykami 
 
 
 

background image

1000genomes.org 
Projekt 
Cel: stworzenie podstaw kompletnej genomiki i genetyki czlowieka; opracowanie narzedzi ktore pozwola 
analizowac dane genomowe; zdefiniowanie struktury haplotypowej genomu; medycyna genomowa 
 
ANALIZA EKSPRECJI –RNAseq 
Nie wykorzystuje mikromacierzy. 
Chcemy sie dowiedziec jaki jest poziom poszczegolnych genow 
Izolujemy RNA 
Wyciagamy mRNA 
RNA przepisujemy na cDNA 
Odczytujemy poziom ekspresji sekwencjionowania