background image

Część IV: Klasyczne metody QSAR 

7. Ilościowe zależności struktura chemiczna – 
aktywność biologiczna 

 Rozwój 

ilościowych metod określania aktywności 

biologicznej skłonił wielu badaczy do poszukiwania metod 
ilościowej analizy uzyskanych wyników. Tak powstały w 
pierwszej połowie XX w.:  

 farmakometria 

 farmakokinetyka 

 farmakodynamika. 

Jednakże próby ilościowego powiązania budowy chemicznej z 
aktywnością biologiczną przez szereg dziesięcioleci nie 
dawały zadawalających wyników. Wydaje się,  że główna 
przeszkoda miała charakter psychologiczny: jak wyrazić 
ilościowo jakościowe przecież informacje o budowie 
chemicznej cząsteczki. 
 Pomoc 

przyszła ze strony teoretycznej chemii 

organicznej: prace Hammeta i Tafta nad wpływem 
podstawników na szybkość przebiegu reakcji chemicznych 
zapoczątkowały nowe spojrzenie na opis budowy chemicznej. 
W opisie tym struktura chemiczna cząsteczki dzieli się na: 

 stały w danej serii związków rdzeń 

  fragmenty zmienne traktowane jako podstawniki rdzenia. 

Pozwala to na ilościowy opis cząsteczki poprzez podanie 
w p ł y w u   p o d s t a w n i k ó w . 
 

Z drugiej strony, nie do przecenienia jest również 

zachodzący w tym czasie postęp w możliwościach 
technicznych: rozwój i dostępność komputerów umożliwił 
wykorzystanie różnorodnych metod numerycznych nie 
stosowanych wcześniej ze względu na ich pracochłonność. 
 Na 

początku lat '60 zakiełkowała nowa, 

multidyscyplinarna gałąź wiedzy: i l o ś c i o w e  
z a l e ż n o ś c i   p o m i ę d z y   s t r u k t u r ą  
c h e m i c z n ą   i   a k t y w n o ś c i ą   b i o l o g i c z n ą  
(QSAR). W ramach QSAR wykorzystywana jest wiedza z 
wielu tradycyjnych dziedzin nauki: 

 chemia organiczna 

 chemia fizyczna 

 biochemia 

  farmakologia i farmakometria 

 statystyka matematyczna 

 metody numeryczne 

 techniki komputerowe. 

 

Metody QSAR przez ostatnie 30 lat rozgałęziły się, 

rozrosły, okrzepły i w tej chwili zajmują istotne miejsce w 
poszukiwaniu i projektowaniu nowych leków, w tym również 
chemoterapeutyków. Dobitnie świadczy o tym ilość publikacji 
naukowych z tej dziedziny. W ostatnich latach wiele z nich 
jest finansowanych przez liczące się  ośrodki naukowe lub 
duże firmy farmaceutyczne. Wynika to z faktu, że metody 
ilościowego opisu zależności struktura - aktywność posiadają 
zdolność do dostarczania informacji dwojakiej natury. 
Z jednej strony uzyskane zależności traktowane być mogą 
jako modele matematyczne pewnych procesów, którym 
podlegają związki biologicznie czynne. Stanowią więc 
wygodną metodę falsyfikacji pewnych teorii czy hipotez. 
Przyczynia się to do istotnego przyspieszenia poznania wielu 
bardzo skomplikowanych zjawisk zachodzących w 
organizmach  żywych. Oprócz tej roli poznawczej metody 

QSAR mają również funkcje prognostyczne: pozwalają 
oszacować aktywność biologiczną związków na podstawie ich 
właściwości fizykochemicznych, a czasami tylko na 
podstawie wzoru chemicznego, nawet bez konieczności ich 
syntetyzowania. Przyczynia się to do znacznego 
przyspieszenia i potanienia poszukiwania i projektowania 
nowych leków. 
 

 W chwili obecnej metody QSAR przestały już być 

wyłącznie ciekawostką teoretyczną, a stały się  użytecznym 
narzędziem o szerokich możliwościach.  
 

Metody QSAR wykorzystują wiele, czasami dosyć 

zaawansowanych, metod numerycznych. Celem naszego 
wykładu jest zapoznanie Państwa z możliwościami 
wykorzystania tych metod przy projektowaniu nowych 
chemoterapeutyków, a nie ze stosowanymi metodami 
numerycznymi. Jednakże nie będzie możliwe całkowite 
pominięcie problemów numerycznych. Ograniczymy się 
jednak w takich przypadkach do omówienia założeń 
niezbędnych dla poprawnego doboru metodyki oraz do 
poglądowych interpretacji sposobu działania algorytmów. 
Nacisk położony będzie raczej na możliwe zastosowania 
poszczególnych technik oraz sposoby prawidłowej 
interpretacji wyników obliczeń. 
 

W metodach QSAR spotkać można trzy 

podstawowe sposoby opisu aktywności biologicznej: 

 skala nominalna: w większości przypadków podział 

badanych związków na dwie klasy, np. związki aktywne 
i nieaktywne. W bardziej zaawansowanych metodach 
istnieje możliwość zastosowania większej liczby klas. 

 pojedynczy, 

ilościowy test aktywności: zwykle w formie 

ujemnego logarytmu ze stężenia wywołującego 
standardową odpowiedź biologiczną. Z wykorzystaniem 
tego opisu powstały pierwsze metody QSAR. 

  bateria testów ilościowych: jednoczesne zastosowanie 

wielu testów pozwala na pełniejszy opis zależności. 
Stwarza jednak również określone problemy 
obliczeniowe. 

Również opis struktury związków dokonany być może na 
wiele sposobów: 

 jakościowy opis podstawników 

 ilościowy opis właściwości fizykochemicznych całego 

związku. Można tu rozróżnić przypadek ograniczonego 
zestawu właściwości oraz wersję z baterią właściwości. 

 ilościowe wielkości uzyskane z metod chemii 

obliczeniowej, np. rzędy wiązań lub ładunki cząstkowe 

 jakościowy opis elementów struktury 

 struktura trójwymiarowa cząsteczki, ewentualnie z 

opisem rozkładu pola elektrostatycznego generowanego 
przez cząsteczkę 

 W 

zależności od sposobu opisu aktywności 

biologicznej i opisu budowy chemicznej stosowane są 
odmienne techniki analizy ilościowych zależności 
struktura - aktywność. Przed przystąpieniem do ich 
systematycznego omawiania celowe jest jednak zapoznanie 
się z zakresem ich zastosowań, które ilustruje poniższy 
schemat (Rys.7.1.). 
 
 

 

 

background image

Część IV: Klasyczne metody QSAR 

 

 

Aktywność biologiczna

 

jakościowa 

ilościowa 

dwuklaso

wieloklaso

pojedyncze 

bateria 

struktury

 

Opis

 

jakościowy 

podstawnik

właściw.

 

fiz.-

 

chem.

 

elementy 
struktury 

struktura 
trójwymiarowa 

pojedyn

cze 

bateri

SAR

 

Rozpozna-

 

wanie

 

obrazów

 

z

 

nauczycielem

 

nRMO

 

F-W

 

m. Hanscha

 

Rozpoznawanie

 

obrazów

 

bez

 

nauczyciela

 

Metoda

 

głównych

 

składowych

 

i

 

regresja wielokrotna

 

 

Rys.7.1: Zakres typowych zastosowań różnych technik opisu zależności struktura - aktywność 

 
 
 

W przypadku nominalnej skali aktywności 

biologicznej (klasyfikacja aktywne - nieaktywne) stosuje się 
zwykle tylko najprostszy sposób opisu budowy chemicznej: 
jakościowy opis podstawników. W sytuacji takiej 
zastosowanie ilościowych form opisu wydaje się być dosyć 
trudne. Powszechnie za to stosuje się opisy jakościowe czyli 
metodę SAR
 

Nieregresyjne metody optymalizacji struktury 

(nRMO) znajdują w zasadzie zastosowanie w przypadku 
pojedynczych, ilościowych testów aktywności i jakościowym 
opisie struktury, chociaż niektóre z nich mogą być również 
zastosowane w przypadku jakościowego, wieloklasowego 
opisu aktywności biologicznej. 
 

W przypadku pojedynczych testów aktywności 

szerokie zastosowanie znajdują metody regresyjne. Metoda 
Free-Wilsona (F-W), jedna z dwóch pierwszych technik 
QSAR, znajduje zastosowanie w przypadku jakościowego 
opisu struktury chemicznej poprzez informacje o obecności 
określonych podstawników w określonych miejscach rdzenia 
cząsteczki. 
Druga z najdłużej stosowanych metod QSAR, metoda 
Hanscha
, wymaga ilościowego opisu właściwości 
fizykochemicznych analizowanych związków. 
 

Do klasyfikacji i określania podobieństwa badanych 

związków wykorzystuje się techniki matematyczne zwane 
"rozpoznawaniem obrazów". W przypadku, gdy podział na 
klasy znany jest przed wykonaniem obliczeń mamy do 
czynienia z techniką "z nauczycielem", a zadanie sprowadza 
się do określenia reguł klasyfikacji. Gdy podział na grupy nie 
jest narzucony to odpowiednie techniki określane są mianem 
"bez nauczyciele" i służą do określenia podobieństwa 
pomiędzy poszczególnymi związkami należącymi do 
analizowanego zbioru. Celem metod bez nauczyciele jest 
często wykrycie tendencji pewnych elementów zbioru 
związków do tworzenia mniej lub bardziej spójnych grup czy 
klas. 
 

W przypadku gdy choć jeden z opisów (aktywności 

lub struktury) opiera się na bardzo licznym zestawie wielkości 
(baterii testów) zwykłe metody regresyjne zawodzą. Stosuje 
się wtedy technikę zwaną analizą głównych składowych dla 
zredukowania liczby wielkości opisujących. Po takiej redukcji 

wymiarowości problemu stosuje się typowe metody regresji 
wielokrotnej

8. Metody regresyjne. 

 Załóżmy,  że zmienna niezależna y (w metodach 
QSAR jest nią aktywność biologiczna) może być z rozsądnym 
przybliżeniem wyrażona jako kombinacja liniowa k 
zmiennych zależnych z: 

 

 

kj

k

j

3

3

j

2

2

j

1

1

0

j

j

z

a

...

z

a

z

a

z

a

a

y

+

+

+

+

+

=

Mamy wtedy do czynienia z najprostszym przypadkiem 
metody regresyjnej tzw.  r e g r e s j ą   l i n i o w ą .  
Występujące w regresji liniowej współczynniki ai obliczane 

są z wykorzystaniem zasady  m i n i m u m   s u m y  
k w a d r a t ó w   r ó ż n i c  zwanej także metodą 
najmniejszych kwadratów. Zasada ta daje się wyrazić 
wzorem: 
 

 

(

)

min

y

SKR

n

1

j

2

j

j

=

=

=

Wartości ai dobierane (obliczane) są tak, aby spełniony był 

warunek minimum SKR. 
 

Jednym z problemów występujących przy analizie 

regresji jest dobór ilości i rodzaju zmiennych niezależnych z 
występujących w równaniu regresji. Wymaga się zwykle, aby 
wszystkie człony równania były statystycznie istotne. Jednym 
ze sposobów uzyskania równania regresji spełniającego ten 
wymóg jest zastosowanie tzw. m e t o d y  
o d r z u c a n i a .   Obliczenia rozpoczyna się od równania 
zawierającego wszystkie człony. Po wyznaczeniu 
współczynników ai określa się ich istotność statystyczną. O 

ile występują człony nieistotne usuwa się człon najmniej 
istotny i ponownie wyznacza współczynniki, tym razem już 
tylko k-1 współczynników. Usuwanie najmniej istotnych 
członów i obliczanie nowych współczynników powtarza się 
tak długo, aż wszystkie człony pozostające w równaniu 
regresji będą statystycznie istotne. 
 

Innym wymogiem stawianym prawidłowemu 

równaniu regresji jest jego istotność jako całości. Najczęściej 
stosowaną miarą tej istotności jest statystyka F Snedecora. 
Uzyskanie równania charakteryzującego się wartością F 
większą od krytycznej wskazuje, że równanie jako całość jest 
statystycznie wiarygodne i może być użyte do przewidywania 
wartości zmiennej zależnej (aktywności) na podstawie 

 

background image

Część IV: Klasyczne metody QSAR 

znanych wartości zmiennych niezależnych. Informacje o 
precyzji obliczania wartości zmiennej zależnej zawarte są w 
innych wskaźnikach statystycznych obliczanych równolegle z 
wartościami współczynników. Odchylenie standardowe 
równania, s, podaje przeciętne odchylenie standardowe 
prognozowanych wartości zmiennej zależnej. Rzeczywisty 
błąd prognozowanych wartości zależy nie tylko od jakości 
równania, ale również od wartości zmiennych niezależnych w 
prognozowanym punkcie. Jego miarą jest wartość promienia 
korytarza błędu w danym punkcie. Cenne informacje niesie 
również współczynnik korelacji równania, r, a szczególnie 
jego kwadrat zwany współczynnikiem determinacji. Określa 
on jaki ułamek ogólnej zmienności zmiennej zależnej 
wyjaśnić można przy pomocy danego równania regresji. 
 

Przy pomocy metody najmniejszych kwadratów 

wyznaczać można nie tylko wartości współczynników w 
liniowych równaniach regresji, ale również współczynniki w 
równań regresji krzywoliniowej. Najczęściej spotykanym 
przykładem takiej regresji jest tzw. regresja wielomianowa. 
Zmienna zależna opisywana jest w niej równaniem: 
 

 

k

j

k

3

j

3

2

j

2

j

1

0

j

j

z

a

...

z

a

z

a

z

a

a

y

+

+

+

+

+

=

Jeśli w równaniu tym potraktujemy poszczególne potęgi 
zmiennej z jako zmienne niezależne to otrzymamy typowe 
równanie regresji liniowej. Tak więc również w przypadku 
regresji krzywoliniowej zachowują moc omówione powyżej 
mierniki istotności statystycznej i jakości prognozy. 
 
Przykład 8.1: Zależność regresyjna. 
 

-100 0

100 200 300 400 500 600 700

t [C]

100

200

300

400

500

600

R(t)

 

Rys.8.1: Zależność oporu platyny od temperatury. 

 

 

Zmierzono opór elektryczny cewki platynowej 

utrzymywanej w stałej temperaturze. Pomiary wykonano w 9 
różnych temperaturach w zakresie od -85 do 630

°C. Zmierzony 

opór zmieniał się od ok.100 do ok. 500 m

Ω (patrz rysunek 

obok). Rozkład uzyskanych wyników sugeruje, że zależność 
może być nieliniowa. Chcąc stworzyć model zależności  oporu 
od temperatury przyjęto model wielomianowy stopnia co 
najwyżej trzeciego: 
 

 

( )

( )

3

3

2

2

1

0

t

a

t

a

t

a

a

t

t

R

+

+

+

=

Nie znamy ani poprawnego stopnia wielomianu, ani wartości 
współczynników. Spróbujmy zastosować metodę odrzucania 
(Tab.VIII.1). 
 
Tab.VIII.1.  
Wynik rozwiązania równania regresji stopnia 
trzeciego 

i współczynnik 

ai 

odchylenie 

standardowe 

istotność 

0 152,8411 

1,04  376,82 

1 0,6073 

0,014 

106,05 

2 -0,000063 

0,000072 

-0,31 

3 -0,000000035 

0,0000000848 

-1,52 

s = 0,867  

F = 68 612,6 

R = 1,000 

 

Równanie jako całość jest statystycznie bardzo istotne, 
jednakże człon kwadratowy i sześcienny są nieistotne. Zgodnie 
z metodą odrzucania usuwamy człon najmniej istotny (w 
naszym przypadku człon sześcienny) i powtarzamy obliczenia 
(Tab.VIII.2.). 
 
Tab.VIII.2. 
Wynik rozwiązania równania regresji bez członu 
sześciennego. 

i współczynnik 

ai 

odchylenie 

standardowe 

istotność 

0 153,01 

0,92 

406,35 

1 0,6118 

0,0087 

169,26 

2 -0,092 

0,016 

11,75 

s = 0,874  

F = 101 243 

R = 1,000 

 
Po usunięciu członu sześciennego otrzymujemy równanie o 
bardzo podobnych charakterystykach statystycznych, z tym, że 
wszystkie jego człony są statystycznie istotne. 
================================================ 

8.1. Metoda Free-Wilsona 

N H R

1

N

R

2

R

3

 

Rys.8.2: Struktura serii pochodnych akrydyny 

 
 Rozważmy sytuację, gdy dysponujemy związkiem 
chemicznym wykazującym interesujący nas rodzaj 
aktywności biologicznej. Zadanie polega na znalezieniu 
pochodnej o możliwie wysokiej aktywności. Jeśli z punktu 
widzenia możliwości syntetycznych istnieje możliwość 
wprowadzenia różnych podstawników w kilku miejscach 
cząsteczki, to zastanówmy się ile takich pochodnych może 
być. Dla przykładu poddajmy analizie serię pochodnych 
akrydyny przedstawioną na Rys.8.2 przyjmując,  że 
modyfikować możemy: 

  łańcuch boczny w pozycji 9 (4 różne podstawniki) 

 lewy pierścień (3 podstawniki w czterech pozycjach 1

÷4) 

 prawy pierścień (3 podstawniki w czterech pozycjach 

5

÷8). 

Liczba różnych pochodnych wynosi w tej sytuacji: 
 

N = 4 

× 34 × 34 = 26 244 

Każdy związek należałoby zsyntetyzować i przetestować 
biologicznie. Jest to ogromna praca wymagająca kolosalnych 
nakładów. Pojawia się więc pytanie, czy nie dałoby się 
zmniejszyć liczby związków dzięki zastosowaniu jakichś 
reguł wyboru. Oczywiście można coś takiego zastosować. 
Dobór związków opierać się może na szeregu kryteriach: od 
zupełnej losowości po rozważania oparte na regułach 
teoretycznej chemii  organicznej. Zawsze jednak stracimy 
część informacji i nie będziemy do końca pewni czy nie 
pominęliśmy najlepszej pochodnej. 
 Istnieje 

wszakże pewien sposób pozwalający 

zminimalizować ryzyko pominięcia najlepszych pochodnych. 
Można mianowicie zbudować i zweryfikować model 
zależności aktywności biologicznej od obecności lub braku 
określonego podstawnika w określonej pozycji w cząsteczce. 
Przez wiele lat wydawało się jednak, że model taki musi 
zawierać bardzo skomplikowane i niepoznane dotychczas 
zależności funkcyjne. Jednakże w roku 1964 ukazała się 
publikacja Free i Wilsona w której autorzy zaproponowali 
bardzo prosty model. Przyjęli mianowicie założenie, że dany 
podstawnik w danym miejscu cząsteczki ma na aktywność 
biologiczną zawsze taki sam wpływ niezależnie od obecności 
innych podstawników w innych miejscach. 

 

background image

Część IV: Klasyczne metody QSAR 

 

W przypadku ogólnym założenie takie nie 

wytrzymuje próby weryfikacji: znamy wiele przykładów gdy 
podstawniki wzmacniają lub znoszą swój wpływ w zależności 
od wzajemnego usytuowania. Widać to szczególnie wyrażnie 
w przypadku pochodnych związków aromatycznych: dwa, 
odpowiednio dobrane podstawniki w pozycji orto mogą 
tworzyć dla siebie wzajemnie zawadę przestrzenną; z koleji 
podstawniki w pozycji para mogą wywierać na siebie wpływ 
poprzez efekty indukcyjne i/lub rezonansowe 
Znane są jednak również bardzo liczne przykłady, gdy efekty 
podstawników po prostu sumują się. Metoda zaproponowana 
przez Free i Wilsona nie jest więc podejściem uniwersalnym i 
wymaga w każdym indywidualnym przypadku potwierdzenia 
słuszności założenia  o  a d d y t y w n o ś c i   w p ł y w u  
p o d s t a w n i k ó w .  
Przyjmując słuszność tego założenia możemy zbudować 
matematyczny model analizowanej zależności: 

o

j

ij

j

i

X

a

A

µ

+

=

 

gdzie: 

i - numer związku 

 

j - numer podstawnikopozycji 

 

Ai - aktywność i-tego związku 

 

aj - wkład podstawnikopozycji do aktywności 

 

Xij - obecność podstawnikopozycji j w związku i 

Wyjaśnienia wymaga określenie 

podstawnikopozycja

Ponieważ ten sam podstawnik umieszczony w różnych 
pozycjach może wywierać różny wpływ na aktywność, więc 
należy określić niezależnie wpływ danego podstawnika w 
każdej z pozycji w której może występować. Takie połączenie 
podstawnika z pozycją w strukturze bazowej w której 
występuje nazywamy właśnie podstawnikopozycją. 
 

W przypadku analizowanych wcześniej pochodnych 

akrydyny możemy mieć np. sytuację przedstawioną w 
Tab.VIII.3 
 

 

Tab.VIII.3: Przykładowy zestaw podstawników jakie wystąpić mogą w pochodnych akrydyny (Rys.8.3) i odpowiadające im 
podstawnikopozycje. 
pozycja podstawnik 

pozycja podstawnik 

pozycja podstawnik 

ł.boczny C2H4NHMe 1 

NH2 10 

OH  19 

ł.boczny C2H4NMe2 2 

3  NO2 11 

Cl  20 

ł.boczny C3H6NHMe 3 

OMe 

12 

Me 

21 

ł.boczny C3H6NMe2 4 

3  NH2 13 

OH  22 

1 NO2 5 

NO2 14 

Cl  23 

1 OMe 

4 OMe 

15 

7 Me 

24 

1 NH2 7 

NH2 16 

OH  25 

2 NO2 8 

Cl  17 

Cl  26 

2 OMe 

5 Me 

18 

8 Me 

27 

  

 

  

 

8 OH 

28 

 
Mamy więc 28 podstawnikopozycji. Rozstrzygnięcia wymaga 
teraz problem liczby związków jakie należy zsyntetyzować, 
aby wiarygodnie określić wpływ każdej podstawnikopozycji 
na aktywność padanych pochodnych. Oddzielnym problemem 
jest taki dobór syntetyzowanych związków, aby przy danej 
ich liczbie N otrzymać jak najwięcej, jak najbardziej 
wiarygodnej informacji o zależnościach 
struktura - aktywność. 
 Ponieważ model zaproponowany przez Free i 
Wilsona jest liniowy ze względu na nieznane wartości aj 

można więc go zidentyfikować (wyznaczyć nieznane wartości 
parametrów modelu) przy pomocy metody regresyjnej. 
Bezwzględnie minimalna liczba związków niezbędnych dla 
jednoznacznego wyznaczenia współczynników modelu 
wynosi: 

Nmin = Z + 1 

gdzie: 

Z - liczba podstawnikopozycji. 

Model izdentyfikowany w oparciu o taki minimalny zestaw 
związków nie posiada wszakże 

żadnej zdolności 

prognostycznej: odtwarza on  d o k ł a d n i e  (wraz z 
błędami pomiarowymi) aktywności związków na podstawie 
których został zidentyfikowany, ale błąd oszacowania 
aktywności innego związku jest nieokreślony. Dopiero 
zastosowanie liczby związków większej od Nmin pozwala z 

jednej strony na wyeliminowanie błędów pomiarowych, a z 
drugiej na statystyczne oszacowanie przedziału ufności 
prognozy (korytarza błędu). Ponadto w przypadku 
n i e z n a c z n y c h   odstępstw od wymogu addytywności 
wpływu podstawników dostatecznie duża liczba związków 

pozwala na zachowanie rozsądnych zdolności 
prognostycznych modelu Free-Wilsona. 
Na podstawie teorii modeli regresyjnych można przyjąć,  że 
dostatecznie dobre modele zależności otrzymuje się w sytuacji 
gdy Nrzecz jest większe lub równe Nmin + ∆, gdzie wartość ∆ 

powinna wynosić od 10 do 20. Tak więc w przypadku 
analizowanych pochodnych akrydyny dla poprawnego 
zastosowania metody Free-Wilsona należy dysponować serią 
ok. 50 pochodnych (28 + 1 +20). W pierwszym momencie 
może się to wydawać dużo, należy jednak pamiętać  że 
budujemy model opisujący aktywność ponad 26 tysięcy 
związków. 
 Wiedząc już, ile powinna liczyć seria związków 
niezbędna dla wyznaczenia wpływu podstawnikopozycji 
należy rozstrzygnąć kwestię które z bardzo licznego zestawu 
możliwych pochodnych powinny zostać użyte do identyfikacji 
modelu. Nie ma tu, bo i nie może być, jednoznacznego 
algorytmu doboru związków. Istnieje za to kilka reguł którym 
powinien podlegać zbiór pochodnych aby tworzony model 
miał dobre właściwości prognostyczne. I tak: 

  każda podstawnikopozycja powinna wystąpić 

conajmniej w dwóch związkach. Jeszcze korzystniejsze jest 
gdy występuje w trzech lub czterech związkach. Zaczyna 
wtedy działać statystyczne uśrednianie przypadkowych 
błędów wyznaczania aktywności i model nabiera zdolności 
prognostycznych. 

  należy unikać związków podstawionych tylko w 

jednej pozycji. Zbyt duża liczba takich związków utrudnia 
spełnienie poprzedniej reguły. Jest to wymóg sprzeczny z 
tendencją obowiązującą w badaniach SAR w których dąży się 

 

background image

Część IV: Klasyczne metody QSAR 

do indywidualnego określenia wpływu każdego elementu 
struktury. 

  krotność występowania poszczególnych 

podstawnikopozycji powinna być podobna. Przedział ufności 
wpływu podstawnikopozycji zależy m.in. od krotności jej 
występowania. Duże zróżnicowanie krotności 
podstawnikopozycji powoduje, że niektóre z wpływów będą 
wyznaczone z błędem dużo większym niż inne. Ponieważ 
zwykle z góry nie wiadomo która podstawnikopozycja jest 
istotna dla aktywności nie zachowanie tej reguły grozi 
powstaniem sytuacji gdy wpływ ważnej podstawnikopozycji 
określony zostanie z niedostatecznę precyzją. 

  należy unikać korelacji podstawnikopozycji, tzn. 

nadmiernie częstego występowania pewnej kombinacji 

podstawnikopozycji. Z numerycznego punktu widzenia 
oznacza to, że kolumny macierzy danych powinny być 
możliwie ortogonalne (niezależne od siebie). Jeśli to tylko 
możliwe podstawniki powinny być dobierane losowo. 
 Reguły te odbiegają na tyle istotnie od tradycyjnego 
zestawu związków projektowanych dla badań SAR, że zwykle 
dla prawidłowego zastosowania metody Free-Wilsona należy 
przewidzieć jej zastosowanie już na etapie projektowania serii 
związków (przed rozpoczęciem syntez). Przykładowy 
fragment tablicy podstawnikopozycji dla omawianych 
pochodnych akrydyny przedstawia Tab.VIII.4: 
 

 
Tab.VIII.4: Fragment tablicy podstawnikopozycji dla zestawu pochodnych akrydyny 

Pozycja Podstaw-

nikopoz. 

Podstaw-nik 

Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 

 1 

C2H4NHMe 1 1          

łańcuch 2 

C2H4NMe2   1 1      1 

boczny 3 

C3H6NHMe     1 1   1  

 4 

C3H6NMe2       1 1    

 5 

NO2 

 

 

 

 

 

 

 

 

 

6  OMe 

 1          

 7 

NH2 

 

 

 

 

 

 

 

 

 

 8 

NO2 

 

 

 

 

 

 

 

 

 

9  OMe 

    1       

 10 

NH2 

 

 

 

 

 

 

 

 

 

 11 

NO2 

 

 

 

 

 

 

 

 

 

12  OMe 

       1    

 13 

NH2 

 

 

 

 

 

 

 

 

 

 14 

NO2 

 

 

 

 

 

 

 

 

 

15  OMe 

           

 16 

NH2 

 

 

 

 

 

 

 

 

 

 

 

17  Cl 

1           

18  Me 

    1       

 

19  OH 

        1  

 

20  Cl 

 1          

21  Me 

     1      

 

22  OH 

         1 

 

23  Cl 

  1         

24  Me 

      1     

 

25 

OH 

 

 

 

 

 

 

 

 

 

 

 

26  Cl 

   1        

27  Me 

       1    

 

28 

OH 

 

 

 

 

 

 

 

 

 

 

 
 
 Należy zwrócić uwagę,  że  nie może wystąpić 
sytuacja gdy w jednym związku występuje więcej niż jedna 
podstawnikopozycja dla tej samej pozycji. Ponadto, w 
omawianym przykładzie przyjęto założenie,  że w każdym z 
pierścieni (pozycje 1

÷4 i 5÷8) może w danym związku 

wystąpić tylko jeden podstawnik. 
 

Uzyskanie statystycznie istotnego rozwiązania 

równania regresji jest jedynie pierwszym etapem metody 
Free-Wilsona. Należy teraz sprawdzić, czy w tym konkretnym 
przykładzie uzyskany model spełnia założenie o 
addytywności wpływu podstawników. Z punktu widzenia 
statystyki problem sprowadza się do weryfikacji hipotezy o 
adekwatności modelu. Jeśli model jest adekwatny to wariancja 
resztowa modelu nie powinna być większa od wariancji 

oznaczeń aktywności. W przypadku nieaddytywnego wpływu 
podstawników wariancja resztowa modelu zakładającego 
addytywność będzie istotnie większa niż wariancja oznaczeń. 
Hipotezę o adekwatności modelu testujemy testem 

χ2: 

(

)

2
e

i

2

i

i

2

y

σ

=

χ

 

gdzie: 

 - wariancja oznaczeń aktywności. 

2
e

σ

Sumę kwadratów różnic można wygodnie obliczyć ze wzoru: 

(

)

(

)

1

Z

N

s

y

2

i

2

i

i

=

 

gdzie: 

s - odchylenie standardowe równania regresji 

 

N - liczba związków 

 

background image

Część IV: Klasyczne metody QSAR 

 

Z - liczba podstawnikopozycji. 

Hipotezę o adekwatności modelu, czyli o addytywności 
wpływu podstawników, odrzucamy jeśli: 

2

1

Z

N

,

2

α

χ

χ

 

obliczona wartość statystyki 

χ2 nie jest mniejsza od wartości 

krytycznej znalezionej w tablicach dla poziomu istotności 

α i 

N-Z-1 stopni swobody. W przeciwnym przypadku nie ma 
podstaw do odrzucenia testowanej hipotezy. 
 Jeśli potwierdzone zostanie założenie o 
addytywności wpływu podstawników, to uzyskany model 
regresyjny stanowi wiarygodne narzędzie do przewidywania 
aktywności innych pochodnych. Szybkim sposobem 
wyszukania pochodnej o przypuszczalnie najwyższej 
aktywności jest przegłąd wartości wpływów 
podstawnikopozycji. Należy przy tym pamiętać, że dla każdej 
pozycji wybieramy podstawnik o największym wpływie. 
Pozwala to zaproponować syntezę przypuszczalnie bardzo 
aktywnego związku. Ponadto dla tego związku możemy 
wyznaczyć na podstawie równania regresji jego 
przypuszczalną aktywność. 
 

Przykład 8.2: Zastosowanie metody Free-Wilsona: dane 
symulowane, przypadek addytywny. 

N

R5

R2

O

N

H

X

 

 

Jako pierwszy rozważymy symulowany przykład 

addytywnego wpływu podstawników w pochodnych kwasu 
4-pirydylokarboksylowego (rysunek obok). Modyfikacje 
chemiczne dotyczą terminalnego podstawnika w łańcuchu 
amidu (X) oraz w pozycjach 2 (R2) i 5 (R5) pierścienia 

pirydynowego. Obecna w łańcuchu amidu grupa hydroksylowa 
może występować w formie wolnej (X = OH), jako eter metylowy 
(X = OMe) lub ester acetylowy (X = OAc). W pozycji 2 
występować może chlor, grupa metylowa, aminowa lub nitrowa, 
a w pozycji 5 chlor, grupa metylowa, aminowa lub 
hydroksylowa. Tak więc liczba podstawnikopozycji w 
analizowanej serii pochodnych wynosi 3 + 4 + 4 = 11. 
Zsyntetyzowano 25 pochodnych spełniających omówione 
powyżej reguły. 

 

Tab.VIII.5. Tablica podstawnikopozycji i aktywności biologicznej pochodnych kwasu 4-pirydylokarboksylowego (dane symulowane) 

Nr X 

R2 

R5 Akt. 

 OH 

OMe 

OAc 

Me Cl 

NO2 NH2 Me  Cl  OH NH2 biol. 

I   1 1     1   

1,86 

II    1  1    1      

1,55 

III    1    1      1  

1,00 

IV   1    1     

0,04 

 

 

 

 

 

 

 

 

 

 

 

0,99 

VI        1    

2,07 

VII 

         1  

0,57 

VIII 

 1     1     

0,75 

IX 

1   1      1  

1,28 

1    1       

2,18 

XI 

1     1     1 

2,41 

XII 

1      1 1    

2,36 

XIII 

 1      1    1    

3,67 

XIV 

 1    1            

1,31 

XV  1  1      1      

2,18 

XVI 

  1 1        

0,23 

XVII 

      1     

0,57 

XVIII 

 1     1    1 

0,30 

XIX 

1         1  

1,50 

XX 

        1   

2,65 

XXI 

     1   1   

3,56 

XXII 

     1     1 

1,33 

XXIII 

 1      1          

2,39 

XXIV 

    1       

1,02 

XXV 

   1       1 

0,36 

krotn. 

5 6 5 5 4 6 5 4 4 4 4 

 

 

 

 

background image

Część IV: Klasyczne metody QSAR 

Po zastosowaniu metody Free-Wilsona powstał układ 25 
równań z 12 niewiadomymi (11 współczynników przy 
podstawnikopozycjach + wyraz wolny). 
Rozwiązanie tego układu z wykorzystaniem algorytmu 
odrzucania doprowadziło do modelu zawierającego 11 istotnych 
parametrów: 
 
Tab.VIII.6. Istotne współczynniki modelu Free-Wilsona dla 
danych symulacyjnych (wersja z addytywnościa wpływu 
podstawników 

Poz. Podst. P.p.  Wkład do 

aktywności 

Promień 

przedziału 

ufności 

X OH 1 

0,97 

0,12 

X OMe  2 

0,29 

0,12 

X OAc  3 

-0,51 

0,13 

R2

 

Me 4 

-0,23 

0,13 

R2 Cl 5 

--- 

 

R2 NO2 6 

0,91 

0,13 

R2 NH2 7 

-0,56 

0,12 

R5 Me 8 

0,98 

0,12 

R5 Cl 9  1,52  0,13 
R5 OH 10 

-0,49 

0,14 

R5 NH2 11 

-0,54 

0,14 

 

µo 

 1,077 0,093 

N = 25 

Z = 10 

s = 0,093 

F = 274,1  

F0,05;10;14 = 2,60 

D = R2 = 0,995 

R = 0,998 

 
Uzyskane równanie regresji posiada wysoką istotność jako 
całość (duża wartość testu F, współczynnik determinacji bliski 
jedności). Dzięki zastosowaniu algorytmu odrzucania z 
końcowego równaniu usunięty został człon opisujący wkład 
wnoszony do aktywności przez atom chloru w pozycji R2. 

Oznacza to, że z prawdopodobieństwem conajmnie 95% jego 
wkład do aktywności nie jest istotny. Wszystkie pozostałe 
człony mają istotny udział w aktywności badanej serii związków. 
Należy teraz określić, czy uzyskany model adekwatnie opisuje 
zmienność aktywności biologicznej w badanej serii. Potrzebna 
jest do tego znajomość odchylenia standardowego pomiarów 
aktywności biologicznej. Informacja taka powinna być dostępna 
w pracowni wykonującej oznaczenia aktywności. W naszym 
przykładzie przyjmiemy wartość tego odchylenia jako równą 

σe 

= 0,1 j.a. Możemy teraz obliczyć wartość statystyki 

χ2: 

(

)

11

,

12

1

,

0

093

,

0

14

s

1

Z

N

2

2

2
e

2

2

=

=

σ

=

χ

 

Krytyczna wartość 

χ0,05;14 = 23,69.  Ponieważ wartość 

krytyczna jest większa od obliczonej więc nie ma podstaw do 
odrzucenia hipotezy o adekwatności uzyskanego modelu 
zależności  struktura - aktywność. Oznacza to, że w przypadku 
badanej serii związków spełnione jest założenie o adekwatności 
wpływu podstawników. Można więc uznać ten model za 
posiadający zdolności prognostyczne i podjąć na jego 
podstawie próbę znalezienia pochodnej o przypuszczalnie 
najwyższej aktywności. 
Należy w tym celu spośród podstawnikopozycji dotyczących 
każdej z pozycji wybrać podstawnik posiadający największy 
wkład do aktywności. W przypadku analizowanej serii będą to: 
 w 

łańcuchu bocznym 

⇒ OH z wkładem 0,97±0,12 

 

w pozycji 2 

⇒ NO2 z wkładem 0,91±0,13 

 

w pozycji 5 

⇒ Cl z wkładem 1,52±0,13 

N

Cl

O

N

H

OH

O

2

N

 

Tak więc można założyć,  że najaktywniejszym związkiem 
będzie pochodna o budowie przedstawionej obok. Jej 
aktywność oszacować można na równą: 
 

A = 1,077 + 0,97 + 0,91 + 1,52 = 4,47

±0,16 

Należy pamiętać,  że zaproponowana pochodna jest przypusz-
czalnie najaktywniejsza tylko w obrębie  d z i e d z i n y  
(przedziału ważności)  modelu. W przypadku metody 
Free-Wilsona dziedzinę ogranicza zestaw podstawnikopozycji. 
Tak więc pochodna o przedstawionej powyżej strukturze jest 
najaktywniejsza spośród 4

×5×5 = 100  możliwych pochodnych 

zawierających w łańcuchu bocznym i pozycjach 2 i 5 
wymienione powyżej podstawniki lub atom wodoru. Wadą 
metody Free-Wilsona jest niemożliwość przewidzenia 
aktywności dla innych podstawników niż uwzględnione w 
analizowanym zestawie. 
=============================================== 
 

Przykład 8.3.: Zastosowanie metody Free-Wilsona: 
dane symulowane, przypadek braku addytywności 

 

Dla zobrazowania sytuacji jaka powstaje, gdy 

dochodzi do interakcji pomiędzy podstawnikami zmodyfikowano 
nieznacznie Przykład 7-I. Modyfikacja polegała na tym, że dla 
związków w których w pozycji 2 występowała grupa nitrowa a w 
pozycji 5 grupa hydroksylowa lub aminowa (związki III, IX i XII) 
zwiększono aktywność o 1 jednostkę. 
Tak przygotowany zestaw poddano analizie regresjii z 
zastosowaniem algorytmu odrzucania. Otrzymane wyniki 
przedstawia Tab. VIII.7. 
 
Tab.VIII.7.
 Istotne współczynniki modelu Free-Wilsona dla 
danych symulacyjnych (wersja bez addytywnego wpływu 
podstawników) 

Poz. Podst. P.p.  Wkład do 

aktywności 

Promień 

przedziału 

ufności 

X OH 1 0,86 0,47 
X OMe  2 

---  

X OAc  3 

---  

R2

 

Me 4 

---  

R2 Cl 5 

---  

R2 NO2 6 

1,41 0,45 

R2 NH2 7 

---  

R5 Me 8 

1,18 0,52 

R5 Cl 9 

1,58 0,53 

R5 OH 10 

---  

R5 NH2 11 

---  

 

µo 

 

0,65 0,27 

N = 25 

Z = 4 

s = 0,44 

F = 28,72  

F0,05;4;20 = 2,87 

D = R2 = 0,852 

R = 0,923 

 
Przede wszystkim widać,  że w zaistniałej sytuacji wpływ 7 
podstawnikopozycji okazał się statystycznie nieistotny. 
Pozostały jedynie podstawnikopozycje o najsilniejszych 
wkładach do aktywności. Zmniejszyła się też znacznie jakość 
dopasowania, choć równanie jako całość pozostaje w dalszym 
ciągu statystycznie istotne (F > Fkryt). W ślad za spadkiem 

jakości dopasowania wzrosły też znacznie przedziały ufności 
parametrów modelu. Sprawą kluczową jest jednak ocena 
adekwatności modelu. Obliczona wartość testu 

χ2 wynosi: 

94

,

381

1

,

0

437

,

0

20

2

2

2

=

=

χ

 

wobec wartości krytycznej 

. Ponieważ wartość 

obliczona jest większa od wartości krytycznej, więc model 
j e s t   n i e a d e k w a t n y .   Tym  samym  wykazano,  że 
istnieje oddziaływanie pomiędzy podstawnikami, a więc ich 
wpływ nie jest addytywny. 

41

,

31

2

20

;

05

,

0

=

χ

 Można zauważyć,  że pomimo nieadekwatności 
modelu struktura pochodnej o przypuszczalnie najwyższej 

 

background image

Część IV: Klasyczne metody QSAR 

aktywności przewidziana jest poprawnie: jest to ta sama 
pochodna co w Przykładzie 8.2. Co więcej przewidywana 
aktywność tej pochodnej A 

4,5

±0,69 jest bardzo bliska 

poprzedniej prognozie (4,47

±0,16). Sytuacja taka występuje 

wtedy, gdy odstępstwa od addytywności nie dotyczą kombinacji 
podstawników o najsilniejszym wkładzie do aktywności. 
================================================

 
 

Od czasu zaproponowania metody przez Free i 

Wilsona była ona testowana nie tylko na danych 
symulacyjnych (jak powyżej), ale również na licznych 
przykładach rzeczywistych. Jeden z takich przykładów 
zostanie omówiony poniżej.  
 
Przykład 8.4.:  
Zastosowanie metody Free-Wilsona: 
dane rzeczywiste. 

O

O

O

M e

O H

M e

M e

M e

O

Et

M e

M e

O

M e

O M e

M e

O

O

N M e

2

M e

R

3

O

R

4

R

1

O

O

R

2

 

 

Analizowany przykład ten dotyczy serii pochodnych antybiotyku 
przeciwbakteryjnego  erytromycyny B. Modyfikacje dotyczyły 
wybiórczego acylowania trzech grup hydroksylowych (R1 i R2 w 

cukrach i R3 w pierścieniu makrolidowym) oraz obecności lub 

braku dodatkowej grupy hydroksylowej w pierścieniu 
makrolidowym (R4). Jako pochodne grup hydroksylowych 

stosowano: 
 

R1 ⇒ formyl (For) lub acetyl (Ac) 

 

R2 ⇒ For, Ac lub propionyl (Pro) 

 

R3 ⇒ For, Ac lub Pro. 

W tej sytuacji minimalna liczba pochodnych wynosi: Nmin = 1 

+2 + 2

×3 + 1 = 10. W rzeczywistych modelach stosowano 28 

lub 27 pochodnych. Aktywność wyznaczana była w formie 
pIC50 na szczepach S.aureus i K.pneumonia z odchyleniem 

standardowym 

σe = 0,065. 

 Aktywność w stosunku do S.aureus wyznaczono dla 
28 pochodnych. Po zastosowaniu metody Free-Wilsona wraz z 
algorytmem odrzucania uzyskano wyniki: 

Poz. Podst.  Wkład do 

aktywności 

Promień 

przedziału 

ufności 

R1 For 

--- 

 

R1 Ac  -0,15 

0,06 

R2 For 

-0,28 

0,07 

R2 Ac  -0,65 

0,08 

R2 Pro 

-0,74 

0,13 

R3 For 

--- 

 

R3 Ac  -0,56 

0,09 

R3 Pro 

-0,67 

0,16 

R4 

OH 0,21 0,07 

 

µo 

2,76 0,07 

N = 28 

 

Z = 7 

s = 0,075 

F = 172,45 

 

F0,05;7;20 = 2,87 

D = R2 = 0,984 

 

R = 0,992 

χ2  = 26,627 

 

χ20,05;20 = 31,41 

 

Uzyskane równanie jest statystycznie istotne, 

wyjaśnia ponad 98% zmienności aktywności i opisuje 
adekwatny model. Jednakże płynące z niego wnioski nie są 
zbyt budujące dla autorów omawianej pracy: z modelu wynika 
bowiem,  że praktycznie żadna z badanych pochodnych 

acylowych nie daje nadziei na uzyskanie pochodnej o wyższej 
aktywności. Jedyny dodatni wkład do aktywności wnosi 
obecność dodatkowej grupy hydroksylowej (R4). 

 

W przypadku szczepu K. pneumonia stwierdzono 

podobne zależności struktura - aktywność: 

Poz. Podst.  Wkład do 

aktywności 

Promień 

przedziału 

ufności 

R1 For 

---  

R1 Ac  -0,10 0,05 
R2 For 

-0,16 0,06 

R2 Ac  -0,44 0,07 
R2 Pro 

-0,60 0,10 

R3 For 

-0,17 0,09 

R3 Ac  -0,55 0,07 
R3 Pro 

-0,69 0,13 

R4 OH 

---  

 

µo 

2,94 0,05 

N = 27 

 

Z = 7 

s = 0,061 

F = 153,59 

 

F0,05;7;19 = 2,87 

D = R2 = 0,983 

 

R = 0,991 

χ2  = 16,73 

 

χ20,05;19 = 30,14 

Podstawowa różnica polega na tym, że wpływ dodatkowej 
grupy hydroksylowej jest w przypadku K. pneumonia 
statystycznie nieistotny. Tym samym w przypadku tego 
drobnoustroju  żaden z elementów struktury erytromycyny B 
analizowanych w omawianej pracy nie wnosi dodatniego 
wpływu do aktywności. 
================================================ 

8.2. Metoda Hanscha. 

 Poważnym ograniczeniem metody Free-Wilsona 
jest fakt, że optymalizacja obejmuje tylko te 
podstawnikopozycje, które występują w badanych związkach. 
Innym ograniczeniem jest wymóg jednoczesnych zmian w 
kilku miejscach struktury bazowej. Wad tych pozbawiona jest 
inna metoda regresyjna zaproponowana w latach '60 przez 
Hanscha i Fujitę. Istotą tej metody jest założenie,  że o 
aktywności biologicznej decydują 

właściwości 

fizykochemiczne związków. 
Fakt ten znany był od dziesiątków lat. Istniały jednak dwa 
podstawowe problemy: 

i) ile i jakie właściwości wpływają na aktywność 

biologiczną 

ii) jak  i l o ś c i o w o   opisać wpływ tych właściwości. 

Zasługą Hanscha i Fujity było zaproponowanie logicznego 
zestawu cech fizykochemicznych oraz wykazanie (prace 
Hanscha),  że cechy te rzeczywiście wpływają na aktywność 
biologiczną bardzo różnorodnych grup związków. Autorzy 
zaproponowali i uzasadnili w oparciu o podstawowe prawa 
biofizyki konieczność zastosowania do opisu zależności 
struktura - aktywność 3 parametrów fizykochemicznych: 

 parametru  lipofilowego opisującego zdolność 

związku do przenikania przez błony biologiczne i tym samym 
charakteryzującego właściwości transportowe i resorpcyjne 
związku 

 parametru  elektronowego podstawników lub 

cząsteczki jako całości. Parametr taki opisuje rozkład gęstości 
elektronowej w cząsteczce, a tym samym reaktywność 
związku i jego zdolność do elektrostatycznego oddziaływania 
z celem molekularnym. 

 parametru  sterycznego opisującego geometrię 

cząsteczki, a w szczególności zawadę przestrzenną w 
sąsiedztwie miejsc reaktywnych lub ogólną wielkość i kształt 
cząsteczki. Umożliwia to uwzględnienie dopasowania 
związku do jego celu komórkowego. 

 

background image

Część IV: Klasyczne metody QSAR 

 

W pierwszych swoich pracach Hansch zastosował 

najprostszy z możliwych modeli opisujących zależność 
aktywności biologicznej od właściwości fizykochemicznych - 
model liniowy: 
  logA 

ao + a1L + a2E + a3S 

gdzie: 

A - aktywność biologiczna 

 

L - parametr lipofilowy 

 

E - parametr elektronowy 

 

S - parametr steryczny. 

Wykazano,  że model ten, pomimo swego skrajnego 
prymitywizmu, całkiem dobrze (adekwatnie) opisuje wiele 
przypadkach obserwowanych zależności 
struktura - aktywność. Stwierdzono również,  że w znacznej 
liczbie przypadków zależność aktywności biologicznej od 
lipofilowości nie jest liniowa, lecz charakteryzuje się 
obecnością wyraźnego maksimum. W tej sytuacji Hansch 
rozszerzył swój model dodając do niego człon kwadratowy. 
Powstało w ten sposób tzw. pełne równanie Hanscha o 
postaci: 
 

logA = ao + a1L + a2L2 + a3E + a4S 

Wartości liczbowe współczynników ai oblicza się metodą 

regresji wielorakiej (ang. Multiple Regression Analysis MRA). 
Ponieważ równanie Hanscha ma służyć m.in. do celów 
prognostycznych (przewidywanie aktywności nowych 
pochodnych), więc podstawowym wymogiem jest 
wiarygodność uzyskanych wartości współczynników. Jednym 
z podstawowych wielkości określających tą wiarygodność jest 
liczba związków w badanej serii. Z rozważań statystycznych 
wynika,  że powinno ich być conajmniej po 4 

÷ 5 na każdy 

parametr. W przypadku pełnego równania Hanscha oznacza to 
potrzebę użycia 5 

× 4 = 20 związków. 

Dla danej serii związków należy przede wszystkim określić 
czy wszystkie człony równania mają statystycznie istotny 
wpływ na aktywność. Dokonuje się tego poprzez ocenę 
istotności wsółczynników równania. Ostateczne równanie 
powinno być: 

  istotne jako całość: test F Snedecora 

 posiadać tylko istotne współczynniki: dla każdego 

współczynnika test t Studenta 

 być adekwatne: test 

χ2. 

 

W metodzie Hanscha kluczową rolę odgrywa 

poprawny dobór właściwości fizykochemicznych 
korelowanych z aktywnością biologiczną. W klasycznych 
pracach Hanscha jako parametr lipofilowy wykorzystywany 
był log(P), czyli współczynnik podziału w układzie 
n-oktanol : woda.  Jako  parametr elektronowy podstawników 
Hansch zastosował stałe Hammetta 

σ, a jako parametr 

steryczny podstawników stałe Tafta Es. Inni autorzy 

wykorzystali inne właściwości fizykochemiczne do wyrażenia 
trzech podstawowych zdaniem Hanscha parametrów: 
lipofilowego, elektronowego i sterycznego. Poniżej omówione 
zostaną 

właściwości fizykochemiczne najczęściej 

wykorzystywane do określania w/w parametrów. 

8.2.1. Parametry lipofilowe. 

 Jak 

już wspomniano, pierwszym parametrem 

opisującym właściwości lipofilowe związków był logarytm 
współczynnika podziału w układzie n-oktanol : woda (bufor). 
Parametr ten jest ciągle używany, gdyż uznawany jest za 
najlepszy, bezpośredni miernik lipofilowości. W zespole 
Hanscha w trakcie wyznaczania wartości współczynników 
podziału stwierdzono dla wielu podstawników, że ich wpływ 
na logP jest stały i niezależny zarówno od struktury bazowej 
do której ten podstawnik jest przyłączony jak i od obecności 
innych podstawników. Wyrażając to samo inaczej, obserwacja 
ta sugerowała,  że wpływ podstawników na lipofilowość ma 
charakter addytywny. Dalsze, szczegółowe prace zespołu 
Hanscha doprowadziły do potwierdzenia tej hipotezy i 
zaproponowania nowej stałej charakteryzującej podstawnik: 

stałej lipofilowości 

π. Definiowana jest ona dla danego 

podstawnika X jako: 
 

π = logPX - logPH 

gdzie: PX - współczynnik podziału związku    

  podstawionego 
 

PH -współczynnik podziału związku    

  niepodstawionego 
Wartości stałych lipofilowości dla częściej spotykanych 
podstawników przedstawia poniższa tabela. 
 

Tab.VIII.8. Wartości stałych lipofilowości 

π dla częściej 

spotykanych podstawników 

Podstawnik 

π 

Podstawnik 

π 

Br 0,86 

CHO 

-0,65 

CH3 0,50 

CH=NOH 

-0,38 

CH2 0,50 

COCH3 -0,55 

CF3 0.88 

CONH2 -1,49 

etyl 1,02 

COOCH3 -0,01 

propyl 1,55 

COOCH2CH3 0,51 

i-propyl 1,53 

CH2COOH -0,72 

CH2OH -1,03 

CH2CONH2 -1,68 

CH2NH2 -1,04 

CH2COOCH3 -0,69 

CCH 0,40 

4-pirydyl 

0,32 

CN -0,57 

fenyl 1,89 

 
Hansch zaproponował również sposób obliczania logP dla 
całych związków bazując na danych dla kilkudziesięciu 
związków bazowych, wartościach 

π podstawników oraz 

poprawkach na wiązania wielokrotne i rozgałęzienia. Np. : 
 wiązanie podwójne 

∆π = -0,30 

 wiązanie potrójne 

∆π = -0,52 

 rozgałęzienie  

∆π = -0,20 

 CH2 w pierścieniu  π = 0,41 

 -CH=CH-CH=CH- 

π = 1,35 

System ten posiadał jednak szereg niedogodności. Przede 
wszystkim dla uwzględnienia wpływu sąsiedztwa 
podstawników wymagał bardzo rozbudowanego systemu 
poprawek, co w połączeniu z drugim mankamentem: 
niejednoznacznością, czyniło go metodą obarczoną dużą dozą 
subiektywizmu. Dwa poniższe przykłady obrazują zakres 
niejednoznaczności tego systemu. 
Dibenzyl

φ-CH2-CH2-φ. 

 Logarytm 

współczynnika podziału dla dibenzylu 

obliczyć można z co najmniej trzech schematów: 
a) 2

×logP(φH) + 2×π(CH2) = 2×2,13 + 2×0,5  = 5,26 

b) logP(

φH) + 2×π(CH2) + π(φ) = 2,13 + 2×0,5 + 1,89  = 5,02 

c) 2

×π(CH2) + 2×π(φ) = 2×0,5 + 2×1,89  = 4,78 

Rzeczywista, zmierzona wartość logP dla dibenzylu wynosi 
4,81
Toluen

φ-CH3 

 Również dla tak prostego związku jak toluen, logP 
obliczyć można conajmniej 2 sposobami: 
a) logP(

φH) + π(CH3) = 2,31 + 0,5 = 2,81 

b) logP(CH4) + π(φ) = 0,9 + 1,89 = 2,79 

W tym przypadku z obydwu sposobów otrzymujemy bardzo 
zbliżone wartości logP. 
 Szczegółowa analiza tego typu niejednoznaczności 
oraz szczególnie dużych różnic pomiędzy wartościami logP 
obliczonych w/g różnych sposobów skłoniła Nysa i Rekkera 
(1973) do zaproponowania innego modelu służącego do 
oblicznia logP. W modelu tym nie wyróżnia się struktury 
bazowej i podstawników, lecz całą strukturę traktuje się jako 
złożoną z fragmentów. Każdy z fragmentów wnosi 
addytywnie swój wkład do końcowej wartości logP: 

 

background image

Część IV: Klasyczne metody QSAR 

 

 

=

=

n

1

i

i

i

f

a

P

log

gdzie: fi - stała hydrofobowa fragmentu i 

 

ai - liczba określająca ile razy fragment i występuje 

w cząsteczce 
 n 

łączna liczba fragmentów w cząsteczce. 

Zgodnie z tym modelem logP dibenzylu oblicza się ze wzoru 
(Tab.VIII.9): 
 logP(

φ-CH2-CH2-φ) = 2×f() + 2×f() = 2×1,896  

 

 

 

      + 2

×0,527 = 4,85 

 

 
Tabela VIII.9. 
Stałe hydrofobowe wyznaczone przez Nysa i Rekkera dla typowych składników związków organicznych. 

Fragment falif. 

faromat.  

Fragment 

faromat i fheterocykl 

C 

0,14  

0,14  

 

C r 

A

0,158 

CH 0,236 

0,236 

 

C

.

Ar 0,297 

CH2 0,527 

0,527 

 

CHAr 0,344 

CH3 0,702 

0,702 

 

(N) 

-0,98 

CH2=CH 

0,93  

0,93  

 

(O) 

0,10 

CH=C 

0,51  

0,51  

 

(S) 

0,44 

H 

0,193 0,193 

 

(NH) 

-0,60 

F 

-0,51  

0,425 

 

pirolil 

0,59 

Cl 

0,06  

0,930 

 

furanyl 

1,22 

Br 

0,24  

1,169 

 

tienyl 

1,62 

J 

0,59  

1,456 

 

pirydynyl 

0,543 

O 

-1,536 -0,458 

 

chinolinyl 

1,85 

OH -1,440 

-0,374 

 

fenyl 

(C6H5) 1,896 

0CH3 

-0,834 

0,244 

 

      (C6H4) 1,732 

N 

-2,133 

-1,07  

 

      (C6H3) 1,477 

NH -1,864 

-0,93 

 

 

naftalenyl  3,17 

NH2 -1,380 

-0,911 

 

 

 

NO2 -1,06 

 

-0,089 

 

 

 

COO  

H

-1,003 

0,000 

 

 

 

COO

-

 -1,281 

-0,40 

 

 

 

 

OCH2COOH 1,21 

 

-0,609 

 

 

 

CONH2 

-1,99  

-1,26  

 

 

 

=C=0 

-1,69  

-0,99  

 

 

 

CN 

-1,13  

-0,20  

 

 

 

 
 

Nys i Rekker obliczyli wartości stałych 

hydrofobowych fi stosując metodę regresji krokowej dla 

zestawu 154 związków o znanych logP. Obliczono zarówno 
stałe hydrofobowe dla typowych fragmentów 
kilkuatomowych (grup funkcyjnych, podstawników) jak i dla 
pojedynczych atomów, w tym różnego typu atomów węgla w 
pierścieniach aromatycznych i heterocyklicznych. 
Stwierdzono przy tym, że atomy węgla wspólne dla pierścieni 
skondensowanych mają wartość  fi ok. dwa razy większą niż 

inne aromatyczne atomy węgla. Autorzy oznaczyli je 
symbolem C.Ar. Stałe hydrofobowe dla atomów i grup 

funkcyjnych występujących w typowych związkach 
organicznych zestawiono w Tab.VIII.9. 
 Poniższe przykłady obrazują sposób obliczania logP 
przy pomocy stałych hydrofobowych oraz pozwalają 
porównać uzyskane wartości z danymi doświadczalnymi. 
n-propylobenzen

φ-CH2-CH2-CH3 

 

logP = f(

φ) + 2f(CH2) + f(CH3) = 1,896 +2×0,527 + 

0,702  = 3,65 
 

 

wartość doświadczalna : 3,69 

eter fenylowo-allilowy

φ-O-CH2-CH=CH2 

 

logP = f(

φ) + f(-O-)arom + f(CH2) + f(CH=CH2) = 

 

 

1,896 - 0,458 + 0,527 + 0,93  = 2,90 

 

 

wartość doświadczalna : 2,94 

2,4,6-trichlorofenol 
logP = f(C6H3) - f(H)arom + f(OH)arom + 3×f(Cl)arom = 

 

 

1,896 - 0,193 - 0,374 + 3

×0,93  = 3,70 

chloropromazyna 

S

C l

N

N

 

logP = 7

×f(CHAr) + 4×f(C.Ar) + f(CAr) + f(Cl)arom + 

 + 

f(S)arom + f(NH)het + f(CH2) + 2×f(CH3) + 

 + 

f(N)alif  = 5,38 

 wartości doświadczalne : 5,16; 5,35 i 5,32 

 

W przypadku związków ulegających dysocjacji w 

pH fizjologicznym obliczanie logP bardzo się komplikuje. 
Wartość logP formy zjonizowanej jest dużo mniejsza niż dla 
formy niezdysocjowanej. Dla związków częściowo 
zdysocjowanych w danym pH wprowadzono pojęcie 
współczynnika dystrybucji który zastępuje współczynnik 
podziału. W przypadku kwasów definiuje się go wzorem: 
 

 

[ ]

[ ]

[ ]

+

=

A

AH

AH

D

W

L

 

gdzie indeks L dotyczy fazy lipidowej, a indeks W fazy 
wodnej. Ponieważ istnieją trudności techniczne z 
precyzyjnym pomiarem stężeń obu form kwasu w roztworach 
wodnych, więc dla celów praktycznych wprowadzono wzory 
przybliżone: 
 dla 

kwasu: 

(

)

a

pK

pH

10

1

log

P

log

D

+

=

log

 

 dla 

zasady: 

(

)

pH

pK

a

10

1

log

P

log

D

+

=

log

 

 

10 

background image

Część IV: Klasyczne metody QSAR 

Chromatograficzne metody wyznaczania parametrów 
lipofilowych. 
 

Dla niektórych związków bardzo trudno jest 

wyznaczyć współczynnik podziału. Dotyczy to np. związków 
nietrwałych, zanieczyszczonych lub tworzących stabilne 
emulsje. Dla takich przypadków zaproponowano wyznaczać 
parametr lipofilowy metodami chromatografii cienko-
warstwowej jako tzw. wartość  Rm. Metoda okazała się tak 

wygodna,  że stosuje się  ją również w przypadku związków 
pozbawionych w/w niedogodności. 
Zaletami metody chromatograficznej są: i) małe zużycie 
związku; ii) brak wymogu specjalnej czystości; iii) możliwość 
jednoczesnego (na jednej płytce) oznaczania kilku lub nawet 
kilkunastu związków. 
 Stwierdzono, 

że pomiędzy stałą  Rm, a logarytmem 

współczynnika podziału P istnieje zależność liniowa : 
 

 

Rm = a×logP + b 

gdzie stałe a i b zależą od warunków chromatografii, np. 
podłoża i składu fazy ruchomej. 
 

Dla wyeliminowania innych niż podział efektów 

chromatograficznych (głównie sorpcji na żelu) stosuje się 
neutralne nośniki, takie jak metylocelulozę, lub 
chromatografię faz odwróconych. Istnieje prosta zależność 
pomiędzy wielkością  Rm a ruchliwością chromatograficzną 

Rf: 
 



=

1

R

1

log

R

f

m

W przypadku związków ulegających dysocjacji dla 
zapewnienia stałego pH stosuje się buforowaną fazę ruchomą. 
 

Burzliwy rozwój chromatografii HPLC, w tym 

również na fazach odwróconych, spowodował,  że ostatnio 
głównie ta technika stosowana jest do chromatograficznego 
wyznaczania parametrów lipofilowych. Okazało się przy tym, 
że wielkością liniowo zależna od współczynnika podziału jest 
skorygowany czas retencji, k’. Jest to jednocześnie typowy 
parametr wyznaczany w technikach HPLC. 
Inne parametry lipofilowe. 
 Oprócz 

omówionych 

powyżej, klasycznych metod 

wyznaczania właściwości lipofilowych proponowano 
zastosować szereg innych wielkości. Spośród nich pewne 
zastosowanie znajdują: 
 

∆Rm dla podstawników - wielkość proporcjonalna 

do parametru 

π 

 

logS - rozpuszczalność związku w wybranym 

rozpuszczalniku, np. wodzie lub chloroformie 
 

[P] - parachora: wielkość addytywna wiążąca 

objętość molową cieczy Vc i jej napięcie powierzchniowe σ. 

W literaturze od wielu dziesiątków lat istnieją tablice parachor 
atomowych i parachor wiązań. 

 

Parametry lipofilowe podzielić można, ze względu 

na sposób ich wyznaczania na dwie klasy: 

 parametry doświadczalne dla których wyznaczenia 

należy posiadać próbkę analizowanego związku i wykonać na 
niej odpowiednie pomiary 

 parametry teoretyczne (tablicowe) których wartość 

można wyznaczyć dysponując jedynie wzorem związku. 
Parametry doświadczalne, wyznaczane dla konkretnych 
związków zapewniają bardziej adekwatny opis właściwości 
związków. Mają więc istotne znaczenie na etapie 
poszukiwania zależności. Wadą tak uzyskanej zależności jest 
jednak niemożność projektowania na jej podstawie 
konkretnych nowych pochodnych. Możliwe jest jedynie 
wskazanie trendów (kierunków) zmian. Wady tej pozbawione 
są modele oparte na parametrach obliczanych lub 
tablicowych. Po uzyskaniu statystycznie istotnej zależności 
można na jej podstawie oszacować aktywność związku 
jedynie na podstawie jego wzoru. 

8.2.2. Parametry elektronowe. 

 

Przypuszczano od dawna, że rozkład  ładunku w 

obrębie cząsteczki ma istotny wpływ na jej reaktywność 
chemiczną i efekty biologiczne. Brakowało jednak prostego 
sposobu opisu zależności pomiędzy rozkładem  ładunku a 
właściwościami chemicznymi lub biologicznymi. 
 

W roku 1935 Hammett stwierdził,  że istnieje 

liniowa zależność pomiędzy zmianami energii swobodnej 
wywołanej wprowadzeniem podstawnika w pochodnych 
kwasu benzoesowego, a ich powinowactwem elektronowym. 
Zależność  tę dla równowag dysocjacji można wyrazić 
wzorem: 

 

σ

ρ

=

o

s

K

K

log

 

gdzie: Ks - stała dysocjacji podstawionego kwasu 

benzoesowego 
 

Ko - stała dysocjacji kwasu benzoesowego 

 

σ - stała charakteryzująca podstawnik (stała 

Hammetta) 
 

ρ - stała zależna od warunków pomiaru 

Stałe Hammetta stosuje się do układów aromatycznych w 
których podstawnik jest w pozycji para lub meta do centralnej 
grupy reagującej. Stałe te opisują w zasadzie wpływ 
indukcyjny podstawnika. Przykładowe wartości stałych 
Hammetta dla typowych podstawników przedstawia poniższa 
tabela. 
 

 

Tab.VIII.10. Wartości stałych Hammetta dla typowych podstawników. 
Podstawnik pozycja 

Podstawnik pozycja 

 

para meta 

 

para meta 

-O- -1,000 

-0,710 

Cl  0,228 

0,372 

-NH2 -0,660 

-0,160 

-Br 

0,232 

0,931 

-CH3 -0,170 

-0,070 

-J 

0,276 

0,352 

-OH -0,357 

0,000 

-NO2 0,778 

0,710 

-OMe -0,268 

0,115 

-CF3 0,551 

0,415 

-F 

0,062 0,337 

-CN 

0,628 0,678 

 
 
 Zasługą Hanscha i Fujity jest zastosowanie stałych 
Hammetta jako opisu właściwości elektronowych serii 
związków. Trzeba było dużej dozy odwagi intelektualnej aby 
zastosować prosty parametr chemiczny dla opisu wpływu 
modyfikacji chemicznej na oddziaływanie leku z jego 
makromolekularnym celem komórkowym. 

 Oprócz 

stałej Hammetta w metodzie Hanscha 

stosowane są liczne inne parametry elektronowe. Niektóre z 
nich są tylko modyfikacjami klasycznej stałej Hammetta. Do 
takich parametrów należą: 
 

σorto - stała Hammetta dla pozycji orto 

 

σI - stała indukcyjna (alifatyczna) 

 

11 

background image

Część IV: Klasyczne metody QSAR 

 

σ  - stała rezonansowa (alifatyczna) 

R

 

σ* - stała polarności (alifatyczna) 

 

F - aromatyczna stała indukcyjna 

 

R - aromatyczna stała rezonansowa 

Istnieją również stałe elektronowe oparte na odmiennych niż 
stała Hammetta podstawach fizykochemicznych. Do 
najczęściej stosowanych w badaniach QSAR należą: 

pKa lub ∆pKa - stała dysocjacji lub jej zmiana w stosunku 

do związku odniesienia 

ρ

+

ε

ε

=

α

M

2

1

 - polaryzowalność molowa 

 

ε - stała dielektryczna 
M - masa cząsteczkowa 
ρ - gęstość 
µ - moment dipolowy 
δ - przesunięcie chemiczne w NMR 
1/

λ - położenie maximum absorpcji w widmach UV/VIS 

Rozwój metod obliczeniowych chemii kwantowej 
spowodował,  że jako parametry elektronowe w badaniach 
QSAR zaczęto również stosować wielkości kwantowo-
chemiczne. Do najczęściej używanych parametrów tego typu 
należą energie tzw. orbitali granicznych: 

HOMO - energia najwyższego obsadzonego orbitalu (ang. 
Highest Occupied Molecular Orbital) 
LUMO - energia najniższego nieobsadzonego orbitalu 
(ang. Lowest Unoccupied Molecular Orbital) 

Wartości energii tych orbitali są miarą podatności cząsteczki 
jako całości do oddawania (HOMO) lub przyjmowania 
(LUMO) elektronów. Oprócz takich globalnych parametrów 
elektronowych metody obliczeniowe chemii kwantowej 
dostarczają również parametrów opisujących bardziej 
"lokalne" właściwości fragmentów cząsteczki. Parametrami 
takimi są np. ładunki cząstkowe wybranych atomów lub rzędy 
określonych wiązań. 
Obliczenia kwantowo-chemiczne pozwalają również na 
oszacowanie wartości takich doświadczalnych parametrów 
elektronowych jak np. moment dipolowy, energia jonizacji 
lub wartość przesunięcia chemicznego w NMR. 
 

Podobnie jak w przypadku parametrów lipofilowych 

dysponujemy więc również w przypadku parametrów 
elektronowych dwoma typami parametrów:  

 parametrami  doświadczalnymi dla których 

wyznaczenia należy posiadać próbkę analizowanego związku 
i wykonać na niej odpowiednie pomiary 

 parametrami teoretycznymi (tablicowymi) których 

wartość można wyznaczyć dysponując jedynie 
proponowanym wzorem związku. 

8.2.3. Parametry steryczne. 

 

Przed opublikowaniem prac Hanscha i Fujity 

wydawało się,  że opis kształtu cząsteczki nastręczać  będzie 
szczególnie wiele problemów przy poszukiwaniu zależności 
struktura - aktywność. Na szczęście rozwój w latach '50 i na 
początku '60 tzw. fizycznej chemii organicznej będący 
wynikiem sukcesu koncepcji wpływu podstawników na 
właściwości chemiczne całej cząsteczki zapoczątkowany 
pracami Hammetta i jego szkoły dostarczył niezbędnych 
narzędzi. 
 Taft 

badając wpływ podstawników na szybkość 

hydrolizy estrów alkoholi alifatycznych i aromatycznych 
kwasów karboksylowych podstawionych w pozycji meta 
stwierdził,  że oprócz stałej Hammetta, czyli wpływów 
elektronowych, na szybkość hydrolizy wpływa również efekt 
przestrzenny podstawników i zaproponował zależność: 

 

S

o

s

E

k

k

log

+

σ

ρ

=

 

Wielkość  E

S

 nazwana została stałą Tafta i jest szeroko 

stosowana dla opisu zawady przestrzennej podstawników 
zarówno w badaniu reaktywności chemicznej jak i zależności 
struktura chemiczna - aktywność biologiczna. 
 

Ogólna koncepcja wpływu zawady przestrzennej 

została szeroko przyjęta i rozbudowana dla innych 
szczegółowych przypadków. I tak wprowadzono: 
 

 - stałą Tafta dla podstawników w pozycji orto 

o
S

E

 

 - stałą Tafta dla podstawników w pozycji meta 

m

S

E

 

 - stałą Hancock'a uwzględniającą hiperkoniu-

  gację wodorów 

α 

C
S

E

Stała Tafta i jej analogi znajduje zastosowanie jedynie w 
przypadku serii związków będących prostymi, podstawionymi 
w tym samym miejscu, pochodnymi tej samej sztywnej 
struktury bazowej. Nie nadają się zupełnie do opisu bardziej 
zróżnicowanych serii związków lub pochodnych o pewnej 
swobodzie konformacyjnej. Dlatego opracowano całą gammę 
parametrów opisujących wielkość i ogólny kształt cząsteczki: 

  V - objętość molową 

  r

V

 - promień Van der Waalsa podstawnika 

* V

V

 - objętość cząsteczki z uwzględnieniem promieni 

Van der Waalsa 

  D

ij

 - odległość pomiędzy wybranymi atomami i i j 

 

parametry STERIMOL - grupa 5 parametrów 
opisujących kształt cząsteczek. Parametry te nadają się 
szczególnie dla sztywnych cząsteczek 

 parametry Kiera: molecular connectivity 

χ i molekularne 

indeksy kształtu 

κ - na bazie grafu reprezentującego 

pozbawiony atomów wodoru szkielet cząsteczki można 
otrzymać szereg parametrów opisujących topologię 
cząsteczki 

Dla poprawnego wyznaczenia wartości parametrów tego typu, 
za wyjątkiem parametrów Kiera, potrzebna jest znajomość 
rzeczywistego kształtu cząsteczek. Bardzo często 
wykorzystuje się w tym celu metody modelowania 
molekularnego w tym również półempiryczne metody chemii 
kwantowej. Innym źródłem informacji o kształcie cząsteczki 
mogą być struktury otrzymane metodami analizy dyfrakcyjnej 
monokryształów. 
 Ponieważ kształt cząsteczki ma wiele aspektów i nie 
wydaje się możliwe pełne jego określenie przy pomocy 
pojedynczej wielkości liczbowej zaproponowano jego opis 
przy pomocy rodziny parametrów z których każdy opisuje 
inny jego aspekt. założeniu to legło u podstaw parametrów 
typu STERIMOL oraz indeksów Kiera. 

Parametry STERIMOL. 

Bardzo prostym, ale skutecznym opisem kształtu sztywnych 
cząsteczek są tzw. parametry STERIMOL. Opisują one 5 
maksymalnych wymiarów cząsteczki. Przed przystąpieniem 
do ich wyznaczania należy przyjąć określoną orientację 
każdej z cząsteczek. Zwykle w tym celu wybiera się jeden z 
atomów każdej z cząsteczek stanowiących badaną serię jako 
tzw. atom bazowy i lokuje się go w początku układu 
współrzędnych. Z kolei definiuje się dwa wiązania w których 
ten atom uczestniczy i określa się ich orientację w stosunku 
do układu współrzędnych.  

C *

N

R N H

N O

2

 

Prześledźmy to podejście na przykładzie pochodnych 
1-nitro-9-aminoakrydyny. Jako atom bazowy wybierzmy 
węgiel w pozycji 9 (na rysunku powyżej oznaczony 
gwiazdką). Przyjmijmy ponadto, że:  

 

12 

background image

Część IV: Klasyczne metody QSAR 

 - 

wiązanie C9-N9 pokrywa się z osią Ox 

 - 

układ pierścieni znajduje się w płaszczyźnie Oxy 

 - 

pierścień z grupą nitrową leży z zakresie  

  dodatnich 

współrzędnych y 

Dla tak zorientowanej cząsteczki określa się teraz 5 
charakterystycznych wymiarów: 

- długość W, czyli maksymalny rozmiar wzdłuż osi Ox 
- wysokość U, czyli maksymalny wymiar na dodatniej 
 części osi Oy 
- głębokość D, czyli maksymalny wymiar na ujemnej 
 części osi Oy 
- szerokość w lewo L, czyli maksymalny wymiar ujemny 
 

na osi Oz 

- szerokość w prawo R, czyli maksymalny wymiar 
dodatni  

na osi Oz. 

Rys.8.3. przedstawia powyższe parametry dla cząsteczki 
1-nitro-9-metyloaminoakrydyny. 
 

W

L

R

U

D

Rys.8.3: Sposób definiowania parametrów STERIMOL na 
przykładzie pochodnej 1-nitro-9-metyloaminoakrydyny. Kolorem 
fioletowym zaznaczono atomy wykorzystywane przy orientacji 
cząsteczki. 
 

Parametry Kiera. 

 

Innym bardzo popularnym podejściem do opisu 

kształtu cząsteczek jest zastosowanie teorii grafów. W 
odróżnieniu od parametrów STERIMOL nie jest przy tym 
potrzebna znajomość rzeczywistego, trójwymiarowego 
kształtu cząsteczki: wystarcza wzór strukturalny. W ujęciu 
tym wzór cząsteczki traktowany jest jako graf: zespół węzłów 
połączonych wiązadłami. Do najpopularniejszych parametrów 
tego typu należą zaproponowane przez Kiera i Halla indeksy 

χ

  (molecular connectivity) oraz zaproponowane przez Kiera 

molekularne indeksy kształtu 

κ

. Parametry te opisują w 

formie rodziny indeksów różne aspekty kształtu podstawnika 
lub całej cząsteczki bazując na wzorze strukturalnym 
pozbawionym atomów wodoru. 
 Rodzinę indeksów 

,  gdzie  m = 0, 1, 2 i 3, 

obliczyć można przypisując każdemu węzłowi grafu (atomowi 
niewodorowemu) wielkość 

 określającą liczbę innych 

węzłów bezpośrednio z nim związanych. Poszczególne 
indeksy  molecular connectivity obliczamy w/g poniższych 
wzorów, przy czym: 

χ

m

i

δ

 - 

indeks 

0

 jest sumą udziałów poszczególnych 

atomów 

χ

[7.1.]  

δ

=

χ

i

i

0

1

 

 - 

indeks 

1

 jest sumą udziałów 

χ

r wiązań 

[7.2.]  

( )

δ

δ

=

χ

r

r

j

i

1

1

 

 - 

indeks 

2

 jest sumą udziałów 

χ

s trójek atomów 

[7.3.]  

(

)

δ

δ

δ

=

χ

s

s

k

j

i

2

1

 

 - 

istnieją dwa indeksy 

3

 dla liniowego 

ułożenia czwórki atomów i 

3

 dla ułożenia gwiaździstego 

χ

P

3

χ

C

χ

[7.4a.]  

(

)

δ

δ

δ

δ

=

χ

t

t

l

k

j

i

P

3

1

 

[7.4b.]  

(

)

δ

δ

δ

δ

=

χ

u

u

l

k

j

i

C

3

1

 

Obliczenia indeksów molecular connectivity dla 5 izomerów 
heksamu przedstawia poniższy przykład. 

 

Przykład 8.5. Indeksy molecular connectivity dla 
izomerów heksanu. 

 

Rozpocznijmy od wypisania struktur i wartości 

 dla 

wszystkich 5 izomerów heksanu: 

i

δ

 

 

 

1

1

2

2

2

2

 

heksan 

1

1

1

3

2

2

 

2-metylopentan 

1

1

1

2

2

3

 

3-metylopentan 

1

1

1

1

3

3

 

2,3-dimetylobutan 

1

1

1

1

4

2

 

2,2-dimetylobutan 

 
Teraz dla każdego z nich obliczmy indeksy Kiera. 
 

 

13 

background image

Część IV: Klasyczne metody QSAR 

 Heksan. 

828

,

4

2

1

4

1

1

2

0

+

=

χ

 

914

,

2

2

2

1

3

2

1

1

2

1

+

=

χ

 

707

,

1

8

1

2

4

1

2

2

+

=

χ

 

957

,

0

16

1

8

1

2

P

3

+

=

χ

 

0

C

3

=

χ

 

 

 2-Metylopentan. 

992

,

4

3

1

2

1

2

1

1

3

0

+

+

=

χ

 

770

,

2

    

3

2

1

2

2

1

3

1

1

2

2

1

1

1

+

+

+

=

χ

 

183

,

2

12

1

6

1

2

4

1

3

1

2

+

+

+

=

χ

 

866

,

0

12

1

3

P

3

=

χ

 

408

,

0

6

1

C

3

=

χ

 

 

 3-Metylopentan. 

992

,

4

3

1

2

1

2

1

1

3

0

+

+

=

χ

 

808

,

2

    

3

2

1

2

2

1

2

3

1

1

2

1

1

2

1

+

+

+

=

χ

 

922

,

1

12

1

6

1

4

2

+

=

χ

 

394

,

1

12

1

2

6

1

2

P

3

+

=

χ

 

289

,

0

12

1

C

3

=

χ

 

 

 2,3-Dimetylobutan. 

155

,

5

3

1

2

1

1

4

0

+

=

χ

 

643

,

2

    

3

3

1

3

1

1

4

1

+

=

χ

 

488

,

2

9

1

4

3

1

2

2

+

=

χ

 

394

,

1

12

1

2

6

1

2

P

3

+

=

χ

 

289

,

0

12

1

C

3

=

χ

 

 

 2,2-Dimetylobutan. 

207

,

5

4

1

2

1

1

1

4

0

+

+

=

χ

 

561

,

2

4

2

1

4

1

1

3

2

1

1

1

+

+

=

χ

 

914

,

2

8

1

4

4

1

3

2

+

=

χ

 

061

,

1

8

1

3

P

3

=

χ

 

561

,

1

8

1

3

4

1

C

3

+

=

χ

 

 
 
 Dla 

cząsteczek lub podstawników zawierających 

atomy inne niż  węgiel można zastosować dwa podejścia. Po 
pierwsze można przyjąć,  że ogólny kształt cząsteczki nie 
zależy w istotny sposób od rodzaju atomów. Przy takim 
założeniu np. indeksy dla alkoholu t-butylowego są takie same 
jak dla 2,3-dimetylopropanu. Wykazano, że założenie to 
można bezpiecznie stosować gdy cząsteczka zawiera oprócz 
węgla atomy tlenu i azotu. W przypadku gdy w skład 
cząsteczki wchodzą atomy których wielkość wyraŸnie 
odbiega od wielkości atomów węgla (fluor, siarka, chlor i.t.p.) 
poprawniejsze jest drugie podejście. Polega ono na 
modyfikacji wartości 

 dla atomów odpowiednio do ich 

wielkości. 

i

δ

 

Molekularne indeksy kształtu 

 bazują na trochę 

innych podstawach (L.B.KIER, Quat.Struct.-Act.Relat. 4,109-

116(1985); L.B.KIER, Quant.Struct.-Act.Relat.  5,1-7(1986); 
L.B.KIER,  Quat.Struct.-Act.Relat.  6,8-12(1987)). W/g Kiera 
są one miarą informacji niesionej przez fragmenty struktury o 
długości 

κ

m

m atomów. 

Indeks rzędu 0 dotyczy informacji zawartej w poszczególnych 
atomach i obliczany jest w/g wzoru: 
[7.5.]  

 

A

i

0

=

κ

gdzie: 

A - liczba niewodorowych atomów cząsteczki 

 

i - zawartość informatyczna obliczana zgodnie z 

równaniem Shannona jako 

( )

=

k

k

k

p

log

p

i

 gdzie 

sumowanie biegnie po wszystkich k rodzajach rozróżnialnych 
atomów, a pk jest prawdopodobieństwem znalezienia atomu 

danego rodzaju. 
Indeks rzędu 1 dotyczy wiązań i obliczany jest ze wzoru: 

 

14 

background image

Część IV: Klasyczne metody QSAR 

[7.6.]  

(

)

( )

2

1

2

1

P

1

A

A

=

κ

 

gdzie: 

 jest liczbą wiązań w cząsteczce pozbawionej 

atomów wodoru. 

P

1

Indeks rzędu 2 dotyczy trójek bezpośrednio z sobą 
związanych atomów i obliczany jest ze wzoru: 
[7.7.]  

(

)(

)

( )

2

2

2

2

P

2

A

1

A

=

κ

 

gdzie: 

 jest liczbą trójek atomów. 

P

2

Indeks rzędu 3 dotyczy czwórek związanych z sobą atomów i 
obliczany jest w/g jednego z poniższych wzorów: 

[7.8.] 

(

)(

)

( )

(

)(

)

( )



=

κ

A

 

parzystego

dla 

   

P

2

A

3

A

A

 

ego

nieparzyst

dla 

   

P

3

A

1

A

2

3

2

2

3

2

3

 

Poniższy przykład zawiera wyniki obliczeń molekularnych 
indeksów kształtu dla izomerów heksanu. 

 

Przykład 8.6. Molekularne indeksy kształtu dla 
izomerów heksanu 
 

 

 

1

1

2

2

2

2

 

heksan 

1

1

1

3

2

2

 

2-metylopentan 

1

1

1

2

2

3

 

3-metylopentan 

1

1

1

1

3

3

 

2,3-dimetylobutan 

1

1

1

1

4

2

 

2,2-dimetylobutan 

 

Rozpocznijmy od wyznaczenia zawartości informacji 

i

 dla wszystkich 5 izomerów heksanu: 

heksan:  

 

( )

( )

( )

( )

4771

,

0

6

2

log

6

2

3

6

2

log

6

2

6

2

log

6

2

6

2

log

6

2

i

=

+

+

=

 

2-metylopentan:  

( )

( )

6778

,

0

6

1

log

6

1

4

6

2

log

6

2

i

+

=

 

3-metylopentan;  

( )

( )

5775

,

0

6

1

log

6

1

2

6

2

log

6

2

2

i

+

=

 

2,3-dimetylobutan:  

( )

( )

2764

,

0

6

2

log

6

2

6

4

log

6

4

i

+

=

 

2,2-dimetylobutan:  

( )

( )

5396

,

0

6

1

log

6

1

3

6

3

log

6

3

i

+

=

 

Należy jeszcze ustalić liczbę par, trójek i czwórek atomów. Jest to bardzo podobne do postępowania omówionego w Przykł.7-V. 
Możemy teraz obliczyć wartości poszczególnych indeksów: 

 

1

1

2

2

2

2

 

heksan 

1

1

1

3

2

2

 

2-metylopentan 

1

1

1

2

2

3

 

3-metylopentan 

1

1

1

1

3

3

 

2,3-dimetylobutan 

1

1

1

1

4

2

 

2,2-dimetylobutan 

i = 0,4771 

=

κ

0

 2,863 

= 0,6778 
= 4,067 

= 0,5775 
= 3,465 

= 0,2764 
= 1,659 

= 0,5396 
= 3,238 

P

1

 = 5 

1

κ =

 6 

 = 5 
 = 6 

 = 5 
 = 6 

 = 5 
 = 6 

 = 5 
 = 6 

P

2

 = 4 

=

κ

2

 2,813 

= 5 
 = 1,800 

 = 5 
 = 1,800 

 = 6 
 = 1,250 

 = 7 
 = 0,918 

P

3

 = 3 

=

κ

3

 5,333 

 = 3 
 = 5,333 

 = 4 
= 3 

 = 4 
= 3 

 = 3 
= 5,333 

 
Cechą charakterystyczną molekularnych indeksów kształtu, 
odróżniającą je korzystnie od indeksów molecular 
connectivity
, jest możliwość przypisania każdemu z nich 
interpretacji geometrycznej. I tak: 

κ

0

 - wskaźnik symetrii. Jego wartość spada ze wzrostem 

symetrii cząsteczki. 

κ

1

 - wskaźnik wielkości. Wszystkie niecykliczne 

cząsteczki o tej samej liczbie atomów niewodorowych 
mają taką samą wartość 

1

 równą liczbie atomów A. 

Tym samym jest to miara "wielkości" cząsteczki. 
Obecność w cząsteczce fragmentów cyklicznych 
obniża wartość indeksu i to tym bardziej im więcej 
jest pierścieni. 

κ

κ

2

 - wskaźnik linearności. Wartości tego indeksu zależą od 

stopnia rozgałęzienia cząsteczki i jej sferyczności. 
Przyjmuje największe wartości dla struktur liniowych, 
nierozgałęzionych. 

κ

3

 - wskaźnik centralności rozgałęzienia. Wartości tego 

indeksu kodują obecność i lokalizację rozgałęzienia w 
strukturze niecyklicznej. 

8.2.4. Parametry zero-jedynkowe. 

 Nie 

wszystkie 

elementy budowy chemicznej serii 

związków daje się  łatwo ująć w formę parametrów 
lipofilowych, elektronowych lub sterycznych. Dotyczy to w 
szczególności sytuacji gdy w obrębie analizowanej serii 
znajduje się podgrupa związków wyróżniająca się jakimś 
elementem struktury. Można wtedy wprowadzić dodatkowy 
parametr przyjmujący wartość 1 gdy element ten jest w 
strukturze obecny i 0 przy jego braku. Podejście takie jest w 
istocie połączeniem metody Hanscha z koncepcją 
Free-Wilsona. Zastosowanie jednego lub więcej parametrów 
tego typu pozwala zastosować do opisu cząsteczki typowe 
parametry lipofilowe, elektronowe i steryczne bez 
konieczności poszukiwania specyficznych parametrów 
dostarczających adekwatnego opisu różnych podgrup 
występujących w naszej serii związków. 

8.2.5. Interpretacja modelu Hanscha. 

 

Uzyskanie adekwatnego opisu zależności 

struktura - aktywność przy pomocy równania Hanscha niesie 

 

15 

background image

Część IV: Klasyczne metody QSAR 

z sobą dwojakiego rodzaju korzyści: prognostyczne i 
poznawcze. 
 

Po pierwsze umożliwia ono przewidzenie kierunku 

poszukiwań nowych pochodnych o korzystniejszych 
właściwościach biologicznych i farmakologicznych. Jest to 
dotychczas główny cel stosowania tej metody: uzyskanie 
informacji prognostycznych. Do tej samej grupy informacji 
należy również uzyskanie podstaw dla przerwania dalszych 
poszukiwań gdy z analizy równania wynika, że nie ma 
realnych szans na uzyskanie pochodnych o istotnie lepszych 
cechach biologicznych. Warto wtedy czasami poszukać 
podstawników o podobnych właściwościach fizyko-
chemicznych determinujących aktywność, ale jednocześnie 
zmieniających cechy niekorzystne np. brak rozpuszczalności, 
nietrwałość chemiczną lub też łatwiejszych w syntezie: tańsze 
substraty, obejście zastrzeżeń patentowych. 
 

Z drugiej strony, ponieważ w równaniu Hanscha 

występują parametry mające określony sens fizyczny jest 
możliwe uzyskanie tą drogą pośrednich informacji o 
mechanizmie działania badanej grupy związków biologicznie 

czynnych. Występowanie lub brak w uzyskanym modelu 
określonych członów sugeruje istotność takich a nie innych 
oddziaływań dla aktywności biologicznej w testowanym 
układzie. Poniżej zestawiono typową interpretację roli 
poszczególnych członów i parametrów w równaniu Hanscha. 
 Obecność w równaniu członu opisującego 
w ł a ś c i w o ś c i   l i p o f i l o w e   (logP, 

π lub RM) 

oznacza, że w układzie istotny jest transport związku lub jego 
wiązanie z elementami surowicy. Występowanie członu 
kwadratowego pozwala wyznaczyć optymalne właściwości 
lipofilowe. Brak tego członu wskazuję,  że znajdujemy się z 
dala od optimum (można się spodziewać poprawy 
aktywności), a znak współczynnika dostarcza informacji o 
kierunku zmian. 
 Istotność  p a r a m e t r u   e l e k t r o n o -
w e g o  typu stałej Hammetta wskazuje na istotność efektów 
elektronowych. W zależności od tego jaki konkretny rodzaj 
stałej okaże się istotny mamy podstawy do snucia hipotez o 
mechanizmie oddziaływania z receptorem: 

 
Stała Sugestie 

σm lub σp 

Istotna rola zmian gęstości elektronowej w pierścieniu aromatycznym. Przypuszczalnie 
istotną rolę odgrywa zmiana jonizacji cząsteczki i/lub oddziaływania ładunek-ładunek lub 
ładunek-dipol. 

σ- 

Istotna rola oddziaływań z wolnymi parami elektronowymi 

σ+ 

Istotna rola oddziaływań nukleofilowych 

HOMO Cząsteczka ulega jonizacji (oddaje elektron lub przyjmuje proton) 
LUMO Cząsteczka przyjmuje elektron lub parę elektronów 
 
 
 Obecność w równaniu Hanscha  p a r a m e t r u  
e l e k t r o n o w e g o   opisującego rozkład elektronów w 
cząsteczce wskazuje na znaczenie różnego rodzaju 
oddziaływań pomiędzy polami elektrycznymi targetu i 
związku biologicznie czynnego. Występowanie w równaniu 
refrakcji molowej RM lub polaryzowalności 

α sugeruje, że 

pomiędzy lekiem i targetem dochodzi do indukowanych 
interakcji dipol-dipol. Jeśli istotny dla aktywności 
biologicznej jest moment dipolowy 

µ to prawdopodobnie 

mamy do czynienia z interakcją typu dipol-ładunek, a jeśli 
kwadrat momentu dipolowego to interakcja typu dipol-dipol 
indukowany. 

8.2.6. Przykłady zastosowań. 

 Poniżej przedstawiono trzy przykłady zastosowania 
metody Hanscha do poszukiwania zależności 
struktura - aktywność dla różnych grup związków. 

Przykład 8.7: Estry i amidy edeiny A 

(J. Mazerski, B. 

Woynarowska & E. Borowski, Proceedings of the XVth 
European Peptide Symposium, Gdańsk 1978, str.373-375)

  

N H

N H

N H

O

O

O

H

C H

2

H O

N H

3

H

H

H

C O O

N H

3

H

N H

O

N H

N H

2

O

N H

3

H O

H

N H

3

H O

Edeina A

+

+

+

+

+

-

 

 Edeina 

należy do grupy antybiotyków peptydowych 

produkowanych przez bakterię  Bacillus brevis. Antybiotyki tej 
grupy charakteryzują się szerokim spektrum 
przeciwbakteryjnym i przeciwgrzybowym. Wykazują również 
aktywność immunosupresyjną i cytotoksyczną. Niestety 
charakteryzują się również bardzo wysoką toksycznością w 
stosunku do organizmów wyższych. Celem omawianych tu 

badań było określenie ilościowych zależności pomiędzy 
właściwościami estrów i amidów edeiny A, a ich aktywnością w 
stosunku do modelowych komórek pro- i eukariotycznych. 
Zaplanowano otrzymanie 10 pochodnych tego antybiotyku na 
grupie karboksylowej (patrz wzór powyżej): 
- 4 estrów alkilowych: metylowego, etylowego, butylowego i 
 amylowego 
- 3 amidów alifatycznych: etylowego, butylowego i heksylowego 
- 3 amidów z dodatkową grupą aminową: 2-N,N-dimetylo-
 

aminoetylowego, 4-aminobutylowego i 5-N,N-dime

 tyloaminoamylowego 
Łącznie z edeiną oraz produktem wewnątrzcząsteczkowej 
cyklizacji tworzy to serię 12 związków. Dla całej serii oznaczono 
aktywność biologiczną w 3 testach mikrobiologicznych: 
 - 

drożdze S.cerevisiae 

 

- bakterie Gram+ B.subtilis 

 

- bakterie Gram- E.coli 

Jako miarę aktywności przyjęto pIC50. 

 

Właściwości fizykochemiczne opisano przy pomocy: 

2 parametrów lipofilowych 
 * 

RM w układzie n-butanol/pirydyna/kwas  

   octowy/woda 

6/2/3/5 

na 

celulozie 
 * 

π z tablic 

2 parametrów sterycznych 
 

* refrakcja molowa MR 

 

* molecular connectivity w/g Kiera 

∆χ 

5 parametrów binarnych opisujących: 
 

* typ pochodnej (ester 1, amid 0) 

IE 

 

* typ pochodnej (ester 0, amid 1) 

I  

A

 * 

obecność atomy azotu w podstawniku  D  

N

 * 

wypadkowy 

ładunek cząsteczki q 

 * 

ilość grup aminowych w cząsteczce n 

Nie użyto parametrów elektronowych, gdyż przy zastosowanych 
typach pochodnych nie mają one istotnego znaczenia. 
 Ponieważ nie należy używać w jednym równaniu 
dwóch lub więcej parametrów tego samego typu w pierwszym 
etapie analizy zastosowano pary równań zawierające RM i 

refrakcję molową MR lub indeks Kiera. W każdym z równań 
stosowano wszystkie parametry binarne. Przy ustalaniu równań 
modelu zastosowano metodę odrzucania uzyskując dla 
poszczególnych drobnoustrojów następujące pary równań: 

 

16 

background image

Część IV: Metody QSAR 

S.cerevisiae 
(1) pIC50 = -2,2 RM - 0,038 MR + 0,50q - 2,69 
  R 

0,913 

(2) pIC50 = -1,4 RM - 0,044(∆χ)

2 - 0,91 

 

  R 

0,848 

B.subtilis 
(3) pIC50 = -1,3 RM - 1,73 

 

 

  R 

0,746 

(4) pIC50 = -1,0 RM - 0,17(∆χ)

2 +  0,5(∆χ)- 1,85 

  R 

0,928 

E.coli 
(5) pIC50 = -1,1 RM + 0,20q - 2,52 

 

  R 

0,901 

(6) pIC50 = -2,8(RM)

2-2,6R

M - 0,40(∆χ) +1,4DN - 1,61

   R 

0,981 

Uzyskane zależności wskazują,  że we wszystkich testach 
aktywności istotny jest wpływ właściwości lipofilowych. 
Jednakże zastosowany parametr empiryczny nie pozwala 
przewidzieć właściwości związków na etapie ich projektowania. 
Dlatego też w II etapie zastosowano wyłącznie parametry 
tablicowe lub obliczane i uzyskano zależności: 
S.cerevisiae 
(7) pIC50 = 0,33π - 0,10(∆χ)

2 + 0,28q - 1,64  

  R 

0,903 

B.subtilis 
(8) pIC50 = 0,44π -0,12(∆χ)

2 + 0,58n - 3,72  

  R 

0,948 

E.coli 
(9) pIC50 = 0,50π -0,11(∆χ)

2 +0,99D

N - 0,79 

   R 

0,956 

Uzyskane równania wskazują,  że model zależności powinien 
zawierać parametr lipofilowy, steryczny oraz wskaźnik stopnia 
jonizacji cząsteczki (q, n lub DN; poza edeiną i cykloedeiną 

parametry te są identyczne). Zastanawiające jest podobieństwo 
uzyskanych równań. Jedynie wpływ stopnia jonizacji jest dla 
każdego testu istotnie różny. 
Poszukując pochodnej o najwyższej aktywności widzimy że: 

i) właściwości lipofilowe: korzystny jest wzrost 

lipofilowości i to znaczny (brak istotności członu kwadratowego) 

ii) właściwości steryczne: korzystny możliwie mały 

podstawnik 

iii) stopień jonizacji: im większy tym lepiej. 

Charakterystyczne są sprzeczne przesłanki wynikające z tych 
postulatów: wzrost lipofilowości i wzrost stopnia jonizacji, wzrost 
lipofilowości i zmniejszenie podstawnika. W efekcie wydaje się, 
że te sprzeczne wymagania najlepiej spełniają ester i amid 
butylowy. 
============================================== 
 

Przykład 8.8:  pochodne Ledakrinu (Zofia Mazerska - 
doktorat). 

N

N O

2

(C H

2

)

3

N

R

1

R

2

N

H

 

 

Analizie poddano serię 10 mono- i dialkilo 

pochodnych 1-nitro-9-aminopropyloaminoakrydyny o 
właściwościach przeciwnowotworowych. Jako miarę aktywności 
przeciwnowotworowej przyjęto pED50 - ujemny logarytm z 

dawki obniżającej o 50% ciężar guza w mysim mięsaku Sa-180. 
Jako parametry fizykochemiczne przyjęto: 
 

* parametr lipofilowy Hanscha 

π 

 

* 4 różne tablicowe parametry steryczne. 

W I etapie analizowano 4 różne równania Hanscha (po jednym 
dla każdego parametru sterycznego). Ze wszystkich po 
zastosowaniu metody odrzucania otrzymano ten sam model: 
 pED50 = -0,074π

2 + 2,57 

 

R = 0,848 

Model ten był adekwatny. Tym samym wykazano, że efekty 
steryczne wokół terminalnego atomu azotu nie mają istotnego 
wpływu na aktywność przeciwnowotworową (przynajmniej w 
tym teście). 

-5.0

0.0

5.0

0.0

2.0

4.0

 

 Analizując zakres 

π jaki obejmują badane związki 

zauważono ważny fakt: wszystkie wartości 

π były dodatnie i 

leżały w przedziałe od 0 do 3. W tej sytuacji nie dziwi wysoka 
korelacja pomiędzy zmiennymi 

π i π2  (r = 0,979).  Nasuwało to 

wątpliwości co do prawidłowego wyboru przez metodę 
odrzucania kwadratu parametru lipofilowego, a nie samego 
parametru, w trakcie usuwania nieistotnych parametrów. Po 
świadomym usunięciu 

π2 z danych początkowych uzyskano 

równanie: 
 pED50 = -0,24π + 2,73 

 

 

 

R = 0,834 

I to równanie również było adekwatnym modelem zależności. 
Jakość obu modeli jest praktycznie jednakowa i z punktu 
widzenia statystyki są one równocenne. Jednakże wnioski z 
nich płynące są diametralnie odmienne (patrz wykres obok). 
Model kwadratowy sugeruje, że maksimum aktywności jest już 
osiągnięte dla 

π=0 (pEDmax = pED50(0) = 2,57 wobec 

pED(n-Pro)=2,61, pED(di-Me)=2,53, pED(Et)=2,56). Model 
liniowy zapowiada wzrost aktywności dla związków o ujemnym 
π, np. pED(π=-1)=2,97, a pED(π=-2)=3,21. W tej sytuacji 
rozróżnienie pomiędzy obu modelami było sprawą kluczową dla 
dalszego poszukiwania nowych związków z tej grupy.  
Zaprojektowano więc i wykonano syntezę 4 nowych 
pochodnych: 3 o ujemnym 

π: 

 -CH2-CH2-OH o π = -0,16 
 -CH(CH3)(CH2-OH)2 o π = -0,65 
 -C(CH2-OH)3 o π = -1,81 
oraz pochodną n-heksylową o 

π = 3,0 dla poszerzenia zakresu 

zmienności. 
 

W trakcie badań biologicznych żadna z pochodnych 

nie była aktywniejsza niż związki wcześniej zsyntetyzowane. 
Ponownie wyznaczono współczynniki równania Hanscha dla 4 
zestawów parametrów i ponownie otrzymano z każdego 
zestawu takie same równanie: 
 pED50 = -0,90π

2 + 0,083π + 2,47 

 

R = 0,887  

n = 14 

s = 0,11 

Równanie to opisuje paraboliczną zależność aktywności 
przeciwnowotworowej od właściwości lipofilowych z maksimum 
aktywności pEDmax = 2,47 przypadającym dla π~0,5. Tak więc 

widać teraz, że bliższy prawdy był poprzednio model 
kwadratowy. 
Z uzyskanej zależności widać też wyraźnie, że nie należy się w 
tej grupie pochodnych spodziewać związków o aktywności dużo 
wyższej niż ok. 

2,5, a ewentualne dalsze poszukiwania 

pochodnych o lepszych właściwościach farmakologicznych( 
mniejsza toksyczność, lepsza rozpuszczalność w wodzie) 
dotyczyć powinny związków o 

π ~ 0,5. 

 

17 

background image

Część IV: Metody QSAR 

 

-5.0

0.0

5.0

0.0

2.0

4.0

 

 

============================================== 

Przykład 8.9: Długołańcuchowe fenole o właściwościach 
cytotoksycznych (H.Itokawa, N.Totsuka et al., 
Chem.Pharm.Bull. 37,1619-1621(1989)). 

C

15

H

2 9

(C O O H )

O H

(O H )

 

 Autorzy 

badając wyciąg z krzewu jarząbu 

japońskiego (Ginkgo biloba L.) stwierdzili cytotoksyczność tych 
wyciągów. Dalsze badania wykazały,  że za aktywność 
biologiczną odpowiedzialne są fenole zawierające 15 węglowy 
łańcuch alifatyczny (patrz struktura po prawej). 

R

1

R

2

R

3

R

4

R

5

 

 Chcąc określić rolę poszczególnych elementów 
struktury zsyntetyzowano 29 związków o wzorze ogólnym 
zamieszczonym obok (po lewej). W pozycji R1 użyto 5 różnych 

łańcuchów alifatycznych od C7 do C15, a w pozycjach od R2 do 

R5 występowały grupy fenolowe lub atomy wodoru. 

 Jako 

miarę aktywności biologicznej przyjęto pED50 w 

hodowli komórkowej na linii komórek nowotworowych chomika 
syryjskiego. 
 

Jako parametry fizykochemiczne przyjęto: i) logP w 

układzie n-oktanol/woda; ii) EHOMO - energię najwyższego 

obsadzonego orbitalu molekularnego; iii) 

ELUMO energię 

najniższego nieobsadzonego orbitalu molekularnego. Energie 
LUMO i HOMO mają swoje przybliżone interpretacje 
chemiczne. Energia LUMO opisuje względne właściwości 
elektronoakceptorowe (podatność na redukcję), a energia 
HOMO właściwości elektronodonorowe (podatność na 
utlenianie, łatwość protonowania). 
Nie stosowano stałych Hammetta, gdyż nie są to parametry 
addytywne i nie nadają się do stosowania w przypadku 
pochodnych podstawionych jednocześnie w wielu miejscach. 
Po zastosowaniu metody Hanscha uzyskano zależność: 
pED50 = -0,016(logP)

2 + 0,28logP - 4,1E

LUMO + 1,1EHOMO 

 

 + 10,58 

 

R = 0,905 n = 29 

 

s = 0,18 

Aktywność cytotoksyczna badanych fenoli zależy głównie od 
lipofilowości (optymalny logP = 8,3) i poziomu energetycznego 
LUMO. Wpływ energii HOMO jest dużo mniej istotny. Związek o 
w okiej aktywności powinien więc charakteryzować się: 

ys

logP ~ 8, co odpowiada łańcuchowi C13 

 

 niską (możliwie ujemną) energią LUMO 

 wysoką (jak najmniej ujemną) energią HOMO. 

Dwa ostatnie wymogi są przeciwstawne, lecz wpływ LUMO jest 
ok. 4 razy silniejszy i on decyduje. Obliczono wartości energii 
LUMO i HOMO dla różnych kombinacji grup hydroksylowych w 
pozycjach od R2 do R5 i okazało się,  że najkorzystniejszymi 

wartościami tych energii charakteryzują się związki zawierające 
2 grupy hydroksylowe w pozycjach R3 i R4. Związek o takiej 

strukturze części aromatycznej i łańcuchu C13 wykazał 

znaczącą aktywność przeciwnowotworową w dwóch testach na 
mysich nowotworach przeszczepialnych. 
========================================= 

8.3. Inne metody regresyjne. 

 Duża popularność metody Hanscha (był okres w 
latach '70, gdy cały QSAR utożsamiano z metodą Hanscha) 
spowodował  dążenie do jej poszerzenia na przypadki, gdy 
klasyczna metoda zawodziła. Spośród licznych propozycji, 
trwałe miejsce w QSAR znalazły 2 modyfikacje: 

  uogólniony model kwadratowy 

 zależność bilinearna Kubinyiego. 

Poniżej zostaną one pokrótce omówione. 

Uogólniony model kwadratowy. 

 

W swej pełnej postaci: 

logA = ao + a11π2 + a22σ2 + a33Es2 +a1π + a2σ + a3Es + 
 

a12πσ + a13πEs + a23σEs  

uogólniony model kwadratowy wymaga zidentyfikowania 10 
współczynników czyli może być zastosowany tylko w 
przypadku dużej serii związków (co najmniej 40

÷50). Ponadto 

brak jest jak dotychczas uzasadnienia teoretycznego i 
interpretacji sensu fizycznego członów opisujących wpływy 
mieszane (ostatnia linia wzoru). Obydwa te wady powodują, 
że w praktyce model ten bywa zwykle stosowany w wersji 
skróconej zawierającej człony liniowe i 2 lub 3 człony 
kwadratowe. 

Model bilinearny Kubinyiego 

logA

logP

 

 

W szeregu przypadkach zaobserwowano 

niesymetryczną zależność aktywności biologicznej od logP 
lub 

π. Na lewo od optimum nachylenie jest inne niż na prawo. 

Dla opisu takich przypadków Kubinyi zaproponował tzw. 
zależność bilinearną o postaci: 
 

logA = a

×logP - b×log(β×P + 1) + c 

Przykład krzywej bilinearnej pokazano na wykresie obok. Dla 
logP<<logPmax zależność dąży asymptotycznie do prostej o 

równaniu: 
 

logA = a

×logP + c 

a dla logP >> logPmax dąży do prostej o równaniu: 

 

logA = (a-b)

×logP + c - b×logβ 

 Podstawową niedogodnością modelu bilinearnego 
jest konieczność nieregresyjnego, iteracyjnego wyznaczania 
wartości współczynników. Typowe pakiety oprogramowania 
statystycznego nie pozwalają na pokonanie tego problemu. 
Dlatego też model bilinearny stosowany bywa jedynie 
sporadycznie i tylko w przypadku wyraźnej asymetrii 

 

18 

background image

Część IV: Metody QSAR 

zależności aktywności biologicznej od właściwości 
lipofilowych. 
 

9. Nieregresyjne metody optymalizacji 
struktury 

 

W latach '70, po wykazaniu słuszności założeń 

metody Hanscha, jedną z przeszkód w jej szerokim 
stosowaniu okazała się bariera statystyczno-obliczeniowa. 
Rozwiązanie równania Hanscha wymaga pewnego nakładu 
pracy obliczeniowej, zwłaszcza gdy należy powtórzyć 
kilkakrotnie obliczenia dla różnych zestawów parametrów lub 
gdy odrzucamy człony nieistotne. Wykonanie takich obliczeń 
ręcznie, nawet z zastosowaniem kalkulatora (a był to na 
początku lat '70 jeszcze dosyć drogi i rzadki przyrząd), 
wymaga kilku godzin żmudnych obliczeń. Dostęp do 
komputerów był wtedy bardzo ograniczony. Ponadto 
większość chemików, biologów i farmakologów nie posiadało 
dostatecznej znajomości podstaw statystyki, aby z lawiny 
równań produkowanych przez komputer wybrać prawidłowo 
to najlepsze. Poniższy przykład ilustruje ten problem. 

 

Przykład 9.1: Liczba uproszczonych równań 
otrzymywanych z równania Hanscha. 

 Klasyczne, 

pełne równanie Hanscha: 

 

logA = ao + a1π

2 + a

2π + a3σ + a4Es 

zawiera 4 człony. Przy rozpatrywaniu uproszczonych wersji 
tego równania mamy: 

♦  4 równania z jedną zmienną 

♦ 6 równań z dwiema zmiennymi 

♦  4 równania z trzema zmiennymi 

♦  1 równanie z czterema zmiennymi (pełne) 

W sumie 15 równań. Dla każdego z tych równań należy 
obliczyć współczynniki i charakterystyki statystyczne, a 
następnie dokonać wyboru rónania lub równań najlepszych. 
============================================== 
 

 Pojawiły się więc próby opracowania metod 
projektowania nowych pochodnych bazujące na wiedzy o 
wpływie właściwości fizykochemicznych na aktywność 
biologiczną, ale bez korzystania z równań regresji. Szeroką 
swego czasu popularność zdobyły dwie z nich: 
 metoda 

Darvasa 

 

schematy operacyjne Toplissa 

W chwili obecnej, gdy właściwie każdy badacz ma lub może 
mieć dostęp do komputera osobistego, a rozwój 
oprogramowania przeznaczonego do opracowywania danych 
doprowadził do sytuacji gdy wyznaczanie współczynników 
równań regresji jest sprawą trywialną, metody nieregresyjnej 
optymalizacji struktury utraciły swoje znaczenie. Pomimo to 
warto się zapoznać, choćby pobieżnie, z założeniami tych 
metod. 

9.1. Metoda Darvasa. 

 Pomysł opiera się na założeniu,  że aktywność 
biologiczna daje się opisać jako ciągła funkcja   d w ó c h  
parametrów fizykochemicznych: 

 

π

 i 

σ dla pochodnych aromatycznych 

 

π

 i Es dla związków alifatycznych. 

Postać matematyczna tej funkcji nie jest nam znana i nie 
dążymy do jej poznania. Naszym celem jest znalezienie 
maksimum tej funkcji (aktywności) dzięki jej "próbkowaniu" 
poprzez syntezę i oznaczanie aktywności odpowiednio 
dobranych pochodnych. Z algorytmicznego punktu widzenia 
metoda Darvasa opiera się na metodzie simpleksów. 
 

W pierwszym etapie należy określić zestaw 

podstawników które można wprowadzić do struktury bazowej 
bez nadmiernych problemów syntetycznych. Dla tak 
dobranego zestawu pochodnych, w oparciu o tablicowe 

wartości parametrów wykonujemy "mapę" - planszę metody- 
w układzie 

π-σ (dla aromatycznej struktury bazowej) lub π-Es 

(dla alifatycznej struktury bazowej).  
 

Wybieramy teraz trzy pochodne tworzące w pobliżu 

środka mapy możliwie równoramienny trójkąt. Wybrane 
związki syntetyzujemy i oznaczamy ich aktywność 
biologiczną. Rozpoczynamy teraz poszukiwanie maksimum 
aktywności biologicznej uproszczoną metodą sympleksów 
(patrz przykład poniżej). Z wierzchołka trójkąta 
odpowiadającego pochodnej o najniższej aktywności 
prowadzimy  środkową przeciwległego boku i w obszarze 
mapy przez który przechodzi ta prosta poszukujemy punktu 
tworzącego nowy, możliwie równoramienny trójkąt. Po 
wybraniu nowego wierzchołka syntetyzujemy odpowiadający 
mu związek i oznaczamy jego aktywność biologiczną. 
Powstał w ten sposób nowy simpleks z którym postępujemy 
analogicznie jak z simpleksem poprzednim. 
Postępowanie przerywamy, gdy osiągneliśmy już maksimum 
aktywności lub wyczerpały się możliwe do otrzymania 
pochodne w kierunku oczekiwanego maksimum. 

 

Przykład 9.2: Metoda Darvasa. 

 Tworzymy 

mapę przedstawiającą    właściwości 

lipofilowe (

π) i elektronowe (σ) wybranych pochodnych 

aromatycznych podstawionych w pozycjach 3- i 4-pierścienia 
fenylowego. 

4NH

2

4NHMe

4OMe

H

3Me

4Me

4COMe

4Cl

4Br

3Cl

3CF

3

4CN

3NO

2

4NO

2

3NO

2

;4Cl

3NO

2

;4CF

3

4CF

3

3Cl;4Cl

π

σ

 

W pierwszym etapie zaplanowano syntezę trzech związków: 
 - 

związku niepodstawionego (logA = 0,155) 

 

- 4 -COCH3 

(logA = 0,462) 

 

- 4 -Cl 

 

(logA = 0,301). 

tworzących simpleks początkowy. Związek niepodstawiony 
tworzy najgorszy wierzchołek i z niego prowadzimy środkową 
przeciwległego boku. 

4NH

2

4NHMe

4OMe

H

3Me

4Me

4COMe

4Cl

4Br

3Cl

3CF

3

4CN

3NO

2

4NO

2

3NO

2

;4Cl

3NO

2

;4CF

3

4CF

3

3Cl;4Cl

π

σ

 

Jako nowy wierzchołek wybieramy np. pochodną 4 -NO2. 

Powstaje w ten sposób drugi simpleks: 
 

- 4 -Cl 

 

(logA = 0,301) 

 

- 4 -COCH3 

(logA = 0,463) 

 

- 4 -NO2  (logA = 0,845) 

Najgorszym wierzchołkiem jest pochodna 4-chloro i z niej 
prowadzimy środkową przeciwległego boku.  

 

19 

background image

Część IV: Metody QSAR 

4NH

2

4NHMe

4OMe

H

3Me

4Me

4COMe

4Cl

4Br

3Cl

3CF

3

4CN

3NO

2

4NO

2

3NO

2

;4Cl

3NO

2

;4CF

3

4CF

3

3Cl;4Cl

π

σ

 

Jako nowy wierzchołek wybieramy np. 4-cyjano. Powstaje w ten 
sposób trzeci simpleks: 
 4-COCH3 (logA = 0,463) 

 4-NO2   

(logA = 0,845) 

 4-CN 

 (logA 

1,020). 

Środkowa wyprowadzona z wierzchołka 4-acetylo prowadzi 
jednak w obszar mapy pozbawiony możliwych do 
zsyntetyzowania pochodnych.  

4NH

2

4NHMe

4OMe

H

3Me

4Me

4COMe

4Cl

4Br

3Cl

3CF

3

4CN

3NO

2

4NO

2

3NO

2

;4Cl

3NO

2

;4CF

3

4CF

3

3Cl;4Cl

π

σ

 

W tej sytuacji jako najaktywniejszy związek uznajemy pochodną 
4-cyjano. 
============================= 
 

8.2. Schematy operacyjne Toplissa. 

 Założeniem metody jest przyjęcie tezy Hanscha, że 
aktywność biologiczna zależy od zmian właściwości 
fizykochemicznych. Topliss opracował odpowiednie 
schematy dla doboru podstawników w pierścieniu 
benzenowym oraz dla doboru podstawników w układzie 
alifatycznym (patrz poniżej). 
 

 
Schemat I:
 Schemat Toplissa doboru podstawników pierścienia benzenowego. 

L

T

G

CF ;

3

3

Cl

4

NO

2

4

CF ;

3

3

Cl

4

Cl;

3

CF 

4

3

Cl

4

Cl;

2

NO

2

4

L

T

L

T

G

G

Cl

3

C(CH )

4

3 3

CH  ; 

3

3

CH 

4

3

CF 

3

3

Cl;

3

Cl

5

CF ;

3

3

CF 

5

3

NO

2

3

CH  

3

3

N(CH )

3

3 2

Cl

2

CH 

2

3

OCH 

2

3

NO

2

4

CN

4

F

4

COCH 

4

3

CONH 

4

2

SO  CH 

4

3

2

SO  NH 

4

2

2

CH 

4

3

Cl

4

L

T

G

L

T

G

Cl

3

OCH 

4

3

N(CH )

3 2

4

CH  ;

3

3

N(CH )

3 2

4

NH

2

4

OH

4

CH  ;

3

3

OCH 

4

3

 

 
 
 Schematy 

te 

umożliwiają wybór kierunku syntezy 

następnych związków w zależności od wyników 
biologicznych związków poprzednio zsyntetyzowanych. 
Mogą one być szczególnie pomocne w pracach chemika-
syntetyka nie mającego możliwości lub chęci 
przeprowadzenia obliczeń komputerowych. 
 

W przypadku podstawników pierścienia 

benzenowego startujemy od związku niepodstawionego. 
Ponieważ w większości przypadków aktywność biologiczna 

zależy od lipofilowości więc jako pierwszą pochodną Topliss 
zaproponował pochodną 4-chloro (

π=0,70; σ=0,23; Es=0,27). 

Pochodna ta może mieć aktywność lepszą (L), taką samą (T) 
lub gorszą (G) niż związek niepodstawiony. Wzrost 
aktywności może wynikać ze wzrostu lipofilowości i/lub 
efektów elektronowych. Dlatego też w przypadku wzrostu 
aktywności dla 4-chloropochodnej schemat proponuje "pójść 
za ciosem" i dalej zwiększać oba efekty: pochodna 3,4-
dichloro (

π=1,25; σ=0,52).  

 

20 

background image

Część IV: Metody QSAR 

Pochodna 3,4-dichloro może być bardziej aktywna niż 4-
chloro, mieć taką samą aktywność lub wykazywać spadek 
aktywności. I tu znowu schemat przewiduje odpowiednie 
postępowanie. 
Analogiczne wnioskowanie przeprowadzić można w sytuacji 
gdy 4-chloropochodna obniża aktywność. 
 Topliss 

zaproponował również schemat doboru 

podstawnika R w ugrupowaniach typu: 

-CO-R 

 -NHR 

 -CO-NHR i

 -NH-CO-R. 
Schemat opiera się na parametrach 

π,  σ* i Es, z tym że 

głównie brana jest pod uwagę lipofilowość i zawada 
przestrzenna. 
 

 
Schemat II:
 Schemat Toplissa doboru podstawników w układach alifatycznych. 

L

T

G

L

T

G

CH 

3

C  H 

5

C  H 

i-

3 7

L

T

G

C  H 

c-

5 9

C  H 

c-

6 11

CH  C  H 

6 11

2

CH  CH  C  H 

6 11

2

2

C  H 

c-

4 7

CH      C  H 

c-

3 5

2

C  H 

t-

4 7

2

CHCl

2

CF

3

CH  CF

2

3

CH  SCH

2

3

CH  C  H

2

5

6

CH  OCH 

3

2

CH  SO  CH 

3

2

2

 

 
 
 

Obydwie przedstawione tu nieregresyjne metody 

optymalizacji struktury mają pewną istotną niedogodność: są 
metodami krokowymi. Po syntezie kolejnego związku 
czekamy (zwykle długo) na zbadanie jego aktywności 
biologicznej i w oparciu o nią planujemy kolejną syntezę. 
Prowadzi to do bardzo długiego toku poszukiwania. Jednakże 
tylko metodą krokową można uzyskać maksymalny efekt przy 
minimalnej ilości syntez. 

 

 

21 

background image

Część IV: Metody QSAR 

 

22 

ZADANIA 

Zadanie 1: W oparciu o zamieszczoną poniżej tabelę struktur i aktywności 

przeciwgrzybowych pochodnych etylobenzenu określ wpływ poszczególnych 
podstawnikopozycji na aktywność biologiczną stosując metodę Free-Wilsona. W 
tym celu: 
i) określ jednoznacznie numery i nazwy poszczególnych podstawnikopozycji 
ii)  napisz w postaci jawnej macierz podstawnikopozycji i odpowiadajacy jej 

wektor aktywności 

iii) wprowadź powyższe dane do programu REGR, znajdź poprawne równanie 

regresji i na jego podstawie dokonaj oszacowania aktywności pochodnej o 
przypuszczalnie najwyższej aktywności. 

iv) wiedząc  że odchylenie standardowe oznaczeń aktywności wynosi 0,4 określ 

addytywność wpływu podstawników. 

Puste miejsca w tabeli oznaczają, że w tym miejscu występuje wodór. 
 

związek 

 podstawniki 

  pMIC 

 X 

R2 

R4 

R6 

 

B1  OH Me Me Me 2,54 
B2 NH2 Me Me Me 1,83 

B3 OH Me  

  Me 3,04 

B4 OH Cl Cl Cl 1,93 
B5 NH2 Cl  OMe Me  2,28 

B6 

 Cl 

  0,18 

B7 

 OMe 

Cl 

 1,27 

B8 OH OMe 

 

OMe 

1,59 

B9 OH OMe 

Me Cl  1,51 

B10  OH  OMe OMe  

2,50 

B11 OH   

Me   

0,53 

B12 OH  Cl  Me   

0,70 

B13 OH   

Cl   

1,49 

B14 NH2  

Cl   

0,80 

B15 NH2  

OMe  

1,09 

B16 NH2 Me  OMe  

2,05 

B17 NH2 Me   

Cl  1,48 

B18  

Cl   

OMe 0,99 

B19  

OMe  

OMe 0,57 

 
 
Zadanie 2: W oparciu o zamieszczone poniżej dane znajdź zależność pomiędzy 

aktywnością przeciwdrobnoustrojową (pIC50) 17 pochodnych 4-amino-

difenylosulfonu podstawionych w pozycji 4', a ich właściwościami fizyko-
chemicznymi. 
Na podstawie uzyskanej zależności opisz cechy pochodnych o przewidywanej 
wysokiej aktywności. 
 

  

pIC50 

Symbol podst. 

4' 

M.smeg SM 

    

π 



π   ppm 

ICOOH 

 CO-1 

NH2 

-0.30 

-1.23 ..........  -0.253  0 

 CO-2 

OCH3 

-1.18 -0.02 

.......... 

-0.127 

 CO-3 

NO2 

-1.94 

-0.28 ..........   

0.111  0 

 CO-4 

-1.23 

0.00 ..........  

0.000 0 

 CO-5 

OH 

-0.30 

-0.67 ..........  -0.156  0.45 

 CO-6 

Cl 

-1.65 0.71 

.......... 

 

0.004 

 CO-7 

NHCOCH3 

-0.38 -0.97 

.......... 

-0.114 

 CO-8 

Br 

-1.68 0.86 

.......... 

 

0.000 

 CO-9 

NHCH3 

-0.82 -0.47 

.......... 

-0.253 

 CO-10 

NHC2H5 

-0.56 -0.08 

.......... 

-0.250 

 CO-11 

CH3 

-1.21 0.56 

.......... 

-0.091 

 CO-12 

N(CH3)2 

-0.26 0.18 

.......... 

-0.237 

 CO-13 

COOCH3 

-0.36 -0.01 

.......... 

 

0.005 

 CO-14 

COOH 

-2.06 

-4.36 ..........   

0.030  1 

 CO-15 

CONHNH2 

-0.73 -1.92 

.......... 

-0.003 

 CO-16 

NHCH2COOCH3 

-0.76 -0.95 

.......... 

-0.141 

 CO-17 

NHCH2COOH 

-1.69 -3.59 

.......... 

-0.141 

 

R

2

R

4

R

6

C H

2

C H

2

X

 

S

O

O

N H

2

X