Program przedmiotu

“Opracowywanie danych w

chemii”

Wprowadzenie: przegląd rodzajów danych oraz

metod ich opracowywania.

Podstawowe pojęcia rachunku

prawdopodobieństwa i statystyki matematycznej.

Podstawy analizy wyników pomiarów. Statystyczna

weryfikacja hipotez. Analiza wariancji.

Dopasowywanie modeli

a) Regresja liniowa pojedyncza i wielokrotna.
b) Regresja nieliniowa.
c) Analiza konfluentna.
d) Porównywanie modeli.
e) Metoda największej entropii.

Analiza skupień: grupowanie podobnych obiektów.

Analiza czynnikowa.

Literatura

• J. Czermiński i współautorzy, Metody

statystyczne w doświadczalnictwie

chemicznym. PWN, Warszawa.

• S. Brand, Analiza danych, PWN, Warszawa.

• A. Strzałkowski, A. Śliżyński,

Matematyczne metody opracowywania

wyników pomiarów, PWN, Warszawa.

• C. R. Rao, Modele liniowe statystyki

matematycznej, PWN, Warszawa.

• R.G. Brereton, Chemometrics, Wiley.

• Sieber,Wild, Nonlinear regression, Wiley.

Pochodzenie danych

• Pomiar (np. pomiary

fizykochemiczne)

• Obserwacja (np. zapis zmiany

liczebności populacji na określonym
terenie)

• Symulacja (np. symulacje dynamiki

molekularnej ewolucji czasowej
zespołów cząsteczek)

Metody analizy danych

• Analiza statystyczna (obliczanie średnich i

rozrzutu, ocena wiarygodności pomiarów,

ocena istotności różnic wielkości

zmierzonych w różnych miejscach)

• Dopasowywanie modeli matematycznych

do danych pomiarowych (np.analiza

regresyjna i konfluentna)

• Analiza skupień (znajdowanie skupisk

obiektów o podobnych cechach)

• Analiza czynnikowa (wyławianie czynników

określających większość właściwości zbioru

danych lub zjawiska)

Zastosowania

• Analiza statystyczna wyników pomiarów:

chemia analityczna, chemia medyczna,
technologia chemiczna.

• Dopasowywanie modeli: chemia fizyczna,

chemia organiczna, krystalochemia i inne
metody określania struktury cząsteczek,
chemia teoretyczna, technologia chemiczna.

• Analiza skupień: analiza konformacyjna,

QSAR.

• Analiza czynnikowa: QSAR, spektroskopia.

Rachunek

prawdopodobieństwa

A – zdarzenie
E – przestrzeń wszystkich zdarzeń
P(A) – prawdopowobieństwo zdarzenia

A; liczba nieujemna określająca
częstość jego występowania.

P(E)=1
P(A+B)=P(A)+P(B) dla zdarzeń

wykluczających się.

Prawdopodobieństwo

warunkowe i niezależność

zdarzeń

P(A|B)=P(AB)/P(B)
P(AB)=P(A|B)P(B)

Zdarzenia A i B są niezależne jeżeli

P(A|B)=P(A)
czyli
P(AB)=P(A)P(B)

Zmienne losowe i ich

rozkłady

Zmienna losowa: liczba

przyporządkowana zdarzeniu

Dystrybuanta:
F(x)=P(yx)
Gęstość prawdopodobieństwa:
f(x)=dP(x)/dx
Funkcja zmiennej losowej jest też

zmienną losową.

1 2 3 4 5
6

F(x)

0.5

Dystrybuanta liczby oczek na jednej ścianie kostki dla rzutów
idealnie symetryczną kostką.

Momenty rozkładu









  







)

(

})

({

 





   













xˆ

}

{

Dla zmiennych
ciągłych:

Jeżeli H(x)=(x-x

)

to E{H(X)} nazywa się n-

tym momentem x względem c; jeżeli c=

to E

jest n-tym momentem centralnym, 

({x}).

xˆ

Użyteczne momenty

centralne

Wariancja

 

 

 

 



  















xˆ

Skrzywienie

 

 

 

 

 

 

 

  

  

















xˆ

Kurtoza

 

 

 

 

 

 

 

  

  

xˆ

2
2





















Obliczanie momentów

centralnych zbioru punktów













)

(

xˆ

)

(

xˆ















































Przykłady momentów

centralnych paru rozkładów

f(x)

Wartość najbardziej prawdopodobna (modalna): x

: f’(x

)=0,

f’’(x

)<0

Mediana: x

0.5

: P(x<x

0.5

)=0.5

Wartość średnia:

 









Mediana i kwantyle

1.0

0.5

0.2

0.5

0.2

F(x)

median
a

 









0.9

Rozkład dwóch zmiennych i

kowariancja

 









 









 











 

   

cov

yˆ

xˆ

yˆ

xˆ

yˆ

xˆ











































Sposoby przedstawiania rozkładów zmiennych

losowych:

1. Wykresy liniowe (rozkłady jednowymiarowe).

2. Wykresy „rozproszone” (scatter plots)

(dwuwymiarowe)

3. Histogramy

Rozkład normalny









































































erf

;

exp

;

exp

;

U = zmienna
stadardyzowana

Wielowymiarowy rozkład

normalny

 



 

























exp

)

det(

)

(

)

,...,

(

Centralne twierdzenie

graniczne

Jeżeli x jest zmienną losową o wartości

średniej a i wariancji b

, to zmienna













lim

Ma rozkład normalny o wartości średniej a i

wariancji b

/n.

Document Outline