next up previous
Next: About this document Up: Nýtísku aðhvarfsgreining (GLIM) Previous: Nýtísku aðhvarfsgreining (GLIM)

Hvað er tölfræði?

Líkindafræði (Probabilty ) + Ályktunarfræði (Inference)

Líkanasmíði (modelling): Einfölduð mynd af raunveruleika

Ályktun = líkan + gögn

Upprifjun Líkindafræði, nokkur hugtök

Tilraun, atburður, líkur

Reiknireglur um líkur, óháðir atburði, skilyrtar líkur, Regla Bayes

Random breyta = Hending (e. Random variable)

Eiginleikar hendinga, samfelldar/sundurslitnar

Dreifing: Dreififall(cdf) , þéttifall (density, pfd), líkandafall (pmf=probability mass function)

Lýsitölur fyrir dreifingar, væntanleg gildi (expected value), dreifni (variance), miðgildi (median ) o.s.frv.

Margvíðar hendingar, samand hendinga, fylgni.

Reiknireglur fyrir væntanlegt gildi og varíans(dreifni)

Ýmsar dreifingar, hvers vegna hafa þær nafn, verkefni.

Ályktunarfræði, Mat (punktmat, bilmat) Kenningaprófanir

Mat, Punktmat, Metill(estimator), hlutdrægni(bias),

samkvæmni ( consistency), nýtni (efficiency)

Mat, Bilmat, öryggismörk (confidence limits).

Kenningaprófanir, Núllkenning, valkostur, villa I, villa II, marktækni(significance), styrkur (power) Verkefni

Tveir skólar ályktunarfræði, Hefðbundinn(tíðni-skóli),

Bayesian skóli.

Aðhvarf(regression) og fylgni(correlation)

Ýmsar tegundir af breytum.

Aðhvarf meðs einni skýristærð,

aðhvarf með mörgum skýristærðum,

tengsl við ANOVA,

tengsl við samanburð meðaltala Verkefni

Tegundir parametra (í. stika), main effects, interactions, intercept, slope. Túlkanir.

Nokkur atriði um matsaðferðir.

GLIM fjölskyldan

Venjuleg ANOVA, aðhvarfslíkön,

Tilraun (experiment), aðgerð sem gefur útkomu

Ùtkoma óviss, atburður = mengi af útkomum

Mengja-stærðfræði hentug,

A tex2html_wrap_inline75 = atburðurinn A og B

A tex2html_wrap_inline77 B = atburðurinn A eða B (geta verið báðir)

tex2html_wrap_inline79 = mengi af öllum mögulegum útkomum

Líkur

P vörpun sem úthlutar atburði tölu á milli 0 og 1.

P(A tex2html_wrap_inline77 B) = P(A) + P(B) - P(A tex2html_wrap_inline83 B)

Óháðir (independent) atburðir

P(A tex2html_wrap_inline83 B) = P(A) P(B)

skilyrtar líkur (conditional probability)

A tex2html_wrap_inline87 B = atburðurinn A gefið atburðurinn B

P(A tex2html_wrap_inline87 B) = P(A tex2html_wrap_inline83 B)/P(B)

regla Bayes

P(A tex2html_wrap_inline87 B) = P(B tex2html_wrap_inline87 A) P(A)/P(B)

Dæmi: Á að mótefnamæla population?

Segjum 250.000 manna population,

prevalence = 500

sensitivity = specificty =0.95

reiknið P(S=+ tex2html_wrap_inline87 T=+)

svar: P(S=+ tex2html_wrap_inline87 T=+)*250.000

= mörg þúsund

Dreififall(Cdf) hendingar

F(x) = P(X tex2html_wrap_inline101 x) (ath. stórt og lítið x)

þéttifall(density, pdf) líkindamassafall (pmf)

f(x) = Ftex2html_wrap_inline103(x) ef X er samfelld

f(x) = P(X=x) ef X er sundurslitin

Lýsitölur fyrir hendingar

E(X) = expected value =væntanlegt gildi

E(X) = tex2html_wrap_inline105 x f(x) dx ef X er samfelld

E(X) = tex2html_wrap_inline107 x f(x) ef X er sundurslitin

V(X) = variance X = dreifni X

V(X) = tex2html_wrap_inline109tex2html_wrap_inline111 = E(X-E(X))tex2html_wrap_inline111

tex2html_wrap_inline109 = staðalfrávik X

xtex2html_wrap_inline117 = q-kvantíll tex2html_wrap_inline119 F(xtex2html_wrap_inline117)=q

Margvíðar hendingar (multivariate random variables)

F(x,y) = P(X tex2html_wrap_inline123 x tex2html_wrap_inline83 Ytex2html_wrap_inline123 y)

f(x,y) = F-diffrað fyrir samfelldar hendingar

f(x,y) = P(X=x tex2html_wrap_inline83 Y=y) fyrir sundurslitnar

X og Y óháðar tex2html_wrap_inline119 F(x,y)=F(x)F(y)

Ytex2html_wrap_inline87X hefur dreififall Ftex2html_wrap_inline135(ytex2html_wrap_inline87x)

Reiknireglur væntanlegt gildi og varíans

E(aX) = a E(X)

V(aX) = atex2html_wrap_inline111V(X)

Fylkja-algebra (matrix-algebra mjög þægileg

Ef X er vektor af hendingum


displaymath21


displaymath27


displaymath33

displaymath35

Nokkrar tegundur sundurslitinna (discrete) dreifinga

Bernoulli (p)

Binomial, B(n,p)

Poisson, tex2html_wrap_inline141

Geometric (p)

Negatív binomial (r,p)

Uniform (a,b)

Nokkrar tegundir samfelldra hendinga

Uniform (a,b)

Exponential tex2html_wrap_inline141

Gamma (r, tex2html_wrap_inline141)

Normal N( tex2html_wrap_inline147, tex2html_wrap_inline149)

tex2html_wrap_inline151(k)

t(k) cauchy=t(1)

F(n,m)

Verkefni Búið til 30 mælingar úr a) exponential dreifingu með meðaltal 180, b) N(180,7tex2html_wrap_inline111) og c) cauchy með miðgildi 180, og 5% meira en 190. Reiknið úrtaksmeðaltal, úrtaksstaðalfrávik og staðalfrávik úrtaksmeðaltalsins. Endurtakið fyrir úrtaksstærð 300 og 3000.

Verkefni Búið til 30 mælingar úr normaldreifingu með meðaltal 0 og staðalfrávik 1. Reiknið 95Endurtakið 50-1000 sinnum. Notið tölvu og viðeigandi forrit. T.d. EXCEL eða einhvern annan töflureikni.

Verkefni Búið til 30 mælingar úr normaldreifingu með meðaltal 0 og staðalfrávik 1. Prófið kenninguna að meðaltalið sé 0 og gangið út frá að vitað sé að staðalfrávik sé 1. Er kenningunni hafnað miðað við tex2html_wrap_inline155=0.05? Enrdurtakið 50-1000 sinnum.

Verkefni Búið til 30 mælingar úr normaldreifingu með meðaltal 0.2 og staðalfrávik 1. Prófið kenninguna að meðaltalið sé 0 og gangið út frá að vitað sé að staðalfrávik sé 1. Er kenningunni hafnað miðað við tex2html_wrap_inline155=0.05? Enrdurtakið 50-1000 sinnum.

Verkefni Búið til 30 mælingar úr normaldreifingu með meðaltal 0.4 og staðalfrávik 1. Prófið kenninguna að meðaltalið sé 0 og gangið út frá að vitað sé að staðalfrávik sé 1. Er kenningunni hafnað miðað við tex2html_wrap_inline155=0.05? Enrdurtakið 50-1000 sinnum.

Nokkur atriði um logistic regression

Það sem meta á eru líkur á ákveðnum atburði, t.d. bilun sjúkdómi eða þess háttar. Köllum þá breytu Y. p=P(Y=1), 1-p=P(Y=0). Gerum ráð fyrir að

p= etex2html_wrap_inline161 / (1 + etex2html_wrap_inline161)

sem er jafngilt og

log(p/(1-p)) = tex2html_wrap_inline165

Likelihood-fall fyrir eina mælingu er:

L(tex2html_wrap_inline167 | y,x) = ptex2html_wrap_inline169 (1-p)tex2html_wrap_inline171

log(L) = y log(p) + (1-y) log (1 - p)

Fyrir n óháðar mælingar er log-likelihood fallið því

tex2html_wrap_inline173 ( ytex2html_wrap_inline175 log(ptex2html_wrap_inline175) + (1-ytex2html_wrap_inline175) log (1-ptex2html_wrap_inline175))

ptex2html_wrap_inline175 = etex2html_wrap_inline185 / (1 + etex2html_wrap_inline185)

Nokkur atriði um survival-greiningu.

Helstu hugtök S(t) survival fall, S(t) = 1 - F(t) þar sem hendining T er endingartími þess sem rannsaka skal.

h(t) hazard fall, h(t) = f(t)/S(t)

H(t) cumulative hazard fall, H(t) = tex2html_wrap_inline189 h(s) ds

Dæmi, Líftími exponential dreifður, f(t) = tex2html_wrap_inline141etex2html_wrap_inline193

þá er S(t) = 1 - F(t) = 1 - (1 - etex2html_wrap_inline193) = etex2html_wrap_inline193

og

h(t) = f(t)/S(t) = tex2html_wrap_inline141etex2html_wrap_inline193 /etex2html_wrap_inline193 = tex2html_wrap_inline141

H(t) = tex2html_wrap_inline141t

Censoring, það liggur í hlutarins eðli að við getum ekki séð heildar feril hvers og eins. Það munu verða margir sem við vitum ekki dánardægur á. Til eru ýmsar tegundir af censoring.

Aðferðir til að meta survival feril. E.t.v. best þekkt Kaplan-Meier og Flemming-Harrington. Einni hugsanlegt að negla niður fyrirfram ákveðið form eins og t.d. Weibull-dreifingu.

Oft er S(t) sjálft ekki aðaláhugamálið heldur samanburður ýmissa hópa og áhrif skýristærða.

Get gefið mér fjölskyldu af líftímadreifingum, weibull, log-normal, log-logistic o.s.frv. og síðan framkvæmd einhvers konar aðhvarfsgreiningu. (eins konar GLM)

Cox-regression, gengur út á að hægt sé að þátta hazardfallið h(t)á á eftirfarandi hátt

h(t,x) = hazard fall fyrir einstakling með eiginleika x

= h(t) exp(xtex2html_wrap_inline167)

Þ.e. að ein grunn-hazard lína gildi fyrir alla og síðan sé munurinn eingöngu fólginn í þættinum exp(xtex2html_wrap_inline167).

Nokkur atriði um tölfræðilega líkanagerð

Skilgreina markmið

Skilgreina áhugaverð tengsl, átta sig á truflandi þáttum

Við experimental aðstæður, kynna sér experimental design til að fá hámarksupplýsingar út úr mælingunum.

Setja fram hugsanlegt líkan, þ.e. átta sig á hugsanlegri dreifingu mælinga, hugsanlegu formi líkans.

Meta Líkan, t.d. með maximum-likelihood aðferð.

Framkvæma ítarlega diagnostics, leifaskoðun (residual analysis). Àtta sig á að hvernig líkan misstígur sig. Átta sig á outliers og influential observations. Athugið að til eru margs konar leifar, í venjulegum normal líkönum, t.d. least-squares residuals og recursive residuals. Ì GLIM og survival eru margskonar leifar.

Ef líkan stendst skoðun túlka niðurstöður. Varist over-fitting, þ.e. að finna líkan sem hentar mældum gögnum afar vel en gæti misstígið sig illa ef því væri beitt á annað gagnasett. Almennt gildir að velja skuli líkönin sem minnst (principle of parsimony)


next up previous
Next: About this document Up: Nýtísku aðhvarfsgreining (GLIM) Previous: Nýtísku aðhvarfsgreining (GLIM)

Red Hat Linux User
Thu Apr 2 18:00:11 EST 1998