Posts Tagged ‘statistika pas Algirdas Javtokas’

Hipotezė apie dviejų proporcijų lygybę. Tęsinys.

gruodžio 16, 2009

Anksčiau mes taikėme tiksųlį kriterijų. Tikslųjį kriterijų patogu taikyti, kai k_1,k_2 yra nedideli.Priešingu atveju dėl milžiniškos skaičiavimų apimties tikslus kriteriju netaikomas. Tačiau praktiškai k_1,k_2 maži būna retai. Kai k_1,k_2 yra nemaži skaičiai, tai yra taikoma normalioji aproksimacja:

Duomenys. Tegul kaip ir anksčiau galioja tos pačios prielaidos ir žymenis yra tie patys, t.y. stebime du nepriklausomus binominius kintamuosius. Pirmoje n elementų imtyje yra k_1 vienetų (likę-nuliai), antrojoje  m elementų imtyje yra k_2 vienetų (likę-nuliai).

Statistinė hipotezė: \{ H_0: p_1-p_2=C, H_1: p_1-p_2 \neq C.

Kriterijaus statistika. Apskaičiuojame

Z=\frac{\hat{p_1}-\hat{p_2}-C}{\sqrt{ \hat{p_1}(1-\hat{p_1})/n+\hat{p_2}(1-\hat{p_2})/m}};

čia \hat{p_1}=k_1/n, \ \hat{p_2}=k_2/m.

Sprendimo priėmimo taisyklė. Tegul reikšmigumo lygmuo lygus \alpha. Hipotezė H_0 atmetama jeigu |Z|>z_{\alpha/2}. Čia z_{\alpha/2} yra standartinio normaliojo skirstinio $latex\alpha/2$ lygmens kritinė reikšmė . Hipotezė H_0 neatmetama, jeigu |Z|\leq z_{\alpha/2}.

pavyzdys. Sociologo klausimyną užpildyti sutiko 100 iš 200 vyrų ir 150 iš 270 moterų. Ar galima manyti, kad sutinkančių atsakinėti vyrų dalis statistiškai reikšmingai skiriasi nuo moterų dalies? Tegul \alpha=0,1.\

Sprendimas. Statistinė hipotezė: \{ H_0: p_1=p_2, H_1: p_1\neq p_2.

Apskaičiuojame:

\hat{p_1}=100/200, \ \hat{p_2}=150/270=0,555, \bar{p}=250/470=0,532,

Z'=(0,5-0,555)/\sqrt{0,532*0,468(1/200+1/270)}=-1,181.

Kadangi |Z'|=1,181<1,64=z_{0,05}, tai H_0 neatmetama. Sutinkančių atsakinėti vyrų ir moterų dalių skirtumo nerasta.

Reklama

Hipotezė apie dviejų proporcijų lygybę.

gruodžio 15, 2009

Duomenys. Stebime du nepriklausomus kintamuosius X \sim B(1,p_1) ir Y \sim B(1,p_2). Kintamąjį X stebime n kartų, kintamąjį Y stebime m kartų. Gauname dvi dvireikšmių duomenų aibes, kurias sudaro nuliai ir vienetai. Tarkime, kad pirmoje imtyje yra k_1, o antrojoje –k_2 vienetų.

Statistinė hipotezė: \{ H_0: p_1=p_2, H_1: p_1\neq p_2.

Kriterijaus statistika. Pažymime s=k_1+k_2 ir apskaičiuojame sumas:

Z_1=\displaystyle \sum^{min(s,n)}_{j=k_1} (^m_j )(^m_{s-j})/(^{m+n}_{\ s}),

Z_2=\displaystyle \sum^{k_1}_{max(0,s-m)} (^m_j )(^m_{s-j})/(^{m+n}_{\ s}).

Sprendimo priėmimo taisyklė. Tegul reikšmigumo lygmuo lygus \alpha. Hipotezė H_0 atmetama (taigi p_1 skiriasi nuop_2), jeigu Z_1<\alpha/2 arba Z_2<\alpha/2. Kitais atvejais hipotezė H_0 neatmetama.

pavyzdys. Ar galima teigti, kad vienas skrandžio operavimo metodas geresnis už kitą, jei taikant pirmąjį iš 300 pacient mirė 3, o taikant antrąjį iš 150 mirė 2? (\alpha=0,1.)

Z_1=\displaystyle \sum^{5}_{j=3} (^{300}_j )(^{150}_{5-j})/(^{450}_{\ 5})=0,79,

Z_2=\displaystyle \sum^{3}_{max(0} (^{300}_j )(^{150}_{5-j})/(^{450}_{\ 5})=0,54.

Kadangi Z_1\geq 0,05 ir Z_2\geq 0,05, tai H_0 atmesti nėra pagrindo. Statistiškai reikšmingo mirčių skaičiaus skirtumo operuojant skirtingais metodais neradome.

Matematikas. Statistikas.

gruodžio 15, 2009

Čia dėl idomumo imetu iš psl. http://www.profesijupasaulis.lt

Matematikas
Kas jie yra ir ką jie veikia?

Matematikas atlieka teorinius ar taikomosios matematikos srities tyrimus.

Kokios veiklos yra šiame darbe?

Inicijuoja teorinės ar taikomosios matematikos srities tyrimus; rengia ir publikuoja savo specialaus dalyko tyrimų rezultatus; teikia profesines žinias dėl to, kaip pritaikyti taikomosios matematikos atradimus įvairiose srityse (technikos, ekonomikos, mokslo); dėsto matematiką pradinio, vidurinio ir aukštojo mokslo įstaigose.

Kur ir kokiomis sąlygomis yra dirbamas šis darbas?

Dirbama kabinetuose ar klasėse, kontroliuojamoje ir dažniausiai pakankamai patogioje aplinkoje.

Kokias priemones/įrangą jie naudoja?

Kompiuteris ir naujos statistikos ar matematinės programos (SPSS, SAS, STATISTICA ir kt.).
Ko reikia, norint sėkmingai atlikti darbą?

Reikalingas aukštesnysis išsilavinimas (pvz., įgytas matematikos bakalauro laipsnis) ir yra galima tolesnė specializacija (pvz., iki magistro ar daktaro lygmens). Jums taip pat reikalingas abstraktus, analitinis ir kūrybinis mąstymas ir problemų sprendimo sugebėjimai; darbo kompiuteriu įgūdžiai; sugebėjimas dirbti su skaičiais, ar sudėtingomis statistinėmis ataskaitomis. Norint mokyti matematikos, reikalingas mokytojo išsilavinimas.

Statistikas
Kas jie yra ir ką jie veikia?

Statistikas renka, analizuoja ir aiškina kiekybinius duomenis, skirtus naudotis vyriausybės institucijoms, mokslininkams, medikams ir kt. Jo metodai grindžiami tikimybės teorija ir jis prisideda prie įvairių reiškinių analizės ir padeda kitiems priimti dėl jų informacija grindžiamus sprendimus. Statistikas gali rasti galimybių dirbti ūkio valdymo srityje, statistikos, (draudimo) statistikos ekspertizės ar draudimo institucijose, tyrimų institutuose ar vertybinių popierių biržos makleriu. Tačiau daugelis iš jų dirba vyriausybės departamentuose ir valstybės tarnyboje.

Kokios veiklos yra šiame darbe?

Statistikai renka ir analizuoja duomenis, nustato tendencijas, patvirtina ar nuneigia tam tikras išvadas, atlieka palyginimus ir informuoja politiką ir veiksmus nustatančius asmenis.

Kur ir kokiomis sąlygomis yra dirbamas šis darbas?

Dirbama kabinetuose, dažniausiai yra pakankamai patogi aplinka.

Kokias priemones/įrangą jie naudoja?

Specialius tyrimų duomenis ir duomenų apdorojimo metodikas (masiniams statistikos tyrimams, klasifikavimo metodus, vidutinės vertės, grafinio vaizdavimo metodus). Informacinės technologijos yra viena iš pagrindinių darbo instrumentų.

Ko reikia, norint sėkmingai atlikti darbą?

Reikalingas universitetinis specializuotas išsilavinimas, su specializacija matematikos srityje arba tiesiogiai statistikos mokslo fakultete ar matematikos ir/ar fizikos. Šis darbas yra intelektualiai alinantis ir reikalauja išlavinto loginio mąstymo, sugebėjimo abstrakčiai mąstyti, analizuoti ir sintetinti žinias ir jas kūrybiškai taikyti sprendžiant konkrečią problemą. Kantrybė ir tikslumas yra privaloma.

Laiko eilučių tiriamieji procesai. 2d.

gruodžio 10, 2009

Stacionarieji procesai

apibrėžimas. Atsitiktinio proceso {X_t, t\in T}, su visais t\in T tenkinančio sąlygą DX_t<\infty, kovariacinė funkcija apibrėžiama lygybe

r(s, t)=Cov(X_s,X_t)=E(X_s-EX_s)(X_t-EX_t), \ s,t\in T.

apibrėžimas. Seka \{X_t, t\in Z\} vadinama stacionariąja, jeigu:

1) \forall t\in Z : E|X_t|^2<\infty,

2) \forall t\in Z : EX_t=EX_0,

3)r(s, t)=r(s+h, t+h) su visais s, t, h Z.

Dažnai literatūroje taip apibrėžtas stacionarumas vadinamas stacionarumu plačiąja (arba silpnąja) prasme. Kadangi stacionariai sekai r(s, t)=r(s-t,0) su visais s,t\in Z, tai patogiau kovariacinę funkciją traktuoti kaip vieno argumento funkciją ir rašyti tiesiog r(s)\equiv r(s,0) visiems s\in Z.

Pavyzdys. Apibrėžkime atsitiktinį procesą

X_t=A\cos(\theta t)+B\sin(\theta t);

čia: A ir B nekoreliuoti atsitiktiniai dydžiai su EA=EB=0, DA=DB=1 ir \theta\in [-\pi,\pi]. Nesunku įsitikinti, kad toks atsitiktinis procesas yra stacionarus ir Cov(X_{t+h},X_t)=\cos(\theta h)

Laiko eilučių tiriamieji procesai. 1d.

gruodžio 10, 2009

Visų pirma reiktų pastebėti, kad dauguma statistinių metodų grindžiami prielaida, kad stebėjimai yra nepriklausomi ( tiksliau – nepriklausomų atsitiktinių dydžių realizacijos). Tokie metodai yra invariantiški stebėjimų išdėstymo atžvilgiu. Kitaip yra laiko eilučių teorijoje. Laiko eilutės praktikoje gaunamos nuosekliai stebint įvairių fizikos, ekonomikos, meteorologijos, astronomijos, medicinos ir t.t. reiškinių vystymąsi. Todėl momentu t gauta stebimo dydžio reikšmė X_t paprastai priklauso nuo to dydžio reikšmių ankstesniai momentais s<t. Nustatytoji prieklausa leidžia prognozuoti tolesnę mus dominančio reiškinio evoliuciją.

Laiko eilutės nagrinėja dviejų tipų procesus: atsitiktinius ir stacionariuosius. Šioje dalyje pakalbėsime apie atsitiktius procesus.

Atsitiktiniai procesai

apibrėžimas. Atsitiktiniu procesu vadinama atsitiktinių dydžių, apibrėžtų vienoje tikimybinėje erdvėje, šeima {X_t, t\in T}.

Laiko eilučių teorijoje kintamasis t vadinamas laiku ir jo reikšmių aibė T dažniausiai yraZ={0, \pm 1, \pm 2, ...}, N={1,2,3,...} (diskretaus laiko atvejis) arba R_+=[0,\infty) , R=(-\infty,+\infty)  (tolydaus laiko atvejis).

Pavyzdys. Tarkime, v\geq 0 ir r>0 yra du fiksuoti skaičiai, o A\geq 0 ir \Theta – nepriklausomi atsitiktiniai dydžiai, \Theta – tolygiai pasiskirstęs intervale [0,2\pi]. Apibrėžkime

X_t=r^{-1}Acos(vt+\Theta).

Tokiu atsitiktiniu procesu aprašomas elektros srovės stiprio kitimas, kai įtampa turi atsitiktinę amplitudę A  ir atsitiktinę fazę \Theta ; r– rezistoriaus varža. Laikas t gali būti tiek tolydus tiek diskretus.

Hipotezė apie dviejų koreliacijos koeficientų lygybę. 2dalis.

gruodžio 5, 2009

Priklausomų imčių atvejis

Tarkime, stebime tris normaliai pasiskirsčiusius kintamuosius X, \ Y ir Z. Koreliacija X su Y lygi \varrho_{XY}, X su Z yra \varrho_{XZ}, Y su Z  yra \varrho_{YZ}. Norime patikrinti hipotezę apie koreliacijos koeficientų lygybę \varrho_{XY}=V. Kriterijaus statistika grindžiama tuo, kad koreliacijos koeficientų skirtumas po specialaus normavimo turi asimptotiškai Stjudento skirstinį, jei tik teisinga hipotezė H_0.

Nagrinėjamojo uždavinio sprendimo etapai yra tokie:

1) Surenkame duomenis. Imties didumas n>3.

2)Statistinė hipotezė:  {H_0: \varrho_{XY}=\varrho_{XZ}, H_1: \varrho_{XY}\neq\varrho_{XZ}.

3)Kriterijaus statistika. Apskaičiuojame

t=\frac{(r_{xy}-r_{yz})\sqrt{(n-3)(1+r_{yz})}}{\sqrt{2(1-r^2_{xy} -r^2_{xz}-r^2_{yz}+2r_{xy}r_{xz}r_{yz})}} ;

čia r_{xy}, r_{xz}, r_{yz} yra Pirsono koreliacijos koeficientų realizacijos.

4) Sprendimo priėmimo taisyklė. Tegul reikšmigumo lygmuo lygus \alpha. Hipotezė H_0 atmetama, jeigu |t|>t_{\alpha/2}(n-3). Čia t_{\alpha/2}(n-3). yra Stjudento skirstinio su (n-3) laisvės laipsnių \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |t|\leq t_{\alpha/2}(n-3).

Pavyzdys. Psichologas mano, kad matematikos (kintamasis X) ir gimtosios kalbos (kintamasis Y) testų rezultatų koreliacija skiriasi nuo matematikos ir užsienio kalbos (kintamasis Z) testų rezultatų koreliacijos. Ištyręs 123 atsitiktinai parinktų respondentų rezultatus, psichologas gavo koreliacijos koeficientų įverčius r_{xy}=0,63, r_{xz}=0,79r_{xy}=0,52. Ar gautieji duomenys patvirtina psichologo hipotezę? (\alpha=0,05.)

Sprendimas. Statistinė hipotezė :

{H_0: \varrho_{XY}=\varrho_{XZ}, H_1: \varrho_{XY}\neq\varrho_{XZ}.

Apskaičiuojame t=-3,21. Kadangi |t|>1,98=t_{0,025}(120), tai H_0 atmetame. Psichologo hipotezę duomenys patvirtino.

Hipotezė apie dviejų koreliacijos koeficientų lygybę. Idalis.

gruodžio 5, 2009

Nepriklausomų imčių atvejis

Tarkime, stebime dvi nepriklausomas intervalinių kintamųjų poras (X_1,Y_1) ir (X_2,Y_2). Atsitiktines imtis sudaro poros (X_{11},Y_{11}), (X_{12},Y_{12}), … , (X_{1n},Y_{1n}) ir (X_{21},Y_{21}), (X_{22},Y_{22}), … , (X_{2m},Y_{2m}).

Norime nustatyti, ar koreliacija X_1 su Y_1 (pažymime ją \varrho_1 ) skiriasi nuo koreliacijos X_2 su Y_2 (pažymime ją \varrho_2. Kadangi empirinių koreliacijos koeficientų R_1 ir R_2 skirtumo skirstinys yra asimetriškas, prieš taikydami normaliają aproksimaciją, naudojamės Fišerio logaritmine transformacija:

Z_1=\frac{1}{2}\ln{\frac{1+R_1}{1-R_1}},   Z_2=\frac{1}{2}\ln{\frac{1+R_2}{1-R_2}}.

Kai teisinga hipotezė H_0: \varrho_1=\varrho_2 ir n>3, m>3, statistika

(Z_1-Z_2)\sqrt{1/(n-3)+1/(m-3)}\approx N(0,1).

Remiantis šia formule, sudaromos kritinės sritys.

Pavyzdys. Psichologas mano, kad vyrų ir moterų matematikos ir gimtosios kalbos testų rezultatų koreliacija skirtinga. Ištyręs 43 vyrų rezultatus, psichologas gavo koreliacijos koeficiento įvertį r_1=0,56. Ištyręs 50 moterų rezultatus,  psichologas gavo r_2=0,62. Ar gautieji duomenys patvirtina psichologo hipotezę? ( \alpha=0,1 )

Sprendimas. Statistinė hipotezė: { H_0: \varrho_1=\varrho_2 , H_1: \varrho_1\neq\varrho_2.

Pasinaudoję priedo lentele, gauname z_1=0,633, z_2=0,725. Apskaičiuojame

Z=(0,663-0,725)/\sqrt{1/40+1/47}=-0,427.

Kadangi |Z|=0,427\leq 1,64=z_{0,05}, tai H_0  neatmetame. Psichologo hipotezės duomenys nepatvirtino.

Įverčių sudarymo būdai. Didžiausio tikėtinumo metodas.

lapkričio 28, 2009

Didžiausio tikėtinumo metodą pirmiausia aptarsime tolydžiųjų atsitiktinų dydžių atveju. Tarkime, stebime atsitiktinį dydį X, kurio tankis p_{\theta}(x)  priklauso nuo nežinomojo vienamačio parametro \theta.  Tikėtinumo funkcija sudaroma taip:

L_{\theta}=p_{\theta}(X_1)p_{\theta}(X_2) p_{\theta}(X_n).

Taigi tankio funkcijoje vietoje argumento iš eilės įstatome X_1,...,X_n. Ieškome tokio \theta , kuris maksimizuotų funkciją L_{\theta} . Dažniausiai, tai daroma taip:

1) randame \ln L_{\theta} ;

2) apskaičiuojame \ln L_{\theta} išvestinę pagal \theta(\ln L_{\theta})';

3) prilyginame rastą išvestinę nuliui (\ln L_{\theta})'=0 ir gautą lygtį išsprendžiame \theta atžvilgiu;

4) gautą rezultatą \hat{\theta} laikome \theta įverčiu.

Pastaba. Jeigu \theta=(\theta_1 , ... , \theta_k), t.y. turime k nežinomų parametrų, tai randamos dalinės \ln L_{\theta} išvestinės pagal \theta_1 , ... , \theta_k . Jos prilyginamos nuliui ir sprendžiama gautoji k lygčių sistema. Gauti  \hat{\theta_1} , ... , \hat{\theta_k} laikomi ieškomaisiais įverčiais.

Pavyzdys. Stebime X\sim P(\lambda). Didžiausio tikėtinumo metodu įvertinsime parametrą \lambda. Žinome, kad

P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, k=0,1,2,...

Todėl

L_{\lambda}= \frac{\lambda^{X_1}}{X_1!}e^{-\lambda}\frac{\lambda^{X_2}}{X_2!}e^{-\lambda} ... \frac{\lambda^{X_n}}{X_n!}e^{-\lambda}=\frac{\lambda^{X_1+X_2+ ... + X_n}}{X_1!X_2!...X_n!}e^{-n\lambda},

\ln L_{\lambda}= -\ln X_1!X_2! ... X_n! + (X_1+X_2+ ... +X_n)\ln\lambda - n\lambda ,

(\ln L_{\lambda})'= 0 +(X_1+X_2+ ... +X_n)/\lambda-n .

Šį reiškinį prilyginę nuliui ir išsprendę \lambda atžvilgiu, gauname

\hat{\lambda}=(X_1+...X_n)/n=\bar{X}.

Didžiausio tikėtinumo metodu gaunami geresni taškiniai įverčiai negu momentų metodu. Todėl Puasono skirstinio atveju geriau naudoti įvertį  \hat{\lambda}=\bar{X}. Dauguma didžiausio tikėtinumo metodų yra paslinktieji.

Įverčių sudarymo būdai. Momentų metodas.

lapkričio 27, 2009

Tiriamojo atsitiktinio dydžio X skirstinys priklauso nuo nežinomojo parametro \theta , todėl nuo jo turėtų priklausyti ir momentai. Momentų metodas siūlo sulyginti atsitiktinio dydžio momentus su jų empiriniais atitimenimis ir sudaryti lyčių sistemą :

EX= \bar{X} , DX=S^2 ir t.t.

Lygčių yra sudaroma tiek, kiek yra nežinomų parametrų( primenu, kad bendru atveju \theta=(\theta_1 ,\theta_2 ,...,\theta_k )).  Išsprendę sudarytas lygtis nežinomų parametrų atžvilgiu, gauname  \theta_1 , \theta_2 , … ,\theta_k įverčius.

1 pavyzdys. Stebime X\sim N(\mu,\sigma^2) , kurio \mu ir \sigma^2 nežinomi. Momentų metodu raskime  \mu ir \sigma^2 įverčius. Kadangi EX= \mu ir DX=\sigma^2 , tai iškart gauname

\mu=\bar{X}, \sigma^2=S^2.

Pažymime, kad gavome įverčius (t.y. atsitiktinius dydžius).

Atsakymas: \hat{\mu}=\bar{X}, \hat{\sigma^2}=S^2.

2  pavyzdys. Stebime X \sim B(100,p). Momentų metodu raskime p įvertį. Iš tikimybių teorijos žinome, kad EX=100p. Todėl

100p=\bar{X}, p=\frac{\bar{X}}{100}.

Atsakymas: \hat{p}=\bar{X}/100 .

3 Pavyzdys. Stebime X \sim P(\lambda) . Momentų metodu raskime \lambda įvert. Žinome, kad EX=\lambda . Todėl \hat{\lambda}=\bar{X}. Tačiau ir DX=\alpha . Todėl galime imti \hat{\lambda}=S^2. Kuris iš dviejų įverčių –   \hat{\lambda}=\bar{X} , \hat{\lambda}=S^2 -geresnis? Momentų metodu atsakymo į šį klausimą negauname.

Lognormalusis pasiskirstymas

lapkričio 22, 2009

Apibrėžimas. A.d. T turi lognormalųjį pasiskirstymą su parametrais a\in \Re , \sigma > 0 , jei a.d. \ln T turi normalųjį pasiskirstymą su parametrais a ir \sigma , t.y. a.d. T paiskirstymo funkcija yra šitokio pavidalo :

F_T(t)=\Phi(\frac{\ln t - a}{\sigma});

čia \Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}exp\left\{ \frac{-u^2}{2} \right\} du – standartinio normaliojo pasiskirstymo funkcija.

Tinkamai parinkus parametrus, lognormaliojo pasiskirstymo tankio funkcijos grafikas artimas gama ir Veibulo pasiskirstymų grafikams. Lognormalusis pasiskirstymas atskiriamas nuo Veibulo pasiskirstymo lengviau negu gama pasiskirtymas. Tais atvejais, kai lognormaliojo ir Veibulo pasiskirstymų pirmieji du momentai sutampa, lognormaliojo pasiskirstymo atveju santykis tarp gedimų skaičiaus pradiniu ir vėlesniu laikotarpiu yra didesnis, t.y. tankio kairė “uodega“ sunkesnė.