A valószínűségi változók közötti kapcsolatok típusai. A valószínűségi változók alapvető jellemzői. Hibák és konfidencia intervallumok meghatározása a valószínűségi változók jellemzőihez

Regresszió analízis

A kísérlet eredményeinek feldolgozása a módszerrel

A komplex rendszerek működési folyamatainak tanulmányozásakor számos, egyidejűleg ható valószínűségi változóval kell foglalkozni. A jelenségek mechanizmusának, a rendszer elemei közötti ok-okozati összefüggéseknek stb. megértéséhez a kapott megfigyelések alapján igyekszünk megállapítani ezen mennyiségek kapcsolatát.

A matematikai elemzésben például két mennyiség közötti függést a függvény fogalma fejezi ki

ahol az egyik változó minden értéke a másiknak csak egy értékének felel meg. Ezt a függőséget ún funkcionális.

Sokkal bonyolultabb a helyzet a valószínűségi változók függésének fogalmával. Az összetett rendszerek működési folyamatát meghatározó valószínűségi változók (véletlenszerű tényezők) között általában olyan kapcsolat van, amelyben az egyik változó változásával a másik eloszlása megváltozik. Az ilyen kapcsolatot ún sztochasztikus, vagy valószínűségi. Ebben az esetben a véletlen tényező változásának nagysága Y, amely megfelel az érték változásának x, két részre bontható. Az első a függőséghez kapcsolódik. Y tól től x, a második pedig a "saját" véletlenszerű összetevők hatására YÉs x. Ha az első komponens hiányzik, akkor a valószínűségi változók YÉs x függetlenek. Ha a második komponens hiányzik, akkor YÉs x funkcionálisan függenek. Mindkét komponens jelenlétében a köztük lévő arány határozza meg a valószínűségi változók közötti kapcsolat erősségét vagy szorosságát YÉs x.

Különféle mutatók jellemzik a sztochasztikus kapcsolat bizonyos aspektusait. Tehát lineáris kapcsolat a valószínűségi változók között xÉs Y meghatározza a korrelációs együtthatót.

hol vannak az X valószínűségi változók matematikai elvárásai és Y.

– a valószínűségi változók szórása xÉs Y.

A valószínűségi változók lineáris valószínűségi függése abban rejlik, hogy az egyik valószínűségi változó növekedésével a másik egy lineáris törvény szerint nő (vagy csökken). Ha a valószínűségi változók xÉs Y szoros lineáris funkcionális függés köti össze, pl.

y=b 0 +b 1 x 1,

akkor a korrelációs együttható egyenlő lesz ; ahol az előjel az együttható előjelének felel meg b 1.Ha az értékek xÉs Y tetszőleges sztochasztikus függéssel kapcsolódnak össze, akkor a korrelációs együttható belül változik

Hangsúlyozni kell, hogy független valószínűségi változók esetén a korrelációs együttható nulla. A korrelációs együtthatónak, mint a valószínűségi változók közötti függőség indikátorának azonban komoly hátrányai vannak. Először is az egyenlőségtől r= 0 nem jelenti a valószínűségi változók függetlenségét xÉs Y(kivéve a normális eloszlási törvény hatálya alá tartozó valószínűségi változókat, amelyekre r= 0 egyúttal a függőség hiányát is jelenti). Másodszor, a szélső értékek szintén nem túl hasznosak, mivel nem felelnek meg semmilyen funkcionális függőségnek, csak szigorúan lineárisnak.

Teljes leírás függőségek Y tól től x, és ráadásul pontos funkcionális összefüggésekben kifejezve, a feltételes eloszlásfüggvény ismeretében kapható meg.

Meg kell jegyezni, hogy ebben az esetben a megfigyelt változók egyike nem véletlenszerű. Két valószínűségi változó értékének egyidejű rögzítése xÉs Y, értékeik összehasonlításakor minden hibát csak az értéknek tulajdoníthatunk Y. Így a megfigyelési hiba a mennyiség saját véletlenszerű hibájának összege lesz Yés abból adódó illesztési hibából, hogy az értékkel Y nem egészen ugyanaz az érték egyezik x ami valóban megtörtént.

A feltételes eloszlásfüggvény megtalálása azonban általában nagyon nehéz feladatnak bizonyul. közötti kapcsolat vizsgálatának legegyszerűbb módja xÉs Y normál eloszlással Y, mivel azt teljes mértékben a matematikai elvárás és szórás határozza meg. Ebben az esetben a függőség leírására Y tól től x nem kell feltételes eloszlásfüggvényt felépíteni, hanem csak meg kell adni a módját a paraméter megváltoztatásakor x az értékváltozás matematikai elvárása és szórása Y.

Így csak két függvényt kell találnunk:

Feltételes varianciafüggés D paraméterből x nak, nek hívják skhodastichesky függőségek. A megfigyelési technika pontosságának változását a paraméter változásával jellemzi, és meglehetősen ritkán használják.

A feltételes matematikai elvárás függése M tól től x nak, nek hívják regresszió, megadja a mennyiségek valódi függőségét xÉs Nál nél, minden véletlenszerű rétegtől mentes. Ezért a függő változók bármely vizsgálatának ideális célja egy regressziós egyenlet megtalálása, és a variancia csak az eredmény pontosságának értékelésére szolgál.

A korrelációelemzés célja a valószínűségi változók (jellemzők) közötti kapcsolat erősségének becslése, amely valamilyen valós folyamatot jellemez.
A korrelációelemzés problémái:
a) Két vagy több jelenség kapcsolódási fokának (tömörség, szilárdság, súlyosság, intenzitás) mérése.
b) Az eredményül kapott attribútumra legjelentősebb hatást gyakorló tényezők kiválasztása a jelenségek közötti kapcsolódás mértékének mérése alapján. Ebben a vonatkozásban jelentős tényezőket használunk a továbbiakban a regressziós elemzésben.
c) Ismeretlen ok-okozati összefüggések felderítése.

Az összefüggések megnyilvánulási formái nagyon változatosak. Leggyakoribb típusaként funkcionális (teljes) ill korrelációs (hiányos) kapcsolat.
korreláció tömeges megfigyelések esetén átlagosan akkor nyilvánul meg, amikor a függő változó adott értékei megfelelnek a független változó bizonyos számú valószínűségi értékének. A kapcsolatot korrelációnak nevezzük, ha a faktorattribútum minden értéke megfelel az eredő attribútum egy jól meghatározott nem véletlenszerű értékének.
A korrelációs mező a korrelációs táblázat vizuális ábrázolásaként szolgál. Ez egy grafikon, ahol az X értékeket az abszcissza tengelyen, az Y értékeket az ordináta tengelyen, az X és Y kombinációit pedig pontok jelzik. A kapcsolat megléte a a pontokat.
Tömörségjelzők lehetővé teszik az eredményül kapott tulajdonság variációjának a vonás-tényező változásától való függésének jellemzését.
Jobb mutató a tömítettség mértékére korreláció van lineáris korrelációs együttható. Ennek a mutatónak a kiszámításakor nemcsak az attribútum egyedi értékeinek átlagtól való eltérését veszik figyelembe, hanem ezen eltérések nagyságát is.

A témakör kulcskérdései az effektív jellemző és a magyarázó változó közötti regressziós kapcsolat egyenletei, a módszer legkisebb négyzetek a regressziós modell paramétereinek értékelése, a kapott regressziós egyenlet minőségének elemzése, konfidenciaintervallumok felépítése a regressziós egyenlet szerinti eredő jellemző értékeinek előrejelzésére.

2. példa

Normálegyenletrendszer.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Adataink esetében az egyenletrendszernek van formája
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Az első egyenletből fejezzük ki Aés behelyettesítjük a második egyenletbe:
Azt kapjuk, hogy b = -3,46, a = 1379,33
Regressziós egyenlet:
y = -3,46 x + 1379,33

2. A regressziós egyenlet paramétereinek kiszámítása.
A minta azt jelenti.

Minta eltérések:

szórás

1.1. Korrelációs együttható
kovariancia.

Kiszámoljuk a kommunikáció szorosságának mutatóját. Egy ilyen mutató egy szelektív lineáris korrelációs együttható, amelyet a következő képlettel számítanak ki:

A lineáris korrelációs együttható –1 és +1 közötti értékeket vesz fel.
A jellemzők közötti kapcsolatok lehetnek gyengeek vagy erősek (szorosak). Kritériumaik értékelése a Chaddock-skálán történik:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Példánkban az Y jellemző és az X faktor közötti kapcsolat magas és inverz.
Ezenkívül a lineáris párkorrelációs együttható a b regressziós együtthatóval határozható meg:

1.2. Regressziós egyenlet(a regressziós egyenlet kiértékelése).

A lineáris regressziós egyenlet: y = -3,46 x + 1379,33

A b = -3,46 együttható az effektív mutató átlagos változását mutatja (y egységekben) az x tényező mértékegységenkénti értékének növekedésével vagy csökkenésével. Ebben a példában 1 egységnyi növekedéssel y átlagosan -3,46-tal csökken.
Az a = 1379,33 együttható formálisan mutatja y előrejelzett szintjét, de csak akkor, ha x=0 közel van a mintaértékekhez.
De ha x=0 messze van a minta x értékétől, akkor a szó szerinti értelmezés helytelen eredményekhez vezethet, és még ha a regressziós egyenes pontosan leírja a megfigyelt minta értékeit, nincs garancia arra, hogy ez is lesz balra vagy jobbra történő extrapoláció esetén.
Az x megfelelő értékeinek behelyettesítésével a regressziós egyenletben lehetőség nyílik az y(x) effektív mutató összehangolt (előre jelzett) értékeinek meghatározására minden egyes megfigyelésnél.
Az y és x közötti kapcsolat határozza meg a b regressziós együttható előjelét (ha > 0 - közvetlen kapcsolat, egyébként - inverz). Példánkban a kapcsolat fordított.
1.3. rugalmassági együttható.
Nem kívánatos a regressziós együtthatók használata (a b példában) a tényezők hatásos tulajdonságra gyakorolt hatásának közvetlen értékelésére abban az esetben, ha az y effektív mutató és az x faktorattribútum mértékegységei eltérnek.
Ebből a célból kiszámítják a rugalmassági együtthatókat és a béta együtthatókat.
Az átlagos E rugalmassági együttható azt mutatja meg, hogy az eredmény átlagosan hány százalékkal változik az összesítésben nál nél annak átlagértékétől a tényező megváltoztatásakor xátlagos értékének 1%-a.
A rugalmassági együtthatót a következő képlet határozza meg:

A rugalmassági együttható kisebb, mint 1. Ezért ha X 1%-kal változik, Y 1%-nál kisebb mértékben változik. Más szóval, X hatása Y-ra nem szignifikáns.
Béta együttható megmutatja, hogy a szórása értékének mekkora részével változik az effektív attribútum értéke átlagosan, ha a faktorattribútum szórásának értékével változik a fennmaradó független változók állandó szinten rögzített értékével:

Azok. x-nek az S x szórás értékével történő növelése Y átlagértékének 0,74 S y szórással történő csökkenéséhez vezet.
1.4. Közelítési hiba.
Értékeljük a regressziós egyenlet minőségét az abszolút közelítési hibával. Az átlagos közelítési hiba a számított értékek átlagos eltérése a tényleges értékektől:

Mivel a hiba kisebb, mint 15%, ez az egyenlet regresszióként használható.
Diszperziós elemzés.
A varianciaanalízis feladata a függő változó varianciájának elemzése:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Ahol
∑(y i - y cp) 2 - az eltérések négyzetes összege;
∑(y(x) - y cp) 2 - a regresszióból adódó eltérések négyzetes összege ("magyarázott" vagy "tényezős");
∑(y - y(x)) 2 - az eltérések négyzetes maradék összege.
Elméleti korrelációs arány mert egy lineáris összefüggés egyenlő az r xy korrelációs együtthatóval.
A függőség bármely formája esetén a csatlakozás szorosságát a segítségével határozzuk meg többszörös korrelációs együttható:

Ez az együttható univerzális, mivel tükrözi a kapcsolat szorosságát és a modell pontosságát, és a változók közötti bármilyen kapcsolatra is használható. Egytényezős korrelációs modell felépítésénél a többszörös korrelációs együttható egyenlő az r xy párkorrelációs együtthatóval.
1.6. Meghatározási együttható.
A (többszörös) korrelációs együttható négyzetét determinációs koefficiensnek nevezzük, amely azt mutatja meg, hogy az eredő attribútum variációja mekkora hányadát magyarázza a faktorattribútum változása.
Leggyakrabban százalékban fejezik ki a determinációs együttható értelmezését.
R 2 = -0,74 2 \u003d 0,5413
azok. az esetek 54,13%-ában x változása y változásához vezet. Más szóval, a regressziós egyenlet kiválasztásának pontossága átlagos. Az Y változás fennmaradó 45,87%-a olyan tényezőknek köszönhető, amelyeket a modell nem vett figyelembe.

Bibliográfia

Ökonometria: Tankönyv / Szerk. I.I. Eliseeva. - M.: Pénzügy és statisztika, 2001, p. 34..89.
Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ökonometria. Kezdő tanfolyam. oktatóanyag. - 2. kiadás, Rev. – M.: Delo, 1998, p. 17..42.
Workshop az ökonometriáról: Proc. pótlék / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko és mások; Szerk. I.I. Eliseeva. - M.: Pénzügy és statisztika, 2001, p. 5..48.

Az elméleti regressziós egyenes egyenletének meghatározása után számszerűsíteni kell a két megfigyelési sorozat közötti kapcsolat szorosságát. ábrán megrajzolt regressziós egyenesek. A 4.1, b, c, azonosak, de a 4.1. 4.1, b, a pontok sokkal közelebb (közelebb) vannak a regressziós egyeneshez, mint az 1. ábrán. 4.1, c.

A korrelációs elemzés feltételezi, hogy a faktorok és válaszok véletlenszerűek, és betartják a normál eloszlási törvényt.

A valószínűségi változók közötti kapcsolat szorosságát a pxy korrelációs arány jellemzi. Nézzük meg részletesebben ennek a mutatónak a fizikai jelentését. Ennek érdekében új fogalmakat vezetünk be.

Maradék diszperzió

a megfigyelt pontok a regressziós egyeneshez képest, és az y paraméter regressziós egyenlet szerinti előrejelzésének hibáját jelzi (4.6. ábra):

s2=f)