Regresní závěry. Korelační-regresní analýza v Excelu: instrukce provedení


Co je regrese?

Uvažujme dvě spojité proměnné x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Umístíme body na 2D bodový graf a řekněme, že máme lineární vztah pokud jsou údaje osazeny přímkou.

Pokud tomu věříme y záleží na X a změny v y jsou způsobeny právě změnami v X, můžeme definovat regresní přímku (regres y na X), který nejlépe popisuje přímý vztah mezi těmito dvěma proměnnými.

Statistické použití slova „regrese“ pochází z fenoménu známého jako regrese k průměru, připisovaného siru Francisi Galtonovi (1889).

Ukázal, že ačkoli vysocí otcové mívají vysoké syny, průměrná výška synů je menší než u jejich vysokých otců. Průměrná výška synů se „vrátila“ a „obrátila“ na průměrnou výšku všech otců v populaci. Vysocí otcové tak mají v průměru nižší (ale stále vysoké) syny a nižší otcové vyšší (ale stále spíše nízké) syny.

Regresní linie

Matematická rovnice, která odhaduje jednoduchou (párovou) lineární regresní přímku:

X nazývaná nezávislá proměnná nebo prediktor.

Y- závislá proměnná nebo proměnná odezvy. To je hodnota, kterou očekáváme y(v průměru), pokud známe hodnotu X, tj. tato „předpokládaná hodnota y»

  • A- volný člen (průsečík) posuzovací linie; tuto hodnotu Y, když x = 0(Obr. 1).
  • b- sklon nebo sklon hodnocené linie; představuje částku, o kterou Y se v průměru zvýší, pokud zvýšíme X o jednu jednotku.
  • A a b se nazývají regresní koeficienty odhadované přímky, i když se tento termín často používá pouze pro b.

Párová lineární regrese může být rozšířena tak, aby zahrnovala více než jednu nezávislou proměnnou; v tomto případě je znám jako vícenásobná regrese.

Obr. 1. Lineární regresní čára znázorňující průsečík a a sklon b (množství Y, když se x zvyšuje o jednu jednotku)

Metoda nejmenších čtverců

Provádíme regresní analýzu pomocí vzorku pozorování kde A a b- výběrové odhady skutečných (obecných) parametrů α a β, které určují lineární regresní přímku v populaci (obecné populaci).

Většina jednoduchá metoda stanovení koeficientů A a b je metoda nejmenších čtverců(OLS).

Přizpůsobení se odhadne zvážením zbytků (vertikální vzdálenost každého bodu od čáry, např. zbytkový = pozorovaný y- předpovězeno y, Rýže. 2).

Nejvhodnější čára je zvolena tak, aby součet druhých mocnin reziduí byl minimální.

Rýže. 2. Lineární regresní čára se znázorněnými rezidui (svislé přerušované čáry) pro každý bod.

Předpoklady lineární regrese

Pro každou pozorovanou hodnotu se tedy reziduum rovná rozdílu a odpovídající predikované hodnotě.Každý zbytek může být kladný nebo záporný.

Rezidua můžete použít k testování následujících předpokladů, které jsou základem lineární regrese:

  • Zůstatky jsou normálně rozděleny s nulovým průměrem;

Pokud jsou předpoklady linearity, normality a/nebo konstantního rozptylu pochybné, můžeme transformovat nebo a vypočítat nový řádek regrese, pro kterou jsou tyto předpoklady splněny (například použít logaritmickou transformaci atd.).

Abnormální hodnoty (odlehlé hodnoty) a body vlivu

Pokud je "vlivné" pozorování vynecháno, změní jeden nebo více odhadů parametrů modelu (tj. sklon nebo průsečík).

Odlehlá hodnota (pozorování, které je v rozporu s většinou hodnot v datové sadě) může být „vlivným“ pozorováním a lze ji dobře vizuálně detekovat při pohledu z 2D bodového grafu nebo zbytkového grafu.

Jak pro odlehlé hodnoty, tak pro „vlivná“ pozorování (body) se používají modely s nimi i bez nich a věnují pozornost změně odhadu (regresní koeficienty).

Při provádění analýzy automaticky nezahazujte odlehlé hodnoty nebo ovlivňující body, protože jednoduché ignorování může ovlivnit získané výsledky. Vždy prozkoumejte a analyzujte příčiny těchto odlehlých hodnot.

Hypotéza lineární regrese

Při konstrukci lineární regrese se testuje nulová hypotéza, že obecný sklon regresní přímky β je roven nule.

Pokud je sklon přímky nulový, neexistuje lineární vztah mezi a: změna nemá vliv

Chcete-li otestovat nulovou hypotézu, že skutečný sklon je nulový, můžete použít následující algoritmus:

Vypočítejte statistiku kritéria rovnající se poměru, který se řídí rozdělením se stupni volnosti, kde standardní chyba součinitel


,

- odhad rozptylu reziduí.

Pokud je dosažená hladina významnosti nulová hypotéza, je obvykle zamítnuta.


kde je procentní bod rozdělení se stupni volnosti, který udává pravděpodobnost oboustranného testu

Toto je interval, který obsahuje obecný sklon s 95% pravděpodobností.

Pro velké vzorky řekněme, že můžeme aproximovat s hodnotou 1,96 (to znamená, že statistika kritéria bude mít tendenci k normálnímu rozdělení)

Hodnocení kvality lineární regrese: koeficient determinace R 2

Kvůli lineárnímu vztahu a my očekáváme, že se bude měnit, jak se mění a nazýváme tuto variaci, která je způsobena nebo vysvětlena regresí. Zbytková odchylka by měla být co nejmenší.

Pokud je tomu tak, pak většina variací bude způsobena regresí a body budou ležet blízko regresní přímky, tzn. řádek dobře odpovídá údajům.

Podíl celkového rozptylu, který je vysvětlen regresí, se nazývá koeficient determinace, obvykle vyjádřeno v procentech a označovat R 2(v párové lineární regresi je to hodnota r 2, druhá mocnina korelačního koeficientu), umožňuje subjektivně posoudit kvalitu regresní rovnice.

Rozdíl je procento rozptylu, které nelze vysvětlit regresí.

Neexistuje žádný formální test k vyhodnocení, musíme se spolehnout na subjektivní úsudek, abychom určili kvalitu proložení regresní přímky.

Použití regresní přímky na prognózu

Regresní přímku můžete použít k předpovědi hodnoty z hodnoty v pozorovaném rozsahu (nikdy extrapolovat mimo tyto limity).

Předpovídáme průměr pro pozorovatelné veličiny, které mají určitou hodnotu, tím, že tuto hodnotu zapojíme do rovnice regresní přímky.

Pokud tedy předpovídáme, jak použijeme tuto předpokládanou hodnotu a její standardní chybu k odhadu intervalu spolehlivosti pro skutečný průměr v populaci.

Opakováním tohoto postupu pro různá množství umožňuje vytvořit hranice důvěry pro tuto linii. Toto je pásmo nebo oblast, která obsahuje skutečnou čáru, například s 95% úrovní spolehlivosti.

Jednoduché regresní návrhy

Jednoduché regresní návrhy obsahují jeden spojitý prediktor. Pokud existují 3 případy s hodnotami prediktoru P, například 7, 4 a 9, a návrh zahrnuje efekt prvního řádu P, pak bude mít matice návrhu X tvar

a regresní rovnice používající P pro X1 vypadá takto

Y = b0 + b1 P

Pokud jednoduchý regresní návrh obsahuje efekt vyššího řádu na P, jako je kvadratický efekt, pak hodnoty ve sloupci X1 v matici návrhu budou zvýšeny na druhou mocninu:

a rovnice má tvar

Y = b0 + b1 P2

Sigma-omezené a přeparametrizované kódovací metody se nevztahují na jednoduché regresní návrhy a jiné návrhy obsahující pouze spojité prediktory (protože kategorické prediktory prostě neexistují). Bez ohledu na zvolenou metodu kódování jsou hodnoty spojitých proměnných zvýšeny do příslušné míry a použity jako hodnoty pro proměnné X. V tomto případě se žádné překódování neprovádí. Navíc při popisu regresních návrhů můžete vynechat zohlednění návrhové matice X a pracovat pouze s regresní rovnicí.

Příklad: Jednoduchá regresní analýza

Tento příklad používá data uvedená v tabulce:

Rýže. 3. Tabulka výchozích údajů.

Data sestavená ze srovnání sčítání v roce 1960 a 1970 v náhodně vybraných 30 okresech. Názvy okresů jsou uvedeny jako názvy pozorování. Informace o každé proměnné jsou uvedeny níže:

Rýže. 4. Tabulka specifikací proměnných.

Výzkumný úkol

V tomto příkladu bude analyzována korelace mezi mírou chudoby a mírou chudoby, která předpovídá procento rodin, které jsou pod hranicí chudoby. Proto budeme s proměnnou 3 (Pt_Poor) zacházet jako se závislou proměnnou.

Lze předpokládat, že populační změna a procento rodin pod hranicí chudoby spolu souvisí. Zdá se rozumné očekávat, že chudoba vede k odlivu populace, a proto bude existovat negativní korelace mezi procentem lidí pod hranicí chudoby a změnou populace. Proto budeme s proměnnou 1 (Pop_Chng) zacházet jako s proměnnou prediktoru.

Zobrazení výsledků

Regresní koeficienty

Rýže. 5. Regresní koeficienty Pt_Poor na Pop_Chng.

Na průsečíku řádku Pop_Chng a řádku Param. nestandardizovaný koeficient pro regresi Pt_Poor na Pop_Chng je -0,40374. To znamená, že na každou jednotku poklesu populace připadá 40 374 zvýšení míry chudoby. Horní a dolní (výchozí) 95% meze spolehlivosti pro tento nestandardizovaný koeficient nezahrnují nulu, takže regresní koeficient je významný na úrovni p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Rozdělení proměnných

Korelační koeficienty mohou být výrazně nadhodnoceny nebo podhodnoceny, pokud jsou v datech velké odlehlé hodnoty. Podívejme se na rozdělení závislé proměnné Pt_Poor podle okresů. Chcete-li to provést, vytvořte histogram proměnné Pt_Poor.

Rýže. 6. Histogram proměnné Pt_Poor.

Jak vidíte, rozdělení této proměnné se výrazně liší od normálního rozdělení. I když však i dva kraje (dva pravé sloupce) mají vyšší procento domácností pod hranicí chudoby, než se očekávalo z normálního rozdělení, zdá se, že jsou „v rozmezí“.

Rýže. 7. Histogram proměnné Pt_Poor.

Tento úsudek je poněkud subjektivní. Obecně platí, že odlehlé hodnoty by měly být zohledněny, pokud pozorování (nebo pozorování) nespadají do intervalu (průměr ± 3násobek standardní odchylky). V tomto případě stojí za to zopakovat analýzu s odlehlými hodnotami a bez nich, aby se zajistilo, že nebudou mít významný vliv na korelaci mezi členy populace.

Bodový diagram

Pokud je jedna z hypotéz a priori o vztahu mezi danými proměnnými, pak je užitečné si ji ověřit na grafu odpovídajícího bodového grafu.

Rýže. 8. Bodový diagram.

Bodový graf ukazuje jasnou negativní korelaci (-0,65) mezi těmito dvěma proměnnými. Ukazuje také 95% interval spolehlivosti pro regresní křivku, to znamená, že s 95% pravděpodobností regresní přímka spadá mezi dvě přerušované křivky.

Kritéria významnosti

Rýže. 9. Tabulka obsahující kritéria významnosti.

Kritérium pro regresní koeficient Pop_Chng potvrzuje, že Pop_Chng silně souvisí s Pt_Poor, p<.001 .

Výsledek

Tento příklad ukázal, jak analyzovat jednoduchý regresní návrh. Prezentována byla také interpretace nestandardizovaných a standardizovaných regresních koeficientů. Je diskutován význam studia distribuce odpovědí závislé proměnné a je demonstrována technika pro určení směru a síly vztahu mezi prediktorem a závislou proměnnou.

V předchozích příspěvcích byla analýza často zaměřena na jedinou číselnou proměnnou, jako jsou výnosy podílových fondů, doba načítání webových stránek nebo spotřeba nealkoholických nápojů. V této a následujících poznámkách zvážíme metody předpovídání hodnot číselné proměnné v závislosti na hodnotách jedné nebo více dalších číselných proměnných.

Materiál bude ilustrován průřezovým příkladem. Prognóza objemu prodeje v obchodě s oblečením. Síť diskontních obchodů s oblečením Sunflowers se již 25 let neustále rozšiřuje. Společnost však v současné době nemá systematický přístup k výběru nových provozoven. Místo, kde společnost hodlá otevřít novou prodejnu, se určuje na základě subjektivních úvah. Kritériem výběru jsou výhodné podmínky pronájmu nebo představa manažera o ideálním umístění prodejny. Představte si, že jste vedoucím oddělení speciálních projektů a plánování. Dostali jste za úkol vypracovat strategický plán pro otevírání nových obchodů. Tento plán by měl obsahovat předpověď ročních tržeb nově otevřených prodejen. Domníváte se, že prodejní prostor přímo souvisí s výší tržeb a chcete tuto skutečnost zohlednit při svém rozhodování. Jak vytvoříte statistický model, který předpovídá roční tržby na základě velikosti nové prodejny?

Regresní analýza se obvykle používá k predikci hodnot proměnné. Jeho cílem je vyvinout statistický model, který předpovídá hodnoty závislé proměnné nebo odezvy z hodnot alespoň jedné nezávislé nebo vysvětlující proměnné. V tomto příspěvku se podíváme na jednoduchou lineární regresi, statistickou techniku, která předpovídá hodnoty závislé proměnné. Y hodnotami nezávisle proměnné X... Následující poznámky budou popisovat vícenásobný regresní model určený k predikci hodnot nezávislé proměnné Y hodnotami několika závislých proměnných ( X 1, X 2, ..., X k).

Stáhněte si poznámku ve formátu nebo, příklady ve formátu

Typy regresních modelů

kde ρ 1 - autokorelační koeficient; -li ρ 1 = 0 (žádná autokorelace), D≈ 2; -li ρ 1 ≈ 1 (pozitivní autokorelace), D= 0; -li ρ 1 = -1 (negativní autokorelace), D ≈ 4.

V praxi je aplikace Durbin-Watsonova testu založena na porovnání hodnoty D s kritickými teoretickými hodnotami d L a d U pro daný počet pozorování n, počet nezávislých proměnných modelu k(pro jednoduchou lineární regresi k= 1) a hladina významnosti α. Li D< d L , hypotéza nezávislosti náhodných odchylek je zamítnuta (proto existuje pozitivní autokorelace); -li D> d U, hypotéza není zamítnuta (tj. neexistuje autokorelace); -li d L< D < d U , neexistuje dostatečný podklad pro přijetí rozhodnutí. Když vypočtená hodnota D přesahuje 2, pak s d L a d U není porovnáván samotný koeficient D a výraz (4 - D).

Pro výpočet Durbin-Watsonovy statistiky v Excelu se podívejme na spodní tabulku na Obr. 14 Odebrání zbytku... Čitatel ve výrazu (10) se vypočítá pomocí funkce = SUMKVRAZN (pole1; pole2) a jmenovatel = SUMKV (pole) (obr. 16).

Rýže. 16. Vzorce pro výpočet Durbin-Watsonovy statistiky

V našem příkladu D= 0,883. Hlavní otázka zní – jakou hodnotu Durbin-Watsonovy statistiky bychom měli považovat za dostatečně malou na to, abychom dospěli k závěru, že existuje pozitivní autokorelace? Je nutné korelovat hodnotu D s kritickými hodnotami ( d L a d U) v závislosti na počtu pozorování n a hladina významnosti α (obr. 17).

Rýže. 17. Kritické hodnoty statistiky Durbin-Watson (fragment tabulky)

V problému objemu prodeje v obchodě s rozvozem domů tedy existuje jedna nezávislá proměnná ( k= 1), 15 pozorování ( n= 15) a hladina významnosti α = 0,05. Proto, d L= 1,08 a dU= 1,36. Pokud D = 0,883 < d L= 1,08, mezi rezidui je pozitivní autokorelace, nelze použít metodu nejmenších čtverců.

Testování hypotézy sklonu a korelace

Výše uvedená regrese byla použita pouze pro prognózování. Stanovit regresní koeficienty a predikovat hodnotu proměnné Y pro danou hodnotu proměnné X byla použita metoda nejmenších čtverců. Kromě toho jsme se podívali na střední kvadraturu chyby odhadu a smíšený korelační koeficient. Pokud analýza reziduí potvrdí, že podmínky použitelnosti metody nejmenších čtverců nejsou porušeny a jednoduchý lineární regresní model je na základě výběrových dat přiměřený, lze tvrdit, že mezi proměnnými v obecné rovině existuje lineární vztah. populace.

aplikacet - kritérium pro sklon. Kontrolou, zda je sklon populace β 1 roven nule, lze určit, zda existuje statisticky významný vztah mezi proměnnými X a Y... Pokud je tato hypotéza zamítnuta, lze tvrdit, že mezi proměnnými X a Y existuje lineární vztah. Nulová a alternativní hypotéza jsou formulovány následovně: H 0: β 1 = 0 (neexistuje lineární závislost), H1: β 1 ≠ 0 (existuje lineární závislost). Podle definice t-statistika se rovná rozdílu mezi sklonem vzorku a hypotetickým sklonem populace děleným střední kvadraturou chyby odhadu sklonu:

(11) t = (b 1 β 1 ) / S b 1

kde b 1 Je sklon regresní přímky založen na vzorových datech, β1 je hypotetický sklon přímky obecné populace, a statistiky testu t Má to t- distribuce s n - 2 stupně svobody.

Zkontrolujme, zda existuje statisticky významný vztah mezi velikostí prodejny a ročním obratem s α = 0,05. t-kritérium se při použití zobrazí spolu s dalšími parametry Balíček analýzy(volba Regrese). Kompletní výsledky Analysis Pack jsou uvedeny na Obr. 4, fragment související s t-statistikou je znázorněn na Obr. osmnáct.

Rýže. 18. Výsledky aplikace t

Vzhledem k počtu prodejen n= 14 (viz obr. 3), kritická hodnota t-statistiku na hladině významnosti α = 0,05 lze zjistit vzorcem: t L= STUDENT.OBR (0,025; 12) = –2,1788, kde 0,025 je polovina hladiny významnosti a 12 = n – 2; t U= STUDENT.OBR (0,975; 12) = +2,1788.

Pokud t-statistika = 10,64> t U= 2,1788 (obr. 19), nulová hypotéza H 0 odchyluje se. Na druhé straně, R- hodnota pro X= 10,6411, vypočteno podle vzorce = 1-STUDENT.DIST (D3; 12; TRUE), je přibližně rovno nule, takže hypotéza H 0 opět vybočuje. Skutečnost, že R-hodnota téměř rovna nule znamená, že pokud by neexistoval skutečný lineární vztah mezi velikostí prodejny a ročními tržbami, bylo by téměř nemožné ji detekovat pomocí lineární regrese. Mezi průměrnými ročními tržbami v prodejnách a jejich velikostí proto existuje statisticky významný lineární vztah.

Rýže. 19. Testování hypotézy o sklonu obecné populace na hladině významnosti 0,05 a 12 stupňů volnosti

aplikaceF - kritérium pro sklon. Alternativním přístupem k testování hypotéz sklonu jednoduché lineární regrese je použití F-kritérium. Odvolej to F-kritérium se používá k testování vztahu mezi dvěma rozptyly (viz podrobnosti). Při testování hypotézy sklonu je mírou náhodných chyb rozptyl chyb (součet čtverců chyb dělený počtem stupňů volnosti), proto F-kritérium používá poměr rozptylu vysvětlený regresí (tj SSR děleno počtem nezávislých proměnných k), k rozptylu chyb ( MSE = S YX 2 ).

Podle definice F-Statistika se rovná střední čtverci odchylky v důsledku regrese (MSR) dělené rozptylem chyby (MSE): F = MSR/ MSE, kde MSR =SSR / k, MSE =SSE/(n- k - 1), k- počet nezávislých proměnných v regresním modelu. Testovací statistiky F Má to F- distribuce s k a n- k - 1 stupně svobody.

Pro danou hladinu významnosti α je rozhodovací pravidlo formulováno takto: jestliže F> FU, nulová hypotéza je zamítnuta; jinak se neodmítá. Výsledky, prezentované ve formě souhrnné tabulky analýzy rozptylu, jsou uvedeny na Obr. dvacet.

Rýže. 20. Analýza rozptylové tabulky pro testování hypotézy o statistické významnosti regresního koeficientu

Rovněž t-kritérium F-kritérium se při použití zobrazí v tabulce Balíček analýzy(volba Regrese). Kompletní výsledky práce Balíček analýzy jsou znázorněny na Obr. 4, fragment související s F-statistika - na Obr. 21.

Rýže. 21. Výsledky aplikace F-kritéria získaná pomocí analytického balíčku Excel

Statistika F je 113,23 a R-hodnota blízká nule (buňka VýznamF). Je-li hladina významnosti α 0,05, určete kritickou hodnotu F-rozdělení s jedním a 12 stupni volnosti mohou být dána vzorcem F U= F. OBR (1-0,05; 1; 12) = 4,7472 (obr. 22). Pokud F = 113,23 > F U= 4,7472 a R-hodnota blízká 0< 0,05, нулевая гипотеза H 0 odchyluje, tzn. velikost obchodu úzce souvisí s jeho ročními tržbami.

Rýže. 22. Testování hypotézy o sklonu obecné populace na hladině významnosti 0,05, s jedním a 12 stupni volnosti

Interval spolehlivosti obsahující sklon β 1. Chcete-li otestovat hypotézu o existenci lineárního vztahu mezi proměnnými, můžete sestavit interval spolehlivosti obsahující sklon β 1 a ujistit se, že hypotetická hodnota β 1 ​​= 0 patří do tohoto intervalu. Střed intervalu spolehlivosti obsahující sklon β 1 je sklon vzorku b 1 a jeho hranicemi jsou množství b 1 ±t n –2 S b 1

Jak je znázorněno na Obr. osmnáct, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 = STUDENT.OBR (0,975; 12) = 2,1788. Proto, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 nebo + 1,328 ≤ β1 ≤ +2,012. Sklon obecné populace tedy s pravděpodobností 0,95 leží v rozmezí od +1,328 do +2,012 (tj. od 1 328 000 USD do 2 012 000 USD). Protože tyto hodnoty jsou větší než nula, existuje statisticky významný lineární vztah mezi ročním prodejem a plochou prodejny. Pokud by interval spolehlivosti obsahoval nulu, neexistovala by žádná závislost mezi proměnnými. Interval spolehlivosti navíc znamená, že každé zvýšení plochy prodejny o 1000 m2. stop vede ke zvýšení průměrného prodeje o 1 328 000 USD na 2 012 000 USD.

Používánít -kritérium pro korelační koeficient. byl zaveden korelační koeficient r, což je míra vztahu mezi dvěma číselnými proměnnými. Lze jej použít ke zjištění, zda existuje statisticky významný rozdíl mezi dvěma proměnnými. smysluplné spojení... Označme korelační koeficient mezi obecnými populacemi obou proměnných symbolem ρ. Nulová a alternativní hypotéza jsou formulovány takto: H 0: ρ = 0 (žádná korelace), H 1: ρ ≠ 0 (existuje korelace). Kontrola existence korelace:

kde r = + , pokud b 1 > 0, r = – , pokud b 1 < 0. Тестовая статистика t Má to t- distribuce s n - 2 stupně svobody.

V problému o obchodním řetězci Slunečnice r 2= 0,904 a b 1- +1,670 (viz obr. 4). Pokud b 1> 0, korelační koeficient mezi ročním obratem a velikostí prodejny je r= + √0,904 = +0,951. Zkontrolujte nulovou hypotézu, že mezi těmito proměnnými neexistuje žádná korelace t-statistika:

Na hladině významnosti α = 0,05 by měla být nulová hypotéza zamítnuta, protože t= 10,64 > 2,1788. Lze tedy tvrdit, že mezi ročními tržbami a velikostí prodejny existuje statisticky významný vztah.

Intervaly spolehlivosti a kritéria pro testování hypotéz se při diskusi o závěrech o sklonu populace používají zaměnitelně. Výpočet intervalu spolehlivosti obsahující korelační koeficient se však ukazuje být více než obtížné podnikání od podoby vzorového rozdělení statistik r závisí na skutečném korelačním koeficientu.

Odhad matematického očekávání a predikce jednotlivých hodnot

Tato část pojednává o metodách hodnocení očekávané odezvy Y a predikce jednotlivých hodnot Y při daných hodnotách proměnné X.

Budování intervalu spolehlivosti. V příkladu 2 (viz výše část Metoda nejmenších čtverců) regresní rovnice umožnila předpovědět hodnotu proměnné Y X... Při problému výběru místa pro maloobchodní prodejnu je průměrný roční prodej v obchodě o rozloze 4000 m2. stop se rovnal 7,644 milionům dolarů. Tento odhad matematického očekávání obecné populace je však bodový. pro posouzení matematického očekávání obecné populace byl navržen koncept intervalu spolehlivosti. Podobně můžeme představit koncept interval spolehlivosti pro očekávanou odpověď pro danou hodnotu proměnné X:

kde , = b 0 + b 1 X i- předpokládaná hodnota je proměnná Y na X = X i, S YX- střední kvadratická chyba, n- velikost vzorku, Xi- nastavená hodnota proměnné X, µ Y|X = Xi- matematické očekávání proměnné Y na X = X i, SSX =

Analýza vzorce (13) ukazuje, že šířka intervalu spolehlivosti závisí na několika faktorech. Na dané hladině významnosti vede zvýšení amplitudy oscilací kolem regresní přímky, měřené pomocí střední kvadratické chyby, ke zvětšení šířky intervalu. Na druhou stranu je podle očekávání nárůst velikosti vzorku doprovázen zúžením intervalu. Šířka intervalu se navíc mění v závislosti na hodnotách Xi... Pokud je hodnota proměnné Y předpovídané pro množství X blízko průměru interval spolehlivosti se ukazuje být užší než při předpovídání odezvy pro hodnoty daleko od průměru.

Řekněme, že při výběru místa pro prodejnu chceme vykreslit 95% interval spolehlivosti pro průměrné roční tržby pro všechny prodejny o rozloze 4000 m2. chodidla:

V důsledku toho jsou průměrné roční tržby ve všech prodejnách o rozloze 4 000 metrů čtverečních. stop, s 95% pravděpodobností leží v rozmezí od 6,971 do 8,317 milionů dolarů.

Výpočet intervalu spolehlivosti pro předpokládanou hodnotu. Kromě intervalu spolehlivosti pro matematické očekávání odezvy při dané hodnotě proměnné X, je často nutné znát interval spolehlivosti pro predikovanou hodnotu. Navzdory skutečnosti, že vzorec pro výpočet tohoto intervalu spolehlivosti je velmi podobný vzorci (13), tento interval obsahuje predikovanou hodnotu, nikoli odhad parametru. Předpokládaný interval odezvy YX = Xi na konkrétní hodnotě proměnné Xi určeno vzorcem:

Předpokládejme, že při výběru místa pro prodejnu chceme vykreslit 95% interval spolehlivosti pro předpokládaný roční prodej pro prodejnu o rozloze 4000 m2. chodidla:

Proto předpokládaný roční objem prodeje pro prodejnu o rozloze 4000 m2. stop, s 95% pravděpodobností leží v rozmezí od 5,433 do 9,854 milionů dolarů Jak můžete vidět, interval spolehlivosti pro předpokládanou hodnotu odezvy je mnohem širší než interval spolehlivosti pro její matematické očekávání. Je to dáno tím, že variabilita v predikci jednotlivých hodnot je mnohem větší než při posuzování matematického očekávání.

Úskalí a etické problémy s regresí

Potíže s regresní analýzou:

  • Ignorování podmínek použitelnosti metody nejmenších čtverců.
  • Chybné posouzení podmínek použitelnosti metody nejmenších čtverců.
  • Špatný výběr alternativních metod při porušení podmínek použitelnosti metody nejmenších čtverců.
  • Aplikace regresní analýzy bez hluboké znalosti předmětu zkoumání.
  • Extrapolace regrese za rozsah vysvětlující proměnné.
  • Záměna statistických a kauzálních vztahů.

Široké rozšíření tabulek a software pro statistické výpočty eliminovaly výpočetní problémy, které bránily použití regresní analýzy. To však vedlo k tomu, že uživatelé, kteří neměli dostatečnou kvalifikaci a znalosti, začali používat regresní analýzu. Jak se uživatelé dozvědí o alternativních metodách, když řada z nich nemá vůbec ponětí o podmínkách použitelnosti metody nejmenších čtverců a neví, jak si jejich implementaci ověřit?

Výzkumník by se neměl nechat unést přesnými čísly – výpočtem posunu, sklonu a smíšeného korelačního koeficientu. Potřebuje hlubší znalosti. Ukažme si to na klasickém příkladu z učebnic. Anscombe ukázal, že všechny čtyři datové sady zobrazené na Obr. 23 mají stejné regresní parametry (obr. 24).

Rýže. 23. Čtyři sady umělých dat

Rýže. 24. Regresní analýza čtyř umělých datových souborů; hotovo Balíček analýzy(kliknutím na obrázek se obrázek zvětší)

Z hlediska regresní analýzy jsou tedy všechny tyto datové sady zcela totožné. Pokud by analýza skončila, přišli bychom o hodně. užitečné informace... To dokazují bodové grafy (obrázek 25) a zbytkové grafy (obrázek 26) vynesené pro tyto soubory dat.

Rýže. 25. Bodové grafy pro čtyři datové sady

Bodové grafy a reziduální grafy ukazují, že se tyto údaje od sebe liší. Jedinou množinou rozmístěnou podél přímky je množina A. Graf reziduí vypočítaný ze množiny A nemá žádnou pravidelnost. Totéž nelze říci o sadách B, C a D. Bodový graf založený na sadě B ukazuje výrazný kvadratický model. Tento závěr potvrzuje graf reziduí, který má parabolický tvar. Bodový graf a graf zbytků ukazují, že datová sada B obsahuje odlehlou hodnotu. V této situaci je nutné vyloučit z datové sady odlehlou hodnotu a zopakovat analýzu. Technika pro detekci a eliminaci odlehlých hodnot z pozorování se nazývá analýza dopadu. Po odstranění odlehlé hodnoty může být výsledek přehodnocení modelu zcela odlišný. Bodový graf z datové sady D ilustruje neobvyklou situaci, ve které je empirický model vysoce závislý na individuální reakci ( X 8 = 19, Y 8 = 12,5). Takové regresní modely musí být vypočítávány zvláště pečlivě. Takže rozptylové a zbytkové grafy jsou extrémně potřebný nástroj regresní analýzy a měla by být její nedílnou součástí. Bez nich je regresní analýza nedůvěryhodná.

Rýže. 26. Grafy reziduí pro čtyři soubory dat

Jak se vyhnout nástrahám regresní analýzy:

  • Analýza možného vztahu mezi proměnnými X a Y vždy začněte vykreslením bodového grafu.
  • Před interpretací výsledků regresní analýzy zkontrolujte podmínky použitelnosti.
  • Vyneste rezidua versus nezávislá proměnná. To vám umožní určit, jak empirický model odpovídá výsledkům pozorování, a odhalit porušení konstanty rozptylu.
  • K testování předpokladu normální chyby použijte histogramy, grafy stonků a listů, krabicové grafy a grafy normální distribuce.
  • Pokud nejsou splněny podmínky pro metodu nejmenších čtverců, použijte alternativní metody (například kvadratické nebo vícenásobné regresní modely).
  • Pokud jsou splněny podmínky pro použitelnost metody nejmenších čtverců, je nutné testovat hypotézu o statistické významnosti regresních koeficientů a sestavit intervaly spolehlivosti obsahující matematické očekávání a predikovanou hodnotu odezvy.
  • Vyhněte se predikci hodnot závislé proměnné mimo rozsah nezávislé proměnné.
  • Mějte na paměti, že statistické vztahy nejsou vždy kauzální. Pamatujte, že korelace mezi proměnnými neznamená, že mezi nimi existuje kauzální vztah.

Souhrn. Jak ukazuje blokové schéma (obr. 27), poznámka popisuje jednoduchý lineární regresní model, podmínky jeho použitelnosti a způsob kontroly těchto podmínek. Považováno t-kritérium pro kontrolu statistické významnosti směrnice regrese. K predikci hodnot závislé proměnné byl použit regresní model. Příklad je považován za související s výběrem místa pro maloobchod, ve kterém je zkoumána závislost ročního objemu prodeje na ploše prodejny. Získané informace umožňují přesněji vybrat místo pro prodejnu a předvídat její roční tržby. V následujících poznámkách budeme pokračovat v diskusi o regresní analýze a také se podíváme na vícenásobné regresní modely.

Rýže. 27. Blokové schéma noty

Použité materiály knihy Levin a další statistiky pro manažery. - M .: Williams, 2004 .-- str. 792-872

Pokud je závislá proměnná kategorická, měla by se použít logistická regrese.

Regresní analýza zkoumá závislost určité veličiny na jiné veličině nebo několika dalších veličinách. Regresní analýza se používá především ve střednědobém předpovídání a také při dlouhodobém předpovídání. Střednědobá a dlouhodobá období umožňují identifikovat změny v podnikatelském prostředí a zohlednit dopad těchto změn na sledovaný ukazatel.

Chcete-li provést regresní analýzu, musíte:

    dostupnost ročních údajů o studovaných ukazatelích,

    dostupnost jednorázových předpovědí, tzn. takové předpovědi, které se s příchodem nových dat nezlepšují.

Regresní analýza se obvykle provádí pro objekty, které mají komplexní, multifaktoriální povahu, jako je objem investic, zisk, objem prodeje atd.

Na normativní prognostická metoda jsou určeny způsoby a termíny dosažení možných stavů jevu braných jako cíl. Jde o predikci dosažení žádoucích stavů jevu na základě předem stanovených norem, ideálů, pobídek a cílů. Taková předpověď odpovídá na otázku: jakými způsoby můžete dosáhnout toho, co chcete? Normativní metoda se častěji používá pro programové nebo cílené prognózy. Využívá se jak kvantitativní vyjádření normy, tak určitá škála schopností hodnotící funkce.

V případě použití kvantitativního vyjádření, např. fyziologických a racionálních norem spotřeby některých potravinářských a nepotravinářských výrobků, vypracovaných specialisty pro různé skupiny obyvatel, je možné určit míru spotřeby tohoto zboží za roky předcházející dosažení stanovené normy. Takové výpočty se nazývají interpolace. Interpolace je způsob výpočtu ukazatelů, které v dynamické řadě jevu chybí, na základě zjištěného vztahu. Vezmeme-li skutečnou hodnotu ukazatele a hodnotu jeho standardů pro extrémní členy dynamické řady, je možné určit hodnoty hodnot v rámci této řady. Proto je interpolace považována za normativní metodu. Výše uvedený vzorec (4), použitý při extrapolaci, lze použít při interpolaci, kde yn nebude charakterizovat aktuální data, ale standard indikátoru.

V případě použití škály (pole, spektra) schopností hodnotící funkce, tj. distribuční funkce preference, v normativní metodě udávají přibližně následující stupňování: nežádoucí - méně žádoucí - více žádoucí - nejvíce žádoucí - optimální (standardní).

Metoda normativního prognózování pomáhá vypracovat doporučení pro zvýšení úrovně objektivity, a tím i účinnosti rozhodnutí.

Modelování je možná nejobtížnější předpovědní metoda. Matematické modelování znamená popis ekonomického jevu pomocí matematických vzorců, rovnic a nerovnic. Matematický aparát by měl přesně odrážet pozadí předpovědi, i když je poměrně obtížné plně odrážet celou hloubku a složitost předpovídaného objektu. Termín „model“ je odvozen z latinského slova models, což znamená „měřit“. Proto by bylo správnější považovat modelování nikoli za metodu prognózování, ale za metodu studia podobného jevu na modelu.

V širokém slova smyslu se modely nazývají náhražky objektu výzkumu, které jsou mu v takové podobnosti, což umožňuje získat nové poznatky o objektu. Na model je třeba nahlížet jako na matematický popis objektu. Model je v tomto případě definován jako jev (objekt, postoj), který je v nějaké korespondenci se zkoumaným objektem a může jej nahradit v procesu výzkumu, prezentující informace o objektu.

Při užším chápání modelu je považován za objekt prognózování, jeho studium umožňuje získat informace o možných stavech objektu v budoucnu a způsobech, jak těchto stavů dosáhnout. V tomto případě je účelem prediktivního modelu získat informace nikoli o objektu obecně, ale pouze o jeho budoucích stavech. Při konstrukci modelu pak může být nemožné přímo zkontrolovat jeho shodu s objektem, protože model představuje pouze jeho budoucí stav a objekt samotný může v současné době chybět nebo mít jinou existenci.

Modely mohou být materiální a ideální.

Ideální modely se používají v ekonomii. Nejdokonalejším ideálním modelem pro kvantitativní popis socioekonomického (ekonomického) jevu je matematický model využívající čísla, vzorce, rovnice, algoritmy nebo grafické znázornění. Pomocí ekonomických modelů je určeno:

    závislost mezi různými ekonomickými ukazateli;

    různé druhy omezení uvalených na ukazatele;

    kritéria pro optimalizaci procesu.

Smysluplný popis objektu může být prezentován ve formě jeho formalizovaného schématu, které naznačuje, které parametry a počáteční informace je třeba shromáždit, aby bylo možné vypočítat požadované hodnoty. Matematický model, na rozdíl od formalizovaného schématu, obsahuje specifická numerická data charakterizující objekt.Vývoj matematického modelu do značné míry závisí na tom, jak prognostik rozumí podstatě modelovaného procesu. Na základě svých představ předkládá pracovní hypotézu, s jejíž pomocí se vytváří analytický záznam modelu v podobě vzorců, rovnic a nerovnic. V důsledku řešení soustavy rovnic jsou získány konkrétní parametry funkce, které popisují změnu hledaných proměnných v čase.

Pořadí a posloupnost prací jako prvek organizace prognózování je určována v závislosti na použité metodě prognózování. Obvykle se tato práce provádí v několika fázích.

1. etapa - retrospekce předpovědi, tedy ustavení předpovědního objektu a předpovědního pozadí. Práce v první fázi se provádějí v následujícím pořadí:

    vytvoření popisu objektu v minulosti, který zahrnuje prediktivní analýzu objektu, posouzení jeho parametrů, jejich významu a vzájemných vztahů,

    identifikace a hodnocení zdrojů informací, pořadí a organizace práce s nimi, sběr a umístění zpětných informací;

    prohlášení o cílech výzkumu.

Prognostici plnící úkoly prediktivní retrospekce zkoumají historii vývoje objektu a předpovědní pozadí, aby získali jejich systematizovaný popis.

2. etapa - prediktivní diagnostika, při které je zkoumán systematizovaný popis předpovědního objektu a pozadí předpovědi za účelem identifikace trendů jejich vývoje a výběru modelů a předpovědních metod. Práce se provádí v následujícím pořadí:

    vývoj modelu předpovědního objektu včetně formalizovaného popisu objektu, kontrola míry přiměřenosti modelu k objektu;

    výběr prognostických metod (hlavních a pomocných), vývoj algoritmu a pracovních programů.

3. etapa - ochrana, tj. proces rozsáhlého vývoje prognózy, zahrnující: 1) výpočet predikovaných parametrů pro dané období předstihu; 2) syntéza jednotlivých složek prognózy.

4. etapa - posouzení předpovědi včetně jejího ověření, t.j. stanovení míry spolehlivosti, přesnosti a platnosti.

V průběhu prospekce a hodnocení jsou na základě předchozích etap řešeny úkoly prognózy a jejího vyhodnocení.

Uvedené fáze jsou přibližné a závisí na hlavní metodě prognózování.

Výsledky prognózy jsou vypracovány ve formě certifikátu, zprávy nebo jiného materiálu a předloženy zákazníkovi.

Předpověď může indikovat odchylku předpovědi od skutečného stavu objektu, která se nazývá chyba předpovědi, která se vypočítá podle vzorce:

;
;
. (9.3)

Zdroje chyb v prognózách

Hlavní zdroje mohou být:

1. Jednoduchý přenos (extrapolace) dat z minulosti do budoucnosti (firma například nemá jiné možnosti prognózy, kromě 10% růstu tržeb).

2. Neschopnost přesně určit pravděpodobnost události a jejího dopadu na zkoumaný objekt.

3. Nepředvídané obtíže (destruktivní události) ovlivňující realizaci plánu, např. náhlé odvolání vedoucího obchodního oddělení.

Obecně se přesnost předpovědí zvyšuje s nahromaděním zkušeností s předpovědí a rozvojem jejích metod.

Hlavní účel regresní analýzy spočívá v určení analytické formy komunikace, ve které je změna efektivního znaku způsobena vlivem jednoho nebo více faktoriálních znaků a mnoho dalších faktorů, které ovlivňují také efektivní znak, jsou brány jako konstantní a průměrné hodnoty.
Úkoly regresní analýzy:
a) Ustavení formy závislosti. Pokud jde o povahu a formu vztahu mezi jevy, rozlišujte pozitivní lineární a nelineární a negativní lineární a nelineární regresi.
b) Určení regresní funkce ve formě matematické rovnice toho či onoho typu a stanovení vlivu vysvětlujících proměnných na závisle proměnnou.
c) Odhad neznámých hodnot závislé proměnné. Pomocí regresní funkce můžete reprodukovat hodnoty závislé proměnné v intervalu zadaných hodnot vysvětlujících proměnných (tj. vyřešit problém interpolace) nebo odhadnout tok procesu mimo zadaný interval (tj. problém extrapolace). Výsledkem je odhad hodnoty závislé proměnné.

Párová regrese je rovnice vztahu mezi dvěma proměnnými y a x:, kde y je závislá proměnná (efektivní ukazatel); x je nezávislá vysvětlující proměnná (faktor znaménka).

Rozlišujte lineární a nelineární regrese.
Lineární regrese: y = a + bx + ε
Nelineární regrese jsou rozděleny do dvou tříd: regrese, které jsou nelineární s ohledem na vysvětlující proměnné zahrnuté v analýze, ale lineární v odhadovaných parametrech, a regrese, které jsou nelineární v odhadovaných parametrech.
Nelineární regrese ve vysvětlujících proměnných:

Regrese, nelineární v odhadovaných parametrech: Konstrukce regresní rovnice je redukována na odhad jejích parametrů. K odhadu parametrů regresí, které jsou v parametrech lineární, použijte metodu nejmenších čtverců (OLS). OLS umožňuje získat takové odhady parametrů, pro které je součet čtverců odchylek skutečných hodnot efektivního atributu y od teoretických minimální, tzn.
.
Pro lineární a nelineární rovnice, které lze redukovat na lineární, je s ohledem na a a b řešen následující systém:

Můžete použít hotové vzorce, které vyplývají z tohoto systému:

Těsnost souvislosti studovaných jevů se odhaduje pomocí lineárního koeficientu párové korelace pro lineární regresi:

a korelační index - pro nelineární regresi:

Hodnocení kvality sestrojeného modelu bude dáno koeficientem (indexem) determinace a také průměrnou aproximační chybou.
Průměrná chyba aproximace je průměrná odchylka vypočtených hodnot od skutečných:
.
Přípustný limit hodnot není větší než 8-10%.
Průměrný koeficient elasticity ukazuje, o kolik procent v průměru v populaci se změní výsledek y od své průměrné hodnoty, když se faktor x změní o 1 % od své průměrné hodnoty:
.

Analýza rozptylu je zaměřena na analýzu rozptylu závislé proměnné:
,
kde je celkový součet druhých mocnin odchylek;
- součet čtverců odchylek v důsledku regrese ("vysvětlené" nebo "faktoriální");
- zbytkový součet čtverců odchylek.
Podíl rozptylu vysvětleného regresí na celkovém rozptylu efektivního atributu y charakterizuje koeficient (index) determinace R 2:

Koeficient determinace - druhá mocnina koeficientu nebo korelačního indexu.

F-test - hodnocení kvality regresní rovnice - spočívá v testování hypotézy Ale o statistické nevýznamnosti regresní rovnice a indikátoru těsnosti spoje. Za tímto účelem je provedeno srovnání mezi skutečným F faktem a kritickou (tabulkovou) F tabulkou hodnot F-Fisherova testu. F fact se určí z poměru hodnot faktoriálu a zbytkových rozptylů, vypočítaných pro jeden stupeň volnosti:
,
kde n je počet jednotek v populaci; m je počet parametrů pro proměnné x.
F tabulka je maximální možná hodnota kritéria pod vlivem náhodných faktorů pro dané stupně volnosti a hladinu významnosti a. Úroveň významnosti a je pravděpodobnost zamítnutí správné hypotézy za předpokladu, že je správná. Obvykle se a považuje za rovné 0,05 nebo 0,01.
Pokud F tab< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fakt, pak hypotéza H o není zamítnuta a je uznána statistická nevýznamnost, nespolehlivost regresní rovnice.
Pro posouzení statistické významnosti regresních a korelačních koeficientů je vypočítán Studentův t-test a intervaly spolehlivosti pro každý z ukazatelů. Předkládá se hypotéza H o náhodné povaze indikátorů, tzn. o jejich nepatrném rozdílu od nuly. Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova t-testu se provádí porovnáním jejich hodnot s velikostí náhodné chyby:
; ; .
Náhodné chyby parametrů lineární regrese a korelačního koeficientu jsou určeny vzorcem:



Porovnáním skutečných a kritických (tabulkových) hodnot t-statistiky - t table a t fact - přijímáme nebo odmítáme hypotézu H o.
Vztah mezi Fisherovým F-testem a Studentovou t-statistikou je vyjádřen rovností

Pokud t tab< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t skutečnost, že hypotéza H o není zamítnuta a je rozpoznána náhodná povaha vzniku a, b nebo.
Pro výpočet intervalu spolehlivosti určíme mezní chybu D pro každý indikátor:
, .
Vzorce pro výpočet intervalů spolehlivosti jsou následující:
; ;
; ;
Pokud nula spadá do intervalu spolehlivosti, tzn. dolní mez je záporná a horní mez kladná, pak se odhadovaný parametr považuje za nulový, protože nemůže současně nabývat kladných i záporných hodnot.
Predikovaná hodnota je určena dosazením odpovídající (predikované) hodnoty do regresní rovnice. Střední standardní chyba prognózy se vypočítá:
,
kde
a interval spolehlivosti prognózy se sestaví:
; ;
kde .

Příklad řešení

Problém číslo 1. Pro sedm území regionu Ural V roce 199X jsou známy hodnoty dvou znaků.
Stůl 1.
Požadované: 1. Chcete-li charakterizovat závislost y na x, vypočítejte parametry následujících funkcí:
a) lineární;
b) mocninný zákon (nejprve musíte provést postup pro linearizaci proměnných logaritmováním obou částí);
c) orientační;
d) rovnostranná hyperbola (musíte také přijít na to, jak tento model předlinearizovat).
2. Vyhodnoťte každý model z hlediska střední aproximační chyby a Fisherova F-testu.

Řešení (Možnost č. 1)

Pro výpočet parametrů aab lineární regrese (výpočet lze provést pomocí kalkulačky).
řešíme soustavu normálních rovnic pro A a b:
Na základě prvotních údajů počítáme :
y X yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Celkový 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
St význam (celkem / n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regresní rovnice: y = 76,88 - 0,35X. S nárůstem průměrného denního mzdy za 1 rub. podíl na pořizovacích nákladech potravinářské výrobky klesá v průměru o 0,35 bodu.
Vypočítejme lineární párový korelační koeficient:

Komunikace je umírněná, obrácená.
Definujme koeficient determinace:

12,7% odchylka ve výsledku se vysvětluje změnou faktoru x. Dosazení skutečných hodnot do regresní rovnice X, určit teoretické (vypočtené) hodnoty . Pojďme najít hodnotu průměrné chyby aproximace:

Průměrný vypočítané hodnoty se od skutečnosti odchylují o 8,1 %.
Vypočítejme F-kritérium:

od 1< F < ¥ by měl zvážit F -1 .
Výsledná hodnota ukazuje na nutnost přijmout hypotézu. Ale ouha náhodný charakter odhalené závislosti a statistická nevýznamnost parametrů rovnice a ukazatele těsnosti spoje.
1b. Sestavení mocninového modelu předchází procedura linearizace proměnných. V příkladu se linearizace provádí logaritmováním obou stran rovnice:


kdeY = log (y), X = log (x), C = log (a).

Pro výpočty používáme data v tabulce. 1.3.

Tabulka 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Celkový 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Znamenat 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Vypočítejme C a b:


Dostaneme lineární rovnici: .
Po provedení jeho potenciace dostaneme:

Dosazením skutečných hodnot do této rovnice X, dostaneme teoretické hodnoty výsledku. Na jejich základě vypočítáme ukazatele: těsnost spoje - korelační index a průměrnou chybu aproximace

Charakteristiky mocninového modelu ukazují, že popisuje vztah poněkud lépe než lineární funkce.

1c... Konstrukce rovnice exponenciální křivky

předchází postup pro linearizaci proměnných pomocí logaritmu obou stran rovnice:

Pro výpočty používáme údaje v tabulce.

Y X Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Celkový 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
St zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Hodnoty regresních parametrů A a PROTI vymyšlený:


Získá se lineární rovnice: . Umocněme výslednou rovnici a zapišme ji v obvyklém tvaru:

Těsnost spojení odhadneme pomocí korelačního indexu:

Charakterizace kauzálních závislostí

Příčinné vztahy- jde o spojení jevů a procesů, kdy změna jednoho z nich - příčiny - vede ke změně druhého - účinku.

Podle významu pro studium vztahu se znamení dělí do dvou tříd.

Známky, které způsobují změny v jiných souvisejících znameních, se nazývají faktoriál (nebo faktory).

Znamení, která se mění pod vlivem faktorových znaků jsou efektivní.

Existují tyto formy komunikace: funkční a stochastická. Funkční se nazývá takový vztah, ve kterém určitá hodnota atributu faktoru odpovídá jedné a pouze jedné hodnotě efektivního atributu. Funkční vztah se projevuje ve všech případech pozorování a pro každou konkrétní jednotku studované populace.

Funkční vztah může být reprezentován následující rovnicí:
y i = f (x i), kde: y i - efektivní znamení; f (x i) - známá funkce vztahu mezi efektivními a faktoriálními znaky; x i - znak faktoru.
V reálné přírodě neexistují žádná funkční spojení. Jsou to pouze abstrakce, užitečné při analýze jevů, ale zjednodušující realitu.

Stochastické (statistické nebo náhodné)spojení je vztah mezi veličinami, ve kterém jedna z nich reaguje na změnu jiné veličiny nebo jiných veličin změnou distribučního zákona. Jinými slovy, s tímto spojením různé významy jedna proměnná odpovídá různým distribucím jiné proměnné. Je to dáno tím, že závislá proměnná kromě uvažovaných nezávislých podléhá vlivu řady nezapočítaných nebo neřízených náhodných faktorů a také některých nevyhnutelných chyb měření proměnných. Vzhledem k tomu, že hodnoty závislé proměnné podléhají náhodnému rozptylu, nelze je s dostatečnou přesností předvídat, ale lze je indikovat pouze s určitou pravděpodobností.

Vzhledem k nejednoznačnosti stochastické závislosti mezi Y a X je zajímavé zejména schéma závislosti zprůměrované na x, tzn. pravidelnost změny střední hodnoty - podmíněné matematické očekávání Мх (Y) (matematické očekávání náhodné veličiny Y, zjištěné za podmínky, že proměnná X nabyla hodnoty x) v závislosti na x.

Korelace je speciální případ stochastického spojení. Korelace(z lat. korelace- poměr, vztah). Předat aktuální termín korelace - stochastický, pravděpodobný, možný spojení mezi dvěma (párem) nebo několika (více) náhodnými proměnnými.

Korelační závislost mezi dvěma proměnnými se nazývá také statistický vztah mezi těmito proměnnými, kdy každé hodnotě jedné proměnné odpovídá určitá průměrná hodnota, tzn. podmíněné matematické očekávání je jiné. Korelační závislost je speciální případ stochastické závislosti, ve kterém změna hodnot atributů faktoru (x 1 x 2 ..., x n) má za následek změnu průměrné hodnoty efektivního atributu.



Je obvyklé rozlišovat mezi následujícími typy korelace:

1. Párová korelace je spojením dvou charakteristik (efektivní a faktoriální nebo dvoufaktoriální).

2. Parciální korelace - vztah mezi efektivním a jedním faktorem znaménka s pevnou hodnotou ostatních znamének faktorů zahrnutých do studie.

3. Vícenásobná korelace - závislost efektivních a dvou a více faktorů faktorů zahrnutých do studie.

Účel regresní analýzy

Regresní modely jsou analytickou formou pro reprezentaci kauzálních vztahů. Vědecká validita a popularita regresní analýzy z ní činí jeden z hlavních matematických nástrojů pro modelování studovaného jevu. Tato metoda se používá k vyhlazení experimentálních dat a získání kvantitativních odhadů komparativního vlivu různých faktorů na výslednou proměnnou.

Regresní analýza se skládá z v definici analytického vyjádření vztahu, ve kterém je změna jedné veličiny (závisle proměnné nebo efektivního ukazatele) způsobena vlivem jedné nebo více nezávislých veličin (faktorů nebo prediktorů), a mnoha dalších faktorů, které také ovlivňují závislou veličinu jsou brány jako konstantní a průměrné hodnoty ...

Cíle regresní analýzy:

Posouzení funkční závislosti podmíněné průměrné hodnoty efektivního atributu y na faktoriálu (x 1, x 2, ..., x n);

Predikce hodnoty závislé proměnné pomocí nezávislých (s).

Stanovení příspěvku jednotlivých nezávisle proměnných ke variaci závislé proměnné.

Regresní analýzu nelze použít k určení existence vztahu mezi proměnnými, protože přítomnost takového vztahu je předpokladem pro aplikaci analýzy.

V regresní analýze se předem předpokládá, že mezi efektivními (Y) a faktoriálními x 1, x 2 ..., x n rysy existují příčinné vztahy.

Funkce , op výstupní závislost ukazatele na parametrech se nazývá regresní rovnice (funkce) jeden . Regresní rovnice ukazuje očekávanou hodnotu závislé proměnné při konkrétních hodnotách vysvětlujících proměnných.
V závislosti na počtu faktorů zahrnutých v modelu X Modely se dělí na jednosměrné (model párové regrese) a vícerozměrné (model vícenásobné regrese). Podle typu funkce se modely dělí na lineární a nelineární.

Párový regresní model

Vlivem nezapočtených náhodných faktorů a důvodů se budou jednotlivá pozorování y ve větší či menší míře odchylovat od regresní funkce f (x). V tomto případě může být rovnice pro vztah dvou proměnných (model párové regrese) reprezentována jako:

Y = f (X) + ɛ,

kde ɛ je náhodná veličina charakterizující odchylku od regresní funkce. Tato proměnná se nazývá porucha nebo porucha (zbytková nebo chyba). V regresním modelu tedy závislá proměnná Y existuje nějaká funkce f (X) až po náhodnou poruchu ɛ.

Zvažte klasický lineární párový regresní model (CLMPR). Má formu

y i = β 0 + β 1 x i + ɛ i (i = 1,2, ..., n),(1)

kde i–Vysvětleno (výsledná, závislá, endogenní proměnná); x i- vysvětlující (prediktor, faktoriál, exogenní) proměnná; β 0, β 1- číselné koeficienty; ɛ i- náhodná (stochastická) složka nebo chyba.

Základní podmínky (předpoklady, hypotézy) KLMPR:

1) x i- deterministická (nenáhodná) hodnota, přičemž se předpokládá, že mezi hodnotami x i - nejsou všechny stejné.

2) Matematické očekávání (střední hodnota) poruchy ɛ i se rovná nule:

M [ɛ i] = 0 (i = 1,2, ..., n).

3) Rozptyl rušení je konstantní pro jakékoli hodnoty i (podmínka homoskedasticity):

D [ɛ i] = σ 2 (i = 1,2, ..., n).

4) Poruchy pro různá pozorování nekorelují:

cov [ɛ i, ɛ j] = M [ɛ i, ɛ j] = 0 pro i ≠ j,

kde cov [ɛ i, ɛ j] je kovarianční koeficient (korelační moment).

5) Perturbace jsou normálně rozložené náhodné veličiny s nulovým průměrem a rozptylem σ 2:

ɛ i ≈ N (0, σ 2).

K získání regresní rovnice stačí první čtyři předpoklady. Požadavek na splnění pátého předpokladu je nezbytný pro posouzení správnosti regresní rovnice a jejích parametrů.

Komentář: Pozornost na lineární vztahy je vysvětlena omezenou variabilitou proměnných a skutečností, že ve většině případů jsou nelineární formy komunikace pro provádění výpočtů transformovány (přebíráním logaritmu nebo změnou proměnných) do lineární formy.

Tradiční metoda nejmenší čtverce (OLS)

Odhad modelu pro vzorek je rovnice

ŷ i = a 0 + a 1 x i(i = 1,2, ..., n), (2)

kde ŷ i - teoretické (přibližné) hodnoty závislé proměnné získané regresní rovnicí; a 0, a 1 - koeficienty (parametry) regresní rovnice (vzorové odhady koeficientů β 0, β 1).

Podle OLS jsou neznámé parametry a 0, a 1 zvoleny tak, aby součet čtverců odchylek hodnot ŷ i od empirických hodnot y i (zbytkový součet čtverců) byl minimální:

Q e = ∑e i 2 = ∑ (y i - ŷ i) 2 = ∑ (yi - (a 0 + a 1 x i)) 2 → min, (3)

kde e i = y i - ŷ i je výběrový odhad poruchy ɛ i nebo regresní reziduum.

Problém se redukuje na nalezení takových hodnot parametrů a 0 a a 1, pro které má funkce Q e nejmenší hodnotu. Všimněte si, že funkce Q e = Q e (a 0, a 1) je funkcí dvou proměnných a 0 a a 1, dokud nenajdeme a poté neopravíme jejich „nejlepší“ (ve smyslu metody nejmenších čtverců) hodnoty, a xi, yi - konstantní čísla zjištěná experimentálně.

Nezbytné podmínky extrémy (3) se nalézají tak, že parciální derivace této funkce dvou proměnných se rovnají nule. Výsledkem je systém dvou lineárních rovnic, který se nazývá systém normálních rovnic:

(4)

Koeficient a 1 je výběrový regresní koeficient y na x, který ukazuje, o kolik jednotek se v průměru změní proměnná y, když se proměnná x změní o jednu jednotku svého měření, tj. o variaci y na jednotku variace x. Podepsat 1 ukazuje směr této změny. Koeficient a 0 - posunutí podle (2) je roven hodnotě ŷ i při x = 0 a nemusí mít smysluplnou interpretaci. Za tímto účelem se závislá proměnná někdy nazývá odezva.

Statistické vlastnosti odhadů regresních koeficientů:

Odhady koeficientů a 0, a 1 jsou nezkreslené;

Rozptyl odhadů a 0, a 1 klesá (přesnost odhadů roste) s nárůstem velikosti vzorku n;

Rozptyl odhadu sklonu a 1 s rostoucím klesá a proto je žádoucí volit x i tak, aby jejich rozptyl kolem průměrné hodnoty byl velký;

Pro х¯> 0 (což je největší zájem) existuje negativní statistický vztah mezi a 0 a a 1 (nárůst a 1 vede k poklesu 0).