प्रतिगमन निष्कर्ष। एक्सेल में सहसंबंध और प्रतिगमन विश्लेषण: निष्पादन निर्देश


प्रतिगमन क्या है?

दो निरंतर चर पर विचार करें x \u003d (x 1, x 2, .., x n), y \u003d (y 1, y 2, ..., y n)।

एक द्वि-आयामी बिखरने के कार्यक्रम पर अंक रखें और कहें कि हमारे पास है रैखिक अनुपातयदि डेटा को सीधी रेखा से अनुमानित किया जाता है।

अगर हम ऐसा मानते हैं वाई पर निर्भर करता है एक्स।, और में परिवर्तन वाई में परिवर्तन के कारण होते हैं एक्स।हम प्रतिगमन लाइन (प्रतिगमन (प्रतिगमन) निर्धारित कर सकते हैं वाई पर एक्स।), जो इन दो चर के बीच सरल अनुपात का सबसे अच्छा वर्णन करता है।

"प्रतिगमन" शब्द का सांख्यिकीय उपयोग एक घटना से आयता है जिसे सर फ्रांसिस गैल्टन (1889) के लिए जिम्मेदार औसत के लिए प्रतिगमन के रूप में जाना जाता है।

उन्होंने दिखाया कि, हालांकि उच्च पिता के पास उच्च पुत्र होते हैं, हालांकि बेटों की औसत वृद्धि उनके उच्च पिता की तुलना में कम होती है। जनसंख्या में सभी पुरखाओं के औसत वृद्धि के लिए "regressing" और "स्थानांतरित" के बेटों की औसत वृद्धि। इस प्रकार, औसतन, उच्च पिता के पास कम (लेकिन अभी भी उच्च) बेटे होते हैं, और कम पिता के पास अधिक उच्च पुत्र होते हैं (लेकिन अभी भी कम)।

बढतीरेखा

गणितीय समीकरण जो सरल (जोड़ी) रैखिक प्रतिगमन की रेखा का अनुमान लगाता है:

एक्स। जिसे एक स्वतंत्र चर या भविष्यवक्ता कहा जाता है।

वाई - निर्भर चर या प्रतिक्रिया चर। इस मूल्य के लिए हम उम्मीद करते हैं वाई (औसतन) यदि हम परिमाण को जानते हैं एक्स।। यह "अनुमानित अर्थ है वाई»

  • ए। - मूल्यांकन लाइन की एक नि: शुल्क सदस्य (चौराहे); यह मान वाईकब अ x \u003d 0।(चित्र .1)।
  • बी - अनुमानित लाइन के कोणीय गुणांक या ढाल; यह वह मूल्य है जिसके लिए वाई यदि हम बढ़ते हैं तो औसतन बढ़ता है एक्स। प्रति इकाई।
  • ए। तथा बी अनुमानित लाइन के प्रतिगमन गुणांक को संदर्भित किया गया है, हालांकि इस शब्द का अक्सर उपयोग किया जाता है बी.

युग्मित रैखिक प्रतिगमन को एक से अधिक स्वतंत्र चर सहित विस्तारित किया जा सकता है; इस मामले में, इसे के रूप में जाना जाता है एकाधिक प्रतिगमन.

चित्र .1। रैखिक प्रतिगमन रेखा चौराहे को दिखाती है और कोणीय गुणांक बी (प्रति इकाई में वृद्धि के साथ वृद्धि वाई की वृद्धि)

कम से कम वर्ग विधि

हम अवलोकन के नमूने का उपयोग करके प्रतिगमन विश्लेषण करते हैं, जहां ए। तथा बी - सही (सामान्य) पैरामीटर, α और β के चुनिंदा अनुमान, जो जनसंख्या में रैखिक प्रतिगमन रेखा निर्धारित करते हैं (सामान्य कुल)।

अधिकांश सरल विधि गुणांक की परिभाषा ए। तथा बी है एक कम से कम वर्ग विधि (एमएनसी)।

फिट का अनुमान है कि अवशेषों पर विचार करके (रेखा से प्रत्येक बिंदु की ऊर्ध्वाधर दूरी, उदाहरण के लिए, अवशेष \u003d मनाया जाता है वाई - भविष्यवाणी की वाई, अंजीर। 2)।

सर्वोत्तम समायोजन रेखा को चुना जाता है ताकि अवशेषों के वर्गों की राशि न्यूनतम थी।

अंजीर। 2. प्रत्येक बिंदु के लिए चित्रित अवशेषों (लंबवत बिंदीदार रेखाओं) के साथ रैखिक प्रतिगमन रेखा।

रैखिक प्रतिगमन की धारणा

इसलिए, प्रत्येक मनाए गए मूल्य के लिए, अवशेष अंतर के बराबर है और संबंधित अनुमानित प्रत्येक अवशेष सकारात्मक या नकारात्मक हो सकता है।

आप रैखिक प्रतिगमन के तहत निम्नलिखित धारणाओं को सत्यापित करने के लिए शेष राशि का उपयोग कर सकते हैं:

  • अवशेष आमतौर पर शून्य औसत मूल्य के साथ वितरित किए जाते हैं;

यदि रैखिकता, सामान्यता और / या निरंतर फैलाव की धारणाएं संदिग्ध हैं, तो हम परिवर्तित या गणना कर सकते हैं नई पंक्ति प्रतिगमन जिसके लिए ये धारणाएं संतुष्ट हैं (उदाहरण के लिए, लॉगरिदमिक परिवर्तन या अन्य का उपयोग करके)।

असंगत मूल्य (उत्सर्जन) और प्रभाव के बिंदु

"प्रभावशाली" अवलोकन, यदि यह छोड़ा जाता है, तो मॉडल पैरामीटर (यानी, एक कोणीय गुणांक या एक नि: शुल्क सदस्य) के एक या अधिक अनुमानों को बदलता है।

उत्सर्जन (अवलोकन, जो डेटा सेट में अधिकांश मानों का खंडन करता है) "प्रभावशाली" अवलोकन हो सकता है और दो-आयामी बिखरने वाले आरेख या अवशिष्ट ग्राफिक्स की जांच करते समय, दृष्टि से देखा जा सकता है।

और उत्सर्जन के लिए, और "प्रभावशाली" अवलोकनों (अंक) के लिए, मॉडल का उपयोग उनके समावेश के साथ, और उनके बिना, मूल्यांकन (प्रतिगमन गुणांक) में परिवर्तन पर ध्यान देना है।

विश्लेषण करते समय, आपको उत्सर्जन या प्रभाव के बिंदुओं को स्वचालित रूप से त्यागना नहीं चाहिए, क्योंकि सरल अनदेखा प्राप्त परिणामों को प्रभावित कर सकता है। हमेशा इन उत्सर्जन की उपस्थिति के कारण का अध्ययन करें और उनका विश्लेषण करें।

रैखिक प्रतिगमन परिकल्पना

एक रैखिक प्रतिगमन का निर्माण करते समय, एक शून्य परिकल्पना की जांच की जाती है कि प्रतिगमन लाइन β शून्य के आंतरिक गुणांक शून्य है।

यदि रेखा का कोणीय गुणांक शून्य है, बीच में और कोई रैखिक अनुपात नहीं है: परिवर्तन प्रभावित नहीं करता है

शून्य परिकल्पना का परीक्षण करने के लिए कि वास्तविक कोणीय गुणांक शून्य है, आप निम्न एल्गोरिदम का उपयोग कर सकते हैं:

अनुपात के बराबर मानदंड के आंकड़ों की गणना करें, जो स्वतंत्रता की डिग्री के साथ वितरण के अधीनस्थ है, जहां मानक त्रुटि गुणक


,

- अवशेषों के फैलाव का मूल्यांकन।

आमतौर पर यदि महत्व के प्राप्त स्तर शून्य परिकल्पना विचलन करता है।


जहां स्वतंत्रता की डिग्री के साथ वितरण का प्रतिशत जो द्विपक्षीय मानदंड की संभावना को देता है

यह अंतराल है जिसमें 95% की संभावना के साथ प्रारंभिक गुणांक होता है।

बड़े नमूनों के लिए, मान लें, हम 1.96 के मूल्य का अनुमान लगा सकते हैं (यानी, मानदंड के आंकड़े सामान्य वितरण के लिए प्रयास करेंगे)

रैखिक प्रतिगमन का गुणवत्ता मूल्यांकन: निर्धारण गुणांक आर 2

रैखिक संबंध के कारण और हम उम्मीद करते हैं कि यह बदलता है, जैसा कि यह बदलता है और इसे एक भिन्नता कहें जो प्रतिगमन द्वारा निर्धारित या समझाया गया है। अवशिष्ट भिन्नता जितना संभव हो उतना छोटा होना चाहिए।

यदि हां, तो अधिकांश भिन्नता को प्रतिगमन द्वारा समझाया जाएगा, और अंक रिग्रेशन लाइन के करीब होंगे, यानी। लाइन डेटा के अनुरूप अच्छी तरह से है।

एक सामान्य फैलाव का हिस्सा जिसे पंजीकरण द्वारा समझाया गया है निर्धारण का गुणांक, आमतौर पर प्रतिशत और नामित के माध्यम से व्यक्त किया जाता है आर 2। (जोड़ी रैखिक प्रतिगमन में मूल्य है आर 2।, सहसंबंध गुणांक वर्ग), आपको तर्कसंगत समीकरण की गुणवत्ता का आकलन करने की अनुमति देता है।

अंतर एक फैलाव का प्रतिशत है जिसे प्रतिगमन द्वारा समझाया नहीं जा सकता है।

मूल्यांकन के लिए कोई औपचारिक परीक्षण नहीं है, हमें प्रतिगमन लाइन फिट की गुणवत्ता निर्धारित करने के लिए व्यक्तिपरक निर्णय पर भरोसा करने के लिए मजबूर होना पड़ता है।

पूर्वानुमान के लिए प्रतिगमन लाइन का आवेदन

आप देखी गई सीमा की सीमा में मूल्य मान की भविष्यवाणी करने के लिए एक प्रतिगमन लाइन लागू कर सकते हैं (इन सीमाओं के बाहर कभी भी अतिरिक्त नहीं)।

हम अवलोकन के लिए औसत मूल्य की भविष्यवाणी करते हैं, जिनके पास इस मान को प्रतिगमन रेखा समीकरण में प्रतिस्थापित करके एक निश्चित मूल्य है।

इसलिए, अगर हम भविष्यवाणी करते हैं कि आबादी में वास्तविक औसत मूल्य के लिए आत्मविश्वास अंतराल का अनुमान लगाने के लिए इस अनुमानित मूल्य और इसकी मानक त्रुटि का उपयोग कैसे करें।

के लिए इस प्रक्रिया का पुनरावृत्ति विभिन्न मात्रा आपको इस लाइन के लिए ट्रस्ट सीमाओं का निर्माण करने की अनुमति देता है। यह एक बैंड या क्षेत्र है जिसमें एक वास्तविक रेखा है, उदाहरण के लिए, 95% ट्रस्ट संभावना के साथ।

सरल प्रतिगमन योजनाएं

सरल प्रतिगमन योजनाओं में एक निरंतर भविष्यवक्ता होता है। यदि पूर्वानुमानक मूल्यों के साथ 3 अवलोकन हैं, उदाहरण के लिए, 7, 4 और 9, और योजना में पहला ऑर्डर प्रभाव पी शामिल है, तो योजना एक्स के मैट्रिक्स को देखा जाएगा

और x1 के लिए p का उपयोग करने वाला प्रतिगमन समीकरण जैसा दिखता है

Y \u003d b0 + b1 p

यदि एक साधारण प्रतिगमन योजना में पी के लिए उच्च क्रम प्रभाव होता है, उदाहरण के लिए, एक वर्गबद्ध प्रभाव, तो योजना में कॉलम x1 में मानों को दूसरी डिग्री में बनाया जाएगा:

और समीकरण फॉर्म ले जाएगा

वाई \u003d बी 0 + बी 1 पी 2

सिग्मा-हालिया और सुपरमेरिज़्ड कोडिंग विधियों को सरल प्रतिगमन योजनाओं और केवल निरंतर भविष्यवाणियों वाली अन्य योजनाओं के सापेक्ष लागू नहीं किया जाता है (क्योंकि, वहां कोई स्पष्ट भविष्यवाणियां नहीं हैं)। चयनित कोडिंग विधि के बावजूद, निरंतर चर के मान उचित डिग्री में वृद्धि करते हैं और वेरिएबल एक्स के लिए मान के रूप में उपयोग किए जाते हैं। इस मामले में, ट्रांसकोडिंग का प्रदर्शन नहीं किया जाता है। इसके अलावा, रिग्रेशन प्लान का वर्णन करते समय, आप योजना एक्स के मैट्रिक्स के विचार को छोड़ सकते हैं, और केवल प्रतिगमन समीकरण के साथ काम कर सकते हैं।

उदाहरण: सरल प्रतिगमन विश्लेषण

यह उदाहरण तालिका में प्रस्तुत डेटा का उपयोग करता है:

अंजीर। 3. स्रोत डेटा की तालिका।

डेटा 1 9 60 और 1 9 70 के पत्राचार की तुलना में मनमाने ढंग से चुने गए 30 जिलों में आधारित है। जिलों के नाम अवलोकन नामों के रूप में प्रस्तुत किए जाते हैं। प्रत्येक चर पर जानकारी नीचे दी गई है:

अंजीर। 4. परिवर्तनीय विनिर्देशों की तालिका।

कार्य अनुसंधान

यह उदाहरण गरीबी स्तर सहसंबंध और डिग्री का विश्लेषण करेगा जो गरीबी रेखा से नीचे के परिवारों के प्रतिशत की भविष्यवाणी करेगा। इसलिए, हम एक आश्रित चर के रूप में परिवर्तनीय 3 (pt_poor) की व्याख्या करेंगे।

परिकल्पना को धक्का देना संभव है: आबादी में बदलाव और गरीबी रेखा से नीचे के परिवारों का प्रतिशत संबंधित हैं। यह उम्मीद करना उचित लगता है कि गरीबी आबादी के बहिर्वाह की ओर जाता है, इसलिए, गरीबी रेखा से परे लोगों के प्रतिशत और आबादी में बदलाव के बीच नकारात्मक सहसंबंध होगा। इसलिए, हम एक भविष्यवाणी चर के रूप में चर 1 (pop_chng) की व्याख्या करेंगे।

परिणाम दर्शन

मंदी गुणांक

अंजीर। 5. pop_chng पर गुणांक pt_poor recessing।

POP_CHNG स्ट्रिंग और जोड़े कॉलम के चौराहे पर। POP_CHNG पर PT_POOR Regression के लिए मानकीकृत गुणांक नहीं है -0.40374 है। इसका मतलब है कि प्रति इकाई जनसंख्या में प्रत्येक कमी के लिए, .40374 द्वारा गरीबी स्तर में वृद्धि हुई है। इसके लिए ऊपरी और निचले (डिफ़ॉल्ट) 95% आत्मविश्वास सीमा मानकीकृत गुणांक में शून्य शामिल नहीं है, इसलिए प्रतिगमन गुणांक पी स्तर पर महत्वपूर्ण है<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

वेरिएबल्स का वितरण

डेटा में बड़े उत्सर्जन मौजूद होने पर सहसंबंध गुणांक को काफी अतिसंवेदनशील या समझा जा सकता है। हम काउंटी में आश्रित चर pt_poor के वितरण का अध्ययन करते हैं। ऐसा करने के लिए, हम pt_poor चर के एक हिस्टोग्राम का निर्माण करते हैं।

अंजीर। 6. PT_POOR चर का हिस्टोग्राम।

जैसा कि आप देख सकते हैं, इस चर का वितरण सामान्य वितरण से काफी भिन्न होता है। फिर भी, हालांकि दो जिलों (दो दाएं कॉलम) के पास भी ऐसे परिवारों का उच्च प्रतिशत है जो सामान्य वितरण के मामले में गरीबी रेखा से नीचे हैं, ऐसा लगता है कि वे "सीमा के अंदर हैं।"

अंजीर। 7. pt_poor चर का हिस्टोग्राम।

यह निर्णय कुछ हद तक व्यक्तिपरक है। अनुभवजन्य नियम बताता है कि अगर अवलोकन (या अवलोकन) अंतराल में नहीं आते हैं तो उत्सर्जन को ध्यान में रखा जाना चाहिए (मतलब ± 3 मानक विचलन से गुणा किया गया है)। इस मामले में, उत्सर्जन के साथ विश्लेषण को दोहराना और यह सुनिश्चित करने के लिए आवश्यक है कि उन्हें कुल सदस्यों के बीच सहसंबंध पर गंभीर प्रभाव न हो।

स्कैटरिंग आरेख

यदि निर्दिष्ट चर के बीच संबंधों के बारे में एक प्राथमिकता की परिकल्पनाओं में से एक है, तो इसे संबंधित स्कैटरिंग चार्ट के ग्राफ पर जांचना उपयोगी है।

अंजीर। 8. स्कैटरिंग आरेख।

बिखरने वाला आरेख दो चर के बीच एक स्पष्ट नकारात्मक सहसंबंध (-65) दिखाता है। यह रिग्रेशन लाइन के लिए 95% आत्मविश्वास अंतराल भी दिखाता है, यानी, 95% संभावना के साथ, प्रतिगमन रेखा दो बिंदीदार घटता के बीच गुजरती है।

मानदंड महत्व

अंजीर। 9. महत्व के लिए मानदंड युक्त तालिका।

POP_CHNG प्रतिगमन गुणांक के लिए मानदंड पुष्टि करता है कि pop_chng pt_poor, पी के साथ दृढ़ता से जुड़ा हुआ है<.001 .

परिणाम

यह उदाहरण दिखाता है कि एक साधारण रिग्रेशन प्लान का विश्लेषण कैसे करें। गैर-मानकीकृत और मानकीकृत प्रतिगमन गुणांक की व्याख्या भी प्रस्तुत की गई थी। आश्रित चर के जवाबों के वितरण का अध्ययन करने का महत्व पर चर्चा की गई, भविष्यवक्ता और आश्रित चर के बीच संबंधों की दिशा और ताकत को निर्धारित करने की तकनीक का प्रदर्शन किया गया।

पिछले नोट्स में, विश्लेषण का विश्लेषण अक्सर एक अलग संख्या चर बन गया, उदाहरण के लिए, म्यूचुअल फंड की उपज, वेब पेज लोड करने का समय या गैर-मादक पेय खपत की मात्रा। वर्तमान में और निम्नलिखित नोट्स में, हम एक या अधिक संख्यात्मक चर के मानों के आधार पर संख्यात्मक परिवर्तनीय मूल्यों के भविष्यवाणियों के तरीकों को देखेंगे।

सामग्री को एक उदाहरण के माध्यम से चित्रित किया जाएगा। कपड़ों की दुकान में बिक्री का पूर्वानुमान।25 वर्षों के लिए सनफ्लॉवर के रियायती कपड़ों की दुकान लगातार बढ़ी है। हालांकि, अब कंपनी के नए आउटलेट के चयन के लिए कोई व्यवस्थित दृष्टिकोण नहीं है। एक ऐसी जगह जिसमें कंपनी एक नया स्टोर खोलने जा रही है, व्यक्तिपरक विचारों के आधार पर निर्धारित की जाती है। चयन मानदंड अनुकूल पट्टे की स्थिति या आदर्श स्थान प्रबंधक हैं। कल्पना कीजिए कि आप विशेष परियोजनाओं और योजना विभाग के प्रमुख हैं। आपको नए स्टोर खोलने के लिए रणनीतिक योजना विकसित करने का निर्देश दिया गया था। इस योजना में नए खुले स्टोर में वार्षिक बिक्री का पूर्वानुमान होना चाहिए। आप मानते हैं कि व्यापार क्षेत्र सीधे राजस्व की मात्रा से संबंधित है, और आप निर्णय लेने की प्रक्रिया में इस तथ्य को ध्यान में रखना चाहते हैं। एक सांख्यिकीय मॉडल कैसे विकसित करें जो आपको एक नए स्टोर के आकार के आधार पर वार्षिक बिक्री की भविष्यवाणी करने की अनुमति देता है?

एक नियम के रूप में, परिवर्तनीय मानों की भविष्यवाणी करने के लिए प्रतिगमन विश्लेषण का उपयोग किया जाता है। इसका लक्ष्य एक सांख्यिकीय मॉडल विकसित करना है जो आपको कम से कम एक, स्वतंत्र, या व्याख्यात्मक, चर के मूल्यों द्वारा आश्रित चर, या प्रतिक्रिया के मूल्यों की भविष्यवाणी करने की अनुमति देता है। इस नोट में, हम सरल रैखिक प्रतिगमन पर विचार करते हैं - एक सांख्यिकीय विधि जो आपको आश्रित चर के मूल्यों की भविष्यवाणी करने की अनुमति देती है वाई एक स्वतंत्र चर के मूल्यों द्वारा एक्स।। बाद के नोट्स में, एक एकाधिक प्रतिगमन मॉडल का वर्णन किया जाएगा, जिसे एक स्वतंत्र चर के मूल्यों की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। वाई कई आश्रित चर के मूल्यों द्वारा ( एक्स 1, एक्स 2, ..., एक्स के).

प्रारूप में नोट डाउनलोड करें या प्रारूप में उदाहरण

प्रतिगमन मॉडल के प्रकार

कहा पे ρ 1 - आत्मीयन का गुणांक; यदि एक ρ 1 \u003d 0 (कोई autocorrelation), डी ≈ 2; यदि एक ρ 1 ≈ 1 (सकारात्मक आत्मसंबंध), डी ≈ 0; यदि एक ρ 1 \u003d -1 (नकारात्मक autocorrelation), डी ≈ 4.

अभ्यास में, डरबिन-वाटसन के मानदंड का उपयोग तुलना पर आधारित है डी गंभीर सैद्धांतिक मूल्यों के साथ डी एल। तथा डी यू किसी दिए गए अवलोकनों के लिए एन, स्वतंत्र चर मॉडल की संख्या क। (सरल रैखिक प्रतिगमन के लिए क। \u003d 1) और महत्व α का स्तर। यदि एक डी< d L , यादृच्छिक विचलन की आजादी के बारे में परिकल्पना को खारिज कर दिया गया है (इसलिए, सकारात्मक स्वत: प्रोक्रेशन मौजूद है); यदि एक डी\u003e डी यू, परिकल्पना को खारिज नहीं किया गया है (यानी, कोई आत्मकलाव नहीं है); यदि एक डी एल।< D < d U निर्णय लेने के लिए पर्याप्त आधार नहीं हैं। जब गणना मूल्य डी 2 से अधिक, फिर डी एल। तथा डी यू तुलना गुणांक की तुलना में नहीं डी, और अभिव्यक्ति (4 - डी).

एक्सेल में डर्बिना-वाटसन आंकड़ों की गणना करने के लिए, हम अंजीर में नीचे की मेज पर जाते हैं। चौदह निष्कर्ष अवशेष। अभिव्यक्ति (10) में संख्यात्मक की गणना फ़ंक्शन \u003d संक्षेप (Array1; Array2), और denominator \u003d summalk (सरणी) (चित्र 16) का उपयोग करके गणना की जाती है।

अंजीर। 16. डर्बिन-वाटसन के आंकड़ों की गणना के लिए सूत्र

हमारे उदाहरण में डी \u003d 0.883। मुख्य प्रश्न निम्नानुसार है - सकारात्मक ऑटोकॉरेन्शन के अस्तित्व को समाप्त करने के लिए डरबिन-वाटसन आंकड़ों का अर्थ क्या माना जाना चाहिए? महत्वपूर्ण मूल्यों के साथ डी के मूल्य को सहसंबंधित करना आवश्यक है ( डी एल।तथा डी यू) अवलोकन की संख्या के आधार पर एन और महत्व का स्तर α (चित्र 17)।

अंजीर। 17. डरबिन-वाटसन सांख्यिकी के महत्वपूर्ण मूल्य (तालिका खंड)

इस प्रकार, दुकान में बिक्री के कार्य में घर में सामान वितरित करने के कार्य में, एक स्वतंत्र चर ( क। \u003d 1), 15 अवलोकन ( एन \u003d 15) और महत्व α \u003d 0.05 का स्तर। इसलिये, डी एल।\u003d 1.08 I. डी यू \u003d 1.36। जहां तक \u200b\u200bकि डी = 0,883 < डी एल।\u003d 1.08, अवशेषों के बीच एक सकारात्मक ऑटोकॉरेन्शन है, कम से कम वर्ग विधि लागू नहीं की जा सकती है।

ढलान और सहसंबंध गुणांक के बारे में परिकल्पना की जांच करें

पूर्वानुमान के लिए विशेष रूप से प्रतिगमन का उपयोग किया गया था। परिवर्तनीय के मूल्य की प्रतिगमन और भविष्यवाणी के गुणांक निर्धारित करने के लिए वाई किसी दिए गए चर मूल्य के लिए एक्स। कम से कम वर्ग विधि का उपयोग किया गया था। इसके अलावा, हमने अनुमान की औसत वर्ग त्रुटि और मिश्रित सहसंबंध का गुणांक माना। यदि अवशेषों का विश्लेषण यह पुष्टि करता है कि कम से कम वर्ग विधि की प्रयोज्यता के लिए शर्तों का उल्लंघन नहीं किया गया है, और सरल रैखिक प्रतिगमन का मॉडल पर्याप्त है, चुनिंदा डेटा के आधार पर यह तर्क दिया जा सकता है कि चर के बीच एक रैखिक निर्भरता है आम जनसंख्या में।

आवेदनटी झुकाव के लिए क्रिटिया।यह सत्यापित करना कि β 1 शून्य के सामान्य संयोजन का झुकाव बराबर है, चाहे यह निर्धारित करना संभव है कि चर के बीच सांख्यिकीय रूप से सार्थक संबंध क्या है एक्स। तथा वाई। यदि यह परिकल्पना खराब हो जाती है, तो यह तर्क दिया जा सकता है कि चर के बीच एक्स। तथा वाई एक रैखिक निर्भरता है। शून्य और वैकल्पिक परिकल्पना निम्नानुसार तैयार की जाती हैं: एच 0: β 1 \u003d 0 (कोई रैखिक निर्भरता नहीं), एच 1: β 1 ≠ 0 (एक रैखिक निर्भरता है)। ए-प्रोरी टी-स्टेशन चुनिंदा झुकाव और सामान्य आबादी के झुकाव के काल्पनिक मूल्य के बीच अंतर के बराबर है झुकाव अनुमान की औसत वर्ग त्रुटि में विभाजित:

(11) टी = (बी 1 β 1 ) / एस बी। 1

कहा पे बी 1 - चुनिंदा डेटा के अनुसार प्रत्यक्ष प्रतिगमन की ढलान, β1 प्रत्यक्ष सामान्य कुल की एक काल्पनिक ढलान है, , और परीक्षण सांख्यिकी टी यह है टी-सव्यापी एस। एन - 2। स्वतंत्रता का दर्जा।

जांचें कि स्टोर के आकार और α \u003d 0.05 पर वार्षिक बिक्री मात्रा के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं। टी-क्रिटिया का उपयोग किए जाने पर अन्य पैरामीटर के साथ प्रदर्शित होता है पैकेज विश्लेषण (विकल्प वापसी)। विश्लेषण पैकेज के विश्लेषण के पूरी तरह से अंजीर में दिखाए जाते हैं। 4, टी-आंकड़ों से संबंधित एक टुकड़ा - अंजीर में। अठारह।

अंजीर। 18. आवेदन के परिणाम टी

दुकानों की संख्या के बाद से एन \u003d 14 (चित्र 3 देखें), महत्वपूर्ण मूल्य टी- महत्व के स्तर पर आंकड़े α \u003d 0.05 सूत्र द्वारा पाया जा सकता है: टी एल। \u003d छात्र। उत्पादन (0.025; 12) \u003d -2,1788, जहां 0.025 महत्व का आधा स्तर है, और 12 \u003d एन – 2; टी यू। \u003d छात्र। प्रोफेसर (0.975; 12) \u003d +2,1788।

जहां तक \u200b\u200bकि टी-स्टेशन \u003d 10.64\u003e टी यू। \u003d 2,1788 (चित्र 1 9), शून्य परिकल्पना एच 0 विचलन करता है। दूसरी ओर, आरके लिए एच \u003d 10,6411, फॉर्मूला \u003d 1-चरण .SP (D3; 12; सत्य) द्वारा गणना की गई, लगभग शून्य, इसलिए परिकल्पना एच 0 फिर से खारिज कर दिया। यह तथ्य कि आर- एक विचार शून्य के बराबर है, इसका मतलब है कि दुकानों के आकार और वार्षिक बिक्री मात्रा के बीच कोई वास्तविक रैखिक निर्भरता नहीं थी, अगर रैखिक प्रतिगमन का उपयोग करके इसे पता लगाना लगभग असंभव होगा। नतीजतन, दुकानों और उनके आकार में औसत वार्षिक बिक्री मात्रा के बीच एक सांख्यिकीय रूप से महत्वपूर्ण रैखिक निर्भरता है।

अंजीर। 19. महत्व के स्तर पर, 0.05 के बराबर, और 12 डिग्री स्वतंत्रता के स्तर पर सामान्य जनसंख्या के झुकाव के बारे में परिकल्पना की जांच करना

आवेदनएफ झुकाव के लिए क्रिटिया।एक साधारण रैखिक प्रतिगमन की ढलान के बारे में परिकल्पना की जांच करने का एक वैकल्पिक दृष्टिकोण उपयोग करना है एफ-मानदंड। याद करें कि एफ-क्रिटिया का उपयोग दो फैलाव के बीच संबंधों को सत्यापित करने के लिए किया जाता है (अधिक जानकारी के लिए, देखें)। यादृच्छिक त्रुटियों के माप द्वारा ढलान के बारे में परिकल्पना की जांच करना त्रुटि फैलाव है (स्वतंत्रता की डिग्री की संख्या से विभाजित त्रुटियों के वर्गों का योग), इसलिए एफ-क्रिट्रिया प्रतिगमन के कारण फैलाव अनुपात का उपयोग करता है (I.E मान एसएसआर।स्वतंत्र चर की संख्या से विभाजित क।), त्रुटियों को फैलाने के लिए ( एमएसई \u003d एस वाई एक्स। 2 ).

ए-प्रोरी एफ-स्टेशन त्रुटि फैलाव (एमएसई) में विभाजित प्रतिगमन (एमएसआर) के कारण विचलन के औसत वर्ग के बराबर है: एफ = एमएसआर।/ एमएसई।कहां है एमएसआर \u003d।एसएसआर। / क।, एमएसई \u003d।एसएसई/(एन- के - 1), के - रिग्रेशन मॉडल में स्वतंत्र चर की संख्या। परीक्षण आंकड़े एफ यह है एफ-सव्यापी एस। क। तथा एन - के - 1 स्वतंत्रता का दर्जा।

महत्व α के किसी दिए गए स्तर पर, निर्णायक नियम निम्नानुसार तैयार किया जाता है: यदि एफ\u003e एफ। यू, शून्य परिकल्पना विचलन करता है; अन्यथा, यह विचलन नहीं करता है। फैलाव विश्लेषण की सारांश तालिका के रूप में सजाए गए परिणाम अंजीर में दिखाए जाते हैं। बीस

अंजीर। 20. रिग्रेशन गुणांक के सांख्यिकीय महत्व पर परिकल्पना का परीक्षण करने के लिए फैलाव विश्लेषण की तालिका

उसी प्रकार टी-मानदंड एफउपयोग किए जाने पर -Criteria तालिका में प्रदर्शित होता है पैकेज विश्लेषण (विकल्प वापसी)। पूरी तरह से प्रदर्शन परिणाम पैकेज विश्लेषण अंजीर में दिखाया गया। 4, से संबंधित टुकड़ा एफ-स्टैटिक्स - अंजीर में। 21।

अंजीर। 21. आवेदन के परिणाम एफएक्सेल विश्लेषण पैकेज का उपयोग करके प्राप्त क्रिटिया

एफ-आंकड़े 113.23 हैं, और आरशून्य के करीब (सेल) महत्वएफ)। यदि महत्व का स्तर α 0.05 है, तो महत्वपूर्ण मूल्य निर्धारित करें एफएक और 12 डिग्री स्वतंत्रता के साथ वितरण सूत्र का उपयोग कर सकते हैं एफ यू \u003d एफ। उत्पादन (1-0.05; 1; 12) \u003d 4,7472 (चित्र 22)। जहां तक \u200b\u200bकि एफ = 113,23 > एफ यू \u003d 4,7472, और आर-नोटियन 0 के करीब< 0,05, нулевая гипотеза एच 0 विचलन, यानी स्टोर का आकार इसकी वार्षिक बिक्री से निकटता से संबंधित है।

अंजीर। 22. महत्व के स्तर पर सामान्य जनसंख्या के झुकाव के बारे में परिकल्पना की जांच, 0.05 के बराबर, एक और 12 डिग्री स्वतंत्रता के साथ

आत्मविश्वास अंतराल जिसमें β 1 की ढलान है। चर के बीच एक रैखिक संबंध के अस्तित्व पर परिकल्पना का परीक्षण करने के लिए, β 1 की ढलान वाले एक आत्मविश्वास अंतराल का निर्माण किया जा सकता है और सुनिश्चित किया जा सकता है कि β 1 \u003d 0 का काल्पनिक मूल्य इस अंतराल से संबंधित है। Β 1 की ढलान वाले आत्मविश्वास अंतराल का केंद्र चुनिंदा ढलान है बी 1 , और इसकी सीमाएं - मान b 1 ±टी एन। –2 एस बी। 1

जैसा कि अंजीर में दिखाया गया है। अठारह, बी 1 = +1,670, एन = 14, एस बी। 1 = 0,157. टी 12 \u003d छात्र। प्रोफेसर (0.975; 12) \u003d 2,1788। इसलिये, b 1 ±टी एन। –2 एस बी। 1 \u003d +1,670 ± 2,1788 * 0.157 \u003d +1,670 ± 0.342, या + 1,328 ≤ β 1 ≤ +2,012। इस प्रकार, 0.95 की संभावना के साथ सामान्य आबादी की ढलान +1.328 से +2.012 (यानी 1,268,000 से $ 2,012,000 तक) की सीमा में निहित है। चूंकि ये मात्रा शून्य से बड़ी है, इसलिए वार्षिक बिक्री मात्रा और स्टोर क्षेत्र के बीच एक सांख्यिकीय रूप से महत्वपूर्ण रैखिक निर्भरता है। यदि आत्मविश्वास अंतराल शून्य निहित है, तो चर के बीच कोई निर्भरता नहीं होगी। इसके अलावा, आत्मविश्वास अंतराल का मतलब है कि 1,000 वर्ग मीटर के स्टोर क्षेत्र में हर वृद्धि। फीट औसत बिक्री में 1,328,000 से $ 2,012,000 तक की वृद्धि की ओर जाता है।

का उपयोग करते हुएटी सहसंबंध गुणांक के लिए क्रिटिया। सहसंबंध गुणांक पेश किया गया था आर, दो संख्यात्मक चर के बीच संबंधों के एक उपाय का प्रतिनिधित्व करते हैं। इसके साथ, आप इंस्टॉल कर सकते हैं कि दो चर के बीच सांख्यिकीय रूप से हैं या नहीं महत्वपूर्ण संचार। प्रतीक ρ के साथ दोनों चर की सामान्य सेटिंग्स के बीच सहसंबंध गुणांक को निरूपित करें। शून्य और वैकल्पिक परिकल्पनाएं निम्नानुसार तैयार की जाती हैं: एच 0: ρ \u003d 0 (कोई सहसंबंध नहीं), एच 1।: ρ ≠ 0 (एक सहसंबंध है)। सहसंबंध के अस्तित्व की जाँच:

कहा पे आर = + , यदि एक बी 1 > 0, आर = – , यदि एक बी 1 < 0. Тестовая статистика टी यह है टी-सव्यापी एस। एन - 2। स्वतंत्रता का दर्जा।

नेटवर्क के काम में सूरजमुखी स्टोर करता है आर 2। \u003d 0.904, और बी 1।- +1,670 (चित्र 4 देखें)। जहां तक \u200b\u200bकि बी 1। \u003e 0, वार्षिक बिक्री और स्टोर के आकार के बीच सहसंबंध गुणांक बराबर है आर \u003d + √0.904 \u003d +0,951। शून्य परिकल्पना की जांच करें जो तर्क देती है कि इन चर के बीच कोई सहसंबंध नहीं है टी-स्टैटिस्टिक्स:

महत्व के स्तर पर α \u003d 0.05 शून्य परिकल्पना को अस्वीकार कर दिया जाना चाहिए क्योंकि टी \u003d 10.64\u003e 2,1788। इस प्रकार, यह तर्क दिया जा सकता है कि वार्षिक बिक्री की मात्रा और स्टोर के आकार के बीच एक सांख्यिकीय रूप से महत्वपूर्ण कनेक्शन है।

सामान्य आबादी के झुकाव से संबंधित निष्कर्षों पर चर्चा करते समय, आत्मविश्वास अंतराल और परिकल्पना परीक्षण के लिए मानदंड विनिमेय उपकरण हैं। हालांकि, सहसंबंध गुणांक युक्त आत्मविश्वास अंतराल की गणना अधिक है कठिन व्यवसायचुनिंदा आंकड़े वितरण के प्रकार के बाद से आर सच्चे सहसंबंध गुणांक पर निर्भर करता है।

गणितीय उम्मीदों और व्यक्तिगत मूल्यों की भविष्यवाणी का आकलन

यह खंड प्रतिक्रिया की गणितीय अपेक्षा का आकलन करने के तरीकों पर चर्चा करता है वाई और व्यक्तिगत मूल्यों की भविष्यवाणियां वाई चर के निर्दिष्ट मूल्यों पर एक्स।.

एक गोपनीय अंतराल का निर्माण।उदाहरण 2 में (उपरोक्त खंड देखें) कम से कम वर्ग विधि) प्रतिगमन समीकरण ने चर के मूल्य की भविष्यवाणी करना संभव बना दिया वाई एक्स।। एक यातायात बिंदु के लिए जगह चुनने के कार्य में, 4000 वर्ग मीटर की दुकान में औसत वार्षिक बिक्री। पैर $ 7.644 मिलियन के बराबर थे। हालांकि, आम जनसंख्या की गणितीय अपेक्षा का यह मूल्यांकन बिंदु है। सामान्य आबादी की गणितीय अपेक्षा का आकलन करने के लिए, एक गोपनीय अंतराल की अवधारणा का प्रस्ताव दिया गया था। इसी तरह, आप अवधारणा में प्रवेश कर सकते हैं गणितीय प्रतिक्रिया की उम्मीद के लिए आत्मविश्वास अंतराल किसी दिए गए चर मूल्य के साथ एक्स।:

कहा पे , = बी 0 + बी 1 एक्स I. - अनुमानित मूल्य चर वाई के लिये एक्स। = एक्स I., एस yx। - रेडेंट त्रुटि, एन - नमूने का आकार, एक्स। मैं। - चर का निर्दिष्ट मूल्य एक्स।, µ वाई| एक्स। = एक्स। मैं। - गणितीय प्रतीक्षा चर वाई के लिये एच = एक्स I., एसएसएक्स \u003d।

फॉर्मूला (13) का विश्लेषण से पता चलता है कि आत्मविश्वास अंतराल की चौड़ाई कई कारकों पर निर्भर करती है। महत्व के एक निश्चित स्तर पर, प्रतिगमन रेखा के आस-पास के ऑसीलेशन के आयाम को बढ़ाने, मानक त्रुटि का उपयोग करके मापा जाता है, अंतराल की चौड़ाई में वृद्धि की ओर जाता है। दूसरी तरफ, उम्मीद के मुताबिक, नमूना के आकार में वृद्धि अंतराल की संकुचन के साथ होती है। इसके अलावा, अंतराल की चौड़ाई मूल्यों के आधार पर भिन्न होती है एक्स। मैं।। यदि चर का मान वाई परिमाण के लिए भविष्यवाणी की एक्स।औसत मूल्य के करीब आत्मविश्वास अंतराल औसत से दूर मूल्यों के लिए प्रतिक्रिया की भविष्यवाणी करते समय पहले से ही उपलब्ध है।

मान लीजिए कि स्टोर के लिए जगह चुनकर, हम सभी दुकानों में औसत वार्षिक बिक्री के लिए 95% आत्मविश्वास अंतराल बनाना चाहते हैं, जिस क्षेत्र में 4000 वर्ग है। पैर:

नतीजतन, उन सभी दुकानों में औसत वार्षिक बिक्री जिसका क्षेत्र 4,000 वर्ग मीटर है। पैर, 95% संभावना के साथ 6.971 से $ 8.317 मिलियन की सीमा में निहित है।

अनुमानित मूल्य के लिए आत्मविश्वास अंतराल की गणना करना।किसी दिए गए परिवर्तनीय मान के साथ गणितीय प्रतिक्रिया के लिए आत्मविश्वास अंतराल के अलावा एक्स।अनुमानित मूल्य के लिए आत्मविश्वास अंतराल जानना अक्सर आवश्यक होता है। इस तथ्य के बावजूद कि इस तरह के आत्मविश्वास अंतराल की गणना के लिए सूत्र सूत्र (13) के समान ही है, इस अंतराल में अनुमानित मूल्य है, और पैरामीटर का अनुमान नहीं है। अनुमानित प्रतिक्रिया के लिए अंतराल वाई एक्स। = ग्यारहवीं एक विशिष्ट चर मूल्य के साथ एक्स। मैं। सूत्र द्वारा निर्धारित:

मान लीजिए कि, ट्रैफिक प्वाइंट के लिए एक जगह चुनना, हम स्टोर में अनुमानित वार्षिक बिक्री के लिए 95% आत्मविश्वास अंतराल बनाना चाहते हैं, जिस क्षेत्र में 4000 वर्ग है। पैर:

नतीजतन, दुकान में वार्षिक बिक्री की भविष्यवाणी की, जिसका क्षेत्र 4000 वर्ग मीटर है। पैर, 95% संभावना के साथ 5.433 से 9.854 मिलियन की सीमा में है। जैसा कि हम देखते हैं, अनुमानित प्रतिक्रिया मूल्य के लिए आत्मविश्वास अंतराल अपनी गणितीय अपेक्षा के लिए आत्मविश्वास अंतराल से काफी व्यापक है। यह इस तथ्य से समझाया गया है कि गणितीय उम्मीद का मूल्यांकन करते समय व्यक्तिगत मूल्यों की भविष्यवाणी करने में परिवर्तनशीलता बहुत बड़ी है।

अंडरवाटर पत्थरों और नैतिक समस्याओं से जुड़े

प्रतिगमन विश्लेषण से जुड़ी कठिनाइयों:

  • कम से कम वर्गों की विधि की प्रयोज्यता की शर्तों को अनदेखा करना।
  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों का त्रुटि मूल्यांकन।
  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों के उल्लंघन में वैकल्पिक तरीकों का गलत चयन।
  • अध्ययन के विषय के बारे में गहरे ज्ञान के बिना प्रतिगमन विश्लेषण का आवेदन।
  • व्याख्यात्मक चर में परिवर्तनों की सीमा से परे प्रतिगमन का एक्सट्रपोलेशन।
  • सांख्यिकीय और कारण निर्भरताओं के बीच भ्रम।

व्यापक स्प्रेडशीट और सॉफ्टवेयर सांख्यिकीय गणनाओं के लिए कम्प्यूटेशनल समस्याओं को समाप्त कर दिया गया है जो प्रतिगमन विश्लेषण के अनुप्रयोग को रोकता है। हालांकि, इसने इस तथ्य को जन्म दिया कि प्रतिगमन विश्लेषण उन उपयोगकर्ताओं को लागू करना शुरू कर दिया जिनके पास पर्याप्त योग्यता और ज्ञान नहीं है। उपयोगकर्ता वैकल्पिक तरीकों के बारे में कैसे जानते हैं यदि उनमें से कई को सबसे छोटे वर्गों की विधि की प्रयोज्यता की शर्तों की मामूली अवधारणा नहीं है और यह नहीं पता कि उनके निष्पादन की जांच कैसे करें?

शोधकर्ता को संख्याओं के पीसने से दूर नहीं किया जाना चाहिए - कतरनी, झुकाव और मिश्रित सहसंबंध के गुणांक की गणना। उसे गहरे ज्ञान की जरूरत है। हम पाठ्यपुस्तकों से ली गई क्लासिक उदाहरण द्वारा इसे चित्रित करते हैं। अंस्की ने दिखाया कि अंजीर में दिखाए गए सभी चार डेटा सेट। 23, एक ही प्रतिगमन पैरामीटर (चित्र 24) है।

अंजीर। 23. कृत्रिम डेटा का चार सेट

अंजीर। 24. चार कृत्रिम डेटा सेट का रिग्रेशन विश्लेषण; मदद के साथ बनाया गया पैकेज विश्लेषण(छवि को बढ़ाने के लिए चित्र में क्लिक करें)

इसलिए, प्रतिगमन विश्लेषण के दृष्टिकोण से, ये सभी डेटा सेट पूरी तरह से समान हैं। यदि विश्लेषण इस पर समाप्त हो गया था, तो हम बहुत कुछ खो देंगे उपयोगी जानकारी। यह स्कैटर आरेखों (चित्र 25) और अवशिष्ट ग्राफ (चित्र 26) द्वारा प्रमाणित है, जो इन डेटा सेटों के लिए बनाया गया है।

अंजीर। 25. चार डेटा सेट के लिए स्कैटर आरेख

बिखरने और अवशेषों के शेड्यूल के आरेखों से संकेत मिलता है कि ये डेटा एक दूसरे से भिन्न होते हैं। एकमात्र सेट, सीधी रेखा के साथ वितरित, सेट ए द्वारा गणना किए गए अवशेषों के एक सेट का एक सेट है, इसमें कोई पैटर्न नहीं है। यह सेट बी, बी और जी के बारे में नहीं कहा जा सकता है। एक सेट बी पर बनाया गया स्कैटर शेड्यूल, एक स्पष्ट वर्गीय मॉडल का प्रदर्शन करता है। इस निष्कर्ष की पुष्टि अवशेषों के अनुसूची द्वारा एक परवलयिक आकार है। स्कैटर आरेख और अवशिष्ट शेड्यूल से पता चलता है कि डेटा सेट में उत्सर्जन शामिल है। इस स्थिति में, डेटासेट से उत्सर्जन को बाहर करना और विश्लेषण दोहराना आवश्यक है। अवलोकनों से उत्सर्जन का पता लगाने और बहिष्कृत करने की अनुमति विधि को प्रभाव का विश्लेषण कहा जाता है। उत्सर्जन को छोड़कर, मॉडल के पुनर्मूल्यांकन का परिणाम पूरी तरह से अलग हो सकता है। एक सेट से डेटा के अनुसार बनाया गया स्कैटर आरेख, एक असामान्य स्थिति को दर्शाता है जिसमें अनुभवजन्य मॉडल एक अलग प्रतिक्रिया पर महत्वपूर्ण रूप से निर्भर करता है ( X 8। = 19, वाई 8 \u003d 12.5)। इस तरह के प्रतिगमन मॉडल की गणना विशेष रूप से सावधानी से की जानी चाहिए। तो, बिखरने और अवशेष अनुसूचिकाएं बेहद हैं आवश्यक उपकरण प्रतिगमन विश्लेषण और यह एक अभिन्न अंग होना चाहिए। उनके बिना, प्रतिगमन विश्लेषण आत्मविश्वास के लायक नहीं है।

अंजीर। 26. डेटा के चार सेट के लिए अवशेषों का अनुसूची

रिग्रेशन विश्लेषण के साथ पानी के नीचे के पत्थरों से कैसे बचें:

  • चर के बीच संभावित संबंधों का विश्लेषण एक्स। तथा वाई हमेशा स्कैटर आरेख के निर्माण के साथ शुरू करें।
  • प्रतिगमन विश्लेषण के परिणामों की व्याख्या करने से पहले, इसकी प्रयोज्यता की शर्तों की जांच करें।
  • एक स्वतंत्र चर से अवशेषों की निर्भरता का एक ग्राफ बनाएं। यह निर्धारित करेगा कि अनुभवजन्य मॉडल अवलोकन के परिणामों को कैसे पूरा करता है, और फैलाव फैलाव का पता लगाता है।
  • सामान्य त्रुटि वितरण की धारणा को सत्यापित करने के लिए, हिस्टोग्राम का उपयोग करें, चार्ट "ट्रंक और पत्तियां", ब्लॉक आरेखों और सामान्य वितरण के चार्ट।
  • यदि कम से कम वर्ग विधि की प्रयोज्यता स्थितियां नहीं की जाती हैं, तो वैकल्पिक तरीकों का उपयोग करें (उदाहरण के लिए, एक वर्गबद्ध या एकाधिक प्रतिगमन मॉडल)।
  • यदि कम से कम वर्ग विधि की प्रयोज्यता स्थितियां की जाती हैं, तो प्रतिगमन गुणांक के सांख्यिकीय महत्व पर परिकल्पना का परीक्षण करना और गणितीय अपेक्षाओं और अनुमानित प्रतिक्रिया मूल्य वाले आत्मविश्वास अंतराल का निर्माण करना आवश्यक है।
  • एक स्वतंत्र चर में परिवर्तनों की सीमा के बाहर आश्रित चर के मूल्यों की भविष्यवाणी करने से बचें।
  • ध्यान रखें कि सांख्यिकीय निर्भरता हमेशा कारण नहीं होती है। याद रखें कि चर के बीच सहसंबंध का मतलब उनके बीच कोई कारण निर्भरता नहीं है।

सारांश।जैसा कि संरचनात्मक योजना (चित्र 27) पर दिखाया गया है, एक नोट इन शर्तों की जांच के लिए एक साधारण रैखिक प्रतिगमन मॉडल, इसकी प्रयोज्यता और विधियों की शर्तों का वर्णन करता है। माना टी- रिग्रेशन के झुकाव के सांख्यिकीय महत्व को सत्यापित करने के लिए क्रिटिया। आश्रित चर के मूल्यों की भविष्यवाणी करने के लिए, एक प्रतिगमन मॉडल का उपयोग किया गया था। व्यापार बिंदु के लिए जगह की पसंद से जुड़ा उदाहरण, जो स्टोर क्षेत्र से वार्षिक बिक्री की मात्रा की निर्भरता की जांच करता है की जांच की जाती है। प्राप्त जानकारी आपको स्टोर के लिए अधिक सटीक स्थान चुनने और इसकी वार्षिक बिक्री की भविष्यवाणी करने की अनुमति देती है। निम्नलिखित नोट्स रिग्रेशन विश्लेषण पर चर्चा जारी रहेगा, और कई प्रतिगमन के मॉडल पर भी विचार किया जाएगा।

अंजीर। 27. संरचनात्मक योजना नोट

पुस्तक की सामग्री लेविन एट अल। प्रबंधकों के लिए सांख्यिकी। - एम।: विलियम्स, 2004. - के साथ। 792-872।

यदि आश्रित चर स्पष्ट है, तो लॉजिस्टिक रिग्रेशन को लागू करना आवश्यक है।

प्रतिगमन विश्लेषण किसी अन्य मूल्य या कई अन्य मूल्यों से एक निश्चित मान की निर्भरता की जांच करता है। रिग्रेशन विश्लेषण मुख्य रूप से मध्यम अवधि के पूर्वानुमान में, साथ ही दीर्घकालिक पूर्वानुमान में उपयोग किया जाता है। औसत और दीर्घकालिक अवधि व्यवसाय वातावरण में परिवर्तन स्थापित करना और अध्ययन सूचक में इन परिवर्तनों के प्रभावों के लिए लेखांकन स्थापित करना संभव बनाता है।

प्रतिगमन विश्लेषण के लिए, यह आवश्यक है:

    परीक्षण संकेतकों पर वार्षिक डेटा की उपस्थिति,

    डिस्पोजेबल पूर्वानुमान की उपलब्धता, यानी ऐसे पूर्वानुमान जो नए डेटा के आगमन के साथ सही नहीं हैं।

प्रतिगमन विश्लेषण आमतौर पर एक जटिल, मल्टीफैक्टर प्रकृति, जैसे निवेश, लाभ, बिक्री वॉल्यूम इत्यादि जैसी वस्तुओं के लिए किया जाता है।

के लिये नियामक पूर्वानुमान विधि लक्ष्य के रूप में लिया गया घटना के संभावित राज्यों को प्राप्त करने के तरीके और समय परिभाषित किया गया है। हम पूर्व निर्धारित मानदंडों, आदर्शों, प्रोत्साहन और उद्देश्यों के आधार पर घटना के वांछित राज्यों की उपलब्धि की भविष्यवाणी करने के बारे में बात कर रहे हैं। इस तरह के पूर्वानुमान प्रश्न का उत्तर देता है: आप वांछित किस तरह से प्राप्त कर सकते हैं? विनियामक विधि को अक्सर सॉफ़्टवेयर या लक्षित पूर्वानुमान के लिए उपयोग किया जाता है। एक मानक की मात्रात्मक अभिव्यक्ति और मूल्यांकन सुविधाओं के एक निश्चित पैमाने के रूप में उपयोग किया जाता है

एक मात्रात्मक अभिव्यक्ति के उपयोग के मामले में, जैसे विभिन्न आबादी के लिए विशेषज्ञों द्वारा विकसित व्यक्तिगत भोजन और गैर-खाद्य उत्पादों की खपत के शारीरिक और तर्कसंगत मानदंड, पिछले सालों के लिए इन वस्तुओं की खपत के स्तर को निर्धारित करना संभव है निर्दिष्ट मानदंड की उपलब्धि। इस तरह की गणना को इंटरपोलेशन कहा जाता है। इंटरपोलेशन स्थापित संबंधों के आधार पर, घटनाओं की गतिशील संख्या में गायब संकेतकों की गणना करने का एक तरीका है। संकेतक के वास्तविक मूल्य और गतिशील श्रृंखला के चरम सदस्यों के लिए अपने मानकों के मूल्य को लेते हुए, आप इस पंक्ति के भीतर मान निर्धारित कर सकते हैं। इसलिए, इंटरपोलेशन को आदर्श विधि माना जाता है। एक्सट्रपलेशन में उपयोग किए गए पहले कम सूत्र (4) का उपयोग इंटरपोलेशन में किया जा सकता है, जहां एन तथ्यात्मक डेटा को चिह्नित करेगा, लेकिन संकेतक खड़ा होगा।

मूल्यांकन सुविधा के नियामक पैमाने (क्षेत्र, स्पेक्ट्रम) में उपयोग के मामले में, यानी, वरीयता वितरण कार्यों को लगभग निम्नलिखित ग्रेडेशन इंगित करता है: अवांछित - कम वांछनीय - अधिक वांछनीय - सबसे वांछनीय - इष्टतम (मानक)।

पूर्वानुमान की मानक विधि निष्पक्षता के स्तर को बढ़ाने के लिए सिफारिशों को विकसित करने में मदद करती है, इसलिए, समाधान की प्रभावशीलता।

मोडलिंगशायद पूर्वानुमान की सबसे कठिन विधि। गणितीय मॉडलिंग का अर्थ गणितीय सूत्रों, समीकरणों और असमानताओं के माध्यम से आर्थिक घटना का विवरण है। गणितीय उपकरण को पूर्वानुमान पृष्ठभूमि को सटीक रूप से प्रतिबिंबित करना चाहिए, हालांकि अनुमानित वस्तु की पूरी गहराई और जटिलता को पूरी तरह से प्रतिबिंबित करना काफी मुश्किल है। "मॉडल" शब्द लैटिन शब्द मॉडलस से बनाई गई है, जिसका अर्थ है "माप"। इसलिए, पूर्वानुमान की विधि से विचार करने के लिए सिमुलेशन अधिक सही होगा, बल्कि मॉडल पर इसी तरह की घटना का अध्ययन करने की विधि से।

एक व्यापक अर्थ में, मॉडल को अध्ययन की डिप्टी ऑब्जेक्ट्स कहा जाता है जो इस तरह के समानता में हैं जो आपको ऑब्जेक्ट के बारे में एक नया ज्ञान प्राप्त करने की अनुमति देता है। मॉडल को वस्तु के गणितीय विवरण के रूप में माना जाना चाहिए। इस मामले में, मॉडल को एक घटना (ऑब्जेक्ट, इंस्टॉलेशन) के रूप में परिभाषित किया गया है, जो ऑब्जेक्ट का अध्ययन करने के कुछ अनुपालन में है और इसे अध्ययन की प्रक्रिया में बदल सकता है, वस्तु के बारे में जानकारी प्रस्तुत कर सकता है।

मॉडल की संकुचित समझ के साथ, इसे पूर्वानुमान की वस्तु के रूप में माना जाता है, इसका अध्ययन भविष्य में वस्तु के संभावित राज्यों और इन राज्यों को प्राप्त करने के तरीकों के बारे में जानकारी देता है। इस मामले में, पूर्वानुमान मॉडल का उद्देश्य ऑब्जेक्ट के बारे में जानकारी प्राप्त करना है, बल्कि केवल भविष्य के राज्यों के बारे में जानकारी प्राप्त करना है। फिर, एक मॉडल बनाने के दौरान, ऑब्जेक्ट के अनुपालन का प्रत्यक्ष परीक्षण करना असंभव है, क्योंकि मॉडल केवल भविष्य की स्थिति का प्रतिनिधित्व करता है, और ऑब्जेक्ट वर्तमान में अनुपस्थित हो सकता है या एक अलग अस्तित्व हो सकता है।

मॉडल सामग्री और आदर्श हो सकते हैं।

अर्थव्यवस्था आदर्श मॉडल का उपयोग करती है। सामाजिक-आर्थिक (आर्थिक) घटना के मात्रात्मक विवरण का सबसे सही आदर्श मॉडल एक गणितीय मॉडल है जो संख्याओं, सूत्रों, समीकरणों, एल्गोरिदम या ग्राफिकल प्रतिनिधित्व का उपयोग करता है। आर्थिक मॉडल का उपयोग करके, निर्धारित करें:

    विभिन्न आर्थिक संकेतकों के बीच निर्भरता;

    संकेतकों पर लगाए गए विभिन्न प्रकार के प्रतिबंध;

    प्रक्रिया को अनुकूलित करने के लिए मानदंड।

ऑब्जेक्ट के सार्थक विवरण को औपचारिक योजना के रूप में दर्शाया जा सकता है, जो इंगित करता है कि वांछित मूल्यों की गणना करने के लिए कौन से पैरामीटर और स्रोत जानकारी को इकट्ठा किया जाना चाहिए। औपचारिक सर्किट के विपरीत गणितीय मॉडल में विशिष्ट संख्यात्मक डेटा शामिल हैं, जो गणितीय मॉडल के ऑब्जेक्ट डेवलपमेंट को काफी हद तक अनुकरण प्रक्रिया के सार के बारे में फौजदारी की प्रस्तुति पर निर्भर करता है। अपने विचारों के आधार पर, उन्होंने एक कामकाजी परिकल्पना पर प्रकाश डाला, जिसकी सहायता से सूत्रों, समीकरणों और असमानताओं के रूप में मॉडल का विश्लेषणात्मक रिकॉर्ड बनाया गया है। समीकरणों की प्रणाली को हल करने के परिणामस्वरूप, समय में वांछित चर को बदलकर वर्णित कार्य के विशिष्ट पैरामीटर।

पूर्वानुमान संगठन के तत्व के रूप में कार्य का आदेश और अनुक्रम विधि की भविष्यवाणी करने की विधि के आधार पर निर्धारित किया जाता है। आमतौर पर यह काम कई चरणों में किया जाता है।

पहला चरण - पूर्वानुमान पूर्ववर्ती, यानी, पूर्वानुमान और पूर्वानुमान पृष्ठभूमि की एक वस्तु की स्थापना। पहले चरण में काम इस तरह के अनुक्रम में किया जाता है:

    अतीत में ऑब्जेक्ट के विवरण का गठन, जिसमें एक प्रीरलेनेंट ऑब्जेक्ट विश्लेषण, इसके पैरामीटर का मूल्यांकन, उनके महत्व और पारस्परिक संबंध शामिल हैं,

    सूचना, आदेश और उनके साथ काम के संगठन के स्रोतों की परिभाषा और मूल्यांकन, पूर्वव्यापी जानकारी एकत्रित और पोस्टिंग;

    अध्ययन के उद्देश्यों को निर्धारित करना।

पूर्वानुमान पूर्ववर्ती के कार्यों को निष्पादित करना, पूर्वानुमान अपने व्यवस्थित विवरण प्राप्त करने के लिए वस्तु के विकास और पूर्वानुमान पृष्ठभूमि के विकास के इतिहास का पता लगाते हैं।

दूसरा चरण एक अनुमानित निदान है जिसके दौरान भविष्यवाणी की वस्तु का व्यवस्थित विवरण और पूर्वानुमान पृष्ठभूमि की जांच की जाती है ताकि वे अपने विकास के रुझानों की पहचान कर सकें और मॉडल और पूर्वानुमान विधियों का चयन कर सकें। इस तरह के अनुक्रम में काम किया जाता है:

    ऑब्जेक्ट के औपचारिक विवरण सहित, एक पूर्वानुमान ऑब्जेक्ट मॉडल का विकास, ऑब्जेक्ट के मॉडल की पर्याप्तता की डिग्री की जांच;

    पूर्वानुमान विधियों (मुख्य और सहायक) की पसंद, एल्गोरिदम और कार्य कार्यक्रमों का विकास।

तीसरा चरण - संरक्षण, यानी, पूर्वानुमान के व्यापक विकास की प्रक्रिया, जिसमें निम्न शामिल हैं: 1) जांच की एक निश्चित अवधि में अनुमानित पैरामीटर की गणना; 2) पूर्वानुमान के व्यक्तिगत घटकों का संश्लेषण।

चौथा चरण - पूर्वानुमान का अनुमान, इसके सत्यापन सहित, यानी विश्वसनीयता, सटीकता और वैधता की डिग्री का निर्धारण।

एवेन्यू और मूल्यांकन के दौरान, पिछले चरणों के आधार पर, पूर्वानुमान के कार्यों और इसके मूल्यांकन को हल किया जाता है।

यह चरण अनुमानित है और भविष्यवाणी की मुख्य विधि पर निर्भर करता है।

पूर्वानुमान के परिणाम संदर्भ, रिपोर्ट या अन्य सामग्री के रूप में किए जाते हैं और ग्राहक को जमा किए जाते हैं।

भविष्यवाणी में, पूर्वानुमान का मूल्य ऑब्जेक्ट की वास्तविक स्थिति से संकेत दिया जाता है, जिसे पूर्वानुमान की त्रुटि कहा जाता है, जिसे सूत्र द्वारा गणना की जाती है:

;
;
. (9.3)

पूर्वानुमान में त्रुटियों के स्रोत

मुख्य स्रोत हो सकते हैं:

1. अतीत से भविष्य में डेटा की सरल हस्तांतरण (एक्सट्रपलेशन) (उदाहरण के लिए, बिक्री वृद्धि के 10% को छोड़कर, अन्य पूर्वानुमान विकल्पों की एक फर्म की कमी)।

2. एक घटना की संभावना और अध्ययन के तहत वस्तु पर इसके प्रभाव को सटीक रूप से निर्धारित करने में असमर्थता।

3. अप्रत्याशित कठिनाइयों (विनाशकारी घटनाओं) योजना के कार्यान्वयन को प्रभावित करते हैं, उदाहरण के लिए, बिक्री विभाग के प्रमुख को अचानक बर्खास्तगी।

आम तौर पर, भविष्यवाणी की सटीकता भविष्यवाणी के संचय और इसके तरीकों को काम करने के साथ बढ़ जाती है।

प्रतिगमन विश्लेषण का मुख्य उद्देश्य यह संचार के विश्लेषणात्मक रूप को निर्धारित करना है, जिसमें उत्पादक सुविधा में परिवर्तन एक या अधिक कारकों के प्रभाव के कारण है, और अन्य सभी कारकों का सेट जो उत्पादक सुविधा को भी प्रभावित करता है, स्थायी और औसत मूल्यों के लिए बनाया जाता है।
प्रतिगमन विश्लेषण की समस्याएं:
ए) व्यसन का रूप सेट करना। घटना के बीच निर्भरता की प्रकृति और आकार के बारे में, एक सकारात्मक रैखिक और गैर-रैखिक और नकारात्मक रैखिक और nonlinear प्रतिगमन है।
बी) एक विशेष प्रकार के गणितीय समीकरण के रूप में प्रतिगमन समारोह का निर्धारण और आश्रित चर पर चर को समझाने के प्रभाव को स्थापित करना।
सी) आश्रित चर के अज्ञात मूल्यों का अनुमान। प्रतिगमन फ़ंक्शन का उपयोग करके, आप स्पष्ट चर (यानी, इंटरपोलेशन समस्या को हल करते हैं) के निर्दिष्ट मानों के अंतराल के अंदर निर्भर चर के मानों को पुन: उत्पन्न कर सकते हैं या निर्दिष्ट अंतराल के बाहर प्रक्रिया के पाठ्यक्रम का अनुमान लगा सकते हैं (यानी एक्सट्रपलेशन समस्या को हल करें)। परिणाम आश्रित चर के मूल्य का एक अनुमान है।

स्टीम रिग्रेशन दो चर y और x के युग्मन का समीकरण है: जहां वाई एक आश्रित चर (प्रभावी संकेत) है; एक्स एक स्वतंत्र व्याख्या चर (फैक्टर साइन) है।

रैखिक और nonlinear प्रतिगमन हैं।
रैखिक प्रतिगमन: वाई \u003d ए + बीएक्स + ε
Nonlinear Regressions दो वर्गों में विभाजित हैं: स्पष्टीकरण चर के विश्लेषण में शामिल लोगों के प्रतिगमन, nonlinear, लेकिन अनुमानित पैरामीटर द्वारा रैखिक, अनुमानित पैरामीटर पर regression, nonlinear।
प्रतिगमन, nonlinear चर के अनुसार चर के अनुसार:

अनुमानित पैरामीटर के अनुसार प्रतिगमन, nonlinear: रिग्रेशन समीकरण का निर्माण अपने पैरामीटर के मूल्यांकन के लिए कम किया गया है। प्रतिगमन, रैखिक पैरामीटर के पैरामीटर का अनुमान लगाने के लिए, कम से कम वर्ग विधि (एमएनसी) का उपयोग करें। एमएनए हमें पैरामीटर के ऐसे अनुमान प्राप्त करने की अनुमति देता है जिसमें सैद्धांतिक न्यूनतम से प्रभावी चिह्न के वास्तविक मूल्यों के विचलन के वर्गों का योग, यानी।
.
रैखिक और nonlinear समीकरणों के लिए रैखिक को दिए गए, निम्नलिखित प्रणाली को ए और बी के सापेक्ष हल किया गया है:

आप तैयार किए गए सूत्रों का उपयोग कर सकते हैं जो इस प्रणाली से रिसाव करते हैं:

अध्ययन किए गए घटनाओं के युग्मन की निकटता रैखिक प्रतिगमन के लिए रैखिक जोड़ी सहसंबंध गुणांक का अनुमान है:

और सहसंबंध सूचकांक - nonlinear प्रतिगमन के लिए:

निर्मित मॉडल की गुणवत्ता का आकलन दृढ़ संकल्प के गुणांक (सूचकांक), साथ ही अनुमान की औसत त्रुटि देगा।
औसत अनुमानित त्रुटि वास्तविक से अनुमानित मूल्यों का औसत विचलन है:
.
मूल्यों की स्वीकार्य सीमा 8-10% से अधिक नहीं है।
लोच का औसत गुणांक दिखाता है कि औसतन कितना प्रतिशत है, परिणाम इसके औसत मूल्य से परिणाम को अपने औसत मूल्य का 1% बदलते समय बदल देगा:
.

फैलाव विश्लेषण कार्य आश्रित चर के फैलाव का विश्लेषण करना है:
,
विचलन के वर्गों की कुल राशि कहां है;
- प्रतिगमन के कारण विचलन के वर्गों का योग ("समझाया गया" या "कारक");
- विचलन के वर्गों का अवशिष्ट योग।
परिणामस्वरूप फीचर के समग्र फैलाव में, रिग्रेशन द्वारा समझाया गया फैलाव का अंश, निर्धारण आर 2 के गुणांक (अनुक्रमणिका) को दर्शाता है:

दृढ़ संकल्प गुणांक गुणांक या सहसंबंध सूचकांक का वर्ग है।

एफ-टेस्ट - प्रतिगमन समीकरण की गुणवत्ता का अनुमान - परिकल्पना की जांच करना है, लेकिन रिग्रेशन समीकरण की सांख्यिकीय महत्वहीनता और संचार की कठोरता के संकेतक के बारे में है। ऐसा करने के लिए, एफ-क्रिपर के एफ-कंटर की वास्तविक एफ तथ्य और महत्वपूर्ण (तालिका) एफ तालिका की तुलना करें। एफ तथ्य तथ्यात्मक और अवशिष्ट फैलाव के मूल्यों के अनुपात से निर्धारित किया जाता है जो स्वतंत्रता की एक डिग्री के लिए डिज़ाइन किया गया है:
,
जहां एन कुल की इकाइयों की संख्या है; एम वैरिएबल एक्स के साथ पैरामीटर की संख्या है।
एफ टेबल स्वतंत्रता की डिग्री और महत्व स्तर ए के डेटा में यादृच्छिक कारकों के प्रभाव में मानदंड का अधिकतम संभव मूल्य है। महत्व का स्तर एक सही परिकल्पना को अस्वीकार करने की संभावना है, बशर्ते यह सत्य है। आमतौर पर ए 0.05 या 0.01 के बराबर लिया जाता है।
अगर च टेबल< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > एफ तथ्य, फिर परिकल्पना को विक्षेपित नहीं किया जाता है और मान्यता प्राप्त सांख्यिकीय महत्वहीनता, प्रतिगमन समीकरण की अविश्वसनीयता।
प्रतिगमन गुणांक और सहसंबंधों के सांख्यिकीय महत्व का आकलन करने के लिए, छात्र के टी-मानदंड और प्रत्येक संकेतक के आत्मविश्वास अंतराल की गणना की जाती है। परिकल्पना को संकेतकों की यादृच्छिक प्रकृति पर आगे रखा जाता है, यानी शून्य से महत्वहीन अंतर पर। छात्र टी-मानदंड का उपयोग करके प्रतिगमन और सहसंबंध गुणांक के महत्व का आकलन उनके मूल्यों की तुलना यादृच्छिक त्रुटि मान के साथ किया जाता है:
; ; .
रैखिक प्रतिगमन पैरामीटर और सहसंबंध गुणांक की यादृच्छिक त्रुटियां सूत्रों द्वारा निर्धारित की जाती हैं:



टी-सांख्यिकी के वास्तविक और महत्वपूर्ण (तालिका) मानों की तुलना - टी तालिका और टी तथ्य - हम परिकल्पना एन को स्वीकार या अस्वीकार करते हैं।
फिशर के एफ-मानदंड और छात्र के टी-सांख्यिकी के बीच संबंध समानता द्वारा व्यक्त किया जाता है।

यदि टी टैब है< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > टी तथ्य यह है कि परिकल्पना को विक्षेपित नहीं किया गया है और गठन की यादृच्छिक प्रकृति ए, बी या मान्यता प्राप्त है।
आत्मविश्वास अंतराल की गणना करने के लिए, हम प्रत्येक संकेतक के लिए सीमा त्रुटि डी निर्धारित करते हैं:
, .
आत्मविश्वास अंतराल की गणना के लिए सूत्र निम्नानुसार हैं:
; ;
; ;
यदि आत्मविश्वास अंतराल की सीमाओं पर शून्य पड़ता है, तो निचली सीमा नकारात्मक है, और ऊपरी सकारात्मक है, फिर अनुमानित पैरामीटर शून्य लिया जाता है, क्योंकि यह एक साथ सकारात्मक और नकारात्मक मान दोनों प्राप्त नहीं कर सकता है।
अनुमानित मान संबंधित (पूर्वानुमान) मान के प्रतिगमन समीकरण में प्रतिस्थापन द्वारा निर्धारित किया जाता है। औसत मानक पूर्वानुमान त्रुटि की गणना की जाती है:
,
कहा पे
और पूर्वानुमान का ट्रस्ट अंतराल बनाया गया है:
; ;
कहा पे .

एक समाधान का एक उदाहरण

कार्य संख्या 1। 1 99 0 के दशक में उरल जिले के सात क्षेत्रों के लिए, दो संकेतों के मूल्यों को जाना जाता है।
तालिका एक।
आवश्यकता है: 1. एक्स में निर्भरता को चित्रित करने के लिए, निम्न कार्यों के मानकों की गणना करें:
ए) रैखिक;
बी) पावर (दोनों भागों को लॉरेटिंग द्वारा परिवर्तनीय रैखिकरण की प्रक्रिया पूर्व निर्धारित करें);
ग) संकेतक;
डी) समतुल्य हाइपरबोलास (आपको इस मॉडल को प्री-लाइन करने के तरीके के साथ भी आने की आवश्यकता है)।
2. प्रत्येक मॉडल को औसत अनुमानित त्रुटि और फिशर के एफ-मानदंडों के माध्यम से मूल्यांकन करें।

समाधान (विकल्प संख्या 1)

पैरामीटर की गणना करने के लिए ए और बी रैखिक प्रतिगमन (कैलकुलेटर का उपयोग करके गणना की जा सकती है)।
हम सामान्य समीकरणों की प्रणाली को हल करते हैं लेकिन अ तथा बी:
स्रोत डेटा पर हम गणना करते हैं :
वाई एक्स। yx। एक्स 2 y 2। एक I.
एल 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
संपूर्ण 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
सी एफ संकेत (कुल / एन) 57,89 54,90 3166,05 3048,34 3383,68 एक्स। एक्स। 8,1
एस 5,74 5,86 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।
एस 2। 32,92 34,34 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।


प्रतिगमन समीकरण: y \u003d। 76,88 - 0,35एक्स।औसत दैनिक में वृद्धि के साथ वेतन 1 रगड़ के लिए। खरीद लागत का हिस्सा खाद्य उत्पाद 0.35% आइटम द्वारा औसत से घटता है।
सहारा सहसंबंध के रैखिक गुणांक की गणना करें:

संचार मध्यम, रिवर्स।
निर्धारण गुणांक निर्धारित करें:

परिणाम भिन्नता 12.7% द्वारा कारक एक्स की भिन्नता से समझाया गया है। प्रतिगमन समीकरण में वास्तविक मूल्यों को प्रतिस्थापित करना एक्स, सैद्धांतिक (गणना) मान निर्धारित करें . हम अनुमान की औसत त्रुटि की परिमाण पाते हैं:

औसत गणना मूल्य वास्तविक 8.1% से विचलित।
एफ-मानदंडों की गणना करें:

1 से 1।< एफ < ¥ विचार किया जाना चाहिए एफ -1 .
प्राप्त मूल्य परिकल्पना को अपनाने की आवश्यकता को इंगित करता है लेकिन ओ। ज्ञात निर्भरता और समीकरण के मानकों और संचार की मजबूती के संकेतक की सांख्यिकीय महत्वहीनता की आकस्मिक प्रकृति।
1 बी। पावर मॉडल का निर्माण परिवर्तनीय रैखिकरण प्रक्रिया से पहले है। उदाहरण में, रैखिककरण को समीकरण के दोनों हिस्सों को लॉगरिथिंग द्वारा उत्पादित किया जाता है:


कहा पे Y \u003d lg (y), x \u003d lg (x), c \u003d lg (a)।

गणना के लिए, हम डेटा तालिका का उपयोग करते हैं। 1.3।

तालिका 1.3।

वाई एक्स। Yx। Y 2। एक्स 2 एक I.
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
संपूर्ण 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
मीन 1,7605 1,7370 3,0572 3,1011 3,0194 एक्स। एक्स। 28,27 8,0
σ 0,0425 0,0484 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।
Σ 2। 0,0018 0,0023 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।

आईबी के साथ गणना:


हम रैखिक समीकरण प्राप्त करते हैं: .
अपने potentiation प्रदर्शन करके, हमें मिलता है:

इस समीकरण में वास्तविक मूल्यों को प्रतिस्थापित करना एक्स, हम परिणाम के सैद्धांतिक मूल्य प्राप्त करते हैं। आइए संकेतकों की गणना करें: संचार मजबूती - सहसंबंध सूचकांक और औसत अनुमानित त्रुटि

पावर मॉडल की विशेषताओं से संकेत मिलता है कि रैखिक कार्य से कुछ हद तक बेहतर है रिश्ते का वर्णन करता है।

1 वी।। एक संकेतक वक्र के समीकरण का निर्माण

समीकरण के दोनों हिस्सों के लॉगरिथिंग के दौरान चर के रैखिकरण के लिए प्रक्रिया से पहले:

गणना के लिए, हम तालिका डेटा का उपयोग करते हैं।

वाई एक्स। Yx। Y 2। एक्स 2 एक I.
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
संपूर्ण 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
सी एफ जेएन। 1,7605 54,9 96,5711 3,1011 3048,34 एक्स। एक्स। 28,68 8,0
σ 0,0425 5,86 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।
Σ 2। 0,0018 34,339 एक्स। एक्स। एक्स। एक्स। एक्स। एक्स। एक्स।

प्रतिगमन पैरामीटर के मान ए और में का कुल योग होना:


रैखिक समीकरण प्राप्त किया गया था: . हम प्राप्त समीकरण के शक्तिशालीकरण का उत्पादन करेंगे और इसे सामान्य रूप में लिखेंगे:

संचार अनुक्रमणिका के माध्यम से मूल्यांकन किया जाता है:

कारण निर्भरताओं की विशेषताएं

कारण संबंध- यह घटनाओं और प्रक्रियाओं का संबंध है जब उनमें से एक में परिवर्तन कारण है - अन्य में बदलाव की ओर जाता है - जांच।

इंटरकनेक्शन का अध्ययन करने के उनके अर्थ के लिए संकेत दो वर्गों में विभाजित हैं।

संकेत जो अन्य संबंधित संकेतों में परिवर्तन निर्धारित करते हैं उन्हें बुलाया जाता है कारक (या कारक)।

कारक संकेतों की कार्रवाई के तहत भिन्न लक्षण हैं प्रभावी।

निम्नलिखित मोल्ड प्रतिष्ठित हैं: कार्यात्मक और स्टोकास्टिक। कार्यात्मकवे ऐसे कनेक्शन को कहते हैं जिस पर एक कारक का एक निश्चित मूल्य परिणामी सुविधा के एक और केवल एक मूल्य से मेल खाता है। कार्यात्मक संचार अवलोकन के सभी मामलों में और मौजूदा दहन की प्रत्येक विशिष्ट इकाई के लिए प्रकट होता है।

कार्यात्मक संचार निम्नलिखित समीकरण द्वारा दर्शाया जा सकता है:
y i \u003d f (x i)कहाँ: y मैं - कार्यकारी सुविधा; F (x i) - प्रभावी और कारक संकेतों का एक प्रसिद्ध संचार समारोह; एक्स I. - फैक्टर साइन।
वास्तविक प्रकृति में कोई कार्यात्मक संबंध नहीं हैं। वे केवल घटनाओं का विश्लेषण करने में उपयोगी हैं, लेकिन वास्तविकता को सरल बनाते हैं।

स्टोकास्टिक (सांख्यिकीय या यादृच्छिक) संचार यह उन मूल्यों के बीच संबंध है जिसमें उनमें से एक वितरण कानून को बदलकर किसी अन्य मूल्य या अन्य मूल्यों में बदलाव का जवाब देता है। दूसरे शब्दों में, इस संबंध के साथ विभिन्न मूल्य एक चर दूसरे चर के विभिन्न वितरण के अनुरूप है। यह इस तथ्य के कारण है कि आश्रित चर, स्वतंत्र विचार के अलावा, कई अनियंत्रित या अनियंत्रित यादृच्छिक कारकों से प्रभावित होता है, साथ ही चर के माप की कुछ अपरिहार्य त्रुटियों से भी प्रभावित होता है। इस तथ्य के कारण कि आश्रित चर के मूल्य यादृच्छिक बिखरने के अधीन हैं, उन्हें पर्याप्त सटीकता के साथ भविष्यवाणी नहीं की जा सकती है, और केवल एक निश्चित संभावना के साथ संकेत दिया जा सकता है।

वाई और एक्स के बीच स्टोकास्टिक निर्भरता की अस्पष्टता के कारण, विशेष रूप से, यह एक्स निर्भरता द्वारा औसत ब्याज का है, यानी औसत मूल्य में परिवर्तन में पैटर्न एमएक्स (वाई) की सशर्त गणितीय उम्मीद है (यादृच्छिक परिवर्तनीय वाई की गणितीय अपेक्षा, इस शर्त के तहत चर के आधार पर परिवर्तनीय एक्स स्वीकार्य एक्स)।

स्टोकास्टिक संचार का एक विशेष मामला एक सहसंबंध है। सह - संबंध (लैट से। correlatio। अनुपात, संबंध)। शब्द का प्रत्यक्ष टोकन सह - संबंध - स्टोकास्टिक, संभावित, संभव संचार दो (जोड़ी) या कई (एकाधिक) यादृच्छिक मानों के बीच।

दो चर के बीच सहसंबंध निर्भरता को इन वैरिएबल्स के बीच सांख्यिकीय संबंध भी कहा जाता है, जिस पर एक चर का प्रत्येक मूल्य एक निश्चित औसत मूल्य से मेल खाता है, यानी सशर्त गणितीय उम्मीद अलग है। सहसंबंध निर्भरता स्टोकास्टिक निर्भरता का एक निजी मामला है, जिसमें कारक संकेतों के मूल्यों में परिवर्तन (x 1 x 2 ..., x n) परिणामस्वरूप सुविधा के औसत मूल्य में परिवर्तन को लागू करता है।



निम्नलिखित प्रकार के सहसंबंध के बीच अंतर करने के लिए यह परंपरागत है:

1. जोड़ी सहसंबंध दो संकेतों (प्रभावी और कारक या दो कारक) के बीच संबंध है।

2. निजी सहसंबंध - अध्ययन में शामिल अन्य कारक संकेतों के एक निश्चित मूल्य पर उत्पादक और एक कारक नोट्स के बीच निर्भरता।

3. एकाधिक सहसंबंध अध्ययन में शामिल प्रभावी और दो या अधिक कारक संकेतों की निर्भरता है।

प्रतिगमन विश्लेषण की नियुक्ति

कारण संबंधों के प्रतिनिधित्व का विश्लेषणात्मक रूप प्रतिगमन मॉडल हैं। वैज्ञानिक वैधता और प्रतिगमन विश्लेषण की लोकप्रियता यह अध्ययन की घटना मॉडलिंग के मुख्य गणितीय माध्यमों में से एक बनाता है। इस विधि का प्रयोग प्रयोगात्मक डेटा को सुचारु बनाने और उत्पादक चर पर विभिन्न कारकों के तुलनात्मक प्रभाव के मात्रात्मक अनुमान प्राप्त करने के लिए किया जाता है।

प्रतिगमन विश्लेषण है विश्लेषणात्मक अभिव्यक्ति को निर्धारित करने में, जिसमें एक मान (आश्रित परिवर्तनीय या प्रभावी सुविधा) में परिवर्तन एक या अधिक स्वतंत्र मूल्यों (कारकों या भविष्यवक्ताओं) के प्रभाव के कारण होता है, और अन्य सभी कारकों का सेट भी आश्रित को प्रभावित करता है मूल्य स्थायी और औसत मूल्यों के लिए लिया जाता है।।

प्रतिगमन विश्लेषण के उद्देश्य:

कारकों (x 1, x 2, ..., x n) से परिणामी सुविधा के सशर्त औसत मूल्य की कार्यात्मक निर्भरता का मूल्यांकन;

स्वतंत्र रूप से आश्रित चर के मूल्य की भविष्यवाणी)।

आश्रित चर के भिन्नता में व्यक्तिगत स्वतंत्र चर के योगदान का निर्धारण।

प्रतिगमन विश्लेषण का उपयोग चर के बीच संचार की उपलब्धता निर्धारित करने के लिए नहीं किया जा सकता है, क्योंकि इस तरह के कनेक्शन की उपस्थिति आवेदन के लिए एक शर्त है।

प्रतिगमन विश्लेषण में, इसे प्रभावी (वाई) और कारखानों x 1, x 2 ..., एक्स एन संकेतों के बीच कारण संबंधों की उपस्थिति को पहले से समझा जाता है।

समारोह , सेशनपैरामीटर से संकेतक की निर्भरता को आंदोलन के समीकरण (समारोह) कहा जाता है एक । प्रतिगमन समीकरण स्वतंत्र चर के कुछ मूल्यों पर आश्रित चर का अपेक्षित मूल्य दिखाता है।
मॉडल में शामिल कारकों की संख्या के आधार पर एच मॉडल एकल-कारक (जोड़ा प्रतिगमन मॉडल) और मल्टीफैक्टर (एकाधिक रिग्रेशन मॉडल) में विभाजित हैं। फ़ंक्शन के प्रकार के आधार पर, मॉडल रैखिक और nonlinear में विभाजित है।

जोड़ी प्रतिगमन मॉडल

अनजान यादृच्छिक कारकों के प्रभाव और व्यक्तिगत अवलोकनों के कारणों के कारण वाई प्रतिगमन समारोह एफ (एक्स) से कम या ज्यादा विचलित हो जाएगा। इस मामले में, दो चर (एक जोड़ी प्रतिगमन मॉडल) के बीच संबंधों के समीकरण का प्रतिनिधित्व किया जा सकता है:

Y \u003d f (x) + ɛ,

जहां ɛ एक यादृच्छिक चर है रिग्रेशन फ़ंक्शन से विचलन की विशेषता है। इस चर को क्रोधित या गड़बड़ी (अवशेष या त्रुटि) कहा जाता है। इस प्रकार, प्रतिगमन मॉडल में, आश्रित चर वाई कुछ सुविधा है f (x)यादृच्छिक गड़बड़ी की सटीकता के साथ ɛ.

युग्मित प्रतिगमन (CLPR) के क्लासिक रैखिक मॉडल पर विचार करें। इसका एक दृश्य है

i \u003d β 0 + β 1 x I + I (I \u003d 1,2, ..., एन),(1)

कहा पे मैं।-प्लेबल (परिणामस्वरूप, निर्भर, अंतर्जात चर); एक्स I.- व्याख्या (भविष्यवाणी, कारक, exogenous) चर; β 0, β 1- संख्यात्मक गुणांक; ɛ I.- यादृच्छिक (stochastic) घटक या त्रुटि।

बुनियादी स्थितियां (पूर्वापेक्षाएँ, परिकल्पना) Klprr:

1) एक्स I.- निर्धारित (गैर-यादृच्छिक) मूल्य, यह माना जाता है कि x के मूल्यों में से मैं सभी समान नहीं हैं।

2) गड़बड़ी का गणितीय अपेक्षा (औसत मूल्य) ɛ I.समान रूप से शून्य:

मी [ɛ i] \u003d 0 (i \u003d 1,2, ..., एन)।

3) गड़बड़ी का फैलाव किसी भी मूल्यों के लिए स्थिर है (homocyadasticity की स्थिति):

डी [ɛ i] \u003d σ 2 (i \u003d 1,2, ..., एन)।

4) विभिन्न अवलोकनों के लिए परेशान करने वाले असंबद्ध हैं:

कोव [ɛ I, ɛ j] \u003d m [ɛ i, ɛ j] \u003d 0 at ≠ j,

जहां कोव [ɛ I, ɛ J] कॉन्वर्सीस गुणांक (सहसंबंध क्षण) है।

5) लंबन सामान्य रूप से शून्य औसत मूल्य और फैलाव σ 2 के साथ यादृच्छिक मान वितरित किया जाता है:

ɛ I ≈ n (0, σ 2)।

प्रतिगमन समीकरण प्राप्त करने के लिए, पहली चार पूर्व शर्त। रिग्रेशन समीकरण और उसके पैरामीटर की सटीकता का अनुमान लगाने के लिए पांचवें आधार की आवश्यकता आवश्यक है।

टिप्पणी:रैखिक बांड पर ध्यान जो चर की सीमित भिन्नता के कारण है और ज्यादातर मामलों में, गणना के लिए संचार के गैरलाइनर रूपों को एक रैखिक आकार में परिवर्तित करने के लिए संचार के रूप में परिवर्तित किया जाता है (Variables द्वारा) एक रैखिक आकार में परिवर्तित किया जाता है।

पारंपरिक विधि छोटे वर्ग (एमएनसी)

नमूना द्वारा मॉडल का मूल्यांकन समीकरण है

ŷ i \u003d a 0 + a 1 x i (i \u003d 1,2, ..., एन), (2)

जहां ŷ मैं प्रतिगमन समीकरण द्वारा प्राप्त आश्रित चर के सैद्धांतिक (अनुमानित) मान है; एक 0, एक 1 - गुणांक (पैरामीटर) प्रतिगमन समीकरण (गुणांक β 0, β 1, क्रमशः) के चुनिंदा अनुमान)।

एमएनए के मुताबिक, अज्ञात पैरामीटर 0, ए 1 को चुना जाता है ताकि मूल्यों के विचलन के वर्गों का योग ŷ मैं वाई I (वर्गों का अवशिष्ट योग) के अनुभवजन्य मूल्यों से कम था:

Q e \u003d σe i 2 \u003d σ (y i - ŷ i) 2 \u003d σ (yi - (0 + a 1 x i)) 2 → न्यूनतम, (3)

जहां ई i \u003d y i - ŷ मैं perturbation ɛ i, या रिग्रेशन के अवशेष का एक चुनिंदा मूल्यांकन है।

कार्य को 0 और 1 पैरामीटर के ऐसे मूल्यों को खोजने के लिए कम किया जाता है, जिसमें फ़ंक्शन क्यू ई सबसे छोटा मान लेता है। ध्यान दें कि फ़ंक्शन क्यू ई \u003d क्यू ई (ए 0, ए 1) दो चर का कार्य 0 और 1 तक 1 का कार्य नहीं है जब तक कि हमने पाया नहीं, और फिर उन्हें "सर्वोत्तम" (कम से कम वर्ग विधि के अर्थ में) मान दिया गया है, और Xi, यी प्रयोगात्मक रूप से पाए गए निरंतर संख्याएं हैं।

आवश्यक शर्तें Extremum (3) दो चर के इस समारोह के शून्य निजी डेरिवेटिव के बराबर हैं। नतीजतन, हम दो रैखिक समीकरणों की एक प्रणाली प्राप्त करते हैं, जिसे सामान्य समीकरणों की प्रणाली कहा जाता है:

(4)

गुणांक ए 1 एक्स में चुनिंदा रिग्रेशन गुणांक है, जो दिखाता है कि परिवर्तनीय चर वाई में परिवर्तनीय चर वाई जब इसके माप की प्रति इकाई परिवर्तनीय एक्स में परिवर्तन बदलता है, वह भिन्नता x की इकाई में भिन्नता है। संकेत एक 1। इस परिवर्तन की दिशा इंगित करता है। गुणांक ए 0 - विस्थापन (2) के अनुसार मूल्य के बराबर है ŷ मैं x \u003d 0 पर हूं और शायद सार्थक व्याख्या नहीं हो सकती है। इसके लिए, कभी-कभी आश्रित चर को प्रतिक्रिया कहा जाता है।

प्रतिगमन गुणांक के मूल्यों की सांख्यिकीय गुण:

0 गुणांक के अनुमान 0, एक 1 अस्थिर हैं;

अनुमानित नमूना मात्रा एन के साथ अनुमानों के फैलाव 0, 1 की कमी (अनुमानों की शुद्धता बढ़ जाती है);

कोणीय गुणांक का फैलाव 1 में वृद्धि के साथ घट जाती है और इसलिए यह x को चुनना वांछनीय है ताकि औसत मूल्य के आसपास उनका बिखरना बड़ा हो;

X¯\u003e 0 पर (जो कि सबसे बड़ी रुचि का प्रतिनिधित्व करता है) 0 और 1 के बीच एक नकारात्मक सांख्यिकीय कनेक्शन होता है (0 में कमी के लिए 1 की बढ़ोतरी)।