घर स्वच्छता एक्सेल में सन्निकटन की औसत त्रुटि कैसे पता करें। फिशर एफ परीक्षण का उपयोग करके प्रतिगमन मॉडलिंग परिणामों की सांख्यिकीय विश्वसनीयता का अनुमान

एक्सेल में सन्निकटन की औसत त्रुटि कैसे पता करें। फिशर एफ परीक्षण का उपयोग करके प्रतिगमन मॉडलिंग परिणामों की सांख्यिकीय विश्वसनीयता का अनुमान

आइए महत्व स्तर बी = 0.05 पर व्यक्तिगत प्रतिगमन गुणांकों की शून्य (यदि विकल्प एच 1 के बराबर नहीं है) की समानता के बारे में परिकल्पना एच 0 की जांच करें।

यदि मुख्य परिकल्पना गलत हो जाती है, तो हम वैकल्पिक परिकल्पना को स्वीकार कर लेते हैं। इस परिकल्पना का परीक्षण करने के लिए छात्र के टी-टेस्ट का उपयोग किया जाता है।

अवलोकन डेटा (जिसे अवलोकन या वास्तविक भी कहा जाता है) से प्राप्त टी-मानदंड मूल्य की तुलना छात्र वितरण तालिकाओं (जो आमतौर पर सांख्यिकी या अर्थमिति पर पाठ्यपुस्तकों और कार्यशालाओं के अंत में दी जाती है) से निर्धारित सारणीबद्ध (महत्वपूर्ण) मूल्य से की जाती है।

तालिका मानमहत्व के स्तर (बी) और स्वतंत्रता की डिग्री की संख्या के आधार पर निर्धारित किया जाता है, जो रैखिक जोड़ी प्रतिगमन के मामले में (एन-2) के बराबर है, एन अवलोकनों की संख्या है।

यदि टी-टेस्ट का वास्तविक मान तालिका मान (मॉड्यूलो) से अधिक है, तो मुख्य परिकल्पना खारिज कर दी जाती है और यह माना जाता है कि संभाव्यता (1-बी) के साथ पैरामीटर या सांख्यिकीय विशेषता जनसंख्याशून्य से काफी भिन्न।

यदि टी-टेस्ट का वास्तविक मूल्य तालिका मूल्य (मॉड्यूलो) से कम है, तो मुख्य परिकल्पना को अस्वीकार करने का कोई कारण नहीं है, अर्थात। जनसंख्या में एक पैरामीटर या सांख्यिकीय विशेषता महत्व स्तर पर शून्य से महत्वपूर्ण रूप से भिन्न नहीं होती है।

टी क्रिट (एनएम-1;बी/2) = (30;0.025) = 2.042

1.7 से< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в इस मामले मेंगुणांक b की उपेक्षा की जा सकती है।

0.56 से< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

प्रतिगमन समीकरण गुणांकों के लिए विश्वास अंतराल।

आइए हम प्रतिगमन गुणांकों के विश्वास अंतराल को निर्धारित करें, जो 95% की विश्वसनीयता के साथ इस प्रकार होगा:

  • (बी - टी क्रिट एस बी ; बी + टी क्रिट एस बी)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

चूँकि बिंदु 0 (शून्य) अंदर स्थित है विश्वास अंतराल, तो गुणांक बी का अंतराल अनुमान सांख्यिकीय रूप से महत्वहीन है।

  • (ए - टी क्रिट एस ए ; ए + टी क्रिट एस ए)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

95% की संभावना के साथ यह कहा जा सकता है कि इस पैरामीटर का मान पाए गए अंतराल में होगा।

चूंकि बिंदु 0 (शून्य) आत्मविश्वास अंतराल के अंदर स्थित है, इसलिए गुणांक का अंतराल अनुमान सांख्यिकीय रूप से महत्वहीन है।

2) एफ-सांख्यिकी। फिशर मानदंड.

निर्धारण के गुणांक R2 का उपयोग समीकरण के महत्व का परीक्षण करने के लिए किया जाता है रेखीय प्रतिगमनआम तौर पर।

प्रतिगमन मॉडल के महत्व का परीक्षण फिशर के एफ परीक्षण का उपयोग करके किया जाता है, जिसकी गणना मूल्य अध्ययन किए जा रहे संकेतक की टिप्पणियों की मूल श्रृंखला के विचरण के अनुपात और अवशिष्ट अनुक्रम के विचरण के निष्पक्ष अनुमान के रूप में पाया जाता है। इस मॉडल के लिए.

यदि k 1 =(m) और k 2 =(n-m-1) स्वतंत्रता की डिग्री के साथ परिकलित मान किसी दिए गए महत्व स्तर पर सारणीबद्ध मान से अधिक है, तो मॉडल को महत्वपूर्ण माना जाता है।

जहाँ m मॉडल में कारकों की संख्या है।

युग्मित रैखिक प्रतिगमन के सांख्यिकीय महत्व का आकलन निम्नलिखित एल्गोरिदम का उपयोग करके किया जाता है:

  • 1. एक शून्य परिकल्पना प्रस्तुत की गई है कि समग्र रूप से समीकरण सांख्यिकीय रूप से महत्वहीन है: एच 0: आर 2 = 0 महत्व स्तर बी पर।
  • 2. अगला, एफ-मानदंड का वास्तविक मूल्य निर्धारित करें:

जहाँ जोड़ीवार प्रतिगमन के लिए m=1 है।

3. सारणीबद्ध मान किसी दिए गए महत्व स्तर के लिए फिशर वितरण तालिकाओं से निर्धारित किया जाता है, यह ध्यान में रखते हुए कि वर्गों के कुल योग (बड़े विचरण) के लिए स्वतंत्रता की डिग्री की संख्या 1 है और शेष के लिए स्वतंत्रता की डिग्री की संख्या है रैखिक समाश्रयण में वर्गों का योग (छोटा प्रसरण) n-2 है।

एफ तालिका स्वतंत्रता और महत्व स्तर बी की दी गई डिग्री पर यादृच्छिक कारकों के प्रभाव के तहत मानदंड का अधिकतम संभव मूल्य है। महत्व स्तर बी - सही परिकल्पना को अस्वीकार करने की संभावना, बशर्ते कि यह सत्य हो। आमतौर पर b को 0.05 या 0.01 के बराबर लिया जाता है।

4. यदि एफ-परीक्षण का वास्तविक मूल्य तालिका मूल्य से कम है, तो वे कहते हैं कि शून्य परिकल्पना को अस्वीकार करने का कोई कारण नहीं है।

अन्यथा, शून्य परिकल्पना खारिज कर दी जाती है और संभाव्यता (1-बी) के साथ समग्र रूप से समीकरण के सांख्यिकीय महत्व के बारे में वैकल्पिक परिकल्पना स्वीकार कर ली जाती है।

स्वतंत्रता की डिग्री के साथ मानदंड का तालिका मूल्य k 1 =1 और k 2 =30, F तालिका = 4.17

चूँकि F का वास्तविक मान< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

फिशर एफ-परीक्षण और छात्र टी-सांख्यिकी के बीच संबंध समानता द्वारा व्यक्त किया गया है:

प्रतिगमन समीकरण गुणवत्ता संकेतक।

अवशेषों के स्वत: सहसंबंध के लिए परीक्षण।

ओएलएस का उपयोग करके गुणात्मक प्रतिगमन मॉडल के निर्माण के लिए एक महत्वपूर्ण शर्त अन्य सभी अवलोकनों में विचलन के मूल्यों से यादृच्छिक विचलन के मूल्यों की स्वतंत्रता है। यह सुनिश्चित करता है कि किसी भी विचलन के बीच और विशेष रूप से आसन्न विचलन के बीच कोई संबंध नहीं है।

ऑटोसहसंबंध (क्रमिक सहसंबंध) को समय (समय श्रृंखला) या स्थान (क्रॉस श्रृंखला) में क्रमबद्ध देखे गए संकेतकों के बीच सहसंबंध के रूप में परिभाषित किया गया है। समय श्रृंखला डेटा का उपयोग करते समय प्रतिगमन विश्लेषण में अवशेषों (विचरण) का स्वत: सहसंबंध आम है और क्रॉस-अनुभागीय डेटा का उपयोग करते समय बहुत दुर्लभ है।

आर्थिक समस्याओं में, सकारात्मक स्वसहसंबंध नकारात्मक स्वसहसंबंध की तुलना में बहुत अधिक सामान्य है। ज्यादातर मामलों में, सकारात्मक स्वसहसंबंध दिशात्मक के कारण होता है लगातार एक्सपोज़रमॉडल में कुछ कारकों पर ध्यान नहीं दिया गया।

नकारात्मक स्वसहसंबंध का अनिवार्य रूप से मतलब है कि एक सकारात्मक विचलन के बाद एक नकारात्मक विचलन होता है और इसके विपरीत। यदि मौसमी आंकड़ों (सर्दी-गर्मी) के अनुसार शीतल पेय की मांग और आय के बीच समान संबंध पर विचार किया जाए तो यह स्थिति उत्पन्न हो सकती है।

स्वसहसंबंध उत्पन्न करने वाले मुख्य कारणों में निम्नलिखित हैं:

  • 1. विशिष्टता त्रुटियाँ. मॉडल में किसी भी महत्वपूर्ण व्याख्यात्मक चर को ध्यान में रखने में विफलता या निर्भरता के रूप की गलत पसंद आमतौर पर प्रतिगमन रेखा से अवलोकन बिंदुओं के प्रणालीगत विचलन की ओर ले जाती है, जिससे स्वत: सहसंबंध हो सकता है।
  • 2. जड़ता. अनेक आर्थिक संकेतक(मुद्रास्फीति, बेरोजगारी, जीएनपी, आदि) व्यावसायिक गतिविधि की उतार-चढ़ाव से जुड़ी एक निश्चित चक्रीय प्रकृति है। इसलिए, संकेतकों में परिवर्तन तुरंत नहीं होता है, बल्कि एक निश्चित जड़ता होती है।
  • 3. मकड़ी का जाला प्रभाव. कई उत्पादन और अन्य क्षेत्रों में, आर्थिक संकेतक देरी (समय अंतराल) के साथ आर्थिक स्थितियों में बदलाव पर प्रतिक्रिया करते हैं।
  • 4. डेटा स्मूथिंग। अक्सर, एक निश्चित लंबी अवधि के लिए डेटा उसके घटक अंतराल पर डेटा के औसत से प्राप्त किया जाता है। इससे विचाराधीन अवधि के दौरान होने वाले उतार-चढ़ाव में कुछ हद तक कमी आ सकती है, जो बदले में स्वत: सहसंबंध का कारण बन सकता है।

स्वसहसंबंध के परिणाम विषमलैंगिकता के परिणामों के समान हैं: टी- और एफ-सांख्यिकी से निष्कर्ष जो प्रतिगमन गुणांक और निर्धारण के गुणांक के महत्व को निर्धारित करते हैं, गलत होने की संभावना है।

5. एफ-परीक्षण का उपयोग करते हुए, यह स्थापित किया गया कि परिणामी युग्मित प्रतिगमन समीकरण समग्र रूप से सांख्यिकीय रूप से महत्वहीन है और मासिक पेंशन मूल्य y और जीवनयापन की लागत x के बीच संबंध की अध्ययन की गई घटना का पर्याप्त रूप से वर्णन नहीं करता है।

6. एक अर्थमितीय एकाधिक रैखिक प्रतिगमन मॉडल तैयार किया गया है, जो एक सशर्त फर्म y की शुद्ध आय की मात्रा को पूंजी कारोबार x1 और प्रयुक्त पूंजी x2 के साथ जोड़ता है।

7. लोच गुणांक की गणना करके, यह दिखाया गया है कि जब पूंजी कारोबार 1% बदलता है, तो कंपनी की शुद्ध आय की मात्रा 0.0008% बदल जाती है, और जब उपयोग की गई पूंजी 1% बदल जाती है, तो कंपनी की शुद्ध आय की मात्रा बदल जाती है 0.56% परिवर्तन।

8. टी-टेस्ट का उपयोग करते हुए, प्रतिगमन गुणांक के सांख्यिकीय महत्व का आकलन किया गया था। यह पाया गया कि व्याख्यात्मक चर x 1 सांख्यिकीय रूप से महत्वहीन है और इसे प्रतिगमन समीकरण से बाहर रखा जा सकता है, जबकि एक ही समय में व्याख्यात्मक चर x 2 है आंकड़ों की दृष्टि से महत्वपूर्ण।

9. एफ-टेस्ट का उपयोग करते हुए, यह स्थापित किया गया था कि परिणामी युग्मित प्रतिगमन समीकरण समग्र रूप से सांख्यिकीय रूप से महत्वपूर्ण है, और एक सशर्त फर्म वाई की शुद्ध आय और पूंजी कारोबार एक्स 1 और प्रयुक्त पूंजी के बीच संबंधों की अध्ययन की गई घटना का पर्याप्त रूप से वर्णन करता है। एक्स 2.

10. एक रैखिक समीकरण द्वारा सांख्यिकीय डेटा के सन्निकटन की औसत त्रुटि की गणना की गई एकाधिक प्रतिगमन, जो कि 29.8% थी। यह दिखाया गया है कि सांख्यिकीय डेटाबेस में किस अवलोकन के कारण इस त्रुटि का परिमाण अनुमेय मूल्य से अधिक है।

14. EXCEL का उपयोग किए बिना युग्मित प्रतिगमन मॉडल का निर्माण।

का उपयोग करते हुए सांख्यिकीय सामग्रीतालिका 3.5 में दिया गया यह आवश्यक है:

2. सहसंबंध और निर्धारण के संकेतकों का उपयोग करके कनेक्शन की निकटता का आकलन करें।

3. लोच गुणांक का उपयोग करके, कारक विशेषता और परिणामी विशेषता के बीच संबंध की डिग्री निर्धारित करें।

4. परिभाषित करें औसत त्रुटिअनुमान.

5. फिशर के एफ-परीक्षण का उपयोग करके मॉडलिंग की सांख्यिकीय विश्वसनीयता का आकलन करें।

तालिका 3.5. आरंभिक डेटा।

औसत प्रति व्यक्ति नकद आय की कुल राशि में जमा, ऋण, प्रमाणपत्र और विदेशी मुद्रा की खरीद में बचत बढ़ाने के उद्देश्य से नकद आय का हिस्सा,%

औसत मासिक अर्जित वेतन, सी.यू.

कलुझ्स्काया

कॉस्ट्रोम्स्काया

ऑर्लोव्स्काया

रायज़ान

स्मोलेंस्काया

युग्मित रैखिक प्रतिगमन समीकरण के अज्ञात मापदंडों b 0 , b 1 को निर्धारित करने के लिए, हम सामान्य समीकरणों की मानक प्रणाली का उपयोग करते हैं, जिसका रूप है

(3.7)

इस प्रणाली को हल करने के लिए सबसे पहले Sx 2 और Sxy का मान निर्धारित करना आवश्यक है। ये मान स्रोत डेटा तालिका से निर्धारित किए जाते हैं, इसे उपयुक्त कॉलम (तालिका 3.6) के साथ पूरक किया जाता है।

तालिका 3.6. प्रतिगमन गुणांक की गणना की दिशा में.

फिर सिस्टम (3.7) फॉर्म लेता है

पहले समीकरण से b 0 व्यक्त करने और परिणामी अभिव्यक्ति को दूसरे समीकरण में प्रतिस्थापित करने पर हमें प्राप्त होता है:

पद-दर-पद गुणन करने और कोष्ठक खोलने पर, हमें प्राप्त होता है:

अंत में, औसत मासिक अर्जित वेतन x के साथ बचत y बढ़ाने के उद्देश्य से जनसंख्या की नकद आय के हिस्से के मूल्य को जोड़ने वाला युग्मित रैखिक प्रतिगमन समीकरण इस प्रकार है:

इसलिए, जैसे ही युग्मित रैखिक प्रतिगमन का समीकरण बनाया जाता है, हम निर्भरता के अनुसार रैखिक सहसंबंध गुणांक निर्धारित करते हैं:

संबंधित मापदंडों के मानक विचलन के मान कहां हैं।

निर्भरता (3.9) से रैखिक सहसंबंध गुणांक की गणना करने के लिए, हम मध्यवर्ती गणना करते हैं।

पाए गए मापदंडों के मानों को अभिव्यक्ति (3.9) में प्रतिस्थापित करने पर हम प्राप्त करते हैं

.

रैखिक सहसंबंध गुणांक का प्राप्त मूल्य बचत बढ़ाने के उद्देश्य से जनसंख्या की नकद आय के हिस्से और औसत मासिक अर्जित मजदूरी x की राशि के बीच एक कमजोर व्युत्क्रम सांख्यिकीय संबंध की उपस्थिति को इंगित करता है।

निर्धारण का गुणांक है, जिसका अर्थ है कि केवल 9.6% को y पर व्याख्यात्मक चर x को पुनः प्राप्त करके समझाया गया है। तदनुसार, 90.4% के बराबर मान 1, अर्थमितीय मॉडल में ध्यान में नहीं रखे गए अन्य सभी व्याख्यात्मक चर के प्रभाव के कारण होने वाले चर y के विचरण के हिस्से को दर्शाता है।

लोच गुणांक है

नतीजतन, जब औसत मासिक अर्जित वेतन में 1% परिवर्तन होता है, तो बचत बढ़ाने के उद्देश्य से जनसंख्या की नकद आय का हिस्सा भी 1% कम हो जाता है, और मजदूरी में वृद्धि के साथ, नकद आय के हिस्से में कमी आती है। जनसंख्या का उद्देश्य बचत बढ़ाना है। यह निष्कर्ष सामान्य ज्ञान के विपरीत है और इसे केवल उत्पन्न गणितीय मॉडल की गलतता से समझाया जा सकता है।

आइए औसत सन्निकटन त्रुटि की गणना करें।

तालिका 3.7. औसत सन्निकटन त्रुटि की गणना की ओर.

प्राप्त मूल्य (12...15)% से अधिक है, जो वास्तविक डेटा से गणना किए गए डेटा के औसत विचलन के महत्व को इंगित करता है जिस पर अर्थमितीय मॉडल बनाया गया था।

सांख्यिकीय मॉडलिंग की विश्वसनीयता फिशर के एफ-परीक्षण के आधार पर प्रदर्शित की जाएगी। फिशर मानदंड एफ कैल्क का सैद्धांतिक मूल्य सूत्र के अनुसार स्वतंत्रता की एक डिग्री के लिए गणना किए गए कारक और अवशिष्ट फैलाव के मूल्यों के अनुपात से निर्धारित होता है।

जहाँ n प्रेक्षणों की संख्या है;

m व्याख्यात्मक चरों की संख्या है (उदाहरण के लिए विचाराधीन m m =1)।

महत्वपूर्ण मान एफ क्रिट सांख्यिकीय तालिकाओं से निर्धारित होता है और महत्व स्तर के लिए ए = 0.05 10.13 के बराबर होता है। चूंकि एफ ने गणना की

15. EXCEL का उपयोग किए बिना मल्टीपल रिग्रेशन मॉडल का निर्माण।

तालिका 3.8 में दी गई सांख्यिकीय सामग्री का उपयोग करते हुए आपको यह करना होगा:

1. निर्माण रेखीय समीकरणएकाधिक प्रतिगमन, इसके मापदंडों के आर्थिक अर्थ की व्याख्या करें।

2. औसत (सामान्य) लोच गुणांक का उपयोग करके कारकों और परिणामी विशेषता के बीच संबंधों की निकटता का तुलनात्मक मूल्यांकन दें।

3. दर आंकड़ों की महत्ताटी-परीक्षण का उपयोग करके प्रतिगमन गुणांक और एफ-परीक्षण का उपयोग करके समीकरण के गैर-महत्व की शून्य परिकल्पना।

4. सन्निकटन की औसत त्रुटि निर्धारित करके समीकरण की गुणवत्ता का आकलन करें।

तालिका 3.8. आरंभिक डेटा।

शुद्ध आय, मिलियन अमेरिकी डॉलर

पूंजी कारोबार मिलियन अमेरिकी डॉलर

प्रयुक्त पूंजी, मिलियन यू एस डॉलर

एकाधिक रैखिक प्रतिगमन समीकरण के अज्ञात मापदंडों b 0 , b 1 , b 2 को निर्धारित करने के लिए, हम सामान्य समीकरणों की मानक प्रणाली का उपयोग करते हैं, जिसका रूप है

(3.11)

इस प्रणाली को हल करने के लिए सबसे पहले मात्राओं Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2 का मान निर्धारित करना आवश्यक है। ये मान स्रोत डेटा तालिका से निर्धारित किए जाते हैं, इसे उपयुक्त कॉलम (तालिका 3.9) के साथ पूरक किया जाता है।

तालिका 3.9. प्रतिगमन गुणांक की गणना की दिशा में.

तब सिस्टम (3.11) रूप लेता है

इस प्रणाली को हल करने के लिए, हम गॉस विधि का उपयोग करेंगे, जिसमें क्रमिक रूप से अज्ञात को समाप्त करना शामिल है: सिस्टम के पहले समीकरण को 10 से विभाजित करें, फिर परिणामी समीकरण को 370.6 से गुणा करें और इसे सिस्टम के दूसरे समीकरण से घटाएं, फिर गुणा करें परिणामी समीकरण को 158.20 से घटाएं और इसे सिस्टम के तीसरे समीकरण से घटाएं। सिस्टम के परिवर्तित दूसरे और तीसरे समीकरणों के लिए निर्दिष्ट एल्गोरिदम को दोहराते हुए, हम प्राप्त करते हैं:

Þ Þ

Þ .

परिवर्तन के बाद हमारे पास:

फिर पूंजी टर्नओवर और पूंजी पर शुद्ध आय की अंतिम निर्भरता एक रेखीय एकाधिक प्रतिगमन समीकरण के रूप में उपयोग की जाती है:

परिणामी अर्थमितीय समीकरण से यह देखा जा सकता है कि उपयोग की गई पूंजी में वृद्धि के साथ, शुद्ध आय बढ़ती है और, इसके विपरीत, पूंजी कारोबार में वृद्धि के साथ, शुद्ध आय घट जाती है। इसके अलावा, प्रतिगमन गुणांक जितना बड़ा होगा, आश्रित चर पर व्याख्यात्मक चर का प्रभाव उतना ही अधिक होगा। विचाराधीन उदाहरण में, प्रतिगमन गुणांक का मूल्य गुणांक के मूल्य से अधिक है, इसलिए, उपयोग की गई पूंजी का पूंजी कारोबार की तुलना में शुद्ध आय पर काफी अधिक प्रभाव पड़ता है। इस निष्कर्ष को मापने के लिए, हम आंशिक लोच गुणांक निर्धारित करेंगे।

परिणामों के विश्लेषण से यह भी पता चलता है कि उपयोग की गई पूंजी का शुद्ध आय पर अधिक प्रभाव पड़ता है। इसलिए, विशेष रूप से, उपयोग की गई पूंजी में 1% की वृद्धि के साथ, शुद्ध आय में 1.17% की वृद्धि होती है। साथ ही, पूंजी कारोबार में 1% की वृद्धि के साथ, शुद्ध आय 0.5% घट जाती है।

फिशर मानदंड एफ कैल्क का सैद्धांतिक मूल्य।

महत्वपूर्ण मान F क्रिट का मान सांख्यिकीय तालिकाओं से निर्धारित किया जाता है और a = 0.05 के महत्व स्तर के लिए 4.74 के बराबर होता है। चूंकि एफ कैल्क > एफ क्रिट, शून्य परिकल्पना खारिज कर दी जाती है और परिणामी प्रतिगमन समीकरण को सांख्यिकीय रूप से महत्वपूर्ण के रूप में स्वीकार किया जाता है।

प्रतिगमन गुणांकों और टी-मानदंड के सांख्यिकीय महत्व का आकलन करने से इन गुणांकों के संख्यात्मक मान की तुलना उनकी यादृच्छिक त्रुटियों के परिमाण और रिश्ते के अनुसार की जाती है:

टी-सांख्यिकी के सैद्धांतिक मूल्य की गणना के लिए कार्य सूत्र है:

, (3.13)

जहां जोड़ी सहसंबंध गुणांक और एकाधिक सहसंबंध गुणांक की गणना निर्भरता से की जाती है:

तब टी-सांख्यिकी के सैद्धांतिक (गणना) मान क्रमशः बराबर हैं:

क्योंकि महत्वपूर्ण मानमहत्व स्तर के लिए सांख्यिकीय तालिकाओं से निर्धारित टी-आँकड़े a=0.05 t crit =2.36 के बराबर निरपेक्ष मान में = - 1.798 से अधिक है, तो शून्य परिकल्पना को अस्वीकार नहीं किया जाता है और व्याख्यात्मक चर x 1 सांख्यिकीय रूप से महत्वहीन है और इसे बाहर रखा जा सकता है प्रतिगमन समीकरणों से. इसके विपरीत, दूसरे प्रतिगमन गुणांक के लिए > टी क्रिट (3.3 > 2.36), और व्याख्यात्मक चर x 2 सांख्यिकीय रूप से महत्वपूर्ण है।

आइए औसत सन्निकटन त्रुटि की गणना करें।

तालिका 3.10. औसत सन्निकटन त्रुटि की गणना की ओर.

तब औसत सन्निकटन त्रुटि है

प्राप्त मूल्य (12…15)% के बराबर अनुमेय सीमा से अधिक नहीं है।

16. माप सिद्धांत के विकास का इतिहास

टीआई सबसे पहले मनोभौतिक माप के सिद्धांत के रूप में विकसित हुआ। युद्ध के बाद के प्रकाशनों में, अमेरिकी मनोवैज्ञानिक एस.एस. स्टीवंस ने माप पैमानों पर ध्यान केंद्रित किया। 20वीं सदी के उत्तरार्ध में. टीआई के अनुप्रयोग का दायरा तेजी से बढ़ रहा है। 50 के दशक में संयुक्त राज्य अमेरिका में प्रकाशित "मनोवैज्ञानिक विज्ञान के विश्वकोश" के संस्करणों में से एक को "मनोवैज्ञानिक माप" कहा जाता था। इस प्रकाशन के लेखकों ने टीआई के दायरे को सामान्यतः मनोभौतिकी से मनोविज्ञान तक विस्तारित किया। इस संग्रह के लेख में, "माप सिद्धांत के बुनियादी सिद्धांत", प्रस्तुति आवेदन के किसी विशिष्ट क्षेत्र के संदर्भ के बिना, एक अमूर्त गणितीय स्तर पर थी। इसमें, "संख्यात्मक लोगों में संबंधों के साथ अनुभवजन्य प्रणालियों की समरूपता" पर जोर दिया गया था (यहां इन गणितीय शब्दों में जाने की कोई आवश्यकता नहीं है), और प्रस्तुति की गणितीय जटिलता एस.एस. के कार्यों की तुलना में बढ़ गई। स्टीवंस.

टीआई (60 के दशक के उत्तरार्ध) पर पहले घरेलू लेखों में से एक में, यह स्थापित किया गया था कि परीक्षा की वस्तुओं का आकलन करते समय विशेषज्ञों द्वारा दिए गए बिंदु, एक नियम के रूप में, एक क्रमिक पैमाने पर मापा जाता है। 70 के दशक की शुरुआत में सामने आए कार्यों से टीआई के उपयोग के दायरे में महत्वपूर्ण विस्तार हुआ। इसे शैक्षणिक क्वालिमेट्री (छात्रों के ज्ञान की गुणवत्ता को मापने), सिस्टम अनुसंधान और विभिन्न सैद्धांतिक समस्याओं में लागू किया गया है। विशेषज्ञ आकलन, समाजशास्त्रीय अध्ययन आदि में उत्पाद गुणवत्ता संकेतकों को एकत्रित करने के लिए।

टीआई की दो मुख्य समस्याओं के रूप में, विशिष्ट डेटा को मापने के लिए पैमाने के प्रकार की स्थापना के साथ-साथ, डेटा विश्लेषण एल्गोरिदम की खोज को आगे रखा गया था, जिसका परिणाम पैमाने के किसी भी स्वीकार्य परिवर्तन के साथ नहीं बदलता है (यानी, संबंध में अपरिवर्तनीय है) इस परिवर्तन के लिए)। भूगोल में सामान्य पैमाने ब्यूफोर्ट पैमाने की हवाएँ ("शांत", "हल्की हवा", "मध्यम हवा", आदि), भूकंप शक्ति पैमाने हैं। जाहिर है, यह नहीं कहा जा सकता है कि 2 तीव्रता का भूकंप (छत के नीचे एक दीपक लहराया) 10 तीव्रता वाले भूकंप (पृथ्वी की सतह पर सब कुछ का पूर्ण विनाश) की तुलना में ठीक 5 गुना कमजोर है।

चिकित्सा में, क्रमिक पैमाने उच्च रक्तचाप के चरणों का पैमाना (मायास्निकोव के अनुसार), दिल की विफलता की डिग्री का पैमाना (स्ट्रैज़ेस्को-वासिलेंको-लैंग के अनुसार), कोरोनरी अपर्याप्तता की गंभीरता का पैमाना (फोगेल्सन के अनुसार), आदि हैं। . ये सभी पैमाने निम्नलिखित योजना के अनुसार बनाए गए हैं: कोई बीमारी नहीं पाई गई; रोग का पहला चरण; दूसरे चरण; तीसरा चरण... कभी-कभी चरण 1ए, 16, आदि को प्रतिष्ठित किया जाता है। प्रत्येक चरण की एक विशिष्ट चिकित्सीय विशेषता होती है। विकलांगता समूहों का वर्णन करते समय, संख्याओं का उपयोग विपरीत क्रम में किया जाता है: सबसे गंभीर पहला विकलांगता समूह है, फिर दूसरा, सबसे हल्का तीसरा है।

घरों की संख्या भी क्रमिक पैमाने पर मापी जाती है - वे दिखाते हैं कि घर सड़क के किनारे किस क्रम में स्थित हैं। किसी लेखक के एकत्रित कार्यों में वॉल्यूम नंबर या किसी एंटरप्राइज़ संग्रह में केस नंबर आमतौर पर उनकी रचना के कालानुक्रमिक क्रम से जुड़े होते हैं।

उत्पादों और सेवाओं की गुणवत्ता का आकलन करते समय, तथाकथित क्वालिमेट्री (शाब्दिक अनुवाद - गुणवत्ता माप) में क्रमिक पैमाने लोकप्रिय हैं। अर्थात्, उत्पादन की एक इकाई का मूल्यांकन निष्क्रिय या अनुपयुक्त के रूप में किया जाता है। अधिक गहन विश्लेषण के लिए, तीन ग्रेडेशन वाले पैमाने का उपयोग किया जाता है: महत्वपूर्ण दोष हैं - केवल मामूली दोष हैं - कोई दोष नहीं हैं। कभी-कभी चार ग्रेडेशन का उपयोग किया जाता है: गंभीर दोष होते हैं (जिससे इसका उपयोग करना असंभव हो जाता है) - महत्वपूर्ण दोष होते हैं - केवल छोटे दोष होते हैं - कोई दोष नहीं होते हैं। उत्पादों की ग्रेडिंग का एक समान अर्थ होता है - प्रीमियम, प्रथम श्रेणी, द्वितीय श्रेणी,...

पर्यावरणीय प्रभावों का आकलन करते समय, पहला, सबसे सामान्य मूल्यांकन आमतौर पर क्रमिक होता है, उदाहरण के लिए: प्राकृतिक पर्यावरण स्थिर है - प्राकृतिक पर्यावरण उत्पीड़ित (अपमानित) है। पर्यावरण-चिकित्सा पैमाना समान है: मानव स्वास्थ्य पर कोई स्पष्ट प्रभाव नहीं पड़ता है - स्वास्थ्य पर नकारात्मक प्रभाव देखा जाता है।

क्रमसूचक पैमाने का उपयोग अन्य क्षेत्रों में भी किया जाता है। अर्थमिति में, ये मुख्य रूप से विशेषज्ञ मूल्यांकन के विभिन्न तरीके हैं।

सभी माप पैमानों को दो समूहों में विभाजित किया गया है - गुणात्मक विशेषताओं के पैमाने और मात्रात्मक विशेषताओं के पैमाने। क्रमसूचक पैमाना और नामकरण पैमाना गुणात्मक विशेषताओं के मुख्य पैमाने हैं, इसलिए कई विशिष्ट क्षेत्रों में गुणात्मक विश्लेषण के परिणामों को इन पैमानों पर माप के रूप में माना जा सकता है। मात्रात्मक विशेषताओं के पैमाने अंतराल, अनुपात, अंतर, निरपेक्ष के पैमाने हैं। अंतराल पैमाने का उपयोग करके, संभावित ऊर्जा का परिमाण या एक सीधी रेखा पर एक बिंदु के निर्देशांक को मापा जाता है। इन मामलों में, न तो प्राकृतिक उत्पत्ति और न ही माप की प्राकृतिक इकाई को पैमाने पर चिह्नित किया जा सकता है। शोधकर्ता को प्रारंभिक बिंदु निर्धारित करना होगा और माप की इकाई स्वयं चुननी होगी। अंतराल पैमाने में स्वीकार्य परिवर्तन रैखिक बढ़ते परिवर्तन हैं, अर्थात। रैखिक कार्य. तापमान पैमाने सेल्सियस और फ़ारेनहाइट बिल्कुल इस निर्भरता से जुड़े हुए हैं: डिग्री सेल्सियस = 5/9 (° फ़ारेनहाइट - 32), जहां डिग्री सेल्सियस सेल्सियस पैमाने पर तापमान (डिग्री में) है, और डिग्री फ़ारेनहाइट फ़ारेनहाइट पर तापमान है पैमाना।

मात्रात्मक पैमानों में से, विज्ञान और व्यवहार में सबसे आम अनुपात पैमाने हैं। उनका एक प्राकृतिक संदर्भ बिंदु है - शून्य, यानी। मात्रा का अभाव, लेकिन माप की कोई प्राकृतिक इकाई नहीं। अधिकांश भौतिक इकाइयों को अनुपात पैमाने पर मापा जाता है: शरीर का द्रव्यमान, लंबाई, चार्ज, साथ ही अर्थव्यवस्था में कीमतें। अनुपात पैमाने में स्वीकार्य परिवर्तन समान हैं (केवल पैमाने को बदलते हुए)। दूसरे शब्दों में, मुक्त अवधि के बिना रैखिक बढ़ते परिवर्तन, उदाहरण के लिए, कीमतों को एक मुद्रा से दूसरी मुद्रा में एक निश्चित दर पर परिवर्तित करना। मान लीजिए कि हम रूबल में कीमतों का उपयोग करके दो निवेश परियोजनाओं की आर्थिक दक्षता की तुलना करते हैं। मान लीजिए कि पहला प्रोजेक्ट दूसरे से बेहतर निकला। अब आइए एक निश्चित रूपांतरण दर का उपयोग करते हुए चीनी मुद्रा - युआन पर स्विच करें। जाहिर है, पहली परियोजना फिर से दूसरी की तुलना में अधिक लाभदायक होनी चाहिए। हालाँकि, गणना एल्गोरिदम स्वचालित रूप से यह सुनिश्चित नहीं करते हैं कि यह शर्त पूरी हो गई है, और यह जाँचना आवश्यक है कि यह पूरी हो गई है। औसत मूल्यों के लिए ऐसे परीक्षण के परिणाम नीचे वर्णित हैं।

अंतर पैमाने में माप की एक प्राकृतिक इकाई होती है, लेकिन कोई प्राकृतिक संदर्भ बिंदु नहीं होता है। समय को अंतर के पैमाने पर मापा जाता है, यदि वर्ष (या दिन - दोपहर से दोपहर तक) को माप की प्राकृतिक इकाई के रूप में लिया जाता है, और अंतराल के पैमाने पर सामान्य मामला. ज्ञान के वर्तमान स्तर पर, एक प्राकृतिक प्रारंभिक बिंदु इंगित करना असंभव है। अलग-अलग लेखक अलग-अलग तरीकों से दुनिया के निर्माण की तारीख की गणना करते हैं, साथ ही ईसा मसीह के जन्म के क्षण की भी गणना करते हैं।

केवल पूर्ण पैमाने के लिए माप परिणाम शब्द के सामान्य अर्थ में संख्याएं हैं, उदाहरण के लिए, एक कमरे में लोगों की संख्या। पूर्ण पैमाने के लिए, केवल पहचान परिवर्तन की अनुमति है।

ज्ञान के संबंधित क्षेत्र के विकास की प्रक्रिया में, पैमाने का प्रकार बदल सकता है। तो, सबसे पहले तापमान को क्रमिक पैमाने (ठंडा - गर्म) पर मापा गया था। फिर - अंतराल के अनुसार (सेल्सियस, फ़ारेनहाइट, रेउमुर स्केल)। अंततः, परम शून्य की खोज के बाद, तापमान को अनुपात पैमाने (केल्विन स्केल) पर मापा जा सकता है। यह ध्यान दिया जाना चाहिए कि कभी-कभी विशेषज्ञों के बीच इस बात पर असहमति होती है कि मापे गए कुछ वास्तविक मूल्यों पर विचार करने के लिए किस पैमाने का उपयोग किया जाना चाहिए। दूसरे शब्दों में, माप प्रक्रिया में पैमाने के प्रकार का निर्धारण (किसी विशेष प्रकार के पैमाने को चुनने के औचित्य के साथ) भी शामिल है। सूचीबद्ध छह मुख्य प्रकार के पैमानों के अलावा, कभी-कभी अन्य पैमानों का भी उपयोग किया जाता है।

17. अपरिवर्तनीय एल्गोरिदम और औसत मान।

आइए हम TI में डेटा विश्लेषण एल्गोरिदम के लिए मुख्य आवश्यकता तैयार करें: एक निश्चित प्रकार के पैमाने पर मापे गए डेटा के आधार पर निकाले गए निष्कर्ष तब नहीं बदलने चाहिए जब इस डेटा का माप पैमाना अनुमेय हो। दूसरे शब्दों में, मान्य पैमाने परिवर्तनों के तहत अनुमान अपरिवर्तनीय होना चाहिए।

इस प्रकार, माप सिद्धांत का एक मुख्य लक्ष्य वास्तविक वस्तुओं को संख्यात्मक मान निर्दिष्ट करते समय शोधकर्ता की व्यक्तिपरकता का मुकाबला करना है। इस प्रकार, दूरियों को आर्शिंस, मीटर, माइक्रोन, मील, पारसेक और माप की अन्य इकाइयों में मापा जा सकता है। द्रव्यमान (वजन) - पूड्स, किलोग्राम, पाउंड, आदि में। वस्तुओं और सेवाओं की कीमतें युआन, रूबल, टेंज, रिव्निया, लैट, क्रून, मार्क्स, अमेरिकी डॉलर और अन्य मुद्राओं में इंगित की जा सकती हैं (निर्दिष्ट रूपांतरण दरों के अधीन)। आइए हम एक बहुत ही महत्वपूर्ण, हालांकि काफी स्पष्ट, तथ्य पर जोर दें: माप की इकाइयों का चुनाव शोधकर्ता पर निर्भर करता है, यानी। व्यक्तिपरक. सांख्यिकीय निष्कर्ष केवल तभी वास्तविकता के लिए पर्याप्त हो सकते हैं जब वे इस बात पर निर्भर न हों कि शोधकर्ता माप की कौन सी इकाई पसंद करता है, जब वे पैमाने के अनुमेय परिवर्तन के संबंध में अपरिवर्तनीय हों। अर्थमितीय डेटा विश्लेषण के लिए कई एल्गोरिदम में से केवल कुछ ही इस शर्त को पूरा करते हैं। आइए औसत मूल्यों की तुलना करके इसे दिखाएं।

मान लीजिए कि X 1, X 2,.., X n आयतन n का एक नमूना है। अंकगणितीय माध्य का प्रयोग अक्सर किया जाता है। अंकगणितीय औसत का उपयोग इतना आम है कि शब्द में दूसरा शब्द अक्सर छोड़ दिया जाता है और लोग विशिष्ट आर्थिक डेटा के लिए औसत वेतन, औसत आय और अन्य औसत के बारे में बात करते हैं, जिसका अर्थ अंकगणितीय औसत "औसत" है। इस परंपरा से गलत निष्कर्ष निकल सकते हैं। आइए इसे एक काल्पनिक उद्यम के कर्मचारियों के औसत वेतन (औसत आय) की गणना के उदाहरण का उपयोग करके दिखाएं। 100 श्रमिकों में से केवल 5 का वेतन इससे अधिक है, और शेष 95 का वेतन अंकगणितीय औसत से काफी कम है। कारण स्पष्ट है - एक व्यक्ति - सामान्य निदेशक - का वेतन 95 श्रमिकों - कम-कुशल और उच्च कुशल श्रमिकों, इंजीनियरों और कार्यालय कर्मचारियों के वेतन से अधिक है। स्थिति एक अस्पताल के बारे में प्रसिद्ध कहानी में वर्णित स्थिति की याद दिलाती है जिसमें 10 मरीज हैं, जिनमें से 9 का तापमान 40°C है, और एक पहले ही पीड़ित हो चुका है, 0° के तापमान के साथ मुर्दाघर में पड़ा हुआ है। सी। इस बीच, अस्पताल में औसत तापमान 36 डिग्री सेल्सियस है - इससे बेहतर कुछ नहीं हो सकता!

इस प्रकार, अंकगणित माध्य का उपयोग केवल काफी सजातीय आबादी के लिए किया जा सकता है (एक दिशा या किसी अन्य में बड़े आउटलेर्स के बिना)। मजदूरी का वर्णन करने के लिए किस औसत का उपयोग किया जाना चाहिए? माध्यिका का उपयोग करना बिल्कुल स्वाभाविक है - 50वें और 51वें कर्मचारियों का अंकगणितीय माध्य, यदि उनका वेतनगैर-अवरोही क्रम में व्यवस्थित। सबसे पहले 40 कम-कुशल श्रमिकों का वेतन आता है, और फिर - 41वें से 70वें कर्मचारी तक - अत्यधिक कुशल श्रमिकों का वेतन आता है। नतीजतन, माध्य बिल्कुल उन पर पड़ता है और 200 के बराबर होता है। 50 श्रमिकों के लिए, वेतन 200 से अधिक नहीं होता है, और 50 के लिए - कम से कम 200, इसलिए माध्य "केंद्र" दिखाता है जिसके चारों ओर अध्ययन किए गए मूल्यों का बड़ा हिस्सा है ​समूहबद्ध हैं. एक अन्य औसत मान मोड है, जो सबसे अधिक बार आने वाला मान है। विचाराधीन मामले में, ये कम-कुशल श्रमिकों की मजदूरी हैं, अर्थात। 100. इस प्रकार, वेतन का वर्णन करने के लिए हमारे पास तीन औसत मान हैं - मोड (100 इकाइयाँ), माध्य (200 इकाइयाँ) और अंकगणितीय माध्य (400 इकाइयाँ)।

वास्तविक जीवन में देखे गए आय और वेतन वितरण के लिए, वही पैटर्न सत्य है: मोड माध्यिका से कम है, और माध्यिका अंकगणितीय माध्य से कम है।

अर्थशास्त्र में औसत का उपयोग क्यों किया जाता है? औसत का उपयोग करके आबादी की तुलना करने के लिए आमतौर पर संख्याओं के संग्रह को एक ही संख्या से बदलना। मान लीजिए, उदाहरण के लिए, Y 1, Y 2,..., Y n विशेषज्ञता की एक वस्तु को "दिया गया" विशेषज्ञ आकलन का एक सेट है (उदाहरण के लिए, किसी कंपनी के रणनीतिक विकास के लिए विकल्पों में से एक), Z 1 , जेड 2,..., जेड एन -दूसरा (इस विकास का दूसरा संस्करण)। इन आबादी की तुलना कैसे की जाती है? जाहिर है, सबसे आसान तरीका औसत मान है।

औसत की गणना कैसे करें? ज्ञात विभिन्न प्रकारऔसत मान: अंकगणितीय माध्य, माध्यिका, बहुलक, ज्यामितीय माध्य, हार्मोनिक माध्य, द्विघात माध्य। आइए हम आपको वह याद दिला दें सामान्य सिद्धांतऔसत मूल्य की शुरुआत 19वीं शताब्दी के पूर्वार्ध में एक फ्रांसीसी गणितज्ञ द्वारा की गई थी। शिक्षाविद ओ. कॉची। यह इस प्रकार है: औसत मान कोई भी फ़ंक्शन Ф(Х 1, Х 2,..., Х n) है जैसे कि सभी के लिए संभावित मानतर्क, इस फ़ंक्शन का मान संख्याओं X 1, X 2,..., X n के न्यूनतम से कम नहीं है, और इन संख्याओं के अधिकतम से अधिक नहीं है। ऊपर सूचीबद्ध सभी प्रकार के औसत कॉची औसत हैं।

स्वीकार्य पैमाने परिवर्तन के साथ, औसत का मूल्य स्पष्ट रूप से बदल जाता है। लेकिन किस आबादी के लिए औसत अधिक है और किसके लिए कम है, इसके बारे में निष्कर्ष नहीं बदलना चाहिए (निष्कर्षों की अपरिवर्तनीयता की आवश्यकता के अनुसार, टीआई में मुख्य आवश्यकता के रूप में स्वीकार किया गया)। आइए हम औसत मूल्यों के प्रकार की खोज के लिए संबंधित गणितीय समस्या तैयार करें, जिसकी तुलना का परिणाम स्वीकार्य पैमाने पर परिवर्तनों के संबंध में स्थिर है।

मान लीजिए Ф(Х 1 Х 2 ,..., Х n) कॉची औसत है। मान लीजिए कि पहली आबादी का औसत दूसरी आबादी के औसत से कम है: फिर, टीआई के अनुसार, औसत की तुलना के परिणाम की स्थिरता के लिए, यह आवश्यक है कि किसी भी स्वीकार्य परिवर्तन के लिए जी में स्वीकार्य परिवर्तनों के समूह से संगत पैमाने पर यह सच है कि पहली जनसंख्या से परिवर्तित मूल्यों का औसत दूसरे सेट के रूपांतरित मूल्यों के औसत से भी कम है। इसके अलावा, तैयार की गई शर्त किन्हीं दो सेटों Y 1, Y 2,...,Y n और Z 1, Z 2,..., Z n और, याद रखें, किसी भी स्वीकार्य परिवर्तन के लिए सत्य होनी चाहिए। हम औसत मान कहते हैं जो तैयार की गई शर्त को स्वीकार्य (उचित पैमाने में) पूरा करते हैं। टीआई के अनुसार, विशेषज्ञ की राय और विचाराधीन पैमाने पर मापे गए अन्य डेटा का विश्लेषण करते समय केवल ऐसे औसत का उपयोग किया जा सकता है।

का उपयोग करके गणितीय सिद्धांत 1970 के दशक में विकसित, बुनियादी पैमानों पर स्वीकार्य औसत के प्रकार का वर्णन करने का प्रबंधन करता है। यह स्पष्ट है कि नामों के पैमाने पर मापे गए डेटा के लिए, औसत के रूप में केवल मोड ही उपयुक्त है।

18. क्रमिक पैमाने पर औसत मान

आइए क्रमिक पैमाने पर मापी गई विशेषज्ञ राय के प्रसंस्करण पर विचार करें। निम्नलिखित कथन सत्य है.

प्रमेय1 . सभी कॉची औसतों में से, क्रमसूचक पैमाने में एकमात्र स्वीकार्य औसत शर्तें हैं विविधता श्रृंखला(क्रमिक आँकड़े)।

प्रमेय 1 मान्य है बशर्ते कि औसत Ф(Х 1 Х 2 ,..., Х n) एक सतत (चर के सेट पर) और सममित फ़ंक्शन है। उत्तरार्द्ध का मतलब है कि जब तर्कों को पुनर्व्यवस्थित किया जाता है, तो फ़ंक्शन Ф(Х 1 Х 2 ,..., Х n) का मान नहीं बदलता है। यह स्थिति बिल्कुल स्वाभाविक है, क्योंकि हम समग्रता (सेट) के लिए औसत मूल्य पाते हैं, न कि अनुक्रम के लिए। सेट उस क्रम के आधार पर नहीं बदलता है जिसमें हम उसके तत्वों को सूचीबद्ध करते हैं।

प्रमेय 1 के अनुसार, विशेष रूप से, माध्यिका का उपयोग क्रमिक पैमाने पर मापे गए डेटा के औसत के रूप में किया जा सकता है (यदि नमूना आकार विषम है)। यदि आयतन सम है, तो भिन्नता श्रृंखला के दो केंद्रीय शब्दों में से एक का उपयोग किया जाना चाहिए - जैसा कि उन्हें कभी-कभी बायां माध्यिका या दायां माध्यिका भी कहा जाता है। फैशन का भी उपयोग किया जा सकता है - यह हमेशा विविधता श्रृंखला का सदस्य होता है। लेकिन आप कभी भी अंकगणितीय माध्य, ज्यामितीय माध्य आदि की गणना नहीं कर सकते।

निम्नलिखित प्रमेय सत्य है।

प्रमेय 2. मान लीजिए कि Y 1, Y 2,...,Y m वितरण फ़ंक्शन F(x) के साथ स्वतंत्र रूप से समान रूप से वितरित यादृच्छिक चर हैं, और Z 1, Z 2,..., Zn फ़ंक्शन वितरण के साथ स्वतंत्र रूप से वितरित यादृच्छिक चर हैं H(x), और नमूने Y 1, Y 2,...,Y m और Z 1, Z 2,..., Z n एक दूसरे से स्वतंत्र हैं और MY X > MZ X. स्थिति को संतुष्ट करने वाले किसी भी सख्ती से बढ़ते निरंतर फ़ंक्शन जी के लिए किसी घटना की संभावना न्यूनतम (एम, एन) पर 1 तक पहुंचने के लिए यह आवश्यक और पर्याप्त है कि असमानता एफ (एक्स) सभी के लिए संतुष्ट हो एक्स< Н(х), причем существовало число х 0 , для которого F(x 0)

टिप्पणी।ऊपरी सीमा वाली स्थिति विशुद्ध रूप से अंतर-गणितीय प्रकृति की है। वास्तव में, फलन g क्रमिक पैमाने पर एक मनमाना स्वीकार्य परिवर्तन है।

प्रमेय 2 के अनुसार, यदि प्रमेय में दी गई असमानता को संतुष्ट करने वाले दो वितरणों के नमूनों की तुलना की जाती है, तो अंकगणितीय माध्य का उपयोग क्रमिक पैमाने में भी किया जा सकता है। सीधे शब्दों में कहें तो वितरण कार्यों में से एक को हमेशा दूसरे से ऊपर रहना चाहिए। वितरण फ़ंक्शन एक दूसरे को नहीं काट सकते, उन्हें केवल एक दूसरे को छूने की अनुमति है। यह शर्त पूरी होती है, उदाहरण के लिए, यदि वितरण कार्य केवल शिफ्ट में भिन्न होते हैं:

एफ(एक्स) = Н(एक्स + ∆)

कुछ ∆ के लिए.

अंतिम स्थिति संतुष्ट होती है यदि एक निश्चित मात्रा के दो मान एक ही मापने वाले उपकरण का उपयोग करके मापा जाता है, जिसमें प्रश्न में मात्रा के एक मूल्य को मापने से दूसरे को मापने के लिए जाने पर त्रुटियों का वितरण नहीं बदलता है।

कोलमोगोरोव के अनुसार औसत

ऊपर सूचीबद्ध कई औसतों का सामान्यीकरण कोलमोगोरोव औसत है। संख्या X 1, X 2,..., X n के लिए, कोलमोगोरोव औसत की गणना सूत्र का उपयोग करके की जाती है

जी((एफ(एक्स एल) + एफ(एक्स 2)+...एफ(एक्स एन))/एन),

जहां F एक सख्ती से मोनोटोनिक फ़ंक्शन है (यानी सख्ती से बढ़ रहा है या सख्ती से घट रहा है),

G, F का व्युत्क्रम फलन है।

कोलमोगोरोव के औसतों में कई प्रसिद्ध पात्र हैं। तो, यदि F(x) = x, तो कोलमोगोरोव माध्य अंकगणितीय माध्य है, यदि F(x) = lnx, तो ज्यामितीय माध्य, यदि F(x) = 1/x, तो हार्मोनिक माध्य, यदि F( x) = x 2, फिर माध्य वर्ग, आदि। कोलमोगोरोव औसत कॉची औसत का एक विशेष मामला है। दूसरी ओर, माध्यिका और बहुलक जैसे लोकप्रिय औसतों को कोलमोगोरोव औसत के रूप में प्रस्तुत नहीं किया जा सकता है। निम्नलिखित कथन मोनोग्राफ में सिद्ध होते हैं।

प्रमेय3 . यदि अंतराल पैमाने में नियमितता की कुछ इंट्रामैथमैटिकल स्थितियाँ मान्य हैं, तो कोलमोगोरोव के सभी साधनों में से केवल अंकगणितीय माध्य ही स्वीकार्य है। इस प्रकार, तापमान (सेल्सियस में) या दूरियों का ज्यामितीय माध्य या मूल माध्य वर्ग अर्थहीन है। अंकगणितीय माध्य का उपयोग औसत के रूप में किया जाना चाहिए। आप माध्यिका या बहुलक का भी उपयोग कर सकते हैं.

प्रमेय 4. यदि अनुपात के पैमाने में नियमितता की कुछ इंट्रामैथमैटिकल स्थितियाँ मान्य हैं, तो सभी कोलमोगोरोव के औसतों में से केवल F(x) = x c और ज्यामितीय औसत के साथ पावर औसत स्वीकार्य हैं।

टिप्पणी। ज्यामितीय माध्य c > 0 के लिए शक्ति साधनों की सीमा है।

क्या ऐसे कोलमोगोरोव औसत हैं जिनका उपयोग अनुपात पैमाने में नहीं किया जा सकता है? बिल्कुल है. उदाहरण के लिए F(x) = e x.

औसत मूल्यों के समान, अन्य सांख्यिकीय विशेषताओं का अध्ययन किया जा सकता है - बिखराव, कनेक्शन, दूरी आदि के संकेतक। उदाहरण के लिए, यह दिखाना मुश्किल नहीं है कि सहसंबंध गुणांक अंतराल के कटोरे में किसी भी स्वीकार्य परिवर्तन के साथ नहीं बदलता है, फैलाव के अनुपात की तरह, फैलाव अंतर के पैमाने में नहीं बदलता है, भिन्नता का गुणांक अनुपातों का पैमाना, आदि।

औसत मूल्यों पर उपरोक्त परिणाम न केवल अर्थशास्त्र, प्रबंधन, विशेषज्ञ मूल्यांकन या समाजशास्त्र के सिद्धांत में, बल्कि इंजीनियरिंग में भी व्यापक रूप से उपयोग किए जाते हैं, उदाहरण के लिए, ब्लास्ट फर्नेस की स्वचालित प्रक्रिया नियंत्रण प्रणालियों में सेंसर एकत्र करने के तरीकों का विश्लेषण करने के लिए। मानकीकरण और गुणवत्ता प्रबंधन की समस्याओं में टीआई का बहुत व्यावहारिक महत्व है, विशेष रूप से क्वालिमेट्री में, जहां दिलचस्प सैद्धांतिक परिणाम प्राप्त हुए हैं। इसलिए, उदाहरण के लिए, उत्पाद की गुणवत्ता के व्यक्तिगत संकेतकों के वजन गुणांक में किसी भी बदलाव से भारित औसत संकेतक के अनुसार उत्पादों के क्रम में बदलाव होता है (यह प्रमेय प्रोफेसर वी.वी. पोडिनोव्स्की द्वारा सिद्ध किया गया था)। नतीजतन, टीआई और इसके तरीकों के बारे में उपरोक्त संक्षिप्त जानकारी, एक अर्थ में, अर्थशास्त्र, समाजशास्त्र और इंजीनियरिंग विज्ञान को जोड़ती है और उन जटिल समस्याओं को हल करने के लिए एक पर्याप्त उपकरण है जो पहले प्रभावी विश्लेषण के लिए उत्तरदायी नहीं थे, इसके अलावा, यथार्थवादी मॉडल बनाने और पूर्वानुमान समस्या को हल करने का रास्ता खुलता है।

22. युग्मित रैखिक प्रतिगमन

आइए अब जोड़ीवार रैखिक प्रतिगमन के सबसे सरल मामले के अधिक विस्तृत अध्ययन की ओर मुड़ें। रैखिक प्रतिगमन को एक सीधी रेखा समीकरण के रूप में सबसे सरल कार्यात्मक संबंध द्वारा वर्णित किया गया है और मॉडल पैरामीटर (समीकरण गुणांक) की पारदर्शी व्याख्या द्वारा विशेषता है। समीकरण का दाहिना पक्ष हमें प्रतिगामी (व्याख्यात्मक चर) के दिए गए मूल्यों के आधार पर परिणामी (व्याख्यात्मक) चर के सैद्धांतिक (गणना) मान प्राप्त करने की अनुमति देता है। इन मूल्यों को कभी-कभी पूर्वानुमानित (उसी अर्थ में) भी कहा जाता है, अर्थात। सैद्धांतिक सूत्रों से प्राप्त किया गया। हालाँकि, निर्भरता की प्रकृति के बारे में एक परिकल्पना सामने रखते समय, समीकरण के गुणांक अभी भी अज्ञात रहते हैं। सामान्यतया, विभिन्न विधियों का उपयोग करके इन गुणांकों के अनुमानित मान प्राप्त करना संभव है।

लेकिन इनमें सबसे महत्वपूर्ण और व्यापक है विधि कम से कम वर्गों(एमएनसी)। यह गणना (सैद्धांतिक) मूल्यों से परिणामी विशेषता के वास्तविक मूल्यों के वर्ग विचलन के योग को कम करने की आवश्यकता पर आधारित है (जैसा कि पहले ही समझाया गया है)। सैद्धांतिक मूल्यों (उन्हें प्राप्त करने के लिए) के बजाय, प्रतिगमन समीकरण के दाहिने हाथ को वर्ग विचलन के योग में प्रतिस्थापित करें, और फिर इस फ़ंक्शन के आंशिक व्युत्पन्न (वास्तविक मूल्यों के वर्ग विचलन का योग) ढूंढें सैद्धांतिक लोगों से परिणामी विशेषता का)। ये आंशिक व्युत्पन्न चर x और y के संबंध में नहीं, बल्कि पैरामीटर a और b के संबंध में लिए गए हैं। आंशिक व्युत्पन्न शून्य के बराबर सेट किए जाते हैं और, सरल लेकिन बोझिल परिवर्तनों के बाद, मापदंडों को निर्धारित करने के लिए सामान्य समीकरणों की एक प्रणाली प्राप्त की जाती है। चर x के लिए गुणांक, अर्थात बी को प्रतिगमन गुणांक कहा जाता है, यह एक इकाई द्वारा कारक में बदलाव के साथ परिणाम में औसत परिवर्तन दिखाता है। पैरामीटर a की कोई आर्थिक व्याख्या नहीं हो सकती है, खासकर यदि इस गुणांक का चिह्न नकारात्मक है।

उपभोग फलन का अध्ययन करने के लिए जोड़ीवार रैखिक प्रतिगमन का उपयोग किया जाता है। उपभोग फ़ंक्शन में प्रतिगमन गुणांक का उपयोग गुणक की गणना के लिए किया जाता है। लगभग हमेशा, प्रतिगमन समीकरण को कनेक्शन की निकटता के एक संकेतक के साथ पूरक किया जाता है। रैखिक प्रतिगमन के सबसे सरल मामले के लिए, कनेक्शन की निकटता का यह संकेतक है रैखिक गुणांकसहसंबंध. लेकिन चूंकि रैखिक सहसंबंध गुणांक एक रैखिक रूप में सुविधाओं के बीच संबंध की निकटता को दर्शाता है, रैखिक सहसंबंध गुणांक के शून्य के पूर्ण मूल्य की निकटता अभी तक सुविधाओं के बीच संबंध की अनुपस्थिति के संकेतक के रूप में काम नहीं करती है।

यह मॉडल विनिर्देश की एक अलग पसंद के साथ है और इसलिए, निर्भरता का प्रकार है कि वास्तविक संबंध एकता के काफी करीब हो सकता है। लेकिन चयन की गुणवत्ता रैखिक प्रकार्यरैखिक सहसंबंध गुणांक के वर्ग का उपयोग करके निर्धारित किया जाता है - निर्धारण का गुणांक। यह प्रभावी गुण y के विचरण के अनुपात को दर्शाता है जिसे प्रभावी गुण के कुल विचरण में प्रतिगमन द्वारा समझाया गया है। वह मान जो 1 के निर्धारण के गुणांक को पूरक करता है, मॉडल (अवशिष्ट विचरण) में ध्यान में नहीं रखे गए अन्य कारकों के प्रभाव के कारण होने वाले विचरण के हिस्से को दर्शाता है।

युग्मित प्रतिगमन को निम्नलिखित रूप के दो चर y और x से संबंधित एक समीकरण द्वारा दर्शाया गया है:

जहां y आश्रित चर (परिणामी विशेषता) है, और x स्वतंत्र चर (व्याख्यात्मक चर, या विशेषता-कारक) है। रैखिक प्रतिगमन और अरेखीय प्रतिगमन हैं। रेखीय प्रतिगमन को इस प्रकार के समीकरण द्वारा वर्णित किया गया है:

y = a+ bx + .

गैर-रेखीय प्रतिगमन, बदले में, विश्लेषण में शामिल व्याख्यात्मक चर के संबंध में गैर-रेखीय हो सकता है, लेकिन अनुमानित मापदंडों के संबंध में रैखिक हो सकता है। या हो सकता है कि प्रतिगमन अनुमानित मापदंडों के संदर्भ में अरेखीय हो। प्रतिगमन के उदाहरण जो व्याख्यात्मक चर में गैर-रैखिक हैं, लेकिन अनुमानित मापदंडों में रैखिक हैं, उनमें विभिन्न डिग्री (बहुपद) की बहुपद निर्भरताएं और एक समबाहु हाइपरबोला शामिल हैं।

अनुमानित मापदंडों के लिए नॉनलाइनियर रिग्रेशन पैरामीटर के सापेक्ष एक शक्ति निर्भरता है (पैरामीटर घातांक में है), एक घातीय निर्भरता, जहां पैरामीटर घातांक के आधार पर है, और एक घातीय निर्भरता, जब संपूर्ण रैखिक निर्भरता पूरी तरह से होती है प्रतिपादक में. ध्यान दें कि इन तीनों मामलों में यादृच्छिक घटक (यादृच्छिक शेष)  शामिल है दाहिनी ओरसमीकरण एक कारक के रूप में होते हैं, सारांश के रूप में नहीं, अर्थात्। गुणात्मक रूप से! वास्तविक विशेषता से परिणामी विशेषता के परिकलित मानों का औसत विचलन सन्निकटन की औसत त्रुटि की विशेषता है। इसे प्रतिशत के रूप में व्यक्त किया जाता है और 7-8% से अधिक नहीं होना चाहिए। सन्निकटन की यह औसत त्रुटि वास्तविक और परिकलित मूल्यों के बीच अंतर के सापेक्ष परिमाण का प्रतिशत औसत है।

औसत लोच गुणांक, जो कई आर्थिक घटनाओं और प्रक्रियाओं की एक महत्वपूर्ण विशेषता के रूप में कार्य करता है, महत्वपूर्ण है। इसकी गणना किसी दिए गए कार्यात्मक संबंध के व्युत्पन्न के मूल्य के उत्पाद और x के औसत मूल्य और y के औसत मूल्य के अनुपात के रूप में की जाती है। लोच गुणांक दर्शाता है कि जब कारक x अपने (कारक x) औसत मूल्य से 1% बदलता है तो परिणाम y अपने औसत मूल्य से औसतन कितने प्रतिशत बदल जाएगा।

विचरण के विश्लेषण की समस्याएं जोड़ीवार प्रतिगमन और एकाधिक प्रतिगमन (जब कई कारक हों) और अवशिष्ट विचरण से निकटता से संबंधित हैं। भिन्नता का विश्लेषणआश्रित चर के विचरण की जांच करता है। इस मामले में, वर्ग विचलन का कुल योग दो भागों में विभाजित है। पहला पद प्रतिगमन, या व्याख्या (फैक्टोरियल) के कारण वर्ग विचलनों का योग है। दूसरा पद कारक प्रतिगमन द्वारा अस्पष्टीकृत वर्ग विचलनों का अवशिष्ट योग है।

परिणामी विशेषता y के कुल विचरण में प्रतिगमन द्वारा समझाए गए विचरण का हिस्सा निर्धारण के गुणांक (सूचकांक) द्वारा दर्शाया गया है, जो प्रतिगमन के कारण वर्ग विचलन के योग के वर्ग विचलन के कुल योग के अनुपात से अधिक कुछ नहीं है। (पूरे योग का पहला पद)।

जब मॉडल पैरामीटर (अज्ञात के गुणांक) को कम से कम वर्ग विधि का उपयोग करके निर्धारित किया जाता है, तो, संक्षेप में, कुछ यादृच्छिक चर पाए जाते हैं (अनुमान प्राप्त करने की प्रक्रिया में)। प्रतिगमन गुणांक का अनुमान विशेष महत्व का है, जो एक यादृच्छिक चर का कुछ विशेष रूप है। इस यादृच्छिक चर के गुण समीकरण (मॉडल में) में अवशिष्ट पद के गुणों पर निर्भर करते हैं। युग्मित रैखिक प्रतिगमन मॉडल के लिए, व्याख्यात्मक चर x को एक गैर-यादृच्छिक बहिर्जात चर के रूप में मानें। इसका सीधा सा मतलब यह है कि सभी अवलोकनों में चर x के मानों को पूर्व निर्धारित माना जा सकता है और किसी भी तरह से अध्ययन के तहत निर्भरता से संबंधित नहीं है। इस प्रकार, समझाए गए चर के वास्तविक मूल्य में दो घटक होते हैं: एक गैर-यादृच्छिक और एक यादृच्छिक घटक (अवशिष्ट शब्द)।

दूसरी ओर, न्यूनतम वर्ग विधि (ओएलएस) का उपयोग करके निर्धारित प्रतिगमन गुणांक चर x और y के सहप्रसरण को चर x के प्रसरण से विभाजित करने के भागफल के बराबर है। इसलिए इसमें एक यादृच्छिक घटक भी शामिल है। आख़िरकार, सहप्रसरण चर y के मानों पर निर्भर करता है, जहाँ चर y का मान यादृच्छिक अवशिष्ट पद  के मानों पर निर्भर करता है। इसके अलावा, यह दिखाना आसान है कि चर x और y का सहप्रसरण अनुमानित प्रतिगमन गुणांक बीटा () के उत्पाद और चर x के प्रसरण के साथ-साथ चर x और  के सहप्रसरण के बराबर है। इस प्रकार, प्रतिगमन गुणांक बीटा का अनुमान इस अज्ञात प्रतिगमन गुणांक के बराबर है, जो चर x और  के सहप्रसरण को चर x के प्रसरण से विभाजित करने के भागफल में जोड़ा जाता है। वे। किसी भी नमूने से प्राप्त प्रतिगमन गुणांक बी का अनुमान दो शब्दों के योग के रूप में प्रस्तुत किया जाता है: गुणांक  (बीटा) के वास्तविक मूल्य के बराबर एक स्थिर मान, और चर x और  के सहप्रसरण के आधार पर एक यादृच्छिक घटक। .

23. गणितीय गॉस-मार्कोव स्थितियाँ और उनका अनुप्रयोग।

सर्वोत्तम परिणाम देने के लिए सामान्य ओएलएस पर आधारित प्रतिगमन विश्लेषण के लिए, यादृच्छिक शब्द को चार गॉस-मार्कोव शर्तों को पूरा करना होगा।

यादृच्छिक पद की गणितीय अपेक्षा शून्य के बराबर है, अर्थात। यह निष्पक्ष है. यदि प्रतिगमन समीकरण में एक स्थिर पद शामिल है, तो इस आवश्यकता को पूरा माना जाना स्वाभाविक है, क्योंकि यह एक स्थिर पद है और इसे चर y के मूल्यों में किसी भी व्यवस्थित प्रवृत्ति को ध्यान में रखना चाहिए, जो इसके विपरीत, होना चाहिए प्रतिगमन समीकरण के व्याख्यात्मक चर में शामिल नहीं होना चाहिए।

यादृच्छिक पद का विचरण सभी अवलोकनों के लिए स्थिर है।

मूल्यों का सहप्रसरण यादृच्छिक चर, नमूना बनाना शून्य के बराबर होना चाहिए, अर्थात। किन्हीं दो विशेष प्रेक्षणों में यादृच्छिक पद के मानों के बीच कोई व्यवस्थित संबंध नहीं है। यादृच्छिक सदस्यों को एक दूसरे से स्वतंत्र होना चाहिए।

यादृच्छिक पद का वितरण नियम व्याख्यात्मक चर से स्वतंत्र होना चाहिए।

इसके अलावा, कई अनुप्रयोगों में व्याख्यात्मक चर स्टोकेस्टिक नहीं हैं, यानी। कोई यादृच्छिक घटक नहीं है. प्रत्येक अवलोकन में किसी भी स्वतंत्र चर के मूल्य को बहिर्जात माना जाना चाहिए, जो पूरी तरह से बाहरी कारणों से निर्धारित होता है जिसे प्रतिगमन समीकरण में ध्यान में नहीं रखा जाता है।

निर्दिष्ट गॉस-मार्कोव शर्तों के साथ, यह भी माना जाता है कि यादृच्छिक शब्द का सामान्य वितरण होता है। यह बहुत व्यापक परिस्थितियों में मान्य है और तथाकथित केंद्रीय सीमा प्रमेय (सीएलटी) पर आधारित है। इस प्रमेय का सार यह है कि यदि एक यादृच्छिक चर बड़ी संख्या में अन्य यादृच्छिक चर की परस्पर क्रिया का समग्र परिणाम है, जिनमें से किसी का भी इस समग्र परिणाम के व्यवहार पर प्रमुख प्रभाव नहीं पड़ता है, तो परिणामी यादृच्छिक चर का वर्णन किया जाएगा लगभग सामान्य वितरण द्वारा। यह निकटता सामान्य वितरणआपको अनुमान प्राप्त करने के लिए सामान्य वितरण का उपयोग करने की अनुमति देता है और है एक निश्चित अर्थ मेंइसका सामान्यीकरण छात्र वितरण है, जो मुख्य रूप से तथाकथित "पूंछ" पर सामान्य से भिन्न होता है, अर्थात। छोटे नमूना आकारों के लिए. यह भी महत्वपूर्ण है कि यदि यादृच्छिक पद सामान्य रूप से वितरित किया जाता है, तो प्रतिगमन गुणांक भी सामान्य रूप से वितरित किया जाएगा।

स्थापित प्रतिगमन वक्र (प्रतिगमन समीकरण) हमें तथाकथित बिंदु पूर्वानुमान की समस्या को हल करने की अनुमति देता है। ऐसी गणनाओं में, x का एक निश्चित मान अध्ययन किए गए अवलोकन अंतराल के बाहर लिया जाता है और प्रतिगमन समीकरण (एक्सट्रपलेशन प्रक्रिया) के दाईं ओर प्रतिस्थापित किया जाता है। क्योंकि प्रतिगमन गुणांक के अनुमान पहले से ही ज्ञात हैं, फिर x के लिए गए मान के अनुरूप समझाए गए चर y के मान की गणना करना संभव है। स्वाभाविक रूप से, भविष्यवाणी (पूर्वानुमान) के अर्थ के अनुसार, गणना आगे (भविष्य के मूल्यों के क्षेत्र में) की जाती है।

हालाँकि, चूंकि गुणांक एक निश्चित त्रुटि के साथ निर्धारित किए गए थे, इसलिए यह रुचि का नहीं है बिंदु लागत(बिंदु पूर्वानुमान) एक प्रभावी विशेषता के लिए, और उन सीमाओं का ज्ञान जिसके भीतर, एक निश्चित संभावना के साथ, प्रभावी विशेषता के मान कारक x के लिए गए मान के अनुरूप होंगे।

ऐसा करने के लिए, मानक त्रुटि (मानक विचलन) की गणना की जाती है। इसे अभी जो कहा गया है उसकी भावना से इस प्रकार प्राप्त किया जा सकता है। औसत मूल्यों के माध्यम से अनुमानों से मुक्त शब्द ए की अभिव्यक्ति को रैखिक प्रतिगमन समीकरण में प्रतिस्थापित किया गया है। तब यह पता चलता है कि मानक त्रुटि औसत प्रभावी कारक y की त्रुटि पर और योगात्मक रूप से प्रतिगमन गुणांक b की त्रुटि पर निर्भर करती है। बस इस मानक त्रुटि का वर्ग योग के बराबरऔसत मान y का वर्ग त्रुटि और कारक x के मान और उसके औसत के वर्ग विचलन द्वारा प्रतिगमन गुणांक की वर्ग त्रुटि का गुणनफल। इसके अलावा, पहला पद, सांख्यिकी के नियमों के अनुसार, नमूने के आकार (आयतन) द्वारा सामान्य जनसंख्या के विचरण को विभाजित करने के भागफल के बराबर है।

अज्ञात विचरण के बजाय, नमूना विचरण का उपयोग अनुमान के रूप में किया जाता है। तदनुसार, प्रतिगमन गुणांक की त्रुटि को कारक x के भिन्नता द्वारा नमूना भिन्नता को विभाजित करने के भागफल के रूप में परिभाषित किया गया है। आप मानक त्रुटि (मानक विचलन) और अन्य विचार प्राप्त कर सकते हैं जो रैखिक प्रतिगमन मॉडल से अधिक स्वतंत्र हैं। ऐसा करने के लिए, औसत त्रुटि और सीमांत त्रुटि की अवधारणा और उनके बीच संबंध का उपयोग किया जाता है।

लेकिन मानक त्रुटि प्राप्त करने के बाद भी, उन सीमाओं के बारे में प्रश्न बना रहता है जिनके भीतर अनुमानित मूल्य निहित होगा। दूसरे शब्दों में, माप त्रुटि के अंतराल के बारे में, कई मामलों में प्राकृतिक धारणा यह है कि इस अंतराल का मध्य प्रभावी कारक y के परिकलित (औसत) मान द्वारा दिया जाता है। यहां केंद्रीय सीमा प्रमेय बचाव के लिए आता है, जो सटीक रूप से इंगित करता है कि अज्ञात मात्रा इस विश्वास अंतराल के भीतर किस संभावना के साथ है।

अनिवार्य रूप से, मानक त्रुटि सूत्र, चाहे इसे कैसे और किस रूप में प्राप्त किया गया हो, प्रतिगमन रेखा की स्थिति में त्रुटि को दर्शाता है। मानक त्रुटि न्यूनतम तक पहुँच जाती है जब कारक x का मान कारक के औसत मान के साथ मेल खाता है।

24. फिशर मानदंड का उपयोग करके परिकल्पनाओं का सांख्यिकीय परीक्षण और रैखिक प्रतिगमन के महत्व का आकलन।

रेखीय प्रतिगमन समीकरण पाए जाने के बाद, संपूर्ण समीकरण और उसके व्यक्तिगत मापदंडों दोनों के महत्व का आकलन किया जाता है। समग्र रूप से प्रतिगमन समीकरण के महत्व का आकलन विभिन्न मानदंडों का उपयोग करके किया जा सकता है। फिशर एफ परीक्षण का उपयोग काफी सामान्य और प्रभावी है। इस मामले में, शून्य परिकल्पना को आगे रखा गया है कि प्रतिगमन गुणांक शून्य के बराबर है, अर्थात। b=0, और इसलिए कारक x का परिणाम y पर कोई प्रभाव नहीं पड़ता है। एफ-परीक्षण की तत्काल गणना विचरण के विश्लेषण से पहले की जाती है। इसमें केंद्रीय स्थान औसत मान y से चर y के वर्ग विचलन के कुल योग के दो भागों में अपघटन द्वारा लिया गया है - "समझाया गया" और "अस्पष्टीकृत":

औसत मूल्य y से परिणामी विशेषता y के व्यक्तिगत मूल्यों के वर्ग विचलन का कुल योग कई कारकों के प्रभाव के कारण होता है।

आइए हम सशर्त रूप से कारणों के पूरे सेट को दो समूहों में विभाजित करें: अध्ययन किया गया कारक x और अन्य कारक। यदि कारक परिणाम को प्रभावित नहीं करता है, तो ग्राफ़ पर प्रतिगमन रेखा OX और y=y अक्ष के समानांतर है। फिर परिणामी विशेषता का संपूर्ण विचरण अन्य कारकों के प्रभाव के कारण होता है और वर्ग विचलन का कुल योग अवशिष्ट के साथ मेल खाएगा। यदि अन्य कारक परिणाम को प्रभावित नहीं करते हैं, तो y कार्यात्मक रूप से x से संबंधित है और वर्गों का शेष योग शून्य है। इस मामले में, प्रतिगमन द्वारा समझाए गए वर्ग विचलन का योग मेल खाता है कुल राशिवर्ग। चूँकि सहसंबंध क्षेत्र के सभी बिंदु प्रतिगमन रेखा पर नहीं होते हैं, इसलिए उनका बिखराव हमेशा कारक x के प्रभाव के कारण होता है, अर्थात। x पर y का प्रतिगमन, और अन्य कारणों से (अस्पष्टीकृत भिन्नता)। भविष्यवाणी के लिए प्रतिगमन रेखा की उपयुक्तता इस बात पर निर्भर करती है कि विशेषता y में कुल भिन्नता का कितना हिस्सा समझाया गया भिन्नता है।

जाहिर है, यदि प्रतिगमन के कारण वर्ग विचलन का योग वर्गों के अवशिष्ट योग से अधिक है, तो प्रतिगमन समीकरण सांख्यिकीय रूप से महत्वपूर्ण है और एक्स कारक का परिणाम पर महत्वपूर्ण प्रभाव पड़ता है। यह इस तथ्य के समतुल्य है कि निर्धारण का गुणांक एकता के करीब पहुंच जाएगा। वर्ग विचलन का कोई भी योग स्वतंत्रता की डिग्री की संख्या से संबंधित है, अर्थात। किसी विशेषता की स्वतंत्र भिन्नता की स्वतंत्रता की संख्या। स्वतंत्रता की कोटि की संख्या जनसंख्या की इकाइयों की संख्या या उससे निर्धारित स्थिरांकों की संख्या से जुड़ी होती है। अध्ययन के तहत समस्या के संबंध में, स्वतंत्रता की डिग्री की संख्या को यह दिखाना चाहिए कि n संभावित [(y 1 -y), (y 2 -y),...(y n -y)] में से कितने स्वतंत्र विचलन आवश्यक हैं वर्गों का एक निश्चित योग बनाने के लिए। इस प्रकार, वर्गों के कुल योग के लिए ∑(y-y sr) 2, (n-1) स्वतंत्र विचलन आवश्यक हैं, क्योंकि n इकाइयों की जनसंख्या में, औसत स्तर की गणना के बाद, केवल (n-1) विचलन की संख्या स्वतंत्र रूप से भिन्न होती है। वर्गों ∑(y-y avg) 2 के स्पष्ट या कारक योग की गणना करते समय, परिणामी विशेषता y* के सैद्धांतिक (गणना किए गए) मानों का उपयोग किया जाता है, जो प्रतिगमन रेखा के साथ पाए जाते हैं: y(x)=a+bx।

आइए अब हम इस मान के औसत से प्रभावी कारक के वर्ग विचलन के कुल योग के विस्तार पर लौटते हैं। इस योग में पहले से ही ऊपर परिभाषित दो भाग शामिल हैं: प्रतिगमन द्वारा समझाए गए वर्ग विचलन का योग और दूसरा योग जिसे वर्ग विचलन का अवशिष्ट योग कहा जाता है। इस अपघटन के साथ विचरण का विश्लेषण जुड़ा हुआ है, जो सीधे मूल प्रश्न का उत्तर देता है: समग्र रूप से प्रतिगमन समीकरण के महत्व और उसके व्यक्तिगत मापदंडों का आकलन कैसे करें? यह काफी हद तक इस प्रश्न का अर्थ भी निर्धारित करता है। समग्र रूप से प्रतिगमन समीकरण के महत्व का आकलन करने के लिए, फिशर मानदंड (एफ-परीक्षण) का उपयोग किया जाता है। फिशर द्वारा प्रस्तावित दृष्टिकोण के अनुसार, एक अशक्त परिकल्पना सामने रखी गई है: प्रतिगमन गुणांक शून्य के बराबर है, अर्थात। मानबी=0. इसका मतलब यह है कि कारक X का परिणाम Y पर कोई प्रभाव नहीं पड़ता है।

आइए याद रखें कि सांख्यिकीय अध्ययन के परिणामस्वरूप प्राप्त लगभग हमेशा अंक बिल्कुल प्रतिगमन रेखा पर नहीं होते हैं। वे बिखरे हुए हैं, प्रतिगमन रेखा से कमोबेश दूर हैं। ऐसा फैलाव व्याख्यात्मक कारक X से भिन्न अन्य कारकों के प्रभाव के कारण होता है, जिन्हें प्रतिगमन समीकरण में ध्यान में नहीं रखा जाता है। वर्ग विचलनों के स्पष्ट या कारक योग की गणना करते समय, प्रतिगमन रेखा से प्राप्त परिणामी विशेषता के सैद्धांतिक मूल्यों का उपयोग किया जाता है।

चर Y और X के मानों के दिए गए सेट के लिए, औसत मान Y का परिकलित मान रैखिक प्रतिगमन में केवल एक पैरामीटर का एक फ़ंक्शन है - प्रतिगमन गुणांक। इसके अनुसार, वर्ग विचलन के कारक योग में स्वतंत्रता की डिग्री की संख्या 1 के बराबर होती है। और रैखिक प्रतिगमन में वर्ग विचलन के अवशिष्ट योग की स्वतंत्रता की डिग्री की संख्या n-2 होती है।

नतीजतन, मूल विस्तार में वर्ग विचलन के प्रत्येक योग को उसकी स्वतंत्रता की डिग्री की संख्या से विभाजित करने पर, हम औसत वर्ग विचलन (स्वतंत्रता की एक डिग्री के अनुसार भिन्नता) प्राप्त करते हैं। इसके बाद, कारक विचरण को स्वतंत्रता की एक डिग्री से अवशिष्ट विचरण द्वारा स्वतंत्रता की एक डिग्री से विभाजित करने पर, हम अशक्त परिकल्पना, तथाकथित एफ-अनुपात, या समान नाम के मानदंड के परीक्षण के लिए एक मानदंड प्राप्त करते हैं। अर्थात्, यदि शून्य परिकल्पना सत्य है, तो कारक और अवशिष्ट प्रसरण एक दूसरे के बराबर हैं।

शून्य परिकल्पना को अस्वीकार करना, अर्थात विपरीत परिकल्पना को स्वीकार करते हुए, जो अध्ययन के तहत रिश्ते के महत्व (उपस्थिति) के तथ्य को व्यक्त करता है, न कि किसी रिश्ते का अनुकरण करने वाले कारकों का एक यादृच्छिक संयोग जो वास्तव में मौजूद नहीं है, महत्वपूर्ण मूल्यों की तालिकाओं का उपयोग करना आवश्यक है निर्दिष्ट संबंध. तालिकाओं का उपयोग करके, फिशर मानदंड का महत्वपूर्ण (सीमा) मान निर्धारित किया जाता है। इसे सैद्धान्तिक भी कहा जाता है। फिर वे अवलोकन डेटा से गणना किए गए मानदंड के संबंधित अनुभवजन्य (वास्तविक) मूल्य के साथ इसकी तुलना करके जांच करते हैं कि क्या अनुपात का वास्तविक मूल्य तालिकाओं से महत्वपूर्ण मूल्य से अधिक है।

इसे इस प्रकार और अधिक विस्तार से किया जाता है। शून्य परिकल्पना की उपस्थिति की संभाव्यता के दिए गए स्तर का चयन करें और तालिकाओं से एफ-मानदंड का महत्वपूर्ण मान ढूंढें, जिस पर स्वतंत्रता की 1 डिग्री द्वारा भिन्नता का यादृच्छिक विचलन अभी भी हो सकता है, यानी। ऐसा अधिकतम मान. तब एफ-अनुपात का परिकलित मान विश्वसनीय माना जाता है (अर्थात, वास्तविक और अवशिष्ट भिन्नताओं के बीच अंतर व्यक्त करना) यदि यह अनुपात सारणीबद्ध अनुपात से अधिक है। तब शून्य परिकल्पना खारिज कर दी जाती है (यह सच नहीं है कि किसी संबंध के कोई संकेत नहीं हैं) और, इसके विपरीत, हम इस निष्कर्ष पर पहुंचते हैं कि एक संबंध है और यह महत्वपूर्ण है (यह गैर-यादृच्छिक, महत्वपूर्ण है)।

यदि रिश्ते का मूल्य सारणीबद्ध से कम हो जाता है, तो अशक्त परिकल्पना की संभावना निर्दिष्ट स्तर (जिसे शुरू में चुना गया था) से अधिक हो जाती है और अशक्त परिकल्पना को ध्यान देने योग्य खतरे के बिना अस्वीकार नहीं किया जा सकता है किसी रिश्ते की मौजूदगी के बारे में गलत निष्कर्ष निकालना। तदनुसार, प्रतिगमन समीकरण को महत्वहीन माना जाता है।

एफ-मानदंड का मान स्वयं निर्धारण के गुणांक से संबंधित है। समग्र रूप से प्रतिगमन समीकरण के महत्व का आकलन करने के अलावा, प्रतिगमन समीकरण के व्यक्तिगत मापदंडों के महत्व का भी आकलन किया जाता है। इस मामले में, प्रतिगमन गुणांक की मानक त्रुटि अनुभवजन्य वास्तविक मानक विचलन और स्वतंत्रता की डिग्री के अनुसार अनुभवजन्य विचरण का उपयोग करके निर्धारित की जाती है। छात्र वितरण का उपयोग उसके आत्मविश्वास अंतराल की गणना करने के लिए प्रतिगमन गुणांक के महत्व का परीक्षण करने के लिए किया जाता है।

छात्र के टी-टेस्ट का उपयोग करके प्रतिगमन और सहसंबंध गुणांक के महत्व का आकलन इन मात्राओं के मूल्यों और मानक त्रुटि की तुलना करके किया जाता है। रैखिक प्रतिगमन मापदंडों की त्रुटि का परिमाण और सहसंबंध गुणांक निम्नलिखित सूत्रों द्वारा निर्धारित किया जाता है:

जहां S मूल माध्य वर्ग अवशिष्ट नमूना विचलन है,

आर एक्सवाई - सहसंबंध गुणांक।

तदनुसार, प्रतिगमन रेखा द्वारा अनुमानित मानक त्रुटि का मान सूत्र द्वारा दिया गया है:

उनकी मानक त्रुटि के लिए प्रतिगमन और सहसंबंध गुणांक के मूल्यों के संबंधित अनुपात तथाकथित टी-सांख्यिकी बनाते हैं, और संबंधित सारणीबद्ध (महत्वपूर्ण) मूल्य और उसके वास्तविक मूल्य की तुलना किसी को शून्य को स्वीकार या अस्वीकार करने की अनुमति देती है परिकल्पना। लेकिन फिर, विश्वास अंतराल की गणना करने के लिए, प्रत्येक संकेतक के लिए अधिकतम त्रुटि संबंधित संकेतक की औसत यादृच्छिक त्रुटि द्वारा टी सांख्यिकी के सारणीबद्ध मूल्य के उत्पाद के रूप में पाई जाती है। वास्तव में, हमने वास्तव में इसे ऊपर थोड़ा अलग तरीके से लिखा है। फिर आत्मविश्वास अंतराल की सीमाएं प्राप्त की जाती हैं: निचली सीमा संबंधित गुणांक (वास्तव में औसत) से संबंधित सीमांत त्रुटि को घटाकर होती है, और ऊपरी सीमा जोड़ (जोड़) से होती है।

रैखिक प्रतिगमन में ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. रैखिक सहसंबंध गुणांक के सूत्र का संदर्भ देकर इसे सत्यापित करना आसान है: r 2 xy = b 2 *σ 2 x /σ 2 y

जहां σ 2 y गुण y का कुल विचरण है;

σ 2 x - कारक x के कारण विशेषता y का फैलाव। तदनुसार, रैखिक प्रतिगमन के कारण वर्ग विचलन का योग होगा:

∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 .

चूँकि, x और y में प्रेक्षणों के दिए गए आयतन के लिए, रैखिक प्रतिगमन में वर्गों का कारक योग प्रतिगमन गुणांक b के केवल एक स्थिरांक पर निर्भर करता है, तो वर्गों के इस योग में स्वतंत्रता की एक डिग्री होती है। आइए विशेषता y के परिकलित मान के सामग्री पक्ष पर विचार करें अर्थात वाई एक्स. मान y x रैखिक प्रतिगमन समीकरण द्वारा निर्धारित किया जाता है: y x ​​​​= a + bx।

पैरामीटर a को a=y-bx के रूप में परिभाषित किया जा सकता है। रैखिक मॉडल में पैरामीटर a के लिए अभिव्यक्ति को प्रतिस्थापित करते हुए, हम प्राप्त करते हैं: y x ​​​​=y-bx+bx avg =y-b(x-x avg)।

चर y और x के दिए गए सेट के लिए, रैखिक प्रतिगमन में y x का परिकलित मान केवल एक पैरामीटर - प्रतिगमन गुणांक का एक फ़ंक्शन है। तदनुसार, वर्ग विचलन के कारक योग में स्वतंत्रता की कई डिग्री 1 के बराबर होती हैं।

वर्गों के कुल, कारक और अवशिष्ट योग की स्वतंत्रता की डिग्री की संख्या के बीच समानता है। रैखिक प्रतिगमन में वर्गों के अवशिष्ट योग की स्वतंत्रता की डिग्री की संख्या (n-2) है। वर्गों के कुल योग के लिए स्वतंत्रता की डिग्री की संख्या इकाइयों की संख्या से निर्धारित होती है, और चूंकि हम नमूना डेटा से गणना किए गए औसत का उपयोग करते हैं, हम स्वतंत्रता की एक डिग्री खो देते हैं, यानी। (एन-1). तो, हमारे पास दो समानताएँ हैं: योग के लिए और स्वतंत्रता की डिग्री की संख्या के लिए। और यह, बदले में, हमें स्वतंत्रता की प्रति डिग्री तुलनीय भिन्नताओं पर वापस लाता है, जिसका अनुपात फिशर मानदंड देता है।

25. छात्र के परीक्षण का उपयोग करके प्रतिगमन समीकरण और गुणांक के व्यक्तिगत मापदंडों के महत्व का आकलन करना।

27. रेखीय और अरेखीय प्रतिगमन और उनके अनुसंधान के तरीके।

रैखिक प्रतिगमन और इसके अनुसंधान और मूल्यांकन के तरीके इतने महत्वपूर्ण नहीं होंगे यदि, इस बहुत महत्वपूर्ण, लेकिन फिर भी सबसे सरल मामले के अलावा, हमें उनकी मदद से अधिक जटिल गैर-रेखीय निर्भरता का विश्लेषण करने के लिए एक उपकरण नहीं मिला। नॉनलाइनियर रिग्रेशन को दो महत्वपूर्ण रूप से भिन्न वर्गों में विभाजित किया जा सकता है। पहला और सरल गैर-रेखीय निर्भरता का वर्ग है जिसमें व्याख्यात्मक चर के संबंध में गैर-रैखिकता होती है, लेकिन जो उनमें शामिल मापदंडों में रैखिक रहते हैं और मूल्यांकन के अधीन होते हैं। इसमें बहुपद शामिल हैं विभिन्न डिग्रीऔर एक समबाहु अतिपरवलय.

स्पष्टीकरण में शामिल चर के लिए इस तरह के गैर-रेखीय प्रतिगमन को केवल चर को परिवर्तित (प्रतिस्थापित) करके नए चर के लिए सामान्य रैखिक प्रतिगमन में आसानी से कम किया जा सकता है। इसलिए, इस मामले में मापदंडों का अनुमान केवल न्यूनतम वर्गों द्वारा किया जाता है, क्योंकि मापदंडों में निर्भरताएँ रैखिक होती हैं। इस प्रकार, समबाहु अतिपरवलय द्वारा वर्णित अरेखीय निर्भरता अर्थशास्त्र में एक महत्वपूर्ण भूमिका निभाती है:

इसके मापदंडों का कम से कम वर्ग विधि का उपयोग करके अच्छी तरह से मूल्यांकन किया जाता है, और यह निर्भरता स्वयं कच्चे माल, ईंधन, उत्पादन की मात्रा के साथ सामग्री की विशिष्ट लागत, माल के संचलन का समय और व्यापार की मात्रा के साथ इन सभी कारकों के बीच संबंध को दर्शाती है। टर्नओवर. उदाहरण के लिए, फिलिप्स वक्र बेरोजगारी दर और वेतन वृद्धि के प्रतिशत के बीच गैर-रेखीय संबंध को दर्शाता है।

प्रतिगमन के साथ स्थिति पूरी तरह से अलग है जो अनुमानित मापदंडों में गैर-रेखीय है, उदाहरण के लिए, एक पावर फ़ंक्शन द्वारा दर्शाया गया है, जिसमें डिग्री स्वयं (इसका प्रतिपादक) एक पैरामीटर है, या पैरामीटर पर निर्भर करती है। यह एक घातीय फ़ंक्शन भी हो सकता है, जहां डिग्री का आधार एक पैरामीटर और एक घातीय फ़ंक्शन होता है, जिसमें फिर से संकेतक में एक पैरामीटर या पैरामीटर का संयोजन होता है। यह वर्ग, बदले में, दो उपवर्गों में विभाजित है: एक में बाहरी रूप से गैर-रैखिक, लेकिन अनिवार्य रूप से आंतरिक रूप से रैखिक शामिल है। इस मामले में, आप परिवर्तनों का उपयोग करके मॉडल को रैखिक रूप में ला सकते हैं। हालाँकि, यदि मॉडल आंतरिक रूप से अरेखीय है, तो इसे एक रैखिक फ़ंक्शन में कम नहीं किया जा सकता है।

इस प्रकार, केवल वे मॉडल जो प्रतिगमन विश्लेषण में आंतरिक रूप से अरेखीय हैं, वास्तव में अरेखीय माने जाते हैं। अन्य सभी, जिन्हें परिवर्तनों के माध्यम से रैखिक में घटाया जा सकता है, को ऐसा नहीं माना जाता है, और यह वे हैं जिन्हें अर्थमितीय अध्ययनों में सबसे अधिक बार माना जाता है। साथ ही, इसका मतलब यह नहीं है कि अर्थमिति में अनिवार्य रूप से गैर-रेखीय निर्भरता का अध्ययन करना असंभव है। यदि मॉडल अपने मापदंडों में आंतरिक रूप से अरेखीय है, तो मापदंडों का अनुमान लगाने के लिए पुनरावृत्त प्रक्रियाओं का उपयोग किया जाता है, जिसकी सफलता उपयोग की गई पुनरावृत्त विधि की विशेषताओं के लिए समीकरण के प्रकार पर निर्भर करती है।

आइए निर्भरता को घटाकर रैखिक पर वापस लौटें। यदि वे पैरामीटर और वेरिएबल दोनों में अरेखीय हैं, उदाहरण के लिए, फॉर्म y = a को X की शक्ति से गुणा किया जाता है, जिसका घातांक पैरामीटर है -  (बीटा):

जाहिर है, ऐसे रिश्ते को सरल लघुगणक द्वारा आसानी से एक रैखिक समीकरण में परिवर्तित किया जा सकता है।

लघुगणक को दर्शाने वाले नए चर पेश करने के बाद, एक रैखिक समीकरण प्राप्त होता है। प्रतिगमन का अनुमान लगाने की प्रक्रिया में मूल मानों के लघुगणक लेकर प्रत्येक अवलोकन के लिए नए चर की गणना करना शामिल है। फिर नए चरों की प्रतिगमन निर्भरता का अनुमान लगाया जाता है। मूल चरों पर जाने के लिए, आपको प्रतिलघुगणक लेना चाहिए, यानी, वास्तव में उनके घातांक के बजाय स्वयं घातों पर लौटना चाहिए (आखिरकार, लघुगणक ही घातांक है)। घातांकीय या घातांकीय फलनों के मामले पर भी इसी प्रकार विचार किया जा सकता है।

महत्वपूर्ण रूप से अरेखीय प्रतिगमन के लिए, सामान्य प्रतिगमन अनुमान प्रक्रिया को लागू करना संभव नहीं है क्योंकि संबंधित संबंध को रैखिक में परिवर्तित नहीं किया जा सकता है। क्रियाओं की सामान्य योजना इस प्रकार है:

1. कुछ प्रशंसनीय प्रारंभिक पैरामीटर मान स्वीकार किए जाते हैं;

2. अनुमानित Y मानों की गणना इन पैरामीटर मानों का उपयोग करके वास्तविक X मानों से की जाती है;

3. नमूने में सभी अवलोकनों के लिए अवशेषों की गणना की जाती है और फिर अवशेषों के वर्गों का योग किया जाता है;

4. एक या अधिक पैरामीटर अनुमानों में छोटे परिवर्तन किए जाते हैं;

5. Y के नए पूर्वानुमानित मान, अवशिष्ट और अवशिष्टों के वर्गों के योग की गणना की जाती है;

6. यदि अवशेषों के वर्गों का योग पहले से कम है, तो नए पैरामीटर अनुमान पिछले वाले की तुलना में बेहतर हैं और इसे एक नए शुरुआती बिंदु के रूप में उपयोग किया जाना चाहिए;

7. चरण 4, 5 और 6 को फिर से दोहराया जाता है जब तक कि पैरामीटर अनुमानों में ऐसे बदलाव करना असंभव न हो जाए जिससे वर्गों के अवशेषों के योग में बदलाव हो;

8. यह निष्कर्ष निकाला गया है कि वर्ग अवशेषों का योग न्यूनतम किया गया है और अंतिम पैरामीटर अनुमान न्यूनतम वर्ग अनुमान हैं।

गैर-रेखीय कार्यों में से जिन्हें कम किया जा सकता है रैखिक रूपअर्थमिति में पावर फ़ंक्शन का व्यापक रूप से उपयोग किया जाता है। इसमें पैरामीटर बी की लोच गुणांक होने के कारण स्पष्ट व्याख्या है। ऐसे मॉडलों में जो अनुमानित मापदंडों में अरेखीय हैं, लेकिन रैखिक रूप में घटाए जा सकते हैं, कम से कम वर्ग विधि को रूपांतरित समीकरणों पर लागू किया जाता है। लघुगणक और, तदनुसार, घातांक का व्यावहारिक उपयोग तब संभव है जब परिणामी चिह्न में नकारात्मक मान न हों। परिणामी विशेषता के लघुगणक का उपयोग करके कार्यों के बीच संबंधों का अध्ययन करते समय, शक्ति-कानून निर्भरताएं अर्थमिति (मांग और आपूर्ति वक्र, उत्पादन कार्य, उत्पादों की श्रम तीव्रता, उत्पादन के पैमाने, निर्भरता के बीच संबंधों को चिह्नित करने के लिए अवशोषण वक्र) में प्रबल होती हैं। रोजगार के स्तर पर जीएनआई का, एंगेल वक्र)।

28. व्युत्क्रम मॉडल और उसका उपयोग

कभी-कभी तथाकथित व्युत्क्रम मॉडल का उपयोग किया जाता है, जो आंतरिक रूप से अरेखीय होता है, लेकिन इसमें, एक समबाहु हाइपरबोला के विपरीत, यह व्याख्यात्मक चर नहीं है जो परिवर्तन के अधीन है, बल्कि परिणामी विशेषता Y है। इसलिए, व्युत्क्रम मॉडल निकलता है आंतरिक रूप से अरेखीय हो और परिणामी विशेषता Y के वास्तविक मानों और उनके व्युत्क्रम मानों के लिए OLS आवश्यकता संतुष्ट नहीं है। अरेखीय प्रतिगमन के लिए सहसंबंध का अध्ययन विशेष ध्यान देने योग्य है। सामान्य स्थिति में, दूसरी डिग्री का एक परवलय, उच्च क्रम के बहुपदों की तरह, जब रैखिककृत होता है, तो एक बहु प्रतिगमन समीकरण का रूप ले लेता है। यदि, जब रैखिककृत किया जाता है, तो एक प्रतिगमन समीकरण जो समझाया गया चर के संबंध में गैर-रेखीय होता है, एक रैखिक युग्मित प्रतिगमन समीकरण का रूप लेता है, तो संबंध की निकटता का आकलन करने के लिए एक रैखिक सहसंबंध गुणांक का उपयोग किया जा सकता है।

यदि प्रतिगमन समीकरण का रैखिक रूप में परिवर्तन आश्रित चर (परिणामी विशेषता) से जुड़ा हुआ है, तो विशेषताओं के परिवर्तित मूल्यों के आधार पर रैखिक सहसंबंध गुणांक केवल रिश्ते का अनुमानित अनुमान देता है और संख्यात्मक रूप से मेल नहीं खाता है सहसंबंध सूचकांक. यह ध्यान में रखा जाना चाहिए कि सहसंबंध सूचकांक की गणना करते समय, परिणामी विशेषता Y के वर्ग विचलन के योग का उपयोग किया जाता है, न कि उनके लघुगणक का। सहसंबंध सूचकांक के महत्व का आकलन उसी तरह किया जाता है जैसे सहसंबंध गुणांक की विश्वसनीयता (महत्व) का आकलन किया जाता है। सहसंबंध सूचकांक, निर्धारण सूचकांक की तरह, फिशर एफ परीक्षण का उपयोग करके गैर-रेखीय प्रतिगमन समीकरण के समग्र महत्व का परीक्षण करने के लिए उपयोग किया जाता है।

ध्यान दें कि गैर-रेखीय मॉडल के निर्माण की संभावना, एक तरफ उन्हें रैखिक रूप में कम करके और गैर-रेखीय प्रतिगमन का उपयोग करके, प्रतिगमन विश्लेषण की सार्वभौमिकता को बढ़ाती है। दूसरी ओर, यह शोधकर्ता के कार्यों को काफी जटिल बना देता है। यदि हम खुद को युग्मित प्रतिगमन विश्लेषण तक सीमित रखते हैं, तो हम अवलोकन वाई और एक्स को स्कैटर प्लॉट के रूप में प्लॉट कर सकते हैं। अक्सर कई अलग-अलग अरेखीय कार्य प्रेक्षणों का अनुमान लगाते हैं यदि वे किसी वक्र पर स्थित हों। लेकिन एकाधिक प्रतिगमन विश्लेषण के मामले में, ऐसा ग्राफ़ नहीं बनाया जा सकता है।

आश्रित चर की समान परिभाषा के साथ वैकल्पिक मॉडल पर विचार करते समय, चयन प्रक्रिया अपेक्षाकृत सरल होती है। कोई कल्पना किए जा सकने वाले सभी प्रशंसनीय कार्यों के आधार पर प्रतिगमन का अनुमान लगा सकता है और उस फ़ंक्शन का चयन कर सकता है जो आश्रित चर में परिवर्तन को सबसे अधिक समझाता है। यह स्पष्ट है कि जब एक रैखिक फ़ंक्शन y में लगभग 64% विचरण की व्याख्या करता है, और एक हाइपरबोलिक फ़ंक्शन 99.9% की व्याख्या करता है, तो स्पष्ट रूप से बाद वाले को चुना जाना चाहिए। लेकिन जब विभिन्न मॉडलविभिन्न कार्यात्मक रूपों का उपयोग करने से मॉडल चुनने की समस्या काफी अधिक जटिल हो जाती है।

29. बॉक्स-कॉक्स परीक्षण का उपयोग करना।

अधिक आम तौर पर, जब आश्रित चर की समान परिभाषा के साथ वैकल्पिक मॉडल पर विचार किया जाता है, तो विकल्प सरल होता है। सभी प्रशंसनीय कार्यों के आधार पर प्रतिगमन का अनुमान लगाना सबसे उचित है, उस फ़ंक्शन पर ध्यान केंद्रित करना जो आश्रित चर में परिवर्तन को सबसे अधिक समझाता है। यदि निर्धारण का गुणांक, एक मामले में, प्रतिगमन द्वारा समझाए गए विचरण के अनुपात को मापता है, और दूसरे में, प्रतिगमन द्वारा समझाए गए इस आश्रित चर के लघुगणक में विचरण के अनुपात को मापता है, तो चुनाव बिना किसी कठिनाई के किया जाता है। यह दूसरी बात है जब दो मॉडलों के लिए ये मान बहुत करीब हैं और पसंद की समस्या काफी जटिल हो जाती है।

इसके बाद बॉक्स-कॉक्स परीक्षण के रूप में मानक प्रक्रिया लागू की जानी चाहिए। यदि आपको आश्रित चर के एक प्रकार के रूप में प्रभावी कारक और उसके लघुगणक का उपयोग करके मॉडल की तुलना करने की आवश्यकता है, तो ज़ेरेम्बका परीक्षण का एक संस्करण उपयोग किया जाता है। यह अवलोकन पैमाने Y के परिवर्तन का प्रस्ताव करता है, जो रैखिक और लघुगणकीय मॉडल में मूल माध्य वर्ग त्रुटि (MSE) की प्रत्यक्ष तुलना की अनुमति देता है। संबंधित प्रक्रिया में निम्नलिखित चरण शामिल हैं:

    नमूने में Y मानों के ज्यामितीय माध्य की गणना की जाती है, जो Y के लघुगणक के अंकगणितीय माध्य के घातांक के साथ मेल खाता है;

    प्रेक्षणों Y की पुनर्गणना इस प्रकार की जाती है कि उन्हें पहले चरण में प्राप्त मान से विभाजित किया जाता है;

    मूल Y मानों के बजाय स्केल किए गए Y मानों का उपयोग करके एक रैखिक मॉडल के लिए प्रतिगमन का अनुमान लगाया जाता है, और स्केल किए गए Y मानों के लघुगणक का उपयोग करके एक लघुगणकीय मॉडल के लिए। दो प्रतिगमन के लिए RMSE मान अब तुलनीय हैं और इसलिए वर्ग विचलन के छोटे योग वाला मॉडल प्रेक्षित मूल्यों के वास्तविक संबंध के लिए बेहतर फिट प्रदान करता है;

    यह जांचने के लिए कि मॉडलों में से एक काफी बेहतर फिट प्रदान नहीं करता है, कोई पुनर्गणना प्रतिगमन में आरएमएसई मूल्यों के अनुपात के लघुगणक के आधे संख्या के अवलोकन के उत्पाद का उपयोग कर सकता है और फिर ले सकता है निरपेक्ष मूल्ययह मान.

30. कारकों के अंतर्संबंध और बहुसंरेखता की अवधारणाएँ।

34. एमएनसी के मूल सिद्धांत और इसके आवेदन की वैधता।

आइए अब हम ओएलएस की मूल बातें, इसके अनुप्रयोग की वैधता (कई प्रतिगमन समस्याओं सहित) और ओएलएस का उपयोग करके प्राप्त अनुमानों के सबसे महत्वपूर्ण गुणों की ओर मुड़ें। आइए इस तथ्य से शुरू करें कि, प्रतिगमन समीकरण के दाईं ओर विश्लेषणात्मक निर्भरता के साथ, यादृच्छिक शब्द भी एक महत्वपूर्ण भूमिका निभाता है। यह यादृच्छिक घटक एक अप्राप्य मात्रा है। सामी सांख्यिकीय परीक्षणप्रतिगमन पैरामीटर और सहसंबंध उपाय एकाधिक प्रतिगमन के इस यादृच्छिक घटक के वितरण के बारे में अप्राप्य धारणाओं पर आधारित हैं। ये धारणाएँ केवल प्रारंभिक हैं। प्रतिगमन समीकरण के निर्माण के बाद ही यह जाँच की जाती है कि क्या यादृच्छिक अवशेषों (यादृच्छिक घटक के अनुभवजन्य एनालॉग्स) के अनुमानों में गुणों को प्राथमिकता दी गई है। अनिवार्य रूप से, जब मॉडल मापदंडों का अनुमान लगाया जाता है, तो परिणामी विशेषता के सैद्धांतिक और वास्तविक मूल्यों के बीच अंतर की गणना की जाती है ताकि इस प्रकार यादृच्छिक घटक का अनुमान लगाया जा सके। यह ध्यान रखना महत्वपूर्ण है कि यह किसी दिए गए समीकरण के अज्ञात शेषफल का एक नमूना कार्यान्वयन मात्र है।

सामान्य समीकरणों की प्रणाली से प्राप्त प्रतिगमन गुणांक रिश्ते की ताकत का नमूना अनुमान हैं। स्पष्ट है कि इनका व्यावहारिक महत्व तभी है जब ये निष्पक्ष हों। आइए याद रखें कि इस मामले में अवशेषों का माध्य शून्य के बराबर है, या, जो समान है, अनुमान का माध्य अनुमानित पैरामीटर के बराबर है। तब बड़ी संख्या में नमूना अनुमानों पर अवशेष जमा नहीं होंगे, और पाए गए प्रतिगमन पैरामीटर को बड़ी संख्या में निष्पक्ष अनुमानों का औसत माना जा सकता है।

इसके अलावा, अनुमानों में सबसे छोटा अंतर होना चाहिए, यानी। प्रभावी हो और फिर व्यावहारिक रूप से अनुपयोगी बिंदु अनुमान से अंतराल अनुमान की ओर बढ़ना संभव हो जाता है। अंत में, आत्मविश्वास अंतराल तब उपयोगी होते हैं जब पैरामीटर के वास्तविक (अज्ञात) मान से दी गई दूरी पर अनुमान प्राप्त करने की संभावना एक के करीब होती है। ऐसे अनुमानों को सुसंगत कहा जाता है और स्थिरता की संपत्ति को नमूना आकार में वृद्धि के साथ उनकी सटीकता में वृद्धि की विशेषता है।

हालाँकि, स्थिरता की स्थिति स्वचालित रूप से संतुष्ट नहीं होती है और महत्वपूर्ण रूप से निम्नलिखित दो महत्वपूर्ण आवश्यकताओं की पूर्ति पर निर्भर करती है। सबसे पहले, अवशेषों को स्वयं सबसे स्पष्ट यादृच्छिकता के साथ स्टोकेस्टिक होना चाहिए, अर्थात। सभी स्पष्ट रूप से कार्यात्मक निर्भरताओं को विशेष रूप से कई प्रतिगमन के विश्लेषणात्मक घटक में शामिल किया जाना चाहिए, और इसके अलावा, अवशेषों के मूल्यों को अलग-अलग नमूनों के लिए एक दूसरे से स्वतंत्र रूप से वितरित किया जाना चाहिए (अवशेषों का कोई स्वत: सहसंबंध नहीं)। दूसरी, कोई कम महत्वपूर्ण आवश्यकता यह नहीं है कि प्रत्येक विचलन (अवशिष्ट) का विचरण X चर (समरूपता) के सभी मूल्यों के लिए समान हो। वे। समरूपता सभी अवलोकनों के लिए विचरण की स्थिरता द्वारा व्यक्त की जाती है:

इसके विपरीत, विषमलैंगिकता विभिन्न अवलोकनों के लिए विचरण की ऐसी स्थिरता का उल्लंघन है। इस मामले में, नमूने में विभिन्न अवलोकनों के लिए यादृच्छिक शब्द के विभिन्न सैद्धांतिक वितरण के साथ अत्यधिक विचलन मान प्राप्त करने की प्राथमिकता (अवलोकनों से पहले) संभावना अपेक्षाकृत अधिक होगी।

अवशेषों का स्वत: सहसंबंध, या वर्तमान और पिछले (बाद के) अवलोकनों के अवशेषों के बीच सहसंबंध की उपस्थिति, सामान्य रैखिक सहसंबंध गुणांक के मूल्य से निर्धारित होती है। यदि यह शून्य से महत्वपूर्ण रूप से भिन्न होता है, तो अवशेष स्वत: सहसंबद्ध होते हैं और इसलिए, संभाव्यता घनत्व फ़ंक्शन (अवशेषों का वितरण) अवलोकन बिंदु और अन्य अवलोकन बिंदुओं पर अवशिष्ट मूल्यों के वितरण पर निर्भर करता है। यदि कारक

35. समरूपता और विषमलैंगिकता, अवशेषों का स्वत:सहसंबंध, सामान्यीकृत न्यूनतम वर्ग (जीएलएम)।

ओएलएस का उपयोग करके प्रतिगमन मापदंडों के लगातार अनुमान प्राप्त करने के लिए एक्स चर, या होमोसेडैस्टिसिटी के सभी मूल्यों के लिए अवशेषों के भिन्नता की समानता भी बिल्कुल आवश्यक है। समरूपता की स्थिति को संतुष्ट करने में विफलता तथाकथित विषमलैंगिकता की ओर ले जाती है। इससे प्रतिगमन गुणांक के पक्षपाती अनुमान लग सकते हैं। विषमलैंगिकता मुख्य रूप से प्रतिगमन गुणांक अनुमानों की दक्षता में कमी को प्रभावित करेगी। इस मामले में, प्रतिगमन गुणांक की मानक त्रुटि के लिए सूत्र का उपयोग करना विशेष रूप से कठिन हो जाता है, जिसका उपयोग कारक के किसी भी मूल्य के लिए अवशेषों का एक समान फैलाव मानता है। प्रतिगमन गुणांक के अनुमानों की निष्पक्षता के लिए, यह मुख्य रूप से अवशेषों की स्वतंत्रता और स्वयं कारकों के मूल्यों पर निर्भर करता है।

समरूपता का परीक्षण करने के लिए एक काफी स्पष्ट, हालांकि गैर-कठोर और कौशल-आवश्यक तरीका औसत गणना (सैद्धांतिक) परिणामी विशेषता, या संबंधित सहसंबंध क्षेत्रों पर अवशेषों की निर्भरता की प्रकृति का ग्राफिक रूप से अध्ययन करना है। विषमलैंगिकता के अध्ययन और मूल्यांकन के लिए विश्लेषणात्मक तरीके अधिक कठोर हैं। यदि विषमलैंगिकता की महत्वपूर्ण उपस्थिति है, तो ओएलएस के बजाय सामान्यीकृत ओएलएस (जीएलएम) का उपयोग करने की सलाह दी जाती है।

ओएलएस के उपयोग से उत्पन्न होने वाली एकाधिक प्रतिगमन की आवश्यकताओं के अलावा, मॉडल में शामिल चर पर शर्तों का अनुपालन करना भी आवश्यक है। इनमें, सबसे पहले, किसी दिए गए अवलोकन मात्रा (1 से 7) के लिए मॉडल कारकों की संख्या से संबंधित आवश्यकताएं शामिल हैं। अन्यथा, प्रतिगमन पैरामीटर सांख्यिकीय रूप से महत्वहीन होंगे। एलएसएम को लागू करते समय संबंधित संख्यात्मक तरीकों को लागू करने की प्रभावशीलता के दृष्टिकोण से, यह आवश्यक है कि अवलोकनों की संख्या अनुमानित मापदंडों की संख्या से अधिक हो (समीकरणों की प्रणाली में, समीकरणों की संख्या मांगी गई संख्या से अधिक है) चर)।

अर्थमिति की सबसे महत्वपूर्ण उपलब्धि अज्ञात मापदंडों का आकलन करने के तरीकों का महत्वपूर्ण विकास और विचाराधीन प्रभावों के स्थिर महत्व की पहचान करने के लिए मानदंडों में सुधार है। इस संबंध में, अलग-अलग डिग्री तक प्रकट होने वाली विषमलैंगिकता के कारण पारंपरिक ओएलएस का उपयोग करने की असंभवता या अक्षमता के कारण सामान्यीकृत ओएलएस (जीएलएम) का विकास हुआ। वास्तव में, इसमें मॉडल को समायोजित करना, उसके विनिर्देश को बदलना और प्रतिगमन गुणांक के निष्पक्ष, कुशल और सुसंगत अनुमान सुनिश्चित करने के लिए मूल डेटा को बदलना शामिल है।

यह माना जाता है कि अवशेषों का औसत शून्य है, लेकिन उनका फैलाव अब स्थिर नहीं है, बल्कि K i के मूल्यों के समानुपाती है, जहां ये मान आनुपातिकता गुणांक हैं जो विभिन्न मूल्यों के लिए भिन्न हैं कारक एक्स. इस प्रकार, यह ये गुणांक (K i मान) हैं जो फैलाव की विविधता को दर्शाते हैं। स्वाभाविक रूप से, यह माना जाता है कि फैलाव की मात्रा, जो इन आनुपातिकता गुणांकों के लिए एक सामान्य कारक है, अज्ञात है।

मूल मॉडल, इन गुणांकों को एकाधिक प्रतिगमन समीकरण में पेश करने के बाद, विषमलैंगिक बना रहता है (अधिक सटीक रूप से, ये मॉडल के अवशिष्ट मूल्य हैं)। इन अवशिष्टों (अवशेषों) को स्वसंबद्ध न होने दें। आइए हम i-वें अवलोकन के परिणामस्वरूप दर्ज किए गए प्रारंभिक मॉडल चर को आनुपातिकता गुणांक K i के वर्गमूल से विभाजित करके प्राप्त नए चर का परिचय दें। फिर हम रूपांतरित चरों में एक नया समीकरण प्राप्त करते हैं, जिसमें अवशेष समरूप होंगे। नए चर स्वयं पुराने (मूल) चर हैं।

इसलिए, होमोसेडैस्टिक अवशेषों के साथ इस तरह से प्राप्त नए समीकरण के मापदंडों का अनुमान भारित न्यूनतम वर्ग विधि (संक्षेप में, यह ओएलएस विधि है) में घटा दिया जाएगा। जब स्वयं प्रतिगमन चर के बजाय औसत से उनके विचलन का उपयोग किया जाता है, तो प्रतिगमन गुणांक के लिए अभिव्यक्ति एक सरल और मानकीकृत (समान) रूप लेती है, अंश और हर में सुधार कारक 1/K द्वारा ओएलएस और ओएलएस के लिए थोड़ा अलग होता है। प्रतिगमन गुणांक देने वाले अंश का।

यह ध्यान में रखा जाना चाहिए कि परिवर्तित (समायोजित) मॉडल के पैरामीटर काफी हद तक इस बात पर निर्भर करते हैं कि आनुपातिकता गुणांक K i के आधार के रूप में किस अवधारणा का उपयोग किया जाता है। अक्सर यह माना जाता है कि अवशेष केवल कारक मूल्यों के समानुपाती होते हैं। मॉडल अपना सरलतम रूप तब लेता है जब परिकल्पना स्वीकार कर ली जाती है कि त्रुटियाँ क्रम में अंतिम कारक के मूल्यों के समानुपाती होती हैं। फिर ओएलएस मूल स्रोत चर के साथ मानक ओएलएस के संचालन की तुलना में प्रतिगमन मापदंडों का निर्धारण करते समय रूपांतरित चर के छोटे मूल्यों के साथ टिप्पणियों के वजन को बढ़ाना संभव बनाता है। लेकिन ये नए चर पहले से ही एक अलग आर्थिक सामग्री प्राप्त करते हैं।

कारक के आकार के अवशेषों की आनुपातिकता के बारे में परिकल्पना का वास्तविक आधार हो सकता है। उदाहरण के लिए, डेटा के एक निश्चित अपर्याप्त सजातीय सेट को संसाधित करने दें, जिसमें एक ही समय में बड़े और छोटे उद्यम शामिल हों। फिर कारक के बड़े वॉल्यूमेट्रिक मान परिणामी विशेषता के बड़े फैलाव और अवशिष्ट मूल्यों के बड़े फैलाव दोनों के अनुरूप हो सकते हैं। इसके अलावा, ओएलएस का उपयोग और सापेक्ष मूल्यों में संबंधित संक्रमण न केवल कारक भिन्नता को कम करता है, बल्कि त्रुटि भिन्नता को भी कम करता है। इस प्रकार, प्रतिगमन मॉडल में विषमलैंगिकता को ध्यान में रखने और सही करने का सबसे सरल मामला ओएलएस के उपयोग के माध्यम से महसूस किया जाता है।

भारित ओएलएस के रूप में ओएलएस को लागू करने के लिए उपरोक्त दृष्टिकोण काफी व्यावहारिक है - इसे आसानी से लागू किया जाता है और इसकी पारदर्शी आर्थिक व्याख्या होती है। बेशक, यह सबसे सामान्य दृष्टिकोण नहीं है, और गणितीय आंकड़ों के संदर्भ में, जो अर्थमिति के सैद्धांतिक आधार के रूप में कार्य करता है, हमें एक और अधिक कठोर विधि की पेशकश की जाती है जो ओएलएस को अपने तरीके से लागू करती है। सामान्य रूप से देखें. इसमें आपको त्रुटि वेक्टर (अवशिष्ट कॉलम) के सहप्रसरण मैट्रिक्स को जानना होगा। और यह आमतौर पर व्यावहारिक स्थितियों में अनुचित है, और इस मैट्रिक्स को इस तरह से खोजना असंभव हो सकता है। इसलिए, आम तौर पर बोलते हुए, मैट्रिक्स के बजाय संबंधित सूत्रों में ऐसे अनुमान का उपयोग करने के लिए आवश्यक मैट्रिक्स का किसी तरह अनुमान लगाना आवश्यक है। इस प्रकार, ओएमएनसी के कार्यान्वयन का वर्णित संस्करण ऐसे अनुमानों में से एक का प्रतिनिधित्व करता है। इसे कभी-कभी सुलभ सामान्यीकृत न्यूनतम वर्ग भी कहा जाता है।

यह भी ध्यान में रखा जाना चाहिए कि ओएलएस का उपयोग करते समय निर्धारण का गुणांक फिट की गुणवत्ता के संतोषजनक माप के रूप में काम नहीं कर सकता है। ओएलएस के उपयोग पर लौटते हुए, हम यह भी ध्यान देते हैं कि सफेद रूप में मानक विचलन (मानक त्रुटियां) का उपयोग करने की विधि (विषमलैंगिकता की उपस्थिति में तथाकथित सुसंगत मानक त्रुटियां) में पर्याप्त व्यापकता है। यह विधि लागू है बशर्ते कि त्रुटि वेक्टर का सहप्रसरण मैट्रिक्स विकर्ण हो। यदि अवशिष्टों (त्रुटियों) का स्वत:सहसंबंध होता है, जब सहप्रसरण मैट्रिक्स में और मुख्य विकर्ण के बाहर गैर-शून्य तत्व (गुणांक) होते हैं, तो नेव वेस्ट फॉर्म में एक अधिक सामान्य मानक त्रुटि विधि का उपयोग किया जाना चाहिए। एक महत्वपूर्ण सीमा है: गैर-शून्य तत्व, मुख्य विकर्ण के अलावा, केवल आसन्न विकर्णों पर पाए जाते हैं, जो मुख्य विकर्ण से एक निश्चित मात्रा से अधिक दूरी पर नहीं होते हैं।

उपरोक्त से यह स्पष्ट है कि विषमलैंगिकता के लिए डेटा की जांच करने में सक्षम होना आवश्यक है। नीचे दिए गए परीक्षण इस उद्देश्य की पूर्ति करते हैं। वे वैकल्पिक परिकल्पना (इन परिकल्पनाओं की असमानता के बारे में) के विरुद्ध अवशेषों के भिन्नताओं की समानता के बारे में मुख्य परिकल्पना का परीक्षण करते हैं। इसके अलावा, विषमलैंगिकता की प्रकृति पर प्राथमिक संरचनात्मक बाधाएं हैं। गोल्डफेल्ड-क्वांड्ट परीक्षण आमतौर पर इस धारणा का उपयोग करता है कि त्रुटि विचरण (अवशिष्ट) सीधे कुछ स्वतंत्र चर के मूल्य पर निर्भर है। इस परीक्षण के उपयोग की योजना इस प्रकार है। सबसे पहले, डेटा को स्वतंत्र चर के अवरोही क्रम में क्रमबद्ध किया जाता है जिसके लिए विषमलैंगिकता का संदेह होता है। यह ऑर्डर किया गया डेटा सेट तब औसत कुछ टिप्पणियों को हटा देता है, जहां "कुछ" शब्द का अर्थ लगभग एक चौथाई (25%) होता है कुल गणनासभी अवलोकन. इसके बाद, शेष (उन्मूलन के बाद) औसत अवलोकनों में से पहले पर और इन शेष औसत अवलोकनों में से अंतिम दो पर दो स्वतंत्र प्रतिगमन चलाए जाते हैं। इसके बाद, दो संगत अवशेषों का निर्माण किया जाता है। अंत में, फिशर एफ आँकड़ा संकलित किया गया है और यदि अध्ययन के तहत परिकल्पना सत्य है, तो एफ वास्तव में स्वतंत्रता की उचित डिग्री के साथ फिशर वितरण है। फिर इस आँकड़े के एक बड़े मूल्य का अर्थ है कि परीक्षण की जा रही परिकल्पना को अस्वीकार कर दिया जाना चाहिए। उन्मूलन चरण के बिना, इस परीक्षण की शक्ति कम हो जाती है।

ब्रूश-पेगन परीक्षण का उपयोग उन मामलों में किया जाता है जहां यह प्राथमिक रूप से माना जाता है कि भिन्नताएं कुछ अतिरिक्त चर पर निर्भर करती हैं। सबसे पहले, सामान्य (मानक) प्रतिगमन किया जाता है और अवशेषों का एक वेक्टर प्राप्त किया जाता है। फिर विचरण का एक अनुमान तैयार किया जाता है। इसके बाद, अनुभवजन्य विचरण (विचरण अनुमान) द्वारा विभाजित अवशेषों के वर्ग वेक्टर का एक प्रतिगमन किया जाता है। इसके लिए (प्रतिगमन) भिन्नता का स्पष्ट भाग पाया जाता है। और भिन्नता के इस स्पष्ट भाग के लिए, आधे में विभाजित करके, आँकड़े बनाए जाते हैं। यदि शून्य परिकल्पना सत्य है (कोई विषमलैंगिकता सत्य नहीं है), तो इस मान का एक वितरण होता है ही-वर्ग। यदि परीक्षण, इसके विपरीत, विषमलैंगिकता को प्रकट करता है, तो मूल मॉडल को अवशिष्टों के वेक्टर के घटकों को देखे गए स्वतंत्र चर के वेक्टर के संबंधित घटकों द्वारा विभाजित करके रूपांतरित किया जाता है।

36. श्वेत रूप में मानक विचलन विधि।

निम्नलिखित निष्कर्ष निकाले जा सकते हैं। विषमलैंगिकता की उपस्थिति में ओएलएस का उपयोग भारित वर्ग विचलन के योग को कम करने के लिए किया जाता है। उपलब्ध ओएलएस का उपयोग अनुमानित मापदंडों की संख्या से अधिक बड़ी संख्या में अवलोकनों की आवश्यकता से जुड़ा है। ओएलएस का उपयोग करने के लिए सबसे अनुकूल मामला वह मामला है जब त्रुटि (अवशेष) स्वतंत्र चर में से एक के लिए आनुपातिक है और परिणामी अनुमान सुसंगत हैं। यदि, फिर भी, विषमलैंगिकता वाले मॉडल में ओएलएस नहीं, बल्कि मानक ओएलएस का उपयोग करना आवश्यक है, तो सुसंगत अनुमान प्राप्त करने के लिए, कोई व्हाइट या नेवजे-वेस्ट फॉर्म में त्रुटि अनुमान का उपयोग कर सकता है।

समय श्रृंखला का विश्लेषण करते समय, समय के विभिन्न बिंदुओं पर अवलोकनों की सांख्यिकीय निर्भरता को ध्यान में रखना अक्सर आवश्यक होता है। इस मामले में, असंबंधित त्रुटियों की धारणा संतुष्ट नहीं है। चलो गौर करते हैं सरल मॉडल, जिसमें त्रुटियाँ प्रथम-क्रम ऑटोरेग्रेसिव प्रक्रिया बनाती हैं। इस मामले में, त्रुटियां एक साधारण पुनरावृत्ति संबंध को संतुष्ट करती हैं, जिसके दाईं ओर एक पद शून्य माध्य और स्थिर विचरण के साथ स्वतंत्र सामान्य रूप से वितरित यादृच्छिक चर का एक अनुक्रम है। दूसरा पद पैरामीटर (ऑटोरेग्रेशन गुणांक) और पिछले समय बिंदु पर अवशेषों के मूल्यों का उत्पाद है। त्रुटि मानों (अवशेषों) का क्रम ही एक स्थिर यादृच्छिक प्रक्रिया बनाता है। एक स्थिर यादृच्छिक प्रक्रिया की विशेषता समय के साथ इसकी विशेषताओं की स्थिरता है, विशेष रूप से, माध्य और विचरण। इस मामले में, हमारे लिए रुचि के सहप्रसरण मैट्रिक्स (इसकी शर्तें) को पैरामीटर की शक्तियों का उपयोग करके आसानी से लिखा जा सकता है।

किसी ज्ञात पैरामीटर के लिए ऑटोरेग्रेसिव मॉडल का अनुमान ओएलएस का उपयोग करके किया जाता है। इस मामले में, मूल मॉडल को एक ऐसे मॉडल में सरल परिवर्तन द्वारा कम करना पर्याप्त है जिसकी त्रुटियां एक मानक प्रतिगमन मॉडल की शर्तों को पूरा करती हैं। यह बहुत दुर्लभ है, लेकिन फिर भी ऐसी स्थिति है जिसमें ऑटोरिग्रेशन पैरामीटर ज्ञात है। इसलिए, आम तौर पर किसी अज्ञात ऑटोरेग्रेसिव पैरामीटर के साथ अनुमान लगाना आवश्यक होता है। ऐसे मूल्यांकन के लिए तीन सबसे अधिक उपयोग की जाने वाली प्रक्रियाएँ हैं। कोक्रेन-ऑर्कट विधि, हिल्ड्रेथ-लू प्रक्रिया और डर्बिन विधि।

सामान्य तौर पर, निम्नलिखित निष्कर्ष सत्य हैं। समय श्रृंखला विश्लेषण के लिए पारंपरिक ओएलएस में सुधार की आवश्यकता होती है, क्योंकि इस मामले में त्रुटियां आमतौर पर सहसंबद्ध होती हैं। अक्सर ये त्रुटियाँ प्रथम-क्रम स्थिर ऑटोरेग्रेसिव प्रक्रिया का निर्माण करती हैं। प्रथम-क्रम ऑटोरेग्रेशन के लिए ओएलएस अनुमानक निष्पक्ष, सुसंगत, लेकिन अप्रभावी हैं। एक ज्ञात ऑटोरिग्रेशन गुणांक के साथ, ओएलएस मूल प्रणाली के सरल परिवर्तनों (सुधार) और फिर मानक ओएलएस के अनुप्रयोग को कम कर देता है। यदि, जैसा कि अक्सर होता है, ऑटोरेग्रेसिव गुणांक अज्ञात है, तो ओएलएस के लिए कई प्रक्रियाएं उपलब्ध हैं, जिसमें अज्ञात पैरामीटर (गुणांक) का अनुमान लगाना शामिल है, जिसके बाद ज्ञात के पिछले मामले की तरह ही परिवर्तन लागू किए जाते हैं। पैरामीटर.

37. ब्रूश-पेगन परीक्षण की अवधारणा, गोल्डफेल्ट-क्वांड्ट परीक्षण

स्रोत डेटा के सन्निकटन के कुछ तरीकों को लागू करते समय सन्निकटन त्रुटि सबसे अधिक बार उठने वाले मुद्दों में से एक है। विभिन्न प्रकार की सन्निकटन त्रुटियाँ हैं:

स्रोत डेटा त्रुटियों से जुड़ी त्रुटियाँ;

अनुमानित मॉडल और अनुमानित डेटा की संरचना के बीच विसंगति से जुड़ी त्रुटियां।

एक्सेल में डेटा प्रोसेसिंग और सन्निकटन के लिए एक अच्छी तरह से विकसित रैखिक फ़ंक्शन है जो परिष्कृत गणित का उपयोग करता है। इसके बारे में एक विचार प्राप्त करने के लिए, आइए हम (F1 के माध्यम से) इस विकास के वर्णनात्मक भाग की ओर मुड़ें, जिसे हम संक्षिप्ताक्षरों और संकेतन में कुछ बदलावों के साथ प्रस्तुत करते हैं।

उपलब्ध डेटा के लिए सबसे उपयुक्त सीधी रेखा की गणना करने के लिए कम से कम वर्गों का उपयोग करके एक श्रृंखला के आंकड़ों की गणना करता है। फ़ंक्शन एक सरणी लौटाता है जो परिणामी रेखा का वर्णन करती है। क्योंकि मानों की एक सरणी लौटाई जाती है, फ़ंक्शन को एक सरणी सूत्र के रूप में निर्दिष्ट किया जाना चाहिए।

एक सीधी रेखा का समीकरण है:

y=a+b1*x1+b2*x2+...bn*xn

वाक्य - विन्यास:

LINEST(y;x;const;सांख्यिकी)

सरणी y - ज्ञात मूल्यवाई

सारणी x - x के ज्ञात मान। x सारणी में चर के एक या अधिक सेट हो सकते हैं।

कॉन्स्ट है बूलियन मान, जो निर्दिष्ट करता है कि क्या डमी शब्द a का 0 के बराबर होना आवश्यक है।

यदि स्थिरांक तर्क सत्य है, 1 है, या छोड़ा गया है, तो सामान्य रूप से मूल्यांकन किया जाता है। यदि स्थिरांक तर्क गलत या 0 है, तो a को 0 पर सेट किया गया है।

सांख्यिकी एक बूलियन मान है जो इंगित करता है कि अतिरिक्त प्रतिगमन आँकड़े लौटाए जाने चाहिए या नहीं। यदि आँकड़ा तर्क सत्य या 1 है, तो LINEST अतिरिक्त प्रतिगमन आँकड़े लौटाता है। यदि आँकड़े गलत हैं, 0 हैं, या छोड़े गए हैं, तो LINEST केवल गुणांक और अवरोधन लौटाता है।

अतिरिक्त प्रतिगमन आँकड़े:

se1,se2,...,sen - गुणांक b1,b2,...,bn के लिए मानक त्रुटि मान।

समुद्र - स्थिरांक a के लिए मानक त्रुटि मान (समुद्र = #एन/ए यदि स्थिरांक गलत है)।

r2 नियतिवाद का गुणांक है। y के वास्तविक मान और रेखा के समीकरण से प्राप्त मान की तुलना की जाती है; तुलनात्मक परिणामों के आधार पर, नियतिवाद के गुणांक की गणना की जाती है, जिसे 0 से 1 तक सामान्यीकृत किया जाता है। यदि यह 1 के बराबर है, तो मॉडल के साथ पूर्ण सहसंबंध होता है, अर्थात। y के वास्तविक और अनुमानित मानों में कोई अंतर नहीं है। विपरीत स्थिति में, यदि निर्धारण का गुणांक 0 है, तो प्रतिगमन समीकरण y के मान की भविष्यवाणी करने में असफल है। r2 की गणना कैसे की जाती है, इसकी जानकारी के लिए इस अनुभाग के अंत में "नोट्स" देखें।

sey, y का अनुमान लगाने के लिए मानक त्रुटि है।

एफ-सांख्यिकी, या एफ-अवलोकित मूल्य। एफ-सांख्यिकी का उपयोग यह निर्धारित करने के लिए किया जाता है कि आश्रित और स्वतंत्र चर के बीच देखा गया संबंध संयोग के कारण है या नहीं।

डीएफ - स्वतंत्रता की डिग्री। सांख्यिकीय तालिका में एफ-महत्वपूर्ण मान खोजने के लिए स्वतंत्रता की डिग्री उपयोगी होती है। मॉडल के आत्मविश्वास के स्तर को निर्धारित करने के लिए, आप तालिका में मानों की तुलना LINEST फ़ंक्शन द्वारा लौटाए गए F-आँकड़े से करते हैं।

ssreg वर्गों का प्रतिगमन योग है।

ssresid वर्गों का अवशिष्ट योग है।

नीचे दिया गया आंकड़ा उस क्रम को दिखाता है जिसमें अतिरिक्त प्रतिगमन आँकड़े लौटाए जाते हैं।

टिप्पणियाँ

फ़ंक्शन से चयनित जानकारी INDEX फ़ंक्शन के माध्यम से प्राप्त की जा सकती है, उदाहरण के लिए:

Y-अवरोधन (मुक्त अवधि):

सूचकांक(LINEST(y,x),2)

LINEST फ़ंक्शन द्वारा गणना की गई सीधी रेखा का उपयोग करके सन्निकटन की सटीकता डेटा बिखराव की डिग्री पर निर्भर करती है। डेटा एक सीधी रेखा के जितना करीब होगा, LINEST फ़ंक्शन द्वारा उपयोग किया जाने वाला मॉडल उतना ही अधिक सटीक होगा। LINEST फ़ंक्शन डेटा के लिए सर्वोत्तम फ़िट निर्धारित करने के लिए कम से कम वर्गों का उपयोग करता है।

प्रतिगमन विश्लेषण करके, Microsoft Excelप्रत्येक बिंदु के लिए अनुमानित y मान और वास्तविक y मान के बीच अंतर के वर्ग की गणना करता है। इन वर्ग अंतरों के योग को वर्गों का अवशिष्ट योग कहा जाता है। Microsoft Excel फिर वास्तविक y मान और माध्य y मान के बीच अंतर के वर्गों के योग की गणना करता है, जिसे वर्गों का कुल योग (वर्गों का प्रतिगमन योग + वर्गों का अवशिष्ट योग) कहा जाता है। वर्गों के कुल योग की तुलना में वर्गों का अवशिष्ट योग जितना छोटा होगा, निर्धारण का गुणांक, r2 उतना ही बड़ा होगा, जो मापता है कि प्रतिगमन समीकरण चर के बीच संबंधों को कितनी अच्छी तरह समझाता है।

ध्यान दें कि प्रतिगमन समीकरण द्वारा अनुमानित y मान सही नहीं हो सकते हैं यदि वे y मानों की सीमा से बाहर आते हैं जिनका उपयोग समीकरण को परिभाषित करने के लिए किया गया था।

उदाहरण 1 ढलान और Y-अवरोधन

LINEST((1;9;5;7);(0;4;2;3)) बराबर (2;1), ढलान = 2 और y-अवरोधन = 1।

एफ और आर2 सांख्यिकी का उपयोग करना

आप यह निर्धारित करने के लिए F सांख्यिकी का उपयोग कर सकते हैं कि उच्च r2 मान वाला परिणाम संयोग के कारण है या नहीं। यदि एफ-अवलोकित एफ-महत्वपूर्ण से अधिक है, तो चर के बीच एक संबंध है। एफ-क्रिटिकल को किसी भी संदर्भ पुस्तक में एफ-क्रिटिकल मानों की तालिका से प्राप्त किया जा सकता है गणितीय सांख्यिकी. एक-पूंछ वाले परीक्षण का उपयोग करके इस मान को खोजने के लिए, अल्फा का मान सेट करें (अल्फा का मान गलती से यह निष्कर्ष निकालने की संभावना को इंगित करने के लिए उपयोग किया जाता है कि एक मजबूत संबंध है) 0.05 के बराबर, और स्वतंत्रता की डिग्री की संख्या के लिए ( आमतौर पर v1 और v2 को दर्शाया जाता है), आइए v1 = k = 4 और v2 = n - (k + 1) = 11 - (4 + 1) = 6 रखें, जहां k चर की संख्या है और n डेटा बिंदुओं की संख्या है . संदर्भ तालिका से, एफ-क्रिटिकल 4.53 है। देखा गया एफ-मान 459.753674 है (यह मान हमारे द्वारा छोड़े गए उदाहरण में प्राप्त किया गया था), जो 4.53 के एफ-महत्वपूर्ण मूल्य से काफी अधिक है। इसलिए, परिणामी प्रतिगमन समीकरणवांछित परिणाम की भविष्यवाणी करने के लिए उपयोगी।

निर्मित अर्थमिति की गुणवत्ता के सामान्य मूल्यांकन के लिए, निर्धारण के गुणांक, सहसंबंध सूचकांक, औसत जैसी विशेषताएं रिश्तेदारों की गलतीसन्निकटन, और प्रतिगमन समीकरण का उपयोग करके इसके महत्व की भी जाँच करता है एफ-फिशर मानदंड. सूचीबद्ध विशेषताएं काफी सार्वभौमिक हैं और इसका उपयोग रैखिक और गैर-रेखीय मॉडल, साथ ही दो या दो से अधिक कारक चर वाले मॉडल के लिए किया जा सकता है। सूचीबद्ध सभी गुणवत्ता विशेषताओं की गणना में कई अवशेष निर्णायक भूमिका निभाते हैं ε मैं, जिसकी गणना अध्ययन की जा रही विशेषता के वास्तविक (अवलोकनों से प्राप्त) मूल्यों को घटाकर की जाती है यीमॉडल समीकरण का उपयोग करके मूल्यों की गणना की गई वाई पी.आई.

निर्धारण गुणांक

दर्शाता है कि अध्ययन की जा रही विशेषता में परिवर्तन के किस अनुपात को मॉडल में ध्यान में रखा गया है। दूसरे शब्दों में, निर्धारण का गुणांक दर्शाता है कि अध्ययन किए जा रहे चर में परिवर्तन के किस भाग की गणना मॉडल में शामिल कारक चर में परिवर्तन के आधार पर कारक चर और अध्ययन की जा रही विशेषता को जोड़ने वाले चयनित प्रकार के फ़ंक्शन का उपयोग करके की जा सकती है। मॉडल समीकरण.

निर्धारण गुणांक आर 2 0 से 1 तक मान ले सकते हैं। निर्धारण का गुणांक जितना करीब होगा आर 2एक को, द बेहतर गुणवत्तामॉडल।

सहसंबंध सूचकांक निर्धारण के गुणांक को जानकर आसानी से गणना की जा सकती है:

सहसंबंध सूचकांक आरमॉडल का निर्माण करते समय मॉडल में ध्यान में रखे गए कारकों और अध्ययन के तहत चर के बीच चुने गए कनेक्शन के प्रकार की निकटता को दर्शाता है। रैखिक जोड़ी प्रतिगमन के मामले में, इसका पूर्ण मूल्य जोड़ी सहसंबंध गुणांक के साथ मेल खाता है आर(एक्स, वाई), जिसकी हमने पहले जांच की थी, और बीच के रैखिक संबंध की निकटता को दर्शाता है एक्सऔर . सहसंबंध सूचकांक का मान, जाहिर है, 0 से 1 की सीमा में भी होता है। मान जितना करीब होगा आरएकता के लिए, चयनित प्रकार का फ़ंक्शन कारक चर और अध्ययन के तहत विशेषता को जितना करीब से जोड़ता है, मॉडल की गुणवत्ता उतनी ही बेहतर होती है।

(2.11)

प्रतिशत के रूप में व्यक्त किया जाता है और मॉडल की सटीकता को दर्शाता है। व्यावहारिक समस्याओं को हल करते समय मॉडल की स्वीकार्य सटीकता विशिष्ट स्थिति को ध्यान में रखते हुए आर्थिक व्यवहार्यता के विचारों के आधार पर निर्धारित की जा सकती है। एक व्यापक रूप से उपयोग किया जाने वाला मानदंड यह है कि यदि औसत सापेक्ष त्रुटि 15% से कम है तो सटीकता संतोषजनक मानी जाती है। अगर ई rel.avg. 5% से कम, तो मॉडल को उच्च सटीकता वाला कहा जाता है। विश्लेषण और पूर्वानुमान के लिए, यानी कब, असंतोषजनक सटीकता वाले मॉडल का उपयोग करने की अनुशंसा नहीं की जाती है ई rel.avg. 15% से अधिक.

फिशर एफ परीक्षण प्रतिगमन समीकरण के महत्व का मूल्यांकन करने के लिए उपयोग किया जाता है। एफ-मानदंड का परिकलित मान संबंध से निर्धारित होता है:

. (2.12)

महत्वपूर्ण मान एफ-मानदंड किसी दिए गए महत्व स्तर α और स्वतंत्रता की डिग्री पर तालिकाओं से निर्धारित किया जाता है (आप Excel में FRIST फ़ंक्शन का उपयोग कर सकते हैं)। यहाँ, पहले की तरह, एम- मॉडल में ध्यान में रखे गए कारकों की संख्या, एन– अवलोकनों की संख्या. यदि परिकलित मान क्रांतिक मान से अधिक है, तो मॉडल समीकरण को महत्वपूर्ण माना जाता है। परिकलित मूल्य जितना अधिक होगा एफ-मानदंड, मॉडल की गुणवत्ता जितनी बेहतर होगी।

आइए हम उस रैखिक मॉडल की गुणवत्ता विशेषताओं का निर्धारण करें जिसके लिए हमने निर्माण किया है उदाहरण 1. आइए तालिका 2 से डेटा का उपयोग करें। निर्धारण गुणांक:

इसलिए, रैखिक मॉडल के ढांचे के भीतर, 90.1% की बिक्री मात्रा में बदलाव को हवा के तापमान में परिवर्तन द्वारा समझाया गया है।

सहसंबंध सूचकांक

.

युग्मित रैखिक मॉडल के मामले में सहसंबंध सूचकांक का मूल्य, जैसा कि हम देखते हैं, वास्तव में संबंधित चर (बिक्री की मात्रा और तापमान) के बीच सहसंबंध गुणांक के पूर्ण मूल्य के बराबर है। चूंकि प्राप्त मूल्य एकता के काफी करीब है, हम यह निष्कर्ष निकाल सकते हैं कि अध्ययन के तहत चर (बिक्री की मात्रा) और कारक चर (तापमान) के बीच एक करीबी रैखिक संबंध है।

फिशर एफ परीक्षण

महत्वपूर्ण मान एफ करोड़α = 0.1 पर; ν 1 =1; ν 2 =7-1-1=5 4.06 है। परिकलित मूल्य एफ-मानदंड सारणीबद्ध से अधिक है, इसलिए, मॉडल समीकरण महत्वपूर्ण है।

सन्निकटन की औसत सापेक्ष त्रुटि

निर्मित रैखिक युग्मित प्रतिगमन मॉडल में असंतोषजनक सटीकता (>15%) है और विश्लेषण और पूर्वानुमान के लिए उपयोग के लिए अनुशंसित नहीं है।

परिणामस्वरूप, इस तथ्य के बावजूद कि अधिकांश सांख्यिकीय विशेषताएँ उनके लिए मानदंडों को पूरा करती हैं, रैखिक जोड़ीदार प्रतिगमन मॉडल हवा के तापमान के आधार पर बिक्री की मात्रा की भविष्यवाणी करने के लिए अनुपयुक्त है। अवलोकन संबंधी आंकड़ों के अनुसार इन चरों के बीच संबंध की गैर-रैखिक प्रकृति चित्र 1 में स्पष्ट रूप से दिखाई देती है। विश्लेषण से इसकी पुष्टि हुई.


हम एमएस एक्सेल स्प्रेडशीट प्रोसेसर के "डेटा विश्लेषण" ऐड-इन के "रिग्रेशन" टूल का उपयोग करके अनुभवजन्य प्रतिगमन गुणांक बी 0, बी 1 निर्धारित करेंगे।

गुणांक निर्धारित करने के लिए एल्गोरिदम इस प्रकार है।

1. एमएस एक्सेल स्प्रेडशीट प्रोसेसर में प्रारंभिक डेटा दर्ज करें।

2. डेटा विश्लेषण ऐड-इन को कॉल करें (चित्र 2)।

3. विश्लेषण उपकरण रिग्रेशन (चित्रा 3) का चयन करें।

4. रिग्रेशन विंडो (चित्रा 4) की संबंधित स्थिति भरें।

5. रिग्रेशन विंडो में ओके बटन पर क्लिक करें और समस्या को हल करने के लिए एक प्रोटोकॉल प्राप्त करें (चित्र 5)


चित्र 3 - रिग्रेशन टूल का चयन करना




चित्र 4 - प्रतिगमन विंडो

चित्र 5 - समस्या को हल करने के लिए प्रोटोकॉल

चित्र 5 से यह देखा जा सकता है कि अनुभवजन्य प्रतिगमन गुणांक क्रमशः बराबर हैं

बी 0 = 223,

बी1 = 0.0088.

फिर मासिक पेंशन y के मूल्य को न्यूनतम निर्वाह के मूल्य से जोड़ने वाले युग्मित रैखिक प्रतिगमन के समीकरण का रूप है

.(3.2)

इसके बाद, कार्य के अनुसार, जीवनयापन की लागत x के मूल्य और मासिक पेंशन y के मूल्य के बीच सांख्यिकीय संबंध की निकटता का आकलन करना आवश्यक है। यह अनुमान सहसंबंध गुणांक का उपयोग करके लगाया जा सकता है। चित्र 5 में इस गुणांक का मान एकाधिक आर के रूप में दर्शाया गया है और, तदनुसार, 0.038 के बराबर है। चूँकि सैद्धांतिक रूप से इस गुणांक का मान -1 से +1 तक की सीमा में है, हम यह निष्कर्ष निकाल सकते हैं कि जीवनयापन की लागत x के मूल्य और मासिक पेंशन y के मूल्य के बीच सांख्यिकीय संबंध महत्वपूर्ण नहीं है।

चित्र 5 में प्रस्तुत पैरामीटर "आर - वर्ग", सहसंबंध गुणांक का वर्ग है और इसे निर्धारण गुणांक कहा जाता है। इस गुणांक का मान प्रतिगमन (व्याख्यात्मक चर x) द्वारा समझाए गए आश्रित चर y के विचरण के हिस्से को दर्शाता है। तदनुसार, मान 1- अर्थमितीय मॉडल में ध्यान में नहीं रखे गए अन्य सभी व्याख्यात्मक चर के प्रभाव के कारण चर y में भिन्नता के हिस्से को दर्शाता है। चित्र 5 से यह देखा जा सकता है कि परिणामी अर्थमिति मॉडल में ध्यान में नहीं रखे गए सभी व्याख्यात्मक चर का हिस्सा लगभग 1 - 0.00145 = 0.998 या 99.8% है।



अगले चरण में, कार्य के अनुसार, लोच गुणांक का उपयोग करके व्याख्यात्मक चर x और आश्रित चर y के बीच संबंध की डिग्री निर्धारित करना आवश्यक है। युग्मित रैखिक प्रतिगमन मॉडल के लिए लोच गुणांक को इस प्रकार परिभाषित किया गया है:

इसलिए, यदि जीवनयापन की लागत 1% बदलती है, तो मासिक पेंशन 0.000758% बदल जाती है।

. (3.4)

ऐसा करने के लिए, हम मूल तालिका 1 को दो कॉलमों के साथ पूरक करते हैं जिसमें हम निर्भरता (3.2) और अंतर मान का उपयोग करके गणना किए गए मान निर्धारित करते हैं।

तालिका 3.2. औसत सन्निकटन त्रुटि की गणना.

तब औसत सन्निकटन त्रुटि है

.

अभ्यास से यह ज्ञात है कि औसत सन्निकटन त्रुटि का मान (12...15)% से अधिक नहीं होना चाहिए

अंतिम चरण में, हम फिशर एफ परीक्षण का उपयोग करके मॉडलिंग की सांख्यिकीय विश्वसनीयता का मूल्यांकन करेंगे। ऐसा करने के लिए, हम स्थिति के अनुसार परिणामी प्रतिगमन समीकरण के सांख्यिकीय महत्व के बारे में शून्य परिकल्पना एच 0 का परीक्षण करेंगे:

यदि किसी दिए गए महत्व स्तर पर = 0.05 एफ-मानदंड का सैद्धांतिक (गणना किया गया) मान इसके महत्वपूर्ण मूल्य एफ क्रिट (सारणीबद्ध) से अधिक है, तो शून्य परिकल्पना खारिज कर दी जाती है और परिणामी प्रतिगमन समीकरण को महत्वपूर्ण के रूप में स्वीकार किया जाता है।

चित्र 5 से यह पता चलता है कि एफ की गणना = 0.0058। एफ-मानदंड का महत्वपूर्ण मान सांख्यिकीय फ़ंक्शन फास्टर (चित्रा 6) का उपयोग करके निर्धारित किया जाता है। फ़ंक्शन के इनपुट पैरामीटर महत्व स्तर (संभावना) और स्वतंत्रता की डिग्री 1 और 2 की संख्या हैं। एक युग्मित प्रतिगमन मॉडल के लिए, स्वतंत्रता की डिग्री की संख्या क्रमशः 1 (एक व्याख्यात्मक चर) और एन-2 = 6 है -2=4.



चित्र 6 - सांख्यिकीय फ़ंक्शन की विंडो तेज़

चित्र 6 से यह देखा जा सकता है कि एफ-परीक्षण का क्रांतिक मान 7.71 है।

चूंकि एफ ने गणना की< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. EXCEL का उपयोग करके मल्टीपल रिग्रेशन मॉडल का निर्माण।

असाइनमेंट विकल्प के अनुसार सांख्यिकीय सामग्री का उपयोग करना आवश्यक है।

1. एक रैखिक एकाधिक समाश्रयण समीकरण का निर्माण करें और इसके मापदंडों का आर्थिक अर्थ समझाएं।

2. औसत (सामान्य) लोच गुणांक का उपयोग करके कारकों और परिणामी विशेषता के बीच संबंधों की निकटता का तुलनात्मक मूल्यांकन दें।

3. छात्र के टी-परीक्षण का उपयोग करके प्रतिगमन गुणांक के सांख्यिकीय महत्व का आकलन करें और एफ-परीक्षण का उपयोग करके समीकरण के महत्व के बारे में शून्य परिकल्पना का आकलन करें।

4. सन्निकटन की औसत त्रुटि निर्धारित करके समीकरण की गुणवत्ता का आकलन करें।

युग्मित प्रतिगमन मॉडल के निर्माण के लिए प्रारंभिक डेटा तालिका 3.3 में दिया गया है।

तालिका 3.3. आरंभिक डेटा।

शुद्ध आय, मिलियन अमेरिकी डॉलर पूंजी कारोबार, एमएल। अमेरिकी डॉलर, x 1 प्रयुक्त पूंजी, एमएल. अमेरिकी डॉलर x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

प्रतिगमन समीकरण बनाने की तकनीक पैराग्राफ 3.1 में वर्णित एल्गोरिदम के समान है। प्रतिगमन समीकरण के निर्माण का प्रोटोकॉल चित्र 7 में दिखाया गया है।

परिणामों का निष्कर्ष
प्रतिगमन आँकड़े
बहुवचन आर 0,901759207
आर स्कवेयर 0,813169667
सामान्यीकृत आर-वर्ग 0,759789572
मानक त्रुटि 0,789962026
टिप्पणियों
भिन्नता का विश्लेषण
डीएफ एमएस एफ
वापसी 9,50635999 15,23357468
शेष 0,624040003
कुल
कठिनाइयाँ टी आँकड़ा
वाई-चौराहा 1,113140304 2,270238114
वेरिएबल एक्स 1 -0,000592199 -0,061275574
वेरिएबल एक्स 2 0,063902851 5,496523193

चित्र 7. निष्कर्ष.



साइट पर नया

>

सबसे लोकप्रिय