Hogar Pulpitis Construir una ecuación de regresión en una escala estandarizada. Coeficientes de regresión estandarizados

Construir una ecuación de regresión en una escala estandarizada. Coeficientes de regresión estandarizados

Ejercicio.

  1. Para un conjunto de datos dado, construya un modelo lineal regresión múltiple. Evaluar la precisión y adecuación de la ecuación de regresión construida.
  2. Dar una interpretación económica de los parámetros del modelo.
  3. Calcule los coeficientes estandarizados del modelo y escriba la ecuación de regresión en forma estandarizada. ¿Es cierto que el precio de un bien tiene una mayor influencia en el volumen de oferta del bien que salario¿empleados?
  4. Para el modelo resultante (en forma natural) comprueban el cumplimiento de la condición de homocedasticidad de los residuos mediante la prueba de Goldfeld-Quandt.
  5. Pruebe el modelo resultante para determinar la autocorrelación de residuos utilizando la prueba de Durbin-Watson.
  6. Compruebe si el supuesto de homogeneidad de los datos originales en el sentido de regresión es adecuado. ¿Es posible combinar dos muestras (para las primeras 8 y las 8 observaciones restantes) en una y considerar un modelo de regresión único de Y sobre X?

1. Estimación de la ecuación de regresión. Determinemos el vector de estimaciones de coeficientes de regresión utilizando el servicio de ecuaciones de regresión múltiple. Según el método mínimos cuadrados, vector s obtenido de la expresión: s = (X T X) -1 X T Y
Matriz X

1 182.94 1018
1 193.45 920
1 160.09 686
1 157.99 405
1 123.83 683
1 152.02 530
1 130.53 525
1 137.38 418
1 137.58 425
1 118.78 161
1 142.9 242
1 99.49 226
1 116.17 162
1 185.66 70

Matriz Y
4.07
4
2.98
2.2
2.83
3
2.35
2.04
1.97
1.02
1.44
1.22
1.11
0.82

Matriz X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1
182.94 193.45 160.09 157.99 123.83 152.02 130.53 137.38 137.58 118.78 142.9 99.49 116.17 185.66
1018 920 686 405 683 530 525 418 425 161 242 226 162 70

Multiplicar matrices, (X T X)
Encontramos matriz inversa(X T X) -1
2.25 -0.0161 0.00037
-0.0161 0.000132 -7.0E-6
0.00037 -7.0E-61.0E-6

El vector de estimaciones de los coeficientes de regresión es igual a

Y(X) =
2,25 -0,0161 0,00037
-0,0161 0,000132 -7.0E-6
0,00037 -7.0E-61.0E-6
*
31,05
4737,044
18230,79
=
0,18
0,00297
0,00347

Ecuación de regresión (estimación de la ecuación de regresión)
Y = 0,18 + 0,00297X 1 + 0,00347X 2

2. Matriz de coeficientes de correlación pareados R. Número de observaciones n = 14. El número de variables independientes en el modelo es 2 y el número de regresores teniendo en cuenta el vector unitario es igual al número de coeficientes desconocidos. Teniendo en cuenta el signo Y, la dimensión de la matriz se vuelve igual a 4. La matriz de variables independientes X tiene una dimensión (14 x 4).
Matriz compuesta por Y y X

1 4.07 182.94 1018
1 4 193.45 920
1 2.98 160.09 686
1 2.2 157.99 405
1 2.83 123.83 683
1 3 152.02 530
1 2.35 130.53 525
1 2.04 137.38 418
1 1.97 137.58 425
1 1.02 118.78 161
1 1.44 142.9 242
1 1.22 99.49 226
1 1.11 116.17 162
1 0.82 185.66 70

Matriz transpuesta.

1 1 1 1 1 1 1 1 1 1 1 1 1 1
4.07 4 2.98 2.2 2.83 3 2.35 2.04 1.97 1.02 1.44 1.22 1.11 0.82
182.94 193.45 160.09 157.99 123.83 152.02 130.53 137.38 137.58 118.78 142.9 99.49 116.17 185.66
1018 920 686 405 683 530 525 418 425 161 242 226 162 70

Matriz A T A.

14 31.05 2038.81 6471
31.05 83.37 4737.04 18230.79
2038.81 4737.04 307155.61 995591.55
6471 18230.79 995591.55 4062413

La matriz resultante tiene la siguiente correspondencia:

∑n∑y∑x1∑x2
∑y∑ y 2∑x 1 y∑x 2 y
∑x1∑yx1∑x 1 2∑x2x1
∑x2∑yx 2∑x1x2∑x 2 2

Encontremos coeficientes de correlación de pares.
Características x e y∑(xi) ∑(yi) ∑(x yo y yo )
Para y y x 1 2038.81 145.629 31.05 2.218 4737.044 338.36
Para y y x 2 6471 462.214 31.05 2.218 18230.79 1302.199
Para x1 y x2 6471 462.214 2038.81 145.629 995591.55 71113.682
Características x e y
Para y y x 1 731.797 1.036 27.052 1.018
Para y y x 2 76530.311 1.036 276.641 1.018
Para x1 y x2 76530.311 731.797 276.641 27.052

Matriz de coeficientes de correlación de pares R:
- yx1x2
y 1 0.558 0.984
x1 0.558 1 0.508
x2 0.984 0.508 1

Para seleccionar lo más factores significativos x i se tienen en cuenta las siguientes condiciones:
- la conexión entre la característica resultante y el factor uno debe ser mayor que la conexión entre factores;
- la relación entre factores no debe ser superior a 0,7. Si la matriz tiene un coeficiente de correlación interfactorial r xjxi > 0,7, entonces hay multicolinealidad en este modelo de regresión múltiple;
- con una alta conexión interfactorial de una característica, se seleccionan factores con un coeficiente de correlación más bajo entre ellos.
En nuestro caso, todos los coeficientes de correlación por pares |r| Modelo de regresión en escala estándar Un modelo de regresión en escala estándar asume que todos los valores de las características en estudio se convierten en estándares (valores estandarizados) mediante las fórmulas:

donde x ji es el valor de la variable x ji en la i-ésima observación.

Así, el origen de cada variable estandarizada se combina con su valor medio y su desviación estándar se toma como unidad de cambio. S.
Si la relación entre variables en una escala natural es lineal, entonces cambiar el origen y la unidad de medida no violará esta propiedad, por lo que las variables estandarizadas también estarán relacionadas por una relación lineal:
t y = ∑β j t xj
Para estimar los coeficientes β, utilizamos MCO. En este caso, el sistema de ecuaciones normales tendrá la forma:
r x1y =β 1 +r x1x2 β 2 + ... + r x1xm β m
r x2y =r x2x1 β 1 + β 2 + ... + r x2xm β m
...
r xmy =r xmx1 β 1 + r xmx2 β 2 + ... + β m
Para nuestros datos (los tomamos de la matriz de coeficientes de correlación de pares):
0,558 = β1 + 0,508β2
0,984 = 0,508β1 + β2
Resolvemos este sistema de ecuaciones lineales mediante el método gaussiano: β 1 = 0,0789; β2 = 0,944;
La forma estandarizada de la ecuación de regresión es:
y 0 = 0,0789x 1 + 0,944x 2
Los coeficientes β encontrados a partir de este sistema permiten determinar los valores de los coeficientes en regresión en escala natural mediante las fórmulas:

Coeficientes de regresión parcial estandarizados. Coeficientes de regresión parcial estandarizados: los coeficientes β (β j) muestran en qué parte de su desviación estándar S(y) cambiará el resultado y con un cambio en el factor correspondiente x j por el valor de su desviación estándar (S xj) con la influencia constante de otros factores (incluidos en la ecuación).
Por el máximo β j se puede juzgar qué factor tiene una mayor influencia en el resultado Y.
Los coeficientes de elasticidad y los coeficientes β pueden llevar a conclusiones opuestas. Las razones de esto son: a) la variación de un factor es muy grande; b) influencia multidireccional de factores sobre el resultado.
El coeficiente β j también se puede interpretar como un indicador de influencia directa (inmediata) j-ésimo factor (x j) sobre el resultado (y). En regresión múltiple j El factor número no solo tiene un efecto directo, sino también indirecto (indirecto) sobre el resultado (es decir, influencia a través de otros factores del modelo).
La influencia indirecta se mide por el valor: ∑β i r xj,xi , donde m es el número de factores en el modelo. Impacto total jth factor en el resultado igual a la suma Las influencias directas e indirectas miden el coeficiente de correlación de pares lineales de un factor dado y el resultado - r xj,y.
Entonces, para nuestro ejemplo, la influencia directa del factor x 1 sobre el resultado Y en la ecuación de regresión se mide por β j y asciende a 0,0789; la influencia indirecta (mediada) de este factor en el resultado se define como:
r x1x2 β 2 = 0,508 * 0,944 = 0,4796

4.2 Construcción de una ecuación de regresión en una escala estandarizada

Los parámetros de regresión múltiple se pueden determinar de otra manera, cuando se construye una ecuación de regresión en una escala estandarizada basada en una matriz de coeficientes de correlación pareados:

Aplicando el método de mínimos cuadrados a la ecuación de regresión múltiple en una escala estandarizada, después de las transformaciones apropiadas obtenemos un sistema de ecuaciones normales de la forma:

donde rух1, rух2 son coeficientes de correlación pareados.

Encontramos coeficientes de correlación emparejados usando las fórmulas:

El sistema de ecuaciones tiene la forma:

Habiendo resuelto el sistema mediante el método determinante, obtuvimos las fórmulas:

La ecuación en una escala estandarizada es:

Así, con un aumento del nivel de pobreza en 1 sigma, con un ingreso per cápita promedio constante de la población, la tasa de fertilidad total disminuirá en 0,075 sigma; y con un aumento en el ingreso promedio per cápita de la población en 1 sigma, con un nivel de pobreza constante, la tasa de fertilidad total aumentará en 0,465 sigma.

En la regresión múltiple, los coeficientes de regresión pura bi están relacionados con los coeficientes de regresión estandarizados βi de la siguiente manera:


5. Ecuaciones de regresión parcial

5.1 Construcción de ecuaciones de regresión parcial

Las ecuaciones de regresión parcial conectan el atributo efectivo con los factores correspondientes x mientras fijan otros factores tomados en cuenta en la regresión múltiple en el nivel promedio. Las ecuaciones parciales tienen la forma:

A diferencia de la regresión por pares, las ecuaciones de regresión parcial caracterizan la influencia aislada de un factor en el resultado, porque otros factores se fijan en un nivel constante.

En este problema, las ecuaciones parciales tienen la forma:

5.2 Determinación de coeficientes de elasticidad parcial.

Con base en ecuaciones de regresión parcial, se pueden determinar coeficientes de elasticidad parcial para cada región usando la fórmula:


Calculemos los coeficientes de elasticidad parcial para las regiones de Kaliningrado y Leningrado.

Para Región de Kaliningrado x1=11.4, x2=12.4, entonces:

Para Región de Leningrado x1 = 10,6, x2 = 12,6:

Así, en la región de Kaliningrado, con un aumento del nivel de pobreza del 1%, la tasa total de fertilidad disminuirá un 0,07%, y con un aumento del ingreso medio per cápita del 1%, la tasa total de fertilidad aumentará un 0,148%. . En la región de Leningrado, con un aumento del nivel de pobreza del 1%, la tasa total de fertilidad disminuirá un 0,065%, y con un aumento del ingreso per cápita promedio del 1%, la tasa total de fertilidad aumentará un 0,15%.

5.3 Determinación de los coeficientes de elasticidad promedio

Encontramos los indicadores de elasticidad promedio agregados usando la fórmula:


Para este problema serán iguales:

Así, con un aumento del nivel de pobreza del 1%, la tasa de fertilidad total en promedio de la población disminuirá en un 0,054% con un ingreso promedio per cápita constante. Con un aumento del ingreso per cápita promedio del 1%, la tasa total de fertilidad en promedio para la población en estudio aumentará un 0,209% con un nivel de pobreza constante.


6. Correlación múltiple

6.1 Coeficiente correlación múltiple

La importancia práctica de la ecuación de regresión múltiple se evalúa utilizando el indicador de correlación múltiple y su cuadrado, el coeficiente de determinación. El indicador de correlación múltiple caracteriza la estrecha conexión del conjunto de factores considerados con la característica en estudio, es decir evalúa la cercanía de la conexión entre la influencia conjunta de los factores en el resultado.

El valor del índice de correlación múltiple debe ser mayor o igual al índice de correlación por pares máximo. En dependencia lineal características, la fórmula del índice de correlación se puede representar mediante la siguiente expresión:

Entonces la conexión coeficiente general La tasa de natalidad con el nivel de pobreza y el ingreso per cápita promedio es débil.



Y todos los coeficientes de correlación son iguales a 1, entonces el determinante de dicha matriz es igual a 0: . Cuanto más cerca de 0 esté el determinante de la matriz de correlación interfactorial, más fuerte será la multicolinealidad de los factores y menos fiables serán los resultados de la regresión múltiple. Y viceversa, cuanto más cerca de 1 esté el determinante de la matriz de correlación entre factores, menor será la multicolinealidad de los factores. La comprobación de la multicolinealidad de los factores puede ser...

Las estimaciones de los parámetros desconocidos de la ecuación de regresión se determinan mediante el método de mínimos cuadrados. Sin embargo, existe otra forma de estimar estos coeficientes en el caso de múltiples regresión lineal. Para hacer esto, se construye una ecuación de regresión múltiple en una escala estandarizada (normalizada). Esto significa que todas las variables involucradas en Modelo de regresión, están estandarizados mediante fórmulas especiales. El proceso de estandarización permite fijar el punto de referencia de cada variable normalizada a su valor promedio para la muestra. En este caso, la unidad de medida de la variable estandarizada pasa a ser su desviación estándar. Ecuación de regresión en una escala estandarizada:

donde , son variables estandarizadas;

Coeficientes de regresión estandarizados. Aquellos. A través del proceso de estandarización, el punto de referencia para cada variable normalizada se establece en su valor promedio durante población de muestra. En este caso, se toma su desviación estándar como unidad de medida de la variable estandarizada. σ . Los coeficientes β muestran, en cuántos sigmas (desviaciones estándar) cambiará el resultado promedio debido a un cambio en el factor correspondiente xI por un sigma, permaneciendo constante el nivel medio de los demás factores. Aplicando el método de mínimos cuadrados a la ecuación de regresión múltiple en una escala estandarizada, después de las transformaciones apropiadas obtenemos un sistema de ecuaciones normales de la forma para determinar coeficientes estandarizados. Los coeficientes de regresión β se determinan utilizando MCO de siguiente sistema ecuaciones usando el método determinante:

Cabe señalar que las cantidades r yx 1 y r xixj se denominan coeficientes de par. correlaciones y están determinadas por las fórmulas: r yx 1 = yxi promedio – y ср*хiср/ ǪхǪу; r xixj = хixj promedio – xi promedio*xjcv/ǪхiǪxj. Resolviendo el sistema, determinamos los coeficientes estandarizados. regresión. Al compararlos entre sí, puede clasificar los factores según la fuerza de su impacto en el resultado. Ésta es la principal ventaja de los coeficientes de regresión estandarizados, a diferencia de los coeficientes. pura regresión, que son incomparables entre sí. Para estimar parámetros no lineal Las ecuaciones de regresión múltiple primero se convierten a forma lineal (reemplazando variables) y se utiliza el método de mínimos cuadrados para encontrar los parámetros. ecuación lineal regresión múltiple sobre variables transformadas. Cuando dependencias internamente no lineales para estimar parámetros es necesario utilizar métodos de optimización no lineales Coeficientes de regresión estandarizados βi son comparables entre sí, lo que permite clasificar los factores según la fuerza de su impacto en el resultado. Mayor influencia relativa en el cambio de la variable de resultado y es ejercida por el factor que corresponde al mayor valor absoluto del coeficiente βi.En eso ventaja principal coeficientes estandarizados regresión, a diferencia de los coeficientes de regresión “pura”, que no son comparables entre sí. coeficientes de regresión "puros" bi con probabilidades βi descrito por la relación.

Estimación de parámetros de ecuaciones de regresión en una escala estandarizada.

Los parámetros de la ecuación de regresión múltiple en problemas de econometría se estiman de manera similar a la regresión pareada, utilizando el método de mínimos cuadrados (MCO). Al aplicar este método se construye un sistema de ecuaciones normales, cuya solución permite obtener estimaciones de los parámetros de regresión.

Al determinar los parámetros de una ecuación de regresión múltiple basada en la matriz de coeficientes de correlación pareados, construimos una ecuación de regresión en una escala estandarizada:

variables estandarizadas en la ecuación

Aplicando el método de mínimos cuadrados a modelos de regresión múltiple en escala estandarizada, luego de ciertas transformaciones obtenemos un sistema de ecuaciones normales de la forma

Al resolver sistemas utilizando el método determinante, encontramos los parámetros: coeficientes de regresión estandarizados (coeficientes beta). Al comparar los coeficientes entre sí, puede clasificar los factores según la fuerza de su impacto en el resultado. Ésta es la principal ventaja de los coeficientes estandarizados, a diferencia de los coeficientes de regresión convencionales, que son incomparables.

En una dependencia por pares, el coeficiente de regresión estandarizado está relacionado con el coeficiente correspondiente de la ecuación por la dependencia

Esto permite pasar de una ecuación en una escala estandarizada a ecuación de regresión en escala natural de variables:

El parámetro a se determina a partir de la siguiente ecuación

Los coeficientes de regresión estandarizados muestran cuántos sigmas cambiará el resultado promedio si el factor correspondiente xj cambia en un sigma mientras el nivel promedio de otros factores permanece sin cambios. Debido a que todas las variables están especificadas como centradas y normalizadas, los coeficientes de regresión estandarizados son comparables entre sí.

El significado considerado de los coeficientes estandarizados permite su uso al seleccionar factores, excluyendo del modelo los factores con el valor más bajo.

Los programas de computadora para construir ecuaciones de regresión múltiples le permiten obtener solo una ecuación de regresión para los datos originales y una ecuación de regresión en una escala estandarizada.

19. Características de la elasticidad mediante un modelo de regresión múltiple. PÁGINA 132-136

http://math.semestr.ru/regress/mregres.php

20. Relación entre coeficientes de regresión estandarizados y coeficientes de elasticidad. PÁGINA 120-124

21. Indicadores de correlación múltiple y parcial. Su papel en la construcción de modelos econométricos.

Correlación -Este relación estadística entre dos o más variables aleatorias(o cantidades que puedan considerarse como tales con algún grado aceptable de precisión). En este caso, los cambios en una o más de estas cantidades conducen a un cambio sistemático en otra u otras cantidades. La medida matemática de la correlación de dos variables aleatorias es el coeficiente de correlación. Concepto correlaciones apareció a mediados del siglo XIX en las obras de los estadísticos ingleses F. Galton y K. Pearson.

Coeficiente de correlación múltiple(R) caracteriza la estrecha relación entre un indicador de desempeño y un conjunto de indicadores de factores:

donde σ 2 - varianza total de la serie empírica, que caracteriza la variación total del indicador de desempeño (y) debido a factores;

σ ost 2 - varianza residual en la serie y, reflejando la influencia de todos los factores excepto x;

en- el valor medio del indicador efectivo calculado a partir de las observaciones iniciales;

s- el valor medio del indicador de rendimiento calculado mediante la ecuación de regresión.

El coeficiente de correlación múltiple toma solo valores positivos que van de 0 a 1. valor más cercano coeficiente a 1, mayor será la cercanía de la conexión. Y, a la inversa, cuanto más cerca de 0, menor dependencia. En valor R< 0,3 говорят о малой зависимости между величинами. При значении 0,3 < R< 0,6 indica una cercanía promedio de la conexión. Cuando R > 0,6, se dice que existe una relación significativa.

El cuadrado del coeficiente de correlación múltiple se llama coeficiente de determinación (D): D = R2. El coeficiente de determinación muestra qué proporción de la variación en el indicador de desempeño está asociada con la variación en los indicadores de factores. El cálculo del coeficiente de determinación y del coeficiente de correlación múltiple se basa en la regla de la suma de varianzas, según la cual la varianza total (σ 2) es igual a la suma de la varianza intergrupal (δ 2) y el promedio del grupo. varianzas σ i 2):

s 2 = δ 2 + σ yo 2 .

La dispersión intergrupal caracteriza la variabilidad del indicador efectivo debido al factor en estudio, y el promedio de las varianzas del grupo refleja la fluctuación del indicador efectivo debido a todos los demás factores excepto el que se está estudiando.

Indicadores de correlación parcial. Basado en la relación entre la reducción en la variación residual debido a un factor adicional incluido en el modelo y la variación residual antes de la inclusión del factor correspondiente en el modelo.





Los indicadores considerados también se pueden utilizar para comparar factores, es decir Puede clasificar los factores (es decir, el segundo factor está más estrechamente relacionado).

Los coeficientes parciales se pueden utilizar en el procedimiento de eliminación de factores al construir un modelo.

Los indicadores discutidos anteriormente son coeficientes de correlación de primer orden, es decir, caracterizan la relación entre dos factores cuando un factor es fijo (yx1 . x2). Sin embargo, es posible construir coeficientes de segundo o mayor orden (yx1 . x2x3, yx1 . x2x3x4).

22. Evaluación de la confiabilidad de los resultados de regresión múltiple.

Los coeficientes del modelo estructural se pueden estimar. diferentes caminos dependiendo del tipo de ecuaciones simultáneas.
Métodos para estimar coeficientes de un modelo estructural:
1) CMN indirecta (CMNC)

2) Mínimos cuadrados de dos pasos (DMLS)

3) OLS de tres pasos (TMNK)

4) EMN con información completa

5)MNP con limitación información

Aplicación de CMNK:

CMNC se utiliza en el caso de una identificación precisa del modelo estructural.

Procedimientos para utilizar CMNC:
1. estructural modelo de conversión en lo dado forma del modelo.

2. Para cada ecuación de la forma reducida del modelo, la forma reducida se estima utilizando el método habitual de mínimos cuadrados. coeficiente

3. Los coeficientes de la forma reducida del modelo se transforman en parámetros del modelo estructural.

Si el sistema es sobreidentificable, entonces no se utiliza CMNC, ya que no proporciona estimaciones inequívocas de los parámetros del modelo estructural. En este caso, pueden utilizar diferentes metodos evaluaciones, entre las cuales la más común es DMNC.
La idea principal del DMNC basado en el modelo anterior es obtener una sobreidentificación. teoría de ecuaciones. valores de variables endógenas, contenido. en el lado derecho de la ecuación. A continuación, sustituyendo los valores encontrados en lugar de los valores reales, se utilizan los métodos estructurales y de mínimos cuadrados habituales. forma superidente nivel.
1er paso: al determinar la unidad. forma del modelo y encontrar estimaciones teóricas basadas en él. valores de variable endógena

Paso 2: En relación a la ecuación estructural sobreidentificada al determinar los coeficientes estructurales del modelo con base en los valores teóricos de las variables endógenas.

23. Análisis de varianza de resultados de regresión múltiple.

Tarea Análisis de variación Al probar las hipótesis H0 sobre el estadístico de independencia, la ecuación de regresión en su conjunto muestra la estrecha relación. Realizado sobre la base de una comparación de hechos y los valores tabulares de F-crit cat se determinan a partir de la relación entre las varianzas del factor y los residuales, calculadas para un grado de libertad.

tabla ANOVA
varu df RMS,S Disp para un df,S 2 Hecho
generalmente n-1 d y 2 * n - -
hecho metro d y 2 * n*R 2 yx1x2
Este n-m-1 d y 2 * n*(1-R 2 yx 1 x 2) =Hecho total -

También puedes construir una mesa. análisis parcial de varianza y encuentre un crítico F privado que evalúe la viabilidad de incluir un factor en el modelo después de incluir otra variable

24. Prueba F parcial de Fisher, prueba t de Student. Su papel en la construcción de modelos de regresión.

Prueba F de Fisher.

Para evaluar la viabilidad estadística de agregar nuevos factores al modelo de regresión, se utiliza un criterio particular de Fisher, ya que los resultados del análisis de regresión están influenciados no solo por la composición de los factores, sino también por la secuencia de inclusión del factor en el modelo. modelo. Esto se explica por la presencia de una conexión entre factores.

F xj =((R 2 por yx1x2...xm – R 2 por yx1x2...xj-1,хj+1...xm)/(1- R 2 por yx1x2...xm))*(( n-m-1) /1)

Tabla F (alfa,1, n-m-1) F xj es mayor que la tabla F; es recomendable incluir el factor x j en el modelo después de otros factores.

Si se considera la ecuación y=a+b1x1+b2+b3x3+e, entonces el criterio F para la ecuación con un factor x1 se determina secuencialmente, luego el criterio F para la inclusión adicional del factor x2 en el modelo, es decir para la transición de una ecuación de regresión de un solo factor a una de dos factores y, finalmente, una prueba F para la inclusión adicional del factor x3 en el modelo, es decir La importancia del factor x3 se evalúa después de incluir los factores x1 y 2 en el modelo. En este caso, el criterio F para la inclusión adicional del factor x2 después de x1 es consistente, en contraste con el criterio F para la inclusión adicional del factor x3 en el modelo, que es un criterio F particular, ya que evalúa la significancia del factor bajo el supuesto de que se incluye en último lugar en el modelo. La prueba F particular está relacionada con la prueba t de Student. La prueba F secuencial puede ser de interés para el investigador en la etapa de formación del modelo. Para la ecuación y=a+b1x1+b2+b3x3+e, evaluar la importancia de los coeficientes de regresión b1, b2, b3 implica calcular tres coeficientes de determinación interfactorial.

Para tarifa significancia estadística coeficientes de regresión y correlación se calculan t -Prueba t de Student Y intervalos de confianza cada uno de los indicadores.


Comparación de los valores reales y críticos (tabulares) de las estadísticas t y ttable. - aceptar o rechazar la hipótesis H0 . Conexión entre Prueba F de Fisher Y Estadístico t de Student expresado por igualdad

Si mesa t< tфакт ., Eso H0 es rechazado, es decir a, b Y r xy No es casualidad que difieran de cero y se formaran bajo la influencia de un factor que actúa sistemáticamente. X.

Si, t tabla> tfact. entonces la hipótesis H0 no se desvía y reconoce la naturaleza aleatoria de la formación a, b o r xy.

25. Evaluación de la calidad de los modelos de regresión. Error estándar de la recta de regresión.

Evaluación de la calidad de la regresión lineal: coeficiente de determinación R 2

Debido a la relación lineal, esperamos que cambie como , y a esto lo llamamos la variación que se debe o se explica por regresión. La variación residual debe ser lo más pequeña posible.

Si esto es cierto, entonces la mayor parte de la variación se explicará por regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea se ajusta bien a los datos.

La proporción de la varianza total que se explica mediante la regresión se llama coeficiente de determinación, generalmente expresado como porcentaje y denotado R 2(en regresión lineal pareada esta es la cantidad r 2, cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

La diferencia representa el porcentaje de varianza que no puede explicarse mediante regresión.

No existe una prueba formal para evaluar; debemos confiar en el juicio subjetivo para determinar la bondad del ajuste de la línea de regresión.

Aplicar una línea de regresión al pronóstico

Aplicar una línea de regresión al pronóstico

Puede utilizar una línea de regresión para predecir un valor a partir de un valor en el extremo del rango observado (nunca extrapolar más allá de estos límites).

Predecimos la media de los observables que tienen un valor particular ingresando ese valor en la ecuación de la línea de regresión.

Entonces, si predecimos como Usamos este valor predicho y su error estándar para estimar intervalo de confianza para la media poblacional real.

Repetir este procedimiento para diferentes valores le permite construir límites de confianza para esta línea. Esta es la banda o área que contiene la línea verdadera, por ejemplo con un nivel de confianza del 95%.

26. La relación entre la prueba F parcial, la prueba t de Student y el coeficiente de correlación parcial.

Debido a la correlación entre m/y factores, la importancia de un mismo factor puede ser diferente dependiendo de la secuencia de su introducción en el modelo. Una medida para evaluar la inclusión de un factor en el modelo es la prueba F frecuente, es decir FX i. EN vista general para el factor x i La prueba F frecuente se define como:

Si consideramos la ecuación y=a+b 1 x 1 +b 2 +b 3 x 3 +e, entonces el criterio F se determina secuencialmente para una ecuación con un factor x 1, luego el criterio F para la inclusión adicional del factor x 2 en el modelo, es decir, para la transición de una ecuación de regresión de un factor a una de dos -factor uno y, finalmente, el criterio F para una inclusión adicional del factor x 3 en el modelo, es decir, se da una evaluación de la importancia del factor x 3 después de la inclusión de los factores x 1 y 2 en el modelo. En este caso, la prueba F para la inclusión adicional del factor x2 después de x1 es coherente a diferencia de la prueba F para la inclusión adicional en el modelo del factor x 3, que es privado Prueba F, porque evalúa la importancia de un factor bajo el supuesto de que se incluye en último lugar en el modelo. La prueba F particular está relacionada con la prueba t de Student. La prueba F secuencial puede ser de interés para el investigador en la etapa de formación del modelo. Para la ecuación y=a+b 1 x 1 +b 2 +b 3 x 3 +e Evaluación de la importancia de los coeficientes de regresión. segundo 1, segundo 2, segundo 3 implica el cálculo de tres coeficientes de determinación interfactoriales, a saber: , , y se puede verificar que existe una conexión entre la prueba t de Student para evaluar la significancia de b i y la prueba F parcial:

Con base en la relación b i obtenemos:

27. Opciones para construir un modelo de regresión. Su breve descripción.

28. Interpretación de parámetros de regresión lineal y no lineal.

b a
cuarto de vapor lineal Coeficiente de regresion b muestra el cambio promedio en el indicador efectivo (en unidades de medida y) con un aumento o disminución en el valor del factor x por unidad de su medida. La relación entre y y x determina el signo del coeficiente de regresión b (si > 0 - relación directa, en caso contrario - inversa no interpretado, sólo el signo >0 – el resultado cambia más lentamente que el factor,<0 рез-т изм быстрее фактора
no lineal en ley de potencia – coeficiente de elasticidad, es decir en sk el % de cambio resulta en promedio cuando el factor cambia en un 1%, la función inversa es la misma que en la lineal, no interpretado
multiplicar lineal En la regresión lineal múltiple, los coeficientes de xi caracterizan el cambio promedio en el resultado con un cambio en el factor correspondiente en uno, con valores constantes de otros factores fijados en el nivel promedio. no interpretado

29. Matriz de coeficientes de correlación pareada y parcial en la construcción de modelos de regresión.

30. Requisitos previos del método de mínimos cuadrados.

Requisitos previos del método de mínimos cuadrados (condiciones de Gauss-Markov)

1. La expectativa matemática de la desviación aleatoria es cero para todas las observaciones. Esta condición significa que la desviación aleatoria promedio no tiene efecto sobre la variable dependiente. En cualquier observación dada, el término aleatorio puede ser positivo o negativo, pero no debe estar sistemáticamente sesgado.

2. La varianza de las desviaciones aleatorias es constante para cualquier observación.. Esta condición implica que, aunque en cualquier observación dada la desviación aleatoria puede ser mayor o menor, no debe haber ninguna razón a priori que cause el gran error (desviación).

La viabilidad de este requisito previo se llama homocedasticidad (constancia de la varianza de las desviaciones). La imposibilidad de este requisito previo se llama heterocedasticidad (inconstancia de la varianza de las desviaciones).

3. Las desviaciones aleatorias u i y u j son independientes entre sí para i¹j. La viabilidad de esta premisa supone que no existe una relación sistemática entre variaciones aleatorias. En otras palabras, la magnitud y el signo específico de cualquier desviación aleatoria no deben ser las causas de la magnitud y el signo de cualquier otra desviación. La viabilidad de este prerrequisito conlleva la siguiente relación:

Por tanto, si se cumple esta condición, entonces hablamos de ausencia de autocorrelación.

4. La varianza aleatoria debe ser independiente de las variables explicativas.

Normalmente, esta condición se cumple automáticamente si las variables explicativas no son aleatorias en un modelo determinado. Esta condición presupone la viabilidad de la siguiente relación:

5. El modelo es lineal con respecto a los parámetros.

Teorema de Gauss-Markov. Si se cumplen los requisitos previos del 1 al 5, las estimaciones obtenidas mediante MCO tienen las siguientes propiedades:

  1. Las estimaciones son insesgadas, es decir, M(b 0) = b 0, M(b 1) = b 1, donde b 0, b 1) son los coeficientes de la ecuación de regresión empírica y b 0, b 1 son sus prototipos teóricos. Esto se desprende de la primera premisa e indica la ausencia de error sistemático al determinar la posición de la línea de regresión.
  2. Las estimaciones son consistentes, ya que la dispersión de las estimaciones de los parámetros tiende a cero a medida que aumenta el número n de observaciones. En otras palabras, a medida que aumenta el tamaño de la muestra, aumenta la confiabilidad de las estimaciones (los coeficientes de las ecuaciones de regresión teórica y empírica prácticamente coinciden).
  3. Las estimaciones son eficientes, es decir, tienen la varianza más pequeña en comparación con cualquier estimación de estos parámetros que sea lineal con respecto a los valores de y i.

Si se violan los requisitos previos 2 y 3, es decir, la varianza de las desviaciones no es constante y (o) los valores de las desviaciones aleatorias están relacionados entre sí, entonces se conservan las propiedades de imparcialidad y coherencia, pero la propiedad de eficiencia. no es.

Además de la viabilidad de los requisitos previos especificados, al construir modelos de regresión lineal clásicos, se hacen algunos supuestos más. Por ejemplo:

  • las variables explicativas no son SV;
  • las desviaciones aleatorias tienen una distribución normal;
  • el número de observaciones es significativamente mayor que el número de variables explicativas.

OTRA OPCIÓN DE ENTRADA 30.

El método de mínimos cuadrados es uno de los métodos de análisis de regresión para estimar cantidades desconocidas basándose en resultados de medición que contienen errores aleatorios.

LSM también se utiliza para aproximar la representación de una función determinada mediante otras funciones (más simples) y suele ser útil para procesar observaciones.

Cuando la cantidad deseada se puede medir directamente, como la longitud de un segmento o un ángulo, entonces, para aumentar la precisión, la medición se realiza muchas veces y se toma como resultado final el promedio aritmético de todas las mediciones individuales. Esta regla de la media aritmética se basa en consideraciones de la teoría de la probabilidad; es fácil demostrar que la suma de las desviaciones al cuadrado de las medidas individuales de la media aritmética será menor que la suma de las desviaciones al cuadrado de las medidas individuales de cualquier otro valor. La regla de la media aritmética representa, por tanto, el caso más simple del método de mínimos cuadrados.

El método de mínimos cuadrados nos permite obtener tales estimaciones de parámetros, con cat. suma de cuadrados desviación del resultado de los valores reales. signo de teórico mínimo.

Modelo d.b. lineal en parámetros

X - variable aleatoria

El valor del error es aleatorio, sus cambios no forman un modelo específico (modelo residual)

Número de personas d.b. parámetros evaluados más numéricamente (5-6 rublos)

Los valores de la variable x no son válidos. idéntico

La población debe ser homogénea.

Ausencia de relación entre m/y de x y resto

Modelo de regresión d.b. correctamente especificado

No en el modelo. estrecha relación entre factores (regresión múltiple)

Requisitos previos básicos de las empresas multinacionales:

 naturaleza aleatoria de los residuos

 promedio cero de residuos, independiente del factor x

 homocedasticidad (la varianza de cada desviación es la misma para todos los valores de x)

 falta de autocorrelación de residuos

 los residuos deben seguir una distribución normal

 Si el modelo de regresión y = a + bx + E satisface la condición de Gauss-Markov, entonces las estimaciones MCO de a y b tienen la mejor varianza en la clase de todas las estimaciones lineales e insesgadas.

31. Estudio de los residuos de la ecuación de regresión múltiple.

Los estudios residuales prueban la presencia de las siguientes cinco premisas OLS:

1) naturaleza aleatoria de los residuos;

2) valor promedio cero de los residuos, independiente de ;

3) homocedasticidad: la dispersión de cada desviación es la misma para todos los valores;

4) falta de autocorrelación de los residuos: los valores de los residuos se distribuyen independientemente unos de otros;

5) los residuos siguen una distribución normal.

Si la distribución de residuos aleatorios no cumple con algunos supuestos de MCO, entonces se debe ajustar el modelo.

En primer lugar, se comprueba la naturaleza aleatoria de los residuos, el primer requisito previo de MCO. Para ello, se traza una gráfica de la dependencia de los residuales de los valores teóricos de la característica resultante (Fig. 2.1). Si se obtiene una franja horizontal en el gráfico, entonces los residuos son variables aleatorias y el método de mínimos cuadrados está justificado, los valores teóricos se aproximan bien a los valores reales;

32. Heterocedasticidad y su consideración en la construcción de un modelo de regresión múltiple. Evaluación cualitativa de la heterocedasticidad.

La heterocedasticidad se manifiesta si el conjunto de datos iniciales incluye cualitativamente heterogéneoáreas. Heterocedasticidad significa varianza desigual residuos para diferentes valores de x. Si ocurre heterocedasticidad, entonces:

  • Las estimaciones MCO ineficaz.
  • Puede ser desplazado estimaciones del coeficiente de regresión y serán ineficaz.
  • Es difícil utilizar la fórmula del error estándar porque supone una varianza única de los residuos.

Medidas para eliminar la heterocedasticidad.

p Aumento del número de observaciones

p Cambiar la forma funcional del modelo.

p Dividir la población original en grupos cualitativamente homogéneos y realizar análisis en cada grupo

p Uso de variables ficticias para tener en cuenta la heterogeneidad

p Exclusión de la totalidad de unidades dando heterogeneidad

Pruebas utilizadas para detectar heterocedasticidad.

p Goldfeld-Quandt

p Glaser

p Correlación de rango de Spearman

33. Autocorrelación de residuos y su papel en la construcción de un modelo de regresión.

Dependencia entre niveles temporales sucesivos. las filas se llaman autocorrelación nivel de fila. En econometria En la investigación, a menudo surgen situaciones en las que la varianza de los residuos es constante, pero se observa su covarianza. Este fenómeno se llama autocorrelación de residuos.

Uno de los métodos más comunes para determinar la autocorrelación en residuos es Criterio de Durbin-Watson:

re = ;

d – la relación entre la suma de cuadrados de las diferencias de valores sucesivos y la suma de cuadrados residual según el modelo de regresión.

Hay un rastro. la relación entre el criterio D-U “d” y el coeficiente de autocorrelación de residuos de primer orden r 1:

re = 2 * (1-r 1) .

Si el resto existe, estará completo. autocorrelación y r 1 = 1, entonces d = 0.

Si el resto es completamente negativo. autocorrelación, entonces r 1 = -1 y d = 4.

Si no hay autocorrelación, entonces r 1 = 0 y d = 2.

Aquellos. 0≤d≤4.

Consideremos un algoritmo para identificar la autocorrelación de residuos basado en el criterio D-U.

Saca hipótesis H 0 sobre la ausencia de autocorrelación de residuos . Las hipótesis alternativas H 1 y H 1 * asumen la presencia de autocorrelación positiva o negativa en los residuos. Luego según especial las tablas están definidas valores críticos del criterio de Durbin - Watson d L y d u para un número dado de observaciones n, el número de variables independientes del modelo k en el nivel de significancia ɑ (generalmente 0,95). En base a estos valores, el intervalo se divide en cinco segmentos. La aceptación o rechazo de cada hipótesis con probabilidad (1-ɑ) se presenta en la siguiente figura:

+ si ? NO ? - Hay
dL 4- tu 4-D L

Si es real el valor del criterio de Durbin-Watson cae en la zona de incertidumbre, entonces en la práctica se supone la existencia de autocorrelación de los residuos y se rechaza la hipótesis H 0.

34. Seleccionar la mejor opción para un modelo de regresión.



35. Modelos de regresión múltiple no lineales, sus características generales.

Si existen relaciones no lineales entre los fenómenos económicos, entonces se expresan utilizando las funciones no lineales correspondientes: por ejemplo, una hipérbola equilátera , parábolas de segundo grado, etc.

Hay dos clases de regresiones no lineales:

regresiones que son no lineales respecto de las variables explicativas incluidas en el análisis, pero sí lineales respecto de los parámetros estimados;

Regresiones que no son lineales en los parámetros que se estiman.
Un ejemplo de regresión no lineal para las variables explicativas incluidas en ella pueden ser las siguientes funciones:

  • polinomios de diferentes grados
  • hipérbola equilátera

Las regresiones no lineales para los parámetros estimados incluyen las siguientes funciones:

  • fuerza
  • indicativo
  • exponencial I

36. Modelos de tipo hiperbólico. Curvas de Engel, curva de Philips y otros ejemplos de uso de modelos de este tipo.

curvas de engel (curva de engel) ilustran la relación entre el volumen de consumo de bienes ( C) y el ingreso del consumidor ( I) con precios y preferencias constantes. Lleva el nombre del estadístico alemán Ernst Engel, quien analizó el impacto de los cambios en los ingresos en la estructura del gasto de los consumidores.

El eje x muestra el nivel de ingresos del consumidor y el eje y muestra los costos de consumir un bien determinado.

El gráfico muestra una apariencia aproximada de las curvas de Engel:

  • E 1 - curva para bienes normales;
  • E 2 - curva para artículos de lujo;
  • E 3: curva para productos de baja calidad.

La curva de Phillips refleja la relación entre la tasa de inflación y el desempleo.

El modelo keynesiano de economía muestra que la economía puede experimentar desempleo (causado por una disminución de la producción y, por tanto, una disminución de la demanda de mano de obra) o inflación (si la economía opera con pleno empleo).

Una alta inflación y un alto desempleo no pueden existir al mismo tiempo.

La curva de Philips fue construida por A.W. Phillips basándose en datos sobre salarios y desempleo en Gran Bretaña durante los años 1861-1957.

Siguiendo la curva de Phillips, el Estado puede construir su política económica. El Estado, al estimular la demanda agregada, puede aumentar la inflación y reducir el desempleo y viceversa.

La curva de Phillips fue completamente cierta hasta mediados de los años 70. Durante este período se produjo un estancamiento (un aumento simultáneo de la inflación y el desempleo), que la curva de Phillips no pudo explicar.

Aplicación de la curva de Philips


©2015-2019 sitio
Todos los derechos pertenecen a sus autores. Este sitio no reclama autoría, pero proporciona uso gratuito.
Fecha de creación de la página: 2016-02-16

D. Este indicador es un coeficiente de regresión estandarizado, es decir, un coeficiente expresado no en unidades absolutas de medida de características, sino en proporciones de la desviación estándar de la característica resultante.  

Los coeficientes de regresión pura condicional bf se denominan números expresados ​​en unidades diferentes y, por tanto, no son comparables entre sí. Para convertirlos en indicadores relativos comparables se utiliza la misma transformación que para obtener el coeficiente de correlación por pares. El valor resultante se denomina coeficiente de regresión estandarizado o coeficiente.  

En la práctica, a menudo es necesario comparar la influencia sobre la variable dependiente de diferentes variables explicativas cuando estas últimas se expresan en diferentes unidades de medida. En este caso se utilizan los coeficientes de regresión estandarizados b j y los coeficientes de elasticidad Ej Q = 1,2,..., p)  

El coeficiente de regresión estandarizado b j muestra en cuántos valores sy la variable dependiente Y cambiará en promedio cuando solo la j-ésima variable explicativa aumente en sx, a  

Solución. Para comparar la influencia de cada una de las variables explicativas mediante la fórmula (4.10), calculamos los coeficientes de regresión estandarizados.  

Determine los coeficientes de regresión estandarizados.  

En una dependencia por pares, el coeficiente de regresión estandarizado no es más que un coeficiente de correlación lineal fa. Así como en una dependencia por pares los coeficientes de regresión y correlación están relacionados entre sí, en la regresión múltiple los coeficientes de regresión pura están relacionados con la regresión estandarizada. coeficientes / , -, es decir  

El significado considerado de los coeficientes de regresión estandarizados permite su uso al eliminar factores: los factores con el valor jQy más bajo se excluyen del modelo.  

Como se muestra arriba, la clasificación de los factores involucrados en la regresión lineal múltiple se puede realizar mediante coeficientes de regresión estandarizados (coeficientes /). Se puede lograr el mismo objetivo utilizando coeficientes de correlación parcial para relaciones lineales. En el caso de una relación no lineal entre las características en estudio, esta función se realiza mediante índices de determinación parcial. Además, los indicadores de correlación parcial se utilizan ampliamente al resolver el problema de seleccionar factores; la idoneidad de incluir un factor particular en el modelo queda demostrada por el valor del indicador de correlación parcial.  

En otras palabras, en el análisis de dos factores, los coeficientes de correlación parcial son coeficientes de regresión estandarizados multiplicados por la raíz cuadrada de la relación de las proporciones de las varianzas residuales del factor fijo con respecto al factor y al resultado.  

En el proceso de desarrollo de estándares de plantilla, se recopilan datos iniciales sobre el número de nómina del personal directivo y los valores de los factores para las empresas de base seleccionadas. A continuación, se seleccionan factores significativos para cada función basándose en el análisis de correlación, en función del valor de los coeficientes de correlación. Se seleccionan los factores con el valor más alto del coeficiente de correlación emparejado con la función y el coeficiente de regresión estandarizado.  

Los coeficientes de regresión estandarizados (p) se calculan para cada función en función de la totalidad de todos los argumentos según la fórmula  

Sin embargo, las estadísticas aportan recomendaciones útiles que permiten al menos hacer una estimación al respecto. Como ejemplo, veamos uno de estos métodos: la comparación de coeficientes de regresión estandarizados.  

El coeficiente de regresión estandarizado se calcula multiplicando el coeficiente de regresión bi por la desviación estándar Sn (para nuestras variables -, denotémoslo como Sxk) y dividiendo el producto resultante por Sy. Esto significa que cada coeficiente de regresión estandarizado se mide como el valor b Sxk / . En relación con nuestro ejemplo, obtenemos los siguientes resultados (Tabla 10).  

Coeficientes de regresión estandarizados  

Por lo tanto, la comparación anterior de los valores absolutos de los coeficientes de regresión estandarizados nos permite obtener una idea, aunque bastante aproximada, pero bastante clara de la importancia de los factores considerados. Recordemos una vez más que estos resultados no son ideales, ya que no reflejan plenamente la influencia real de las variables en estudio (ignoramos el hecho de la posible interacción de estos factores, que pueden distorsionar la imagen original).  

Los coeficientes de esta ecuación (blf 62, b3) se determinan resolviendo la ecuación de regresión estandarizada  

Operador 5. Cálculo de -coeficientes - coeficientes de regresión en una escala estandarizada.  

Es fácil ver que reemplazando por 2 y otras transformaciones simples se puede llegar a un sistema de ecuaciones normales en una escala estandarizada. Usaremos una transformación similar en el futuro, ya que la normalización, por un lado, nos permite evitar números demasiado grandes y, por otro lado, el propio esquema computacional al determinar los coeficientes de regresión se vuelve estándar.  

La forma del gráfico de conexiones directas sugiere que al construir una ecuación de regresión basada en solo dos factores - el número de redes de arrastre y el tiempo de pesca con red - la dispersión residual st.34 no diferiría de la dispersión residual a.23456. obtenido a partir de una ecuación de regresión construida utilizando todos los factores. Para evaluar la diferencia, recurrimos en este caso a una estimación muestral. 1,23456 = 0,907 y 1,34 = 0,877. Pero si ajustamos los coeficientes según la fórmula (38), entonces 1,23456 = 0,867, a / i.34 = = 0,864. La diferencia difícilmente puede considerarse significativa. Además, r14 = 0,870. Esto sugiere que el número de redes de arrastre tiene poco efecto directo sobre el tamaño de la captura. De hecho, en una escala estandarizada 1,34 = 0,891 4 - 0,032 3- Es fácil ver que el coeficiente de regresión en t3 no es confiable incluso con un intervalo de confianza muy bajo.  

Receta/. - coeficiente correspondiente



Nuevo en el sitio

>

Más popular