Hogar Muelas del juicio Matriz de coeficientes de correlación lineal pareados. Análisis de la matriz de coeficientes de correlación de pares.

Matriz de coeficientes de correlación lineal pareados. Análisis de la matriz de coeficientes de correlación de pares.

Inicialmente en el modelo en incluir todos los componentes principales (los valores calculados se indican entre paréntesis t-criterios):

La calidad del modelo se caracteriza por: coeficiente de determinación múltiple r= 0,517, error relativo promedio de aproximación = 10,4%, varianza residual t 2= 1,79 y F observable = 121. Debido a que F obs > F kr = 2,85 en α = 0,05, v 1 = 6, v 2= 14, la ecuación de regresión es significativa y al menos uno de los coeficientes de regresión (β 1, β 2, β 3, β 4) no es igual a cero.

Si la importancia de la ecuación de regresión (hipótesis H 0:β1 = β2 = β3 = β4 = 0 se comprobó en α = 0,05, luego la significancia de los coeficientes de regresión, es decir, hipótesis H0: β j = 0 (j = 1, 2, 3, 4), debe probarse a un nivel de significancia superior a 0,05, por ejemplo en α = 0.1. Entonces en α = 0,1, v= 14 magnitud t cr = 1,76, y significativos, como se desprende de la ecuación (53.41), son los coeficientes de regresión β 1, β 2, β 3.

Teniendo en cuenta que los componentes principales no están correlacionados entre sí, podemos eliminar inmediatamente todos los coeficientes insignificantes de la ecuación, y la ecuación tomará la forma

(53.42)

Comparando las ecuaciones (53.41) y (53.42), vemos que excluyendo componentes principales insignificantes f 4 Y f 5, no afectó los valores de los coeficientes de la ecuación. segundo 0 = 9,52, segundo 1 = 0,93, segundo 2 = 0,66 y correspondientes tj (j = 0, 1, 2, 3).

Esto se debe a la naturaleza no correlacionada de los componentes principales. Lo interesante aquí es el paralelo de las ecuaciones de regresión para los indicadores iniciales (53.22), (53.23) y los componentes principales (53.41), (53.42).

La ecuación (53.42) es significativa porque F obs = 194 > F cr = 3,01, encontrado en α = 0,05, v 1 = 4, v 2= 16. Los coeficientes de la ecuación también son significativos, ya que t j > t cr . = 1,746, correspondiente a α = 0,01, v= 16 para j= 0, 1, 2, 3. Coeficiente de determinación r= 0,486 indica que el 48,6% de la variación en debido a la influencia de los primeros tres componentes principales.

La ecuación (53.42) se caracteriza por un error relativo promedio de aproximación = 9,99% y una varianza residual s 2 = 1,91.

La ecuación de regresión sobre los componentes principales (53.42) tiene propiedades de aproximación ligeramente mejores en comparación con el modelo de regresión (53.23) basado en los indicadores iniciales: r= 0,486 > r= 0,469; = 9,99% < (X) = 10,5% y s 2 (f) = 1,91 < s 2 (x) = 1,97. Además, en la ecuación (53.42), los componentes principales son funciones lineales todos los indicadores iniciales, mientras que la ecuación (53.23) incluye solo dos variables ( x1 Y x4). En varios casos es necesario tener en cuenta que el modelo (53.42) es difícil de interpretar, ya que incluye un tercer componente principal f 3, que no hemos interpretado y cuya contribución a la dispersión total de los indicadores iniciales ( x1, ..., x5) es sólo el 8,6%. Sin embargo, la excepción f 3 de la ecuación (53.42) empeora significativamente las propiedades aproximadas del modelo: r= 0,349; = 12,4% y t 2(F) = 2,41. Entonces es aconsejable elegir la ecuación (53.23) como modelo de regresión de rendimiento.

Análisis de conglomerados

EN investigación estadística La agrupación de datos primarios es la principal técnica de solución. problemas de clasificación, y por lo tanto la base para todos los trabajos posteriores con la información recopilada.

Tradicionalmente, este problema se resuelve de la siguiente manera. De las muchas características que describen un objeto, se selecciona la más informativa desde el punto de vista del investigador, y los datos se agrupan de acuerdo con los valores de esta característica. Si es necesario realizar una clasificación basada en varios criterios, clasificados entre sí por grado de importancia, primero se realiza la clasificación según la primera característica, luego cada una de las clases resultantes se divide en subclases según la segunda característica. , etc. La mayoría de los agrupamientos estadísticos combinacionales se construyen de manera similar.

En los casos en que no es posible organizar las características de clasificación, se utiliza el método más simple de agrupación multidimensional: la creación de un indicador integral (índice), funcionalmente dependiente de las características iniciales, seguido de la clasificación de acuerdo con este indicador.

Un desarrollo de este enfoque es una opción de clasificación basada en varios indicadores generales (componentes principales) obtenidos utilizando métodos de análisis factorial o de componentes.

Si hay varias características (iniciales o generalizadas), el problema de clasificación se puede resolver mediante métodos de análisis de conglomerados, que se diferencian de otros métodos de clasificación multidimensional por la ausencia de muestras de entrenamiento, es decir información a priori sobre la distribución de la población.

Las diferencias entre los esquemas para resolver un problema de clasificación están determinadas en gran medida por lo que se entiende por los conceptos de "similitud" y "grado de similitud".

Una vez formulado el objetivo del trabajo, es natural intentar determinar los criterios de calidad, la función objetivo, cuyos valores nos permitirán comparar. varios esquemas clasificaciones.

En la investigación económica función objetiva, por regla general, debe minimizar algún parámetro determinado en un conjunto de objetos (por ejemplo, el propósito de clasificar equipos puede ser una agrupación que minimice el costo total de tiempo y dinero para los trabajos de reparación).

En los casos en que no sea posible formalizar el objetivo de la tarea, el criterio para la calidad de la clasificación puede ser la posibilidad de una interpretación significativa de los grupos encontrados.

Consideremos el siguiente problema. Que se estudie el conjunto PAG objetos, cada uno de los cuales se caracteriza k signos medidos. Es necesario dividir esta totalidad en grupos (clases) que sean en cierto sentido homogéneos. Al mismo tiempo, prácticamente no existe información a priori sobre la naturaleza de la distribución. k-vector dimensional X dentro de las clases.

Los grupos obtenidos como resultado de la partición se suelen denominar clusters* (taxones**, imágenes), los métodos para encontrarlos se denominan análisis de clusters (respectivamente, taxonomía numérica o reconocimiento de patrones con autoaprendizaje).

* Grupo(inglés): un grupo de elementos caracterizados por alguna propiedad común.

**Tahop(inglés): un grupo sistemático de cualquier categoría.

Es necesario desde el principio comprender claramente cuál de los dos problemas de clasificación se va a resolver. Si se resuelve el problema de tipificación habitual, entonces el conjunto de observaciones se divide en un número relativamente pequeño de áreas de agrupación (por ejemplo, intervalo serie de variación en el caso de observaciones unidimensionales) de modo que los elementos de una de esas regiones estén lo más cerca posible entre sí.

La solución a otro problema es determinar la estratificación natural de los resultados de las observaciones en grupos claramente definidos que se encuentran a cierta distancia unos de otros.

Si el primer problema de tipificación siempre tiene solución, entonces en el segundo caso puede resultar que el conjunto de observaciones no presente una estratificación natural en conglomerados, es decir forma un grupo.

Aunque muchos métodos de análisis de conglomerados son bastante elementales, la mayor parte del trabajo en el que se propusieron se remonta a la última década. Esto se explica por solución efectiva tareas de búsqueda de clústeres que requieren realizar una gran cantidad de operaciones aritméticas y operaciones lógicas, sólo fue posible con la aparición y el desarrollo de la tecnología informática.

La forma habitual de representar datos iniciales en problemas de análisis de conglomerados es una matriz.

cada línea representa los resultados de la medición k los signos considerados en uno de los objetos examinados. En situaciones específicas, tanto la agrupación de objetos como la agrupación de características pueden resultar de interés. En los casos en que la diferencia entre estas dos tareas no sea significativa, por ejemplo, al describir algunos algoritmos, usaremos solo el término "objeto", incluido el término "característica" en este concepto.

Matriz X no es la única forma de presentar datos en problemas de análisis de conglomerados. A veces la información inicial se da en forma de matriz cuadrada.

elemento r ij que determina el grado de proximidad i-ésimo objeto a j-mu.

La mayoría de los algoritmos de análisis de conglomerados se basan completamente en una matriz de distancias (o proximidad) o requieren el cálculo de sus elementos individuales, por lo que si los datos se presentan en la forma X, entonces, la primera etapa para resolver el problema de la búsqueda de conglomerados será la elección de un método para calcular distancias o proximidades entre objetos o características.

La cuestión de determinar la proximidad entre características es algo más fácil de resolver. Como regla general, el análisis de conglomerados de características persigue los mismos objetivos que análisis factorial: identificación de grupos de características interconectadas que reflejan un determinado aspecto de los objetos que se estudian. La medida de proximidad en este caso es varias. coeficientes estadísticos comunicaciones.


Información relacionada.


Para determinar el grado de dependencia entre varios indicadores, se utilizan múltiples coeficientes de correlación. Luego se resumen en una tabla separada, que se denomina matriz de correlación. Los nombres de las filas y columnas de dicha matriz son los nombres de los parámetros cuya dependencia entre sí se establece. En la intersección de filas y columnas, se ubican los coeficientes de correlación correspondientes. Descubramos cómo se puede hacer un cálculo similar utilizando las herramientas de Excel.

Se acostumbra determinar el nivel de relación entre varios indicadores de la siguiente manera, dependiendo del coeficiente de correlación:

  • 0 – 0,3 – sin conexión;
  • 0,3 – 0,5 – conexión débil;
  • 0,5 – 0,7 – conexión media;
  • 0,7 – 0,9 – alto;
  • 0,9 – 1 – muy fuerte.

Si coeficiente de correlación negativo, esto significa que la relación entre los parámetros es inversa.

Para crear una matriz de correlación en Excel, utiliza una herramienta incluida en el paquete. "Análisis de los datos". Así se llama - "Correlación". Aprendamos cómo se puede utilizar para calcular múltiples métricas de correlación.

Paso 1: active el paquete de análisis

Hay que decir de inmediato que el paquete predeterminado "Análisis de los datos" desactivado. Por lo tanto, antes de continuar con el procedimiento de cálculo directo de los coeficientes de correlación, es necesario activarlo. Desafortunadamente, no todos los usuarios saben cómo hacer esto. Por tanto, nos detendremos en este tema.


Después de la acción especificada, el paquete de herramientas. "Análisis de los datos" será activado.

Etapa 2: cálculo del coeficiente

Ahora puede proceder directamente a calcular el coeficiente de correlación múltiple. Utilicemos el ejemplo de la siguiente tabla de indicadores de productividad laboral, relación capital-trabajo y relación energía-trabajo en varias empresas para calcular el coeficiente de correlación múltiple de estos factores.


Etapa 3: análisis del resultado obtenido

Ahora descubramos cómo entender el resultado que obtuvimos en el proceso de procesamiento de datos con la herramienta. "Correlación" V programa excel.

Como podemos ver en la tabla, el coeficiente de correlación de la relación capital-trabajo (Columna 2) y disponibilidad de energía ( Columna 1) es 0,92, lo que corresponde a una relación muy fuerte. Entre la productividad laboral ( Columna 3) y disponibilidad de energía ( Columna 1) este indicador es 0,72, lo que supone un alto grado de dependencia. El coeficiente de correlación entre la productividad laboral ( Columna 3) y la relación capital-trabajo ( Columna 2) es igual a 0,88, lo que también corresponde a un alto grado de dependencia. Así, podemos decir que la relación entre todos los factores estudiados es bastante fuerte.

Como puedes ver, el paquete "Análisis de los datos" en Excel es una herramienta muy conveniente y bastante fácil de usar para determinar el coeficiente de correlación múltiple. Con su ayuda, también puedes calcular la correlación habitual entre dos factores.

Según los territorios del Sur Distrito Federal La Federación de Rusia proporciona datos para 2011

Territorios del Distrito Federal

Producto regional bruto, miles de millones de rublos, Y

Inversiones en activos fijos, miles de millones de rublos, X1

1. Representante Adygea

2. Representante Daguestán

3. Representante Ingusetia

4. República Kabardino-Balkariana

5. Representante Kalmukia

6. República de Karachay-Cherkess

7. Representante Osetia del Norte- Alanya

8. Región de Krasnodar)

9. Región de Stávropol

10. Región de Astracán.

11. Región de Volgogrado.

12. Región de Rostov.

  • 1. Calcule la matriz de coeficientes de correlación de pares; tasa significancia estadística Coeficientes de correlación.
  • 2. Construir un campo de correlación entre la característica efectiva y el factor más estrechamente relacionado con ella.
  • 3. Calcule los parámetros de regresión lineal de pares para cada factor X.
  • 4. Evaluar la calidad de cada modelo mediante el coeficiente de determinación, el error medio de aproximación y la prueba F de Fisher. Elige el mejor modelo.

será el 80% de su valor máximo. Presentar gráficamente: valores reales y del modelo, puntos de pronóstico.

  • 6. Utilizando una regresión múltiple paso a paso (método de exclusión o método de inclusión), construya un modelo de formación de precios de apartamentos debido a factores importantes. Dé una interpretación económica de los coeficientes del modelo de regresión.
  • 7. Evaluar la calidad del modelo construido. ¿Ha mejorado la calidad del modelo en comparación con el modelo de un solo factor? Evalúe la influencia de factores significativos en el resultado utilizando los coeficientes de elasticidad, en - y -? coeficientes

Al resolver este problema, realizaremos cálculos y construiremos gráficos y diagramas utilizando la configuración de Análisis de datos de Excel.

1. Calcule la matriz de coeficientes de correlación de pares y evalúe la significancia estadística de los coeficientes de correlación.

En el cuadro de diálogo Correlación, en el campo Intervalo de entrada, ingrese el rango de celdas que contienen los datos de origen. Como también hemos seleccionado los encabezados de las columnas, marcamos la casilla Etiquetas en la primera fila.

Obtuvimos los siguientes resultados:

Tabla 1.1 Matriz de coeficientes de correlación de pares

El análisis de la matriz de coeficientes de correlación por pares muestra que la variable dependiente Y, es decir, el producto regional bruto, tiene una relación más estrecha con X1 (inversión en capital fijo). El coeficiente de correlación es 0,936. Esto significa que el 93,6% de la variable dependiente Y (producto regional bruto) depende del indicador X1 (inversión en capital fijo).

Determinaremos la significación estadística de los coeficientes de correlación mediante la prueba t de Student. Comparamos el valor de la tabla con los valores calculados.

Calculemos el valor de la tabla usando la función STUDISCOVER.

tabla t = 0,129 en probabilidad de confianza igual a 0,9 y grado de libertad (n-2).

El factor X1 es estadísticamente significativo.

2. Construyamos un campo de correlación entre el atributo efectivo (producto regional bruto) y el factor más relacionado con él (inversión en capital fijo)

Para ello utilizaremos la herramienta de diagrama de dispersión de Excel.

Como resultado, obtenemos un campo de correlación para el precio del producto regional bruto, en miles de millones de rublos. e inversiones en activos fijos, miles de millones de rublos. (Figura 1.1.).

Figura 1.1

3. Calcule los parámetros de regresión lineal de pares para cada factor X.

Para calcular los parámetros de la regresión lineal por pares, usaremos la herramienta Regresión incluida en la configuración de Análisis de datos.

En el cuadro de diálogo Regresión, en el campo Intervalo de entrada Y, ingrese la dirección del rango de celdas que representa la variable dependiente. en el campo

En el intervalo X ingresamos la dirección del rango que contiene los valores de las variables independientes. Calculemos los parámetros de regresión pareada para el factor X.

Para X1 recibimos los siguientes datos presentados en la Tabla 1.2:

Tabla 1.2

La ecuación de regresión para la dependencia del precio del producto regional bruto de la inversión en capital fijo tiene la forma:

4. Evaluamos la calidad de cada modelo a través del coeficiente de determinación, error promedio de aproximación y prueba F de Fisher. Determinemos qué modelo es el mejor.

Obtuvimos el coeficiente de determinación, el error medio de aproximación, como resultado de los cálculos realizados en el punto 3. Los datos obtenidos se presentan en las siguientes tablas:

Datos X1:

Tabla 1.3a

Tabla 1.4b

A) El coeficiente de determinación determina qué proporción de la variación del rasgo Y se tiene en cuenta en el modelo y se debe a la influencia sobre él del factor X. Cuanto mayor sea el valor del coeficiente de determinación, más estrecha será la relación entre el características en la construcción modelo matemático.

Excel se refiere a R cuadrado.

Con base en este criterio, el modelo más adecuado es la ecuación de regresión de la dependencia del precio del producto regional bruto de la inversión en capital fijo (X1).

B) Calculamos el error medio de aproximación mediante la fórmula:

donde el numerador es la suma de los cuadrados de la desviación de los valores calculados de los reales. En las tablas se ubica en la columna SS, la línea Restante.

Calculamos el precio medio de un apartamento en Excel mediante la función PROMEDIO. = 24,18182 mil millones de rublos.

Al realizar cálculos económicos, el modelo se considera suficientemente preciso si error promedio la aproximación es inferior al 5%, el modelo se considera aceptable si el error medio de aproximación es inferior al 15%.

Según este criterio, el más adecuado es el modelo matemático para la ecuación de regresión de la dependencia del precio del producto regional bruto de la inversión en capital fijo (X1).

C) La prueba F se utiliza para probar la significancia del modelo de regresión. Para ello, también se comparan los valores críticos (tabulares) de la prueba F de Fisher.

Los valores calculados se dan en las tablas 1.4b (indicadas con la letra F).

Calcularemos el valor tabular de la prueba F de Fisher en Excel usando la función FDIST. Tomemos la probabilidad igual a 0,05. Recibido: = 4,75

Los valores calculados de la prueba F de Fisher para cada factor son comparables con valor de la tabla:

71,02 > = 4,75 el modelo es adecuado según este criterio.

Habiendo analizado los datos de acuerdo con los tres criterios, podemos concluir que el mejor modelo matemático es el factor del producto regional bruto, que se describe mediante la ecuación lineal

5. Para el modelo seleccionado de dependencia del precio del producto regional bruto

Predeciremos el valor promedio del indicador a un nivel de significancia si el valor predicho del factor es el 80% de su valor máximo. Presentémoslo gráficamente: valores reales y del modelo, puntos de pronóstico.

Calculemos el valor predicho de X, según la condición, será el 80% del valor máximo.

Calculemos X max en Excel usando la función MAX.

0,8 *52,8 = 42,24

Para obtener estimaciones predictivas de la variable dependiente, sustituimos el valor obtenido de la variable independiente en la ecuación lineal:

5,07+2,14*42,24 = 304,55 mil millones de rublos.

Determinemos el intervalo de confianza del pronóstico, que tendrá los siguientes límites:

Calcular intervalo de confianza para el valor predicho, calculamos la desviación de la línea de regresión.

Para un modelo de regresión pareada, el valor de desviación se calcula:

aquellos. valor de error estándar de la Tabla 1.5a.

(Dado que el número de grados de libertad es igual a uno, el denominador será igual a n-2). pronóstico de regresión de pares de correlación

Para calcular el coeficiente usaremos la función de Excel STUDISCOVER, tomaremos la probabilidad igual a 0,1 y el número de grados de libertad 38.

Calculamos el valor usando Excel y obtenemos 12294.


Determinemos los límites superior e inferior del intervalo.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Por lo tanto, el valor previsto = 304,55 mil dólares estará entre el límite inferior igual a 277,078 mil dólares. Y limite superior, equivalente a 332.022 millones. Frotar.

Los valores reales y del modelo y los puntos de pronóstico se presentan gráficamente en la Figura 1.2.


Figura 1.2

6. Utilizando regresión múltiple paso a paso (método de eliminación), construiremos un modelo para la formación del precio del producto regional bruto debido a factores importantes.

Para construir regresión múltiple Usemos la función de regresión de Excel, incluidos todos los factores. Como resultado, obtenemos las tablas de resultados, de las cuales necesitamos la prueba t de Student.

Tabla 1.8a

Tabla 1.8b

Cuadro 1.8c.

Obtenemos un modelo como:

Porque el< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Elijamos el valor absoluto más pequeño de la prueba t de Student, es igual a 8,427, compárelo con el valor de la tabla, que calculamos en Excel, tomemos el nivel de significancia igual a 0,10, el número de grados de libertad n-m-1= 12-4=8: =1,8595

Dado que 8,427>1,8595 el modelo debe considerarse adecuado.

7. Para evaluación factor significativo modelo matemático obtenido, calcular los coeficientes de elasticidad y - coeficientes

El coeficiente de elasticidad muestra en qué porcentaje cambiará el atributo efectivo cuando el atributo del factor cambie en un 1%:

EX4 = 2,137 * (10,69/24,182) = 0,94%

Es decir, con un aumento de la inversión en capital fijo del 1%, el coste en promedio aumenta un 0,94%.

El coeficiente muestra en qué parte de la desviación estándar cambia el valor promedio de la variable dependiente con un cambio en la variable independiente de una desviación estándar.

2,137* (14.736/33,632) = 0,936.

Los datos de la desviación estándar se toman de tablas obtenidas utilizando la herramienta Estadística Descriptiva.

Cuadro 1.11 Estadísticas descriptivas (Y)

Tabla 1.12 Estadísticas descriptivas (X4)

El coeficiente determina la proporción de la influencia del factor en la influencia total de todos los factores:

Para calcular los coeficientes de correlación de pares, calculamos la matriz de coeficientes de correlación de pares en Excel usando la herramienta Correlación en la configuración de Análisis de datos.

Tabla 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Conclusión: De los cálculos obtenidos, podemos concluir que el atributo efectivo Y (producto regional bruto) tiene una gran dependencia del factor X1 (inversión en capital fijo) (en un 100%).

Bibliografía

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometría. curso principiante. Tutorial. 2da ed. - M.: Delo, 1998. - p. 69-74.
  • 2. Taller de econometría: Libro de texto / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko y otros 2002. - p. 49-105.
  • 3. Dougherty K. Introducción a la econometría: Transl. De inglés - M.: INFRA-M, 1999. - XIV, p. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Matemáticas aplicadas y fundamentos de la econometría. -1998., págs. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Econometría. -2007. de 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

El análisis de la matriz de coeficientes de correlación pareados muestra que el indicador efectivo está más estrechamente relacionado con el indicador. X(4) - la cantidad de fertilizante consumido por 1 hectárea ().

Al mismo tiempo, la conexión entre los atributos-argumentos es bastante estrecha. Por tanto, existe una relación prácticamente funcional entre el número de tractores de ruedas ( X(1)) y el número de herramientas de labranza superficial .

La presencia de multicolinealidad también está indicada por los coeficientes de correlación y . Considerando la estrecha relación entre los indicadores X (1) , X(2) y X(3), sólo uno de ellos puede incluirse en el modelo de regresión de rendimiento.

Para demostrar el impacto negativo de la multicolinealidad, considere un modelo de regresión de rendimiento, que incluya todos los indicadores de entrada:

F obs = 121.

Los valores de las estimaciones corregidas de las desviaciones estándar de las estimaciones de los coeficientes de la ecuación se indican entre paréntesis. .

Bajo la ecuación de regresión se presentan los siguientes parámetros de adecuación: coeficiente de determinación múltiple; estimación corregida de la varianza residual, error relativo promedio de aproximación y valor calculado del criterio F obs = 121.

La ecuación de regresión es significativa porque F obs = 121 > F kp = 2,85 encontrado en la tabla F-distribuciones a a=0,05; norte1 =6 y norte2 =14.

De esto se deduce que Q¹0, es decir y al menos uno de los coeficientes de la ecuación q j (j= 0, 1, 2, ..., 5) no es cero.

Para probar la hipótesis sobre la importancia de los coeficientes de regresión individuales H0: q j =0, donde j=1,2,3,4,5, comparar valor crítico t kp = 2,14, encontrado en la tabla t-distribuciones al nivel de significancia a=2 q=0,05 y el número de grados de libertad n=14, con el valor calculado . De la ecuación se deduce que el coeficiente de regresión es estadísticamente significativo sólo cuando X(4) desde ½ t 4 ½=2.90 > t kp = 2,14.



No susceptible de interpretación económica signos negativos coeficientes de regresión en X(1) y X(5) . De los valores negativos de los coeficientes se deduce que el aumento en la saturación de la agricultura con tractores de ruedas ( X(1)) y productos fitosanitarios ( X(5)) tiene un efecto negativo sobre el rendimiento. Por tanto, la ecuación de regresión resultante es inaceptable.

Para obtener una ecuación de regresión con coeficientes significativos, utilizamos algoritmo paso a paso análisis de regresión. Inicialmente utilizamos un algoritmo paso a paso con eliminación de variables.

Excluyamos la variable del modelo. X(1) , que corresponde al mínimo valor absoluto valor ½ t 1 ½ = 0,01. Para las variables restantes, construimos nuevamente la ecuación de regresión:

La ecuación resultante es significativa porque F observado = 155 > F kp = 2,90, encontrado en el nivel de significancia a = 0,05 y los números de grados de libertad n 1 = 5 y n 2 = 15 según la tabla F-distribución, es decir vector q¹0. Sin embargo, sólo el coeficiente de regresión en X(4) . Valores estimados ½ t j ½ para otros coeficientes es menor t kr = 2.131, encontrado en la tabla t-distribuciones en a=2 q=0,05 yn=15.

Excluyendo la variable del modelo. X(3) , que corresponde al valor mínimo t 3 =0,35 y obtenemos la ecuación de regresión:

(2.9)

En la ecuación resultante, el coeficiente en X(5) . Al excluir X(5) obtenemos la ecuación de regresión:

(2.10)

Tenemos ecuación significativa regresiones con coeficientes significativos e interpretables.

Sin embargo, la ecuación resultante no es el único modelo de rendimiento “bueno” ni el “mejor” de nuestro ejemplo.

demostremos que en la condición de multicolinealidad, un algoritmo paso a paso con la inclusión de variables es más eficiente. El primer paso en el modelo de rendimiento. y variable incluida X(4), que tiene el coeficiente de correlación más alto con y, explicado por la variable - r(y,X(4))=0,58. En el segundo paso, incluyendo la ecuación junto con X(4) variables X(1) o X(3), obtendremos modelos que, por razones económicas y características estadísticas, superan (2.10):

(2.11)

(2.12)

Incluir cualquiera de las tres variables restantes en la ecuación empeora sus propiedades. Véase, por ejemplo, la ecuación (2.9).

Por lo tanto, tenemos tres modelos de rendimiento “buenos”, de los cuales debemos elegir uno por razones económicas y estadísticas.

Según criterios estadísticos, el modelo (2.11) es el más adecuado. Corresponde a los valores mínimos de varianza residual = 2,26 y al error relativo medio de aproximación y valores más altos y F obs = 273.

Alguno peor desempeño el modelo (2.12) tiene adecuación, y luego el modelo (2.10).

Ahora elegiremos el mejor de los modelos (2.11) y (2.12). Estos modelos se diferencian entre sí en términos de variables. X(1) y X(3) . Sin embargo, en los modelos de rendimiento la variable X(1) (número de tractores de ruedas por 100 ha) es más preferible que variable X(3) (número de implementos de labranza superficial por 100 ha), que en cierta medida es secundario (o derivado de X (1)).

En este sentido, por razones económicas, se debe dar preferencia al modelo (2.12). Así, luego de implementar el algoritmo de análisis de regresión por pasos con la inclusión de variables y teniendo en cuenta que solo una de las tres variables relacionadas debe entrar en la ecuación ( X (1) , X(2) o X(3)) elija la ecuación de regresión final:

La ecuación es significativa en a=0.05, porque F obs = 266 > F kp = 3,20, encontrado en la tabla F-distribuciones en a= q=0,05; norte 1 = 3 y norte 2 = 17. Todos los coeficientes de regresión en la ecuación ½ también son significativos t j½> t kp(a=2 q=0,05; n=17)=2,11. El coeficiente de regresión q 1 debe considerarse significativo (q 1 ¹0) por razones económicas, mientras que t 1 = 2,09 sólo un poco menos t kp = 2,11.

De la ecuación de regresión se deduce que un aumento de uno en el número de tractores por cada 100 hectáreas de tierra cultivable (a un valor fijo X(4)) conduce a un aumento del rendimiento de cereales de una media de 0,345 c/ha.

Un cálculo aproximado de los coeficientes de elasticidad e 1 »0,068 y e 2 »0,161 muestra que con indicadores crecientes X(1) y X(4) en un 1%, el rendimiento de grano aumenta en promedio un 0,068% y un 0,161%, respectivamente.

Coeficiente múltiple Esta determinación indica que sólo el 46,9% de la variación del rendimiento se explica por los indicadores incluidos en el modelo ( X(1) y X(4)), es decir, la saturación de la producción agrícola con tractores y fertilizantes. El resto de la variación se debe a la acción de factores no contabilizados ( X (2) , X (3) , X(5), condiciones climáticas, etc.). El error relativo promedio de aproximación caracteriza la adecuación del modelo, así como el valor de la varianza residual. Al interpretar la ecuación de regresión, los valores de interés son errores relativos aproximaciones . Recordemos que - el valor modelo del indicador efectivo caracteriza el valor de rendimiento promedio para la totalidad de las regiones consideradas, siempre que los valores de las variables explicativas X(1) y X(4) se fijan al mismo nivel, es decir X (1) = xyo(1) y X (4) = xi(4) . Luego, según los valores de d i Puede comparar regiones por rendimiento. Áreas a las que corresponden los valores d i>0, tener un rendimiento superior al promedio y d i<0 - ниже среднего.

En nuestro ejemplo, en términos de rendimiento, la producción agrícola es más efectiva en el área correspondiente a d 7 =28%, donde el rendimiento es 28% superior al promedio regional, y la menos efectiva es en la zona con d 20 =-27,3%.


Tareas y ejercicios.

2.1. De la población general ( y, X (1) , ..., X(p)), donde y tiene una ley de distribución normal con expectativa matemática condicional y varianza s 2, una muestra aleatoria de norte, Déjalo ir ( y yo, xyo (1) , ..., xyo(p)) - resultado i a observación ( i=1, 2, ..., norte). Determine: a) la expectativa matemática de la estimación de mínimos cuadrados del vector q; b) matriz de covarianza de la estimación de mínimos cuadrados del vector q; c) expectativa matemática de la evaluación.

2.2. De acuerdo con las condiciones del problema 2.1, encuentre la esperanza matemática de la suma de las desviaciones al cuadrado debidas a la regresión, es decir, Ecualizador R, Dónde

.

2.3. De acuerdo con las condiciones del problema 2.1, determine la expectativa matemática de la suma de las desviaciones al cuadrado causadas por la variación residual con respecto a las líneas de regresión, es decir, Ecualizador este, donde

2.4. Demostrar que cuando se cumple la hipótesis H 0: q=0 estadística

tiene una distribución F con grados de libertad n 1 =p+1 y n 2 =n-p-1.

2.5. Demuestre que cuando se cumple la hipótesis H 0: q j =0, la estadística tiene una distribución t con el número de grados de libertad n=n-p-1.

2.6. Basado en los datos (Tabla 2.3) de la dependencia de la contracción del pan forrajero ( y) sobre la duración del almacenamiento ( X) encuentre una estimación puntual de la expectativa condicional bajo el supuesto de que la ecuación de regresión general es lineal.

Tabla 2.3.

Se requiere: a) encontrar estimaciones de la varianza residual s 2 bajo el supuesto de que la ecuación de regresión general tiene la forma ; b) comprobar en a=0,05 la significancia de la ecuación de regresión, es decir hipótesis H 0: q=0; c) con confiabilidad g=0,9, determinar estimaciones de intervalo de los parámetros q 0, q 1; d) con confiabilidad g=0.95, determine la estimación de intervalo de la expectativa matemática condicional en X 0 =6; e) determinar en g=0,95 el intervalo de confianza de la predicción en el punto X=12.

2.7. Basado en datos sobre la dinámica de la tasa de crecimiento de los precios de las acciones durante 5 meses, que figuran en la tabla. 2.4.

Tabla 2.4.

meses ( X)
y (%)

y el supuesto de que la ecuación de regresión general tiene la forma , se requiere: a) determinar estimaciones tanto de los parámetros de la ecuación de regresión como de la varianza residual s 2 ; b) comprobar en a=0,01 la significancia del coeficiente de regresión, es decir hipótesis H 0: q 1 =0;

c) con confiabilidad g=0,95, encuentre estimaciones de intervalo de los parámetros q 0 y q 1; d) con confiabilidad g=0.9, establecer una estimación de intervalo de la expectativa matemática condicional en X 0 =4; e) determinar en g=0,9 el intervalo de confianza de la predicción en el punto X=5.

2.8. Los resultados del estudio de la dinámica del aumento de peso de los animales jóvenes se dan en la Tabla 2.5.

Tabla 2.5.

Suponiendo que la ecuación de regresión general es lineal, se requiere: a) determinar estimaciones tanto de los parámetros de la ecuación de regresión como de la varianza residual s 2 ; b) comprobar en a=0,05 la significancia de la ecuación de regresión, es decir hipótesis H 0: q=0;

c) con confiabilidad g=0,8, encuentre estimaciones de intervalo de los parámetros q 0 y q 1; d) con confiabilidad g=0.98, determinar y comparar estimaciones de intervalo de la expectativa matemática condicional en X 0 = 3 y X 1 =6;

e) determinar en g=0,98 el intervalo de confianza de la predicción en el punto X=8.

2.9. Costo ( y) un ejemplar del libro según la tirada ( X) (miles de ejemplares) se caracteriza por los datos recopilados por la editorial (Tabla 2.6). Determinar estimaciones de mínimos cuadrados y parámetros de una ecuación de regresión hiperbólica, con confiabilidad g=0.9, construir intervalos de confianza para los parámetros q 0 y q 1, así como la expectativa condicional en X=10.

Tabla 2.6.

Determine las estimaciones y parámetros de la ecuación de regresión de la forma , pruebe la hipótesis H 0 en a = 0,05: q 1 = 0 y construya intervalos de confianza con confiabilidad g = 0,9 para los parámetros q 0 y q 1 y la expectativa matemática condicional en X=20.

2.11. En mesa 2.8 presentó datos sobre las tasas de crecimiento (%) de los siguientes indicadores macroeconómicos norte=10 países desarrollados del mundo para 1992: PNB - X(1) , producción industrial - X(2), índice de precios - X (3) .

Tabla 2.8.

Países x y parámetros de la ecuación de regresión, estimación de la varianza residual; b) comprobar en a=0,05 la significancia del coeficiente de regresión, es decir H 0: q 1 =0; c) con confiabilidad g=0,9, encuentre estimaciones de intervalo q 0 y q 1; d) encuentre en g=0,95 el intervalo de confianza para en el punto X 0 =xyo, Dónde i=5; e) comparar las características estadísticas de las ecuaciones de regresión: 1, 2 y 3.

2.12. Resuelva el problema 2.11 tomando ( en) índice X(1), y para la explicativa ( X) variable X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de econometría: Libro de texto. M., UNIDAD, 1998 (2ª edición 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada en problemas y ejercicios: Libro de texto. M. UNIDAD - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Estadísticas aplicadas. Investigación de dependencia. M., Finanzas y Estadística, 1985, 487 págs.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Estadísticas aplicadas. Clasificación y reducción de dimensiones. M., Finanzas y Estadísticas, 1989, 607 págs.;

5. Johnston J. Métodos econométricos, M.: Estadísticas, 1980, 446 págs.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Métodos estadísticos multivariados. M., Finanzas y Estadísticas, 2000;

7. Mkhitaryan V.S., Troshin L.I. Estudio de dependencias mediante métodos de correlación y regresión. M., MESI, 1995, 120 págs.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Métodos estadísticos multivariados en economía. M., MESI, 1995, 149 págs.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Estadística matemática para empresarios y directivos. M., MESI, 2000, 140 págs.;

10. Lukashin Yu.I. Métodos de regresión y pronóstico adaptativo: Libro de texto, M., MESI, 1997.

11. Lukashin Yu.I. Métodos adaptativos de previsión a corto plazo. - M., Estadísticas, 1979.


APLICACIONES


Anexo 1. Opciones de tareas para la investigación informática independiente.

Factores colineales...

Solución:

Se considera que las dos variables son claramente colineales, es decir están en una relación lineal entre sí si . En nuestro modelo, sólo el coeficiente de regresión lineal pareada entre factores y es mayor que 0,7. , lo que significa que los factores son colineales.

4. En el modelo de regresión múltiple, el determinante de la matriz de coeficientes de correlación pareada entre factores, y es cercano a cero. Esto significa que los factores , y...

multicolineal

independiente

cuantificable

Solución:

Para evaluar la multicolinealidad de factores, se puede utilizar el determinante de la matriz de coeficientes de correlación pareados entre factores. Si los factores no están correlacionados entre sí, entonces la matriz de coeficientes de correlación pareados entre los factores sería unitaria. Dado que todos los elementos no diagonales sería igual a cero.
, ya que = = y = = =0.
Si existe una relación lineal completa entre los factores y todos los coeficientes de correlación de pares son iguales a uno, entonces el determinante de dicha matriz es igual a cero.


Cuanto más cerca de cero esté el determinante de la matriz de correlación entre factores, más fuerte será la multicolinealidad de los factores y menos fiables serán los resultados de la regresión múltiple. Y, a la inversa, cuanto más cerca de uno esté el determinante de la matriz de correlación entre factores, menor será la multicolinealidad de los factores.

5. Para un modelo econométrico de una ecuación de regresión lineal múltiple de la forma, una matriz de coeficientes de correlación lineal pareados ( y- variable dependiente; x (1),x (2), x (3), x (4)- variables independientes):


Variables independientes (explicativas) colineales (estrechamente relacionadas) no son

x(2) Y x (3)

x (1) Y x (3)

x (1) Y x (4)

x(2) Y x (4)

Solución:

Al construir un modelo de regresión múltiple, es necesario excluir la posibilidad de que exista una estrecha relación lineal entre las variables independientes (explicativas), lo que conduce al problema de la multicolinealidad. En este caso, se verifican los coeficientes de correlación lineal para cada par de variables independientes (explicativas). Estos valores se reflejan en la matriz de coeficientes de correlación lineal pareados. Se cree que la presencia de coeficientes de correlación por pares entre variables explicativas superiores a 0,7 en valor absoluto refleja una estrecha relación entre estas variables (estrechez de la relación con la variable y no considerado en este caso). Estas variables independientes se denominan colineales. Si el valor del coeficiente de correlación por pares entre variables explicativas no excede 0,7 en valor absoluto, entonces dichas variables explicativas no son colineales. Consideremos los valores de los coeficientes de correlación interfactorial emparejados: entre x (1) Y x(2) el valor es 0,45; entre x (1) Y x (3)– es igual a 0,82; entre x (1) Y x (4)– es igual a 0,94; entre x(2) Y x (3)– igual a 0,3; entre x(2) Y x (4)– es igual a 0,7; entre x (3) Y x (4)– es igual a 0,12. Así, los valores de , , no superan 0,7. Por lo tanto, colineal no son factores x (1) Y x(2), x(2) Y x (3), x (3) Y x (4). De los últimos pares enumerados, las opciones de respuesta contienen un par x(2) Y x (3)- Esta es la respuesta correcta. Para otras parejas: x (1 Y x (3), x (1) Y x (4), x(2) Y x (4)– los valores de los coeficientes de correlación entre factores pareados superan 0,7 y estos factores son colineales.

Tema 3: Variables ficticias

1. Se proporciona una tabla de datos iniciales para construir un modelo de regresión econométrica:

Variables ficticias no son

Experiencia laboral

Productividad laboral

el nivel de educación

nivel de calificación del empleado

Solución:

Al construir un modelo de regresión, puede surgir una situación en la que sea necesario incluir en la ecuación, además de variables cuantitativas, variables que reflejen algunas características de atributos (género, educación, región, etc.). Este tipo de variables cualitativas se denominan variables "ficticias". Para construir el modelo especificado en el enunciado de la tarea, se utilizan variables ficticias: nivel de educación y nivel de habilidad del empleado. Otras variables no son ficticio, de las opciones propuestas estas son la duración del servicio y la productividad laboral.

2. Al estudiar la dependencia del consumo de carne del nivel de ingresos y sexo del consumidor, podemos recomendar...

Utilice una variable ficticia: género del consumidor.

dividir la población en dos: para las consumidoras y para los consumidores masculinos

Utilice una variable ficticia: nivel de ingresos.

excluir de la consideración el género del consumidor, ya que este factor no se puede medir cuantitativamente

Solución:

Al construir un modelo de regresión, puede surgir una situación en la que sea necesario incluir en la ecuación, además de variables cuantitativas, variables que reflejen algunas características de atributos (género, educación, región, etc.). Este tipo de variables cualitativas se denominan variables "ficticias". Reflejan la heterogeneidad de la población estadística en estudio y se utilizan para modelar mejor las dependencias en objetos de observación tan heterogéneos. Al modelar dependencias individuales para datos heterogéneos, también se puede utilizar el método de dividir toda la colección de datos heterogéneos en varias colecciones separadas, cuyo número es igual al número de estados de la variable ficticia. Por lo tanto, las opciones de respuesta correctas son: “usar una variable ficticia: género del consumidor” y “dividir la población en dos: para consumidoras y para consumidores masculinos”.

3. Estudiamos la dependencia del precio de un apartamento ( en) desde su sala de estar ( X) y tipo de casa. El modelo incluye variables ficticias que reflejan los tipos de casas consideradas: monolíticas, de paneles y de ladrillo. La ecuación de regresión se obtuvo: ,
Dónde ,
Las ecuaciones de regresión particulares para ladrillos y monolíticos son...

para casa tipo ladrillo

para casa tipo monolítica

para casa tipo ladrillo

para casa tipo monolítica

Solución:

Se requiere encontrar la ecuación de regresión particular para casas de ladrillo y monolíticas. Para una casa de ladrillos, los valores de las variables ficticias son los siguientes: , . La ecuación tomará la forma: o Para el tipo de casa: ladrillo.
Para una casa monolítica, los valores de las variables ficticias son los siguientes: , . La ecuación tomará la forma
o para el tipo de casa monolítica.



Nuevo en el sitio

>

Más popular