Hogar Higiene Cómo encontrar el error promedio de aproximación en Excel. Estimación de la confiabilidad estadística de los resultados del modelo de regresión mediante la prueba F de Fisher

Cómo encontrar el error promedio de aproximación en Excel. Estimación de la confiabilidad estadística de los resultados del modelo de regresión mediante la prueba F de Fisher

Comprobemos la hipótesis H 0 sobre la igualdad de los coeficientes de regresión individuales a cero (si la alternativa no es igual a H 1) en el nivel de significancia b = 0,05.

Si la hipótesis principal resulta incorrecta, aceptamos la alternativa. Para probar esta hipótesis se utiliza la prueba t de Student.

El valor del criterio t encontrado a partir de datos observacionales (también llamados observados o reales) se compara con el valor tabulado (crítico) determinado a partir de las tablas de distribución de Student (que generalmente se encuentran al final de los libros de texto y talleres sobre estadística o econometría).

Valor de la tabla se determina dependiendo del nivel de significancia (b) y del número de grados de libertad, que en el caso de la regresión lineal de pares es igual a (n-2), n es el número de observaciones.

Si el valor real de la prueba t es mayor que el valor de la tabla (módulo), entonces se rechaza la hipótesis principal y se considera que con probabilidad (1-b) el parámetro o característica estadística en población significativamente diferente de cero.

Si el valor real de la prueba t es menor que el valor de la tabla (módulo), entonces no hay razón para rechazar la hipótesis principal, es decir, un parámetro o característica estadística en la población no difiere significativamente de cero en el nivel de significancia b.

t crítico (n-m-1;b/2) = (30;0,025) = 2,042

Desde 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в en este caso el coeficiente b puede despreciarse.

Desde 0,56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Intervalo de confianza para coeficientes de ecuaciones de regresión.

Determinemos los intervalos de confianza de los coeficientes de regresión, que con una confiabilidad del 95% quedarán como sigue:

  • (b - t crítico S b ; b + t crítico S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Dado que el punto 0 (cero) se encuentra dentro intervalo de confianza, entonces la estimación de intervalo del coeficiente b es estadísticamente insignificante.

  • (a - t crítico S a ; a + t crítico S a )
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Con una probabilidad del 95% se puede afirmar que el valor de este parámetro estará en el intervalo encontrado.

Dado que el punto 0 (cero) se encuentra dentro del intervalo de confianza, la estimación del intervalo del coeficiente a es estadísticamente insignificante.

2) Estadística F. Criterio de Fisher.

El coeficiente de determinación R2 se utiliza para probar la importancia de la ecuación. regresión lineal generalmente.

La prueba de significancia de un modelo de regresión se lleva a cabo mediante la prueba F de Fisher, cuyo valor calculado se encuentra como la relación entre la varianza de la serie original de observaciones del indicador en estudio y la estimación insesgada de la varianza de la secuencia residual. para este modelo.

Si el valor calculado con k 1 =(m) y k 2 =(n-m-1) grados de libertad es mayor que el valor tabulado en un nivel de significancia dado, entonces el modelo se considera significativo.

donde m es el número de factores en el modelo.

La significación estadística de la regresión lineal pareada se evalúa mediante el siguiente algoritmo:

  • 1. Se plantea la hipótesis nula de que la ecuación en su conjunto es estadísticamente insignificante: H 0: R 2 =0 en el nivel de significancia b.
  • 2. A continuación, determine el valor real del criterio F:

donde m=1 para regresión por pares.

3. El valor tabulado se determina a partir de las tablas de distribución de Fisher para un nivel de significancia dado, teniendo en cuenta que el número de grados de libertad para la suma total de cuadrados (mayor varianza) es 1 y el número de grados de libertad para el residual La suma de cuadrados (varianza más pequeña) en la regresión lineal es n-2.

La tabla F es el valor máximo posible del criterio bajo la influencia de factores aleatorios en determinados grados de libertad y nivel de significancia b. Nivel de significancia b: la probabilidad de rechazar la hipótesis correcta, siempre que sea cierta. Por lo general, b se considera igual a 0,05 o 0,01.

4. Si el valor real de la prueba F es menor que el valor de la tabla, entonces dicen que no hay razón para rechazar la hipótesis nula.

En caso contrario, se rechaza la hipótesis nula y con probabilidad (1-b) se acepta la hipótesis alternativa sobre la significancia estadística de la ecuación en su conjunto.

Valor de tabla del criterio con grados de libertad k 1 =1 y k 2 =30, F tabla = 4,17

Dado que el valor real de F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

La relación entre la prueba F de Fisher y el estadístico t de Student se expresa mediante la igualdad:

Indicadores de calidad de ecuaciones de regresión.

Pruebas de autocorrelación de residuos.

Un requisito previo importante para construir un modelo de regresión cualitativo utilizando MCO es la independencia de los valores de las desviaciones aleatorias de los valores de las desviaciones en todas las demás observaciones. De este modo se garantiza que no exista correlación entre desviaciones eventuales y, en particular, entre desviaciones adyacentes.

La autocorrelación (correlación serial) se define como la correlación entre indicadores observados ordenados en el tiempo (series temporales) o en el espacio (series cruzadas). La autocorrelación de residuos (varianzas) es común en el análisis de regresión cuando se utilizan datos de series de tiempo y muy rara cuando se utilizan datos transversales.

En los problemas económicos, la autocorrelación positiva es mucho más común que la autocorrelación negativa. En la mayoría de los casos, la autocorrelación positiva es causada por direccionalidad. exposición constante Algunos factores no se tienen en cuenta en el modelo.

La autocorrelación negativa significa esencialmente que a una desviación positiva le sigue una negativa y viceversa. Esta situación puede darse si se considera la misma relación entre la demanda de refrescos y los ingresos según datos estacionales (invierno-verano).

Entre las principales razones que provocan la autocorrelación se encuentran las siguientes:

  • 1. Errores de especificación. No tener en cuenta alguna variable explicativa importante en el modelo o una elección incorrecta de la forma de dependencia generalmente conduce a desviaciones sistémicas de los puntos de observación de la línea de regresión, lo que puede conducir a una autocorrelación.
  • 2. Inercia. Muchos indicadores económicos(inflación, desempleo, PNB, etc.) tienen un cierto carácter cíclico asociado a la ondulación de la actividad empresarial. Por tanto, el cambio de indicadores no se produce instantáneamente, sino que tiene cierta inercia.
  • 3. Efecto telaraña. En muchas áreas de producción y otras áreas, los indicadores económicos responden a los cambios en las condiciones económicas con retraso (desfase temporal).
  • 4. Suavizado de datos. A menudo, los datos correspondientes a un período de tiempo prolongado se obtienen promediando los datos de sus intervalos constituyentes. Esto puede conducir a una cierta suavización de las fluctuaciones que ocurrieron dentro del período considerado, lo que a su vez puede causar autocorrelación.

Las consecuencias de la autocorrelación son similares a las consecuencias de la heterocedasticidad: las conclusiones de los estadísticos t y F que determinan la importancia del coeficiente de regresión y el coeficiente de determinación probablemente sean incorrectas.

5. Utilizando la prueba F, se estableció que la ecuación de regresión pareada resultante en su conjunto es estadísticamente insignificante y no describe adecuadamente el fenómeno estudiado de la relación entre el valor de la pensión mensual y y el costo de vida x.

6. Se ha generado un modelo econométrico de regresión lineal múltiple, que vincula la cantidad de ingresos netos de una empresa condicional y con la rotación de capital x1 y el capital utilizado x2.

7. Al calcular los coeficientes de elasticidad, se muestra que cuando la rotación de capital cambia en un 1%, la cantidad de ingresos netos de la empresa cambia en un 0,0008%, y cuando el capital utilizado cambia en un 1%, la cantidad de ingresos netos de la empresa. cambia un 0,56%.

8. Mediante la prueba t se evaluó la significancia estadística de los coeficientes de regresión y se encontró que la variable explicativa x 1 es estadísticamente insignificante y puede excluirse de la ecuación de regresión, mientras que al mismo tiempo la variable explicativa x 2 es Estadísticamente significante.

9. Utilizando la prueba F, se estableció que la ecuación de regresión pareada resultante en su conjunto es estadísticamente significativa y describe adecuadamente el fenómeno estudiado de la relación entre el ingreso neto de una empresa condicional y y la rotación de capital x 1 y el capital utilizado. x2.

10. Se calculó el error promedio de aproximación de datos estadísticos mediante una ecuación lineal. regresión múltiple, que ascendió al 29,8%. Se muestra debido a qué observación en la base de datos estadística la magnitud de este error excede el valor permitido.

14. Construir un modelo de regresión pareada sin utilizar EXCEL.

Usando material estadístico dado en la tabla 3.5 es necesario:

2. Evaluar la cercanía de la conexión utilizando indicadores de correlación y determinación.

3.Utilizando el coeficiente de elasticidad, determine el grado de conexión entre la característica del factor y la resultante.

4.Definir error promedio aproximaciones.

5.Evaluar la confiabilidad estadística del modelado utilizando la prueba F de Fisher.

Tabla 3.5. Datos iniciales.

Participación de los ingresos en efectivo destinados a aumentar el ahorro en depósitos, préstamos, certificados y para la compra de moneda extranjera, en el monto total del ingreso en efectivo promedio per cápita, %

Salarios promedio mensuales acumulados, u.c.

Kaluzhskaya

Kostromskaya

Orlovskaya

Riazán

Smolenskaya

Para determinar los parámetros desconocidos b 0 , b 1 de la ecuación de regresión lineal pareada, utilizamos el sistema estándar de ecuaciones normales, que tiene la forma

(3.7)

Para resolver este sistema, primero es necesario determinar los valores de Sx 2 y Sxy. Estos valores se determinan a partir de la tabla de datos de origen, completándola con las columnas correspondientes (Tabla 3.6).

Tabla 3.6. Hacia el cálculo de coeficientes de regresión.

Entonces el sistema (3.7) toma la forma

Expresando b 0 de la primera ecuación y sustituyendo la expresión resultante en la segunda ecuación obtenemos:

Realizando la multiplicación término por término y abriendo los corchetes, obtenemos:

Finalmente, la ecuación de regresión lineal pareada que conecta el valor de la proporción de los ingresos en efectivo de la población destinada a aumentar el ahorro y con el salario mensual promedio acumulado x tiene la forma:

Entonces, a medida que se construye la ecuación de regresión lineal pareada, determinamos el coeficiente de correlación lineal según la dependencia:

¿Dónde están los valores de las desviaciones estándar de los parámetros correspondientes?

Para calcular el coeficiente de correlación lineal a partir de la dependencia (3.9), realizamos cálculos intermedios.

Sustituyendo los valores de los parámetros encontrados en la expresión (3.9) obtenemos

.

El valor obtenido del coeficiente de correlación lineal indica la presencia de una relación estadística inversa débil entre la proporción de ingresos en efectivo de la población destinada a aumentar el ahorro y y el monto de los salarios mensuales promedio acumulados x.

El coeficiente de determinación es , lo que significa que sólo el 9,6% se explica haciendo una regresión de la variable explicativa x sobre y. En consecuencia, el valor 1 igual al 90,4% caracteriza la proporción de la varianza de la variable y causada por la influencia de todas las demás variables explicativas no tomadas en cuenta en el modelo econométrico.

El coeficiente de elasticidad es

En consecuencia, cuando el salario promedio mensual acumulado cambia en un 1%, la proporción de los ingresos en efectivo de la población destinada a aumentar el ahorro también disminuye en un 1%, y con un aumento en los salarios, hay una disminución en la proporción de los ingresos en efectivo de la población. población encaminada a incrementar el ahorro. Esta conclusión contradice el sentido común y sólo puede explicarse por la incorrección del modelo matemático generado.

Calculemos el error de aproximación promedio.

Tabla 3.7. Hacia el cálculo del error medio de aproximación.

El valor obtenido excede el (12...15)%, lo que indica la importancia de la desviación promedio de los datos calculados de los datos reales sobre los cuales se construyó el modelo econométrico.

La confiabilidad del modelado estadístico se realizará sobre la base de la prueba F de Fisher. El valor teórico del criterio de Fisher F calc se determina a partir de la relación entre los valores del factor y las dispersiones residuales calculadas para un grado de libertad según la fórmula

donde n es el número de observaciones;

m es el número de variables explicativas (para el ejemplo considerado m m =1).

El valor crítico F crit se determina a partir de tablas estadísticas y para un nivel de significancia a = 0,05 equivale a 10,13. Desde F calculado

15. Construir un modelo de regresión múltiple sin utilizar EXCEL.

Utilizando el material estadístico proporcionado en la Tabla 3.8 usted debe:

1. construir ecuación lineal regresión múltiple, explique el significado económico de sus parámetros.

2. Dar una evaluación comparativa de la cercanía de la relación entre los factores y el atributo resultante utilizando coeficientes de elasticidad promedio (generales).

3. Tarifa significancia estadística coeficientes de regresión mediante la prueba t y la hipótesis nula de no significancia de la ecuación mediante la prueba F.

4. Evaluar la calidad de la ecuación determinando el error promedio de aproximación.

Tabla 3.8. Datos iniciales.

Utilidad neta, millones de dólares estadounidenses

Rotación de capital millones de dólares estadounidenses

Capital utilizado, millones Dólares estadounidenses

Para determinar los parámetros desconocidos b 0 , b 1 , b 2 de la ecuación de regresión lineal múltiple, utilizamos el sistema estándar de ecuaciones normales, que tiene la forma

(3.11)

Para resolver este sistema, primero es necesario determinar los valores de Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Estos valores se determinan a partir de la tabla de datos de origen, completándola con las columnas correspondientes (Tabla 3.9).

Tabla 3.9. Hacia el cálculo de coeficientes de regresión.

Entonces el sistema (3.11) toma la forma

Para resolver este sistema utilizaremos el método de Gauss, que consiste en eliminar secuencialmente las incógnitas: dividir la primera ecuación del sistema por 10, luego multiplicar la ecuación resultante por 370,6 y restarla de la segunda ecuación del sistema, luego multiplicar la ecuación resultante por 158,20 y restarla de la tercera ecuación del sistema. Repitiendo el algoritmo especificado para la segunda y tercera ecuaciones transformadas del sistema, obtenemos:

Þ Þ

Þ .

Después de la transformación tenemos:

Entonces, la dependencia final del ingreso neto de la rotación de capital y el capital utilizado en forma de ecuación de regresión lineal múltiple tiene la forma:

De la ecuación econométrica resultante se puede ver que con un aumento en el capital utilizado, el ingreso neto aumenta y, a la inversa, con un aumento en la rotación del capital, el ingreso neto disminuye. Además, cuanto mayor sea el coeficiente de regresión, mayor será la influencia de la variable explicativa sobre la variable dependiente. En el ejemplo considerado, el valor del coeficiente de regresión es mayor que el valor del coeficiente, por lo tanto, el capital utilizado tiene un impacto significativamente mayor en el ingreso neto que la rotación de capital. Para cuantificar esta conclusión, determinaremos los coeficientes de elasticidad parcial.

El análisis de los resultados también muestra que el capital utilizado tiene un mayor impacto en el resultado neto. Así, en particular, con un aumento del capital utilizado del 1%, el beneficio neto aumenta un 1,17%. Al mismo tiempo, con un aumento de la rotación de capital del 1%, el ingreso neto disminuye un 0,5%.

Valor teórico del criterio de Fisher F calc.

El valor del valor crítico F crit se determina a partir de tablas estadísticas y para un nivel de significancia de a = 0,05 es igual a 4,74. Dado que F calc > F crit, se rechaza la hipótesis nula y la ecuación de regresión resultante se acepta como estadísticamente significativa.

Evaluar la significación estadística de los coeficientes de regresión y el criterio t se reduce a comparar el valor numérico de estos coeficientes con la magnitud de sus errores aleatorios y según la relación:

La fórmula de trabajo para calcular el valor teórico del estadístico t es:

, (3.13)

donde los coeficientes de correlación de pares y el coeficiente de correlación múltiple se calculan a partir de las dependencias:

Entonces los valores teóricos (calculados) de la estadística t son respectivamente iguales a:

Dado que el valor crítico del estadístico t, determinado a partir de tablas estadísticas para el nivel de significancia a = 0,05 igual a t crit = 2,36, es mayor en valor absoluto que = - 1,798, entonces no se rechaza la hipótesis nula y la variable explicativa x 1 es estadísticamente insignificante y puede excluirse de la ecuación de regresión. Por el contrario, para la segunda regresión el coeficiente > t crit (3,3 > 2,36) y la variable explicativa x 2 es estadísticamente significativa.

Calculemos el error de aproximación promedio.

Tabla 3.10. Hacia el cálculo del error medio de aproximación.

Entonces el error de aproximación promedio es

El valor obtenido no supera el límite permitido igual a (12…15)%.

16. Historia del desarrollo de la teoría de la medición.

La TI se desarrolló por primera vez como una teoría de mediciones psicofísicas. En publicaciones de posguerra, el psicólogo estadounidense S.S. Stevens se centró en las escalas de medición. En la segunda mitad del siglo XX. El ámbito de aplicación de TI se está ampliando rápidamente. Uno de los volúmenes de la "Enciclopedia de Ciencias Psicológicas" publicado en Estados Unidos en los años 50 se llamaba "Medidas psicológicas". Los autores de esta publicación ampliaron el alcance de la TI desde la psicofísica a la psicología en general. En el artículo de esta colección, “Fundamentos de la teoría de la medición”, la presentación fue a un nivel matemático abstracto, sin referencia a ningún campo de aplicación específico. En él, se hizo hincapié en los “homomorfismos de sistemas empíricos con relaciones numéricas” (no es necesario entrar en estos términos matemáticos aquí), y la complejidad matemática de la presentación aumentó en comparación con los trabajos de S.S. Stevens.

En uno de los primeros artículos nacionales sobre TI (finales de los años 60), se estableció que los puntos asignados por los expertos al evaluar los objetos de examen se miden, por regla general, en una escala ordinal. Los trabajos que aparecieron a principios de los años 70 llevaron a una expansión significativa del alcance del uso de TI. Se ha aplicado a la cualimetría pedagógica (que mide la calidad del conocimiento de los estudiantes), en la investigación de sistemas y en diversos problemas teóricos. evaluaciones de expertos, para agregar indicadores de calidad del producto, en estudios sociológicos, etc.

Como dos problemas principales de TI, además de establecer el tipo de escala para medir datos específicos, se propuso la búsqueda de algoritmos de análisis de datos, cuyo resultado no cambia con ninguna transformación admisible de la escala (es decir, es invariante con respecto a esta transformación). Las escalas ordinales en geografía son la escala de vientos de Beaufort (“calma”, “viento suave”, “viento moderado”, etc.), escala de fuerza de terremoto. Obviamente, no se puede decir que un terremoto de magnitud 2 (una lámpara balanceada bajo el techo) sea exactamente 5 veces más débil que un terremoto de magnitud 10 (destrucción total de todo lo que hay en la superficie de la tierra).

En medicina, las escalas ordinales son la escala de etapas de hipertensión (según Myasnikov), la escala de grados de insuficiencia cardíaca (según Strazhesko-Vasilenko-Lang), la escala de gravedad de la insuficiencia coronaria (según Fogelson), etc. . Todas estas escalas se construyen según el siguiente esquema: ninguna enfermedad detectada; primera etapa de la enfermedad; Segunda etapa; tercera etapa... A veces se distinguen las etapas 1a, 16, etc.. Cada etapa tiene una característica médica única. Al describir los grupos de discapacidad, los números se utilizan en el orden opuesto: el más grave es el primer grupo de discapacidad, luego el segundo y el más leve es el tercero.

Los números de las casas también se miden en una escala ordinal: muestran en qué orden están ubicadas las casas a lo largo de la calle. Los números de volumen de las obras recopiladas de un escritor o los números de casos de un archivo empresarial suelen estar asociados con el orden cronológico de su creación.

Al evaluar la calidad de productos y servicios, las escalas ordinales son populares en la llamada cualimetría (traducción literal - medición de la calidad). Es decir, una unidad de producción se considera transitable o no apta. Para un análisis más exhaustivo, se utiliza una escala con tres gradaciones: hay defectos importantes, sólo hay defectos menores, no hay defectos. A veces se utilizan cuatro gradaciones: hay defectos críticos (que hacen imposible su uso) - hay defectos importantes - sólo hay defectos menores - no hay defectos. La clasificación de los productos tiene un significado similar: premium, primer grado, segundo grado,...

Al evaluar los impactos ambientales, la primera evaluación, la más general, suele ser ordinal, por ejemplo: el medio ambiente natural es estable, el medio ambiente natural está oprimido (degradado). La escala médico-ambiental es similar: no hay un impacto pronunciado en la salud humana; se observa un impacto negativo en la salud.

La escala ordinal también se utiliza en otras áreas. En econometría, se trata principalmente de diversos métodos de evaluación de expertos.

Todas las escalas de medición se dividen en dos grupos: escalas de características cualitativas y escalas de características cuantitativas. La escala ordinal y la escala de denominación son las principales escalas de atributos cualitativos, por lo que en muchas áreas específicas los resultados del análisis cualitativo pueden considerarse como mediciones en estas escalas. Las escalas de características cuantitativas son escalas de intervalos, razones, diferencias, absolutas. Utilizando una escala de intervalo, se mide la magnitud de la energía potencial o la coordenada de un punto en una línea recta. En estos casos no se podrá marcar en la escala ni el origen natural ni la unidad de medida natural. El investigador debe fijar el punto de partida y elegir él mismo la unidad de medida. Las transformaciones aceptables en la escala de intervalo son transformaciones lineales crecientes, es decir funciones lineales. Las escalas de temperatura Celsius y Fahrenheit están conectadas exactamente por esta dependencia: °C = 5/9 (°F - 32), donde °C es la temperatura (en grados) en la escala Celsius y °F es la temperatura en Fahrenheit. escala.

De las escalas cuantitativas, las más comunes en la ciencia y la práctica son las escalas de razones. Tienen un punto de referencia natural: cero, es decir. ausencia de cantidad, pero no de unidad natural de medida. La mayoría de las unidades físicas se miden en la escala de proporción: masa corporal, longitud, carga y precios en la economía. Las transformaciones aceptables en la escala de razón son similares (cambiando sólo la escala). Es decir, transformaciones lineales crecientes sin término libre, por ejemplo, convertir precios de una moneda a otra a un tipo fijo. Supongamos que comparamos la eficiencia económica de dos proyectos de inversión utilizando precios en rublos. Dejemos que el primer proyecto resulte mejor que el segundo. Ahora pasemos a la moneda china, el yuan, utilizando un tipo de conversión fijo. Evidentemente, el primer proyecto debería volver a ser más rentable que el segundo. Sin embargo, los algoritmos de cálculo no garantizan automáticamente que se cumpla esta condición, y es necesario comprobar que se cumpla. Los resultados de dicha prueba para valores promedio se describen a continuación.

Una escala de diferencia tiene una unidad de medida natural, pero no un punto de referencia natural. El tiempo se mide en una escala de diferencias, si se toma como unidad de medida natural el año (o el día, de mediodía a mediodía), y en una escala de intervalos en caso general. Con el nivel actual de conocimientos, es imposible indicar un punto de partida natural. Diferentes autores calculan de diferentes formas la fecha de la creación del mundo, así como el momento de la Natividad de Cristo.

Sólo en la escala absoluta los resultados de la medición son números en el sentido habitual de la palabra, por ejemplo, el número de personas en una habitación. Para una escala absoluta, sólo se permite una transformación de identidad.

En el proceso de desarrollo del correspondiente campo de conocimiento, el tipo de escala puede cambiar. Entonces, al principio la temperatura se midió en una escala ordinal (más fría - más cálida). Luego, según el intervalo (escalas Celsius, Fahrenheit, Reaumur). Finalmente, tras el descubrimiento del cero absoluto, la temperatura puede considerarse medida en una escala de razón (escala Kelvin). Cabe señalar que en ocasiones existen desacuerdos entre los especialistas sobre qué escalas se deben utilizar para considerar determinados valores reales medidos. En otras palabras, el proceso de medición también incluye determinar el tipo de escala (junto con la justificación para elegir un tipo particular de escala). Además de los seis tipos principales de escalas enumerados, a veces se utilizan otras escalas.

17. Algoritmos invariantes y valores medios.

Formulemos el requisito principal para los algoritmos de análisis de datos en TI: las conclusiones extraídas sobre la base de datos medidos en una escala de cierto tipo no deben cambiar cuando la escala de medición de estos datos es permisible. En otras palabras, las inferencias deben ser invariantes bajo transformaciones de escala válidas.

Así, uno de los principales objetivos de la teoría de la medición es combatir la subjetividad del investigador a la hora de asignar valores numéricos a objetos reales. Así, las distancias se pueden medir en arshins, metros, micrones, millas, pársecs y otras unidades de medida. Masa (peso): en poods, kilogramos, libras, etc. Los precios de bienes y servicios se pueden indicar en yuanes, rublos, tenge, hryvnia, lats, coronas, marcos, dólares estadounidenses y otras monedas (sujeto a tipos de conversión específicos). Destaquemos un hecho muy importante, aunque bastante obvio: la elección de las unidades de medida depende del investigador, es decir subjetivo. Las conclusiones estadísticas pueden ser adecuadas a la realidad sólo cuando no dependen de qué unidad de medida prefiere el investigador, cuando son invariantes con respecto a la transformación permisible de la escala. De los muchos algoritmos para el análisis de datos econométricos, sólo unos pocos satisfacen esta condición. Demostremos esto comparando valores promedio.

Sea X 1, X 2,.., X n una muestra del volumen n. A menudo se utiliza la media aritmética. El uso del promedio aritmético es tan común que la segunda palabra del término a menudo se omite y la gente habla del salario promedio, el ingreso promedio y otros promedios para datos económicos específicos, entendiendo por “promedio” el promedio aritmético. Esta tradición puede llevar a conclusiones erróneas. Demostremos esto usando el ejemplo del cálculo del salario promedio (ingreso promedio) de los empleados de una empresa hipotética. De 100 trabajadores, sólo 5 tienen un salario que lo supera, y el salario de los 95 restantes es significativamente menor que la media aritmética. La razón es obvia: el salario de una persona, el director general, supera el salario de 95 trabajadores: trabajadores poco cualificados y altamente cualificados, ingenieros y oficinistas. La situación recuerda a la descrita en una conocida historia sobre un hospital en el que hay 10 pacientes, 9 de los cuales tienen una temperatura de 40°C, y uno ya ha sufrido, yaciendo en la morgue con una temperatura de 0°C. C. Mientras tanto, la temperatura media en el hospital es de 36°C. ¡No podría ser mejor!

Por tanto, la media aritmética sólo puede utilizarse para poblaciones bastante homogéneas (sin grandes valores atípicos en una dirección u otra). ¿Qué promedios deberían usarse para describir los salarios? Es bastante natural utilizar la mediana, la media aritmética de los empleados 50 y 51, si sus salarios dispuestos en orden no descendente. Primero vienen los salarios de 40 trabajadores poco cualificados y luego, del trabajador 41 al 70, los salarios de los trabajadores altamente cualificados. En consecuencia, la mediana cae precisamente sobre ellos y es igual a 200. Para 50 trabajadores, el salario no supera los 200, y para 50, al menos 200, por lo que la mediana muestra el "centro" alrededor del cual se encuentra la mayor parte de los valores estudiados. ​están agrupados. Otro valor promedio es la moda, el valor que ocurre con más frecuencia. En el caso que nos ocupa, se trata de los salarios de los trabajadores poco cualificados, es decir, 100. Así, para describir el salario tenemos tres valores medios: la moda (100 unidades), la mediana (200 unidades) y la media aritmética (400 unidades).

Para las distribuciones de ingresos y salarios observadas en la vida real, el mismo patrón es válido: la moda es menor que la mediana y la mediana es menor que la media aritmética.

¿Por qué se utilizan promedios en economía? Normalmente, se reemplaza una colección de números por un solo número para comparar poblaciones utilizando promedios. Sea, por ejemplo, Y 1, Y 2,..., Y n un conjunto de evaluaciones de expertos “dadas” a un objeto de especialización (por ejemplo, una de las opciones para el desarrollo estratégico de una empresa), Z 1 , Z 2,..., Z n -el segundo (otra versión de este desarrollo). ¿Cómo se comparan estas poblaciones? Evidentemente, la forma más sencilla es mediante valores medios.

¿Cómo calcular promedios? Conocido diferentes tipos valores promedio: media aritmética, mediana, moda, media geométrica, media armónica, media cuadrática. Recordemos que concepto general El valor medio fue introducido por un matemático francés de la primera mitad del siglo XIX. Académico O. Cauchy. Es el siguiente: el valor promedio es cualquier función Ф(Х 1, Х 2,..., Х n) tal que para todos valores posibles argumentos, el valor de esta función no es menor que el mínimo de los números X 1, X 2,..., X n, y no mayor que el máximo de estos números. Todos los tipos de promedios enumerados anteriormente son promedios de Cauchy.

Con una transformación de escala aceptable, el valor del promedio obviamente cambia. Pero las conclusiones sobre para qué población el promedio es mayor y para cuál es menor no deberían cambiar (de acuerdo con el requisito de invariancia de conclusiones, aceptado como requisito principal en TI). Formulemos el correspondiente problema matemático de búsqueda del tipo de valores medios cuyo resultado de la comparación sea estable con respecto a las transformaciones de escala admisibles.

Sea Ф(Х 1 Х 2 ,..., Х n) el promedio de Cauchy. Sea el promedio de la primera población menor que el promedio de la segunda población: entonces, según TI, para la estabilidad del resultado de la comparación de promedios, es necesario que para cualquier transformación g admisible del grupo de transformaciones admisibles en la escala correspondiente es cierto que el promedio de los valores transformados de la primera población también es menor que el promedio de los valores transformados para el segundo conjunto. Además, la condición formulada debe ser verdadera para dos conjuntos cualesquiera Y 1, Y 2,...,Y n y Z 1, Z 2,..., Z n y, recordemos, cualquier transformación admisible. Llamamos admisibles los valores medios que satisfacen la condición formulada (en la escala adecuada). Según TI, sólo estos promedios pueden utilizarse al analizar opiniones de expertos y otros datos medidos en la escala considerada.

Mediante el uso teoría matemática, desarrollado en los años 1970, logra describir el tipo de promedios aceptables en escalas básicas. Está claro que para datos medidos en una escala de nombres, solo la moda es adecuada como promedio.

18. Valores medios en escala ordinal

Consideremos el procesamiento de opiniones de expertos medido en una escala ordinal. La siguiente afirmación es cierta.

Teorema1 . De todos los promedios de Cauchy, los únicos promedios aceptables en la escala ordinal son los términos serie de variación(estadísticas ordinales).

El teorema 1 es válido siempre que el promedio Ф(Х 1 Х 2 ,..., Х n) sea una función continua (sobre el conjunto de variables) y simétrica. Esto último significa que cuando se reorganizan los argumentos, el valor de la función Ф(Х 1 Х 2 ,..., Х n) no cambia. Esta condición es bastante natural, porque encontramos el valor promedio para la totalidad (conjunto) y no para la secuencia. El conjunto no cambia según el orden en que enumeremos sus elementos.

Según el Teorema 1, en particular, la mediana se puede utilizar como promedio para datos medidos en una escala ordinal (si el tamaño de la muestra es impar). Si el volumen es par, se debe utilizar uno de los dos términos centrales de la serie de variación, como a veces se les llama, la mediana izquierda o la mediana derecha. También se puede utilizar la moda: siempre forma parte de la serie de variaciones. Pero nunca podrás calcular la media aritmética, la media geométrica, etc.

El siguiente teorema es verdadero.

Teorema 2. Sean Y 1, Y 2,...,Y m variables aleatorias independientes distribuidas idénticamente con la función de distribución F(x), y Z 1, Z 2,..., Zn variables aleatorias independientes distribuidas idénticamente con la función de distribución H(x), y las muestras Y 1, Y 2,...,Y m y Z 1, Z 2,..., Z n son independientes entre sí y MY X > MZ X. Para que la probabilidad de un evento tienda a 1 en min(m, n) para cualquier función continua estrictamente creciente g que satisfaga la condición |g i |>X es necesario y suficiente que la desigualdad F(x) se cumpla para todos X< Н(х), причем существовало число х 0 , для которого F(x 0)

Nota. La condición con el límite superior es de naturaleza puramente intramatemática. De hecho, la función g es una transformación arbitraria admisible en una escala ordinal.

Según el teorema 2, la media aritmética también se puede utilizar en una escala ordinal si se comparan muestras de dos distribuciones que satisfacen la desigualdad dada en el teorema. En pocas palabras, una de las funciones de distribución siempre debe estar por encima de la otra. Las funciones de distribución no pueden cruzarse, sólo se les permite tocarse entre sí. Esta condición se cumple, por ejemplo, si las funciones de distribución difieren sólo en el turno:

F(x) = Н(x + ∆)

para algunos ∆.

La última condición se cumple si se miden dos valores de una determinada cantidad utilizando el mismo instrumento de medida, en el que la distribución de errores no cambia al pasar de medir un valor de la cantidad en cuestión a medir otro.

Promedio según Kolmogorov

Una generalización de varios de los promedios enumerados anteriormente es el promedio de Kolmogorov. Para los números X 1, X 2,..., X n, el promedio de Kolmogorov se calcula mediante la fórmula

G((F(X l) + F(X 2)+...F(X n))/n),

donde F es una función estrictamente monótona (es decir, estrictamente creciente o estrictamente decreciente),

G es la función inversa de F.

Entre los promedios de Kolmogorov hay muchos personajes famosos. Entonces, si F(x) = x, entonces la media de Kolmogorov es la media aritmética, si F(x) = lnx, entonces la media geométrica, si F(x) = 1/x, entonces la media armónica, si F( x) = x 2, luego el cuadrado medio, etc. El promedio de Kolmogorov es un caso especial del promedio de Cauchy. Por otra parte, promedios tan populares como la mediana y la moda no pueden representarse como promedios de Kolmogorov. Las siguientes afirmaciones están probadas en la monografía.

Teorema3 . Si ciertas condiciones intramatemáticas de regularidad en la escala de intervalos son válidas, de todas las medias de Kolmogorov, sólo la media aritmética es admisible. Por lo tanto, la media geométrica o la raíz cuadrática media de las temperaturas (en grados Celsius) o las distancias no tienen sentido. Como promedio se debe utilizar la media aritmética. También puedes utilizar la mediana o la moda.

Teorema 4. Si ciertas condiciones intramatemáticas de regularidad en la escala de razones son válidas, de todos los promedios de Kolmogorov, sólo son admisibles los promedios de potencia con F(x) = x c y el promedio geométrico.

Comentario. La media geométrica es el límite de las medias de potencia para c > 0.

¿Existen promedios de Kolmogorov que no se pueden utilizar en la escala de razón? Por supuesto que sí. Por ejemplo F(x) = e x.

Al igual que los valores medios, se pueden estudiar otras características estadísticas: indicadores de dispersión, conexión, distancia, etc. No es difícil demostrar, por ejemplo, que el coeficiente de correlación no cambia con ninguna transformación admisible en un conjunto de intervalos, al igual que la relación de dispersiones, la dispersión no cambia en la escala de diferencias, el coeficiente de variación en la escala de proporciones, etc.

Los resultados anteriores sobre valores medios se utilizan ampliamente, no sólo en economía, gestión, teoría de peritajes o sociología, sino también en ingeniería, por ejemplo, para analizar métodos de agregación de sensores en sistemas automatizados de control de procesos de altos hornos. La TI es de gran importancia práctica en problemas de estandarización y gestión de la calidad, en particular en cualimetría, donde se han obtenido interesantes resultados teóricos. Así, por ejemplo, cualquier cambio en los coeficientes de peso de los indicadores individuales de la calidad del producto conduce a un cambio en el orden de los productos según el indicador promedio ponderado (este teorema fue demostrado por el Prof. V.V. Podinovsky). En consecuencia, la breve información anterior sobre TI y sus métodos combina, en cierto sentido, economía, sociología y ciencias de la ingeniería y es un aparato adecuado para resolver problemas complejos que antes no eran susceptibles de un análisis efectivo; además, por lo tanto se abre el camino para construir modelos realistas y resolver el problema de pronóstico.

22. Regresión lineal pareada

Pasemos ahora a un estudio más detallado del caso más simple de regresión lineal por pares. La regresión lineal se describe mediante la relación funcional más simple en forma de ecuación lineal y se caracteriza por una interpretación transparente de los parámetros del modelo (coeficientes de ecuación). El lado derecho de la ecuación nos permite obtener valores teóricos (calculados) de la variable resultante (explicada) en función de los valores dados del regresor (variable explicativa). Estos valores a veces también se denominan predichos (en el mismo sentido), es decir obtenidos a partir de fórmulas teóricas. Sin embargo, al plantear una hipótesis sobre la naturaleza de la dependencia, los coeficientes de la ecuación aún se desconocen. En términos generales, es posible obtener valores aproximados de estos coeficientes mediante varios métodos.

Pero el más importante y extendido de ellos es el método. mínimos cuadrados(EMN). Se basa (como ya se explicó) en el requisito de minimizar la suma de las desviaciones al cuadrado de los valores reales de la característica resultante de los valores calculados (teóricos). En lugar de valores teóricos (para obtenerlos), sustituya los lados derechos de la ecuación de regresión en la suma de las desviaciones al cuadrado y luego encuentre las derivadas parciales de esta función (la suma de las desviaciones al cuadrado de los valores reales). de la característica resultante de las teóricas). Estas derivadas parciales no se toman con respecto a las variables x e y, sino con respecto a los parámetros a y b. Las derivadas parciales se igualan a cero y, después de transformaciones simples pero engorrosas, se obtiene un sistema de ecuaciones normales para determinar los parámetros. El coeficiente de la variable x, es decir b se llama coeficiente de regresión y muestra el cambio promedio en el resultado con un cambio en el factor de una unidad. El parámetro a puede no tener una interpretación económica, especialmente si el signo de este coeficiente es negativo.

La regresión lineal por pares se utiliza para estudiar la función de consumo. El coeficiente de regresión en la función de consumo se utiliza para calcular el multiplicador. Casi siempre, la ecuación de regresión se complementa con un indicador de la cercanía de la conexión. Para el caso más simple de regresión lineal, este indicador de la cercanía de la conexión es coeficiente lineal correlaciones. Pero dado que el coeficiente de correlación lineal caracteriza la cercanía de la relación entre características en forma lineal, la proximidad del valor absoluto del coeficiente de correlación lineal a cero aún no sirve como indicador de la ausencia de conexión entre las características.

Es con una elección diferente de la especificación del modelo y, por lo tanto, del tipo de dependencia que la relación real puede llegar a ser bastante cercana a la unidad. Pero la calidad de la selección. función lineal determinado utilizando el cuadrado del coeficiente de correlación lineal: el coeficiente de determinación. Caracteriza la proporción de la varianza del atributo efectivo y explicada por la regresión en la varianza total del atributo efectivo. El valor que complementa el coeficiente de determinación a 1 caracteriza la proporción de varianza causada por la influencia de otros factores no tenidos en cuenta en el modelo (varianza residual).

La regresión pareada está representada por una ecuación que relaciona dos variables y y x de la siguiente forma:

donde y es la variable dependiente (atributo resultante) y x es la variable independiente (variable explicativa o factor-atributo). Hay regresión lineal y regresión no lineal. La regresión lineal se describe mediante una ecuación de la forma:

y = a+ bx + .

La regresión no lineal, a su vez, puede ser no lineal con respecto a las variables explicativas incluidas en el análisis, pero sí lineal con respecto a los parámetros estimados. O tal vez la regresión no sea lineal en términos de los parámetros que se estiman. Ejemplos de regresión que no es lineal en las variables explicativas, pero lineal en los parámetros estimados, incluyen dependencias polinómicas de varios grados (polinomios) y una hipérbola equilátera.

La regresión no lineal para los parámetros estimados es una dependencia de potencia relativa al parámetro (el parámetro está en el exponente), una dependencia exponencial, donde el parámetro está en la base del exponente, y una dependencia exponencial, cuando toda la dependencia lineal es enteramente en el exponente. Tenga en cuenta que en estos tres casos el componente aleatorio (resto aleatorio)  se incluye en lado derecho ecuaciones en forma de factor, y no en forma de sumando, es decir multiplicativamente! La desviación promedio de los valores calculados de la característica resultante de los reales se caracteriza por el error promedio de aproximación. Se expresa como porcentaje y no debe exceder el 7-8%. Este error promedio de aproximación es simplemente el promedio porcentual de las magnitudes relativas de las diferencias entre los valores reales y calculados.

Es importante el coeficiente de elasticidad promedio, que es una característica importante de muchos fenómenos y procesos económicos. Se calcula como el producto del valor de la derivada de una relación funcional dada y la relación entre el valor promedio de x y el valor promedio de y. El coeficiente de elasticidad muestra en qué porcentaje en promedio el resultado y cambiará de su valor promedio cuando el factor x cambia en un 1% de su valor promedio (factor x).

Los problemas del análisis de la varianza están estrechamente relacionados con la regresión por pares y la regresión múltiple (cuando hay muchos factores) y la varianza residual. Análisis de variación examina la varianza de la variable dependiente. En este caso, la suma total de las desviaciones al cuadrado se divide en dos partes. El primer término es la suma de las desviaciones al cuadrado debidas a la regresión o explicadas (factorial). El segundo término es la suma residual de las desviaciones al cuadrado no explicadas por la regresión factorial.

La proporción de varianza explicada por la regresión en la varianza total de la característica resultante y se caracteriza por el coeficiente (índice) de determinación, que no es más que la relación entre la suma de las desviaciones al cuadrado debidas a la regresión y la suma total de las desviaciones al cuadrado. (el primer término de la suma completa).

Cuando los parámetros del modelo (coeficientes de incógnitas) se determinan mediante el método de mínimos cuadrados, entonces, en esencia, se encuentran algunas variables aleatorias (en el proceso de obtención de estimaciones). De particular importancia es la estimación del coeficiente de regresión, que es una forma especial de variable aleatoria. Las propiedades de esta variable aleatoria dependen de las propiedades del término residual en la ecuación (en el modelo). Para el modelo de regresión lineal pareada, considere la variable explicativa x como una variable exógena no aleatoria. Esto simplemente significa que los valores de la variable x en todas las observaciones pueden considerarse predeterminados y de ninguna manera relacionados con la dependencia en estudio. Por tanto, el valor real de la variable explicada consta de dos componentes: un componente no aleatorio y otro aleatorio (término residual).

Por otro lado, el coeficiente de regresión determinado mediante el método de mínimos cuadrados (MCO) es igual al cociente de dividir la covarianza de las variables x e y por la varianza de la variable x. Por tanto, también contiene un componente aleatorio. Después de todo, la covarianza depende de los valores de la variable y, donde los valores de la variable y dependen de los valores del término residual aleatorio . Además, es fácil demostrar que la covarianza de las variables x e y es igual al producto del coeficiente de regresión estimado beta () y la varianza de la variable x, más la covarianza de las variables x y . Por lo tanto, la estimación del coeficiente de regresión beta es igual a este coeficiente de regresión desconocido, sumado al cociente de dividir la covarianza de las variables x y  por la varianza de la variable x. Aquellos. la estimación del coeficiente de regresión b obtenida de cualquier muestra se presenta como la suma de dos términos: un valor constante igual al valor real del coeficiente  (beta), y un componente aleatorio que depende de la covarianza de las variables x y  .

23. Condiciones matemáticas de Gauss-Markov y su aplicación.

Para que el análisis de regresión basado en MCO ordinario produzca los mejores resultados, el término aleatorio debe satisfacer las cuatro condiciones de Gauss-Markov.

La expectativa matemática del término aleatorio es igual a cero, es decir es imparcial. Si la ecuación de regresión incluye un término constante, entonces es natural considerar cumplido este requisito, ya que este es un término constante y debe tener en cuenta cualquier tendencia sistemática en los valores de la variable y, que, por el contrario, debería no estar contenida en las variables explicativas de la ecuación de regresión.

La varianza del término aleatorio es constante para todas las observaciones.

Covarianza de valores variables aleatorias, la formación de la muestra debe ser igual a cero, es decir no existe una relación sistemática entre los valores del término aleatorio en dos observaciones particulares. Los miembros aleatorios deben ser independientes entre sí.

La ley de distribución del término aleatorio debe ser independiente de las variables explicativas.

Además, en muchas aplicaciones las variables explicativas no son estocásticas, es decir no tienen un componente aleatorio. El valor de cualquier variable independiente en cada observación debe considerarse exógeno, determinado enteramente por causas externas no tomadas en cuenta en la ecuación de regresión.

Junto con las condiciones de Gauss-Markov especificadas, también se supone que el término aleatorio tiene una distribución normal. Es válido en condiciones muy amplias y se basa en el llamado teorema del límite central (CLT). La esencia de este teorema es que si una variable aleatoria es el resultado general de la interacción de un gran número de otras variables aleatorias, ninguna de las cuales tiene una influencia predominante en el comportamiento de este resultado general, entonces la variable aleatoria resultante se describirá por una distribución aproximadamente normal. Esta proximidad a distribución normal le permite utilizar la distribución normal para obtener estimaciones y es en cierto sentido su generalización es la distribución de Student, que difiere notablemente de la normal principalmente en las llamadas "colas", es decir para tamaños de muestra pequeños. También es importante que si el término aleatorio tiene una distribución normal, los coeficientes de regresión también estarán distribuidos normalmente.

La curva de regresión establecida (ecuación de regresión) nos permite resolver el problema del llamado pronóstico puntual. En tales cálculos, se toma un cierto valor de x fuera del intervalo de observación estudiado y se sustituye en el lado derecho de la ecuación de regresión (procedimiento de extrapolación). Porque Ya se conocen las estimaciones de los coeficientes de regresión, entonces es posible calcular el valor de la variable explicada y correspondiente al valor tomado de x. Naturalmente, de acuerdo con el significado de la predicción (pronóstico), los cálculos se realizan hacia adelante (en la región de valores futuros).

Sin embargo, dado que los coeficientes se determinaron con cierto error, no es de interés punto estimado(pronóstico puntual) para una característica efectiva, y conocimiento de los límites dentro de los cuales, con una determinada probabilidad, se ubicarán los valores de la característica efectiva, correspondientes al valor tomado del factor x.

Para ello, se calcula el error estándar (desviación estándar). Se puede obtener en el espíritu de lo que se acaba de decir de la siguiente manera. La expresión del término libre a desde las estimaciones hasta los valores promedio se sustituye en la ecuación de regresión lineal. Entonces resulta que el error estándar depende del error del factor efectivo promedio y y, aditivamente, del error del coeficiente de regresión b. Simplemente el cuadrado de este error estándar. igual a la suma el error al cuadrado del valor promedio y y el producto del error al cuadrado del coeficiente de regresión por la desviación al cuadrado del valor del factor x y su promedio. Además, el primer término, de acuerdo con las leyes de la estadística, es igual al cociente de dividir la varianza de la población general por el tamaño (volumen) de la muestra.

En lugar de la varianza desconocida, se utiliza la varianza muestral como estimación. En consecuencia, el error del coeficiente de regresión se define como el cociente de dividir la varianza de la muestra por la varianza del factor x. Puede obtener el error estándar (desviación estándar) y otras consideraciones que son más independientes del modelo de regresión lineal. Para ello se utiliza el concepto de error medio y error marginal y la relación entre ellos.

Pero incluso después de obtener el error estándar, persiste la pregunta sobre los límites dentro de los cuales se ubicará el valor predicho. En otras palabras, sobre el intervalo de error de medición, en el supuesto natural en muchos casos de que la mitad de este intervalo está dada por el valor calculado (promedio) del factor efectivo y. Aquí viene al rescate el teorema del límite central, que indica con precisión con qué probabilidad la cantidad desconocida se encuentra dentro de este intervalo de confianza.

Esencialmente, la fórmula del error estándar, independientemente de cómo y de qué forma se obtenga, caracteriza el error en la posición de la línea de regresión. El error estándar alcanza un mínimo cuando el valor del factor x coincide con el valor medio del factor.

24. Prueba estadística de hipótesis y evaluación de la importancia de la regresión lineal mediante el criterio de Fisher.

Una vez encontrada la ecuación de regresión lineal, se evalúa la importancia tanto de la ecuación en su conjunto como de sus parámetros individuales. La evaluación de la importancia de una ecuación de regresión en su conjunto se puede realizar utilizando varios criterios. Bastante común y eficaz es el uso de la prueba F de Fisher. En este caso, se plantea la hipótesis nula de que el coeficiente de regresión es igual a cero, es decir b=0, y por lo tanto el factor x no tiene ningún efecto sobre el resultado y. El cálculo inmediato de la prueba F va precedido del análisis de varianza. El lugar central lo ocupa la descomposición de la suma total de las desviaciones al cuadrado de la variable y del valor promedio y en dos partes: "explicada" y "inexplicada":

La suma total de las desviaciones al cuadrado de los valores individuales de la característica resultante y del valor promedio y se debe a la influencia de muchos factores.

Dividamos condicionalmente todo el conjunto de razones en dos grupos: el factor x estudiado y otros factores. Si el factor no influye en el resultado, entonces la línea de regresión en el gráfico es paralela al eje OX y y=y. Entonces toda la varianza de la característica resultante se debe a la influencia de otros factores y la suma total de las desviaciones al cuadrado coincidirá con el residual. Si otros factores no influyen en el resultado, entonces y está funcionalmente relacionado con x y la suma residual de cuadrados es cero. En este caso, la suma de las desviaciones al cuadrado explicadas por la regresión coincide con cantidad total cuadrícula. Dado que no todos los puntos del campo de correlación se encuentran en la recta de regresión, su dispersión siempre se produce debido a la influencia del factor x, es decir regresión de y sobre x, y causada por otras causas (variación inexplicable). La idoneidad de una línea de regresión para la predicción depende de qué parte de la variación total en el rasgo y se explica por la variación explicada.

Obviamente, si la suma de las desviaciones al cuadrado debidas a la regresión es mayor que la suma residual de los cuadrados, entonces la ecuación de regresión es estadísticamente significativa y el factor x tiene un impacto significativo en el resultado. Esto equivale a que el coeficiente de determinación se aproximará a la unidad. Cualquier suma de desviaciones al cuadrado está relacionada con el número de grados de libertad, es decir el número de libertad de variación independiente de una característica. El número de grados de libertad está asociado al número de unidades de la población o al número de constantes determinadas a partir de ella. En relación con el problema en estudio, el número de grados de libertad debe mostrar cuántas desviaciones independientes de n posibles [(y 1 -y), (y 2 -y),...(y n -y)] se requieren para formar una suma dada de cuadrados. Así, para la suma total de cuadrados ∑(y-y sr) 2, se requieren (n-1) desviaciones independientes, porque en una población de n unidades, después de calcular el nivel promedio, solo (n-1) el número de desviaciones varía libremente. Al calcular la suma de cuadrados explicada o factorial ∑(y-y avg) 2, se utilizan los valores teóricos (calculados) de la característica resultante y*, que se encuentran a lo largo de la línea de regresión: y(x)=a+bx.

Volvamos ahora a la expansión de la suma total de las desviaciones al cuadrado del factor efectivo del promedio de este valor. Esta suma contiene dos partes ya definidas anteriormente: la suma de las desviaciones al cuadrado explicadas por la regresión y otra suma llamada suma residual de las desviaciones al cuadrado. Asociado a esta descomposición está el análisis de varianza, que responde directamente a la pregunta fundamental: ¿cómo evaluar la importancia de la ecuación de regresión en su conjunto y sus parámetros individuales? También determina en gran medida el significado de esta pregunta. Para evaluar la importancia de la ecuación de regresión en su conjunto, se utiliza el criterio de Fisher (prueba F). Según el enfoque propuesto por Fisher, se plantea una hipótesis nula: el coeficiente de regresión es igual a cero, es decir valorb=0. Esto significa que el factor X no tiene ningún efecto sobre el resultado Y.

Recordemos que casi siempre los puntos obtenidos como resultado de un estudio estadístico no se encuentran exactamente en la recta de regresión. Están dispersos, más o menos alejados de la línea de regresión. Dicha dispersión se debe a la influencia de otros factores, distintos del factor explicativo X, que no se tienen en cuenta en la ecuación de regresión. Al calcular la suma explicada o factorial de las desviaciones al cuadrado, se utilizan los valores teóricos de la característica resultante encontrada en la línea de regresión.

Para un conjunto dado de valores de las variables Y y X, el valor calculado del valor promedio Y es en regresión lineal una función de un solo parámetro: el coeficiente de regresión. De acuerdo con esto, la suma factorial de las desviaciones al cuadrado tiene un número de grados de libertad igual a 1. Y el número de grados de libertad de la suma residual de las desviaciones al cuadrado en regresión lineal es n-2.

En consecuencia, dividiendo cada suma de desviaciones al cuadrado en la expansión original por su número de grados de libertad, obtenemos las desviaciones al cuadrado promedio (varianza por un grado de libertad). A continuación, dividiendo la varianza del factor por un grado de libertad por la varianza residual por un grado de libertad, obtenemos un criterio para probar la hipótesis nula, el llamado índice F, o el criterio del mismo nombre. Es decir, si la hipótesis nula es cierta, las varianzas factorial y residual son simplemente iguales entre sí.

Rechazar la hipótesis nula, es decir Aceptando la hipótesis opuesta, que expresa el hecho de la importancia (presencia) de la relación en estudio, y no solo una coincidencia aleatoria de factores que simulan una relación que en realidad no existe, es necesario utilizar tablas de valores críticos de la relación especificada. Utilizando tablas, se determina el valor crítico (umbral) del criterio de Fisher. También se le llama teórico. Luego verifican, comparándolo con el valor empírico (real) correspondiente del criterio calculado a partir de datos de observación, si el valor real de la relación excede el valor crítico de las tablas.

Esto se hace con más detalle como este. Seleccione un nivel dado de probabilidad de la presencia de la hipótesis nula y encuentre en las tablas el valor crítico del criterio F, en el que aún puede ocurrir una divergencia aleatoria de varianzas de 1 grado de libertad, es decir el máximo de dicho valor. Entonces, el valor calculado del índice F se considera confiable (es decir, expresa la diferencia entre las varianzas reales y residuales) si este índice es mayor que el tabulado. Entonces se rechaza la hipótesis nula (no es cierto que no hay signos de conexión) y, por el contrario, llegamos a la conclusión de que existe conexión y es significativa (es no aleatoria, significativa).

Si el valor de la relación resulta ser menor que el tabulado, entonces la probabilidad de la hipótesis nula resulta ser mayor que el nivel especificado (que se eligió inicialmente) y la hipótesis nula no puede rechazarse sin un peligro notable de obtener una conclusión incorrecta sobre la presencia de una relación. En consecuencia, la ecuación de regresión se considera insignificante.

El valor del propio criterio F está relacionado con el coeficiente de determinación. Además de evaluar la importancia de la ecuación de regresión en su conjunto, también se evalúa la importancia de los parámetros individuales de la ecuación de regresión. En este caso, el error estándar del coeficiente de regresión se determina utilizando la desviación estándar real empírica y la varianza empírica por grado de libertad. Luego se utiliza la distribución de Student para probar la significancia del coeficiente de regresión para calcular sus intervalos de confianza.

La evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba t de Student se realiza comparando los valores de estas cantidades y el error estándar. La magnitud del error de los parámetros de regresión lineal y el coeficiente de correlación se determina mediante las siguientes fórmulas:

donde S es la desviación muestral residual media cuadrática,

r xy – coeficiente de correlación.

En consecuencia, el valor del error estándar predicho por la recta de regresión viene dado por la fórmula:

Las proporciones correspondientes de los valores de los coeficientes de regresión y correlación con respecto a su error estándar forman el llamado estadístico t, y una comparación del valor tabulado (crítico) correspondiente y su valor real permite aceptar o rechazar el nulo. hipótesis. Pero luego, para calcular el intervalo de confianza, el error máximo para cada indicador se encuentra como el producto del valor tabular del estadístico t por el error aleatorio promedio del indicador correspondiente. De hecho, lo escribimos de manera un poco diferente justo arriba. Luego se obtienen los límites de los intervalos de confianza: el límite inferior se obtiene restando el error marginal correspondiente de los coeficientes correspondientes (en realidad el promedio), y el límite superior se obtiene mediante la suma (suma).

En regresión lineal ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. Esto es fácil de verificar consultando la fórmula del coeficiente de correlación lineal: r 2 xy = b 2 *σ 2 x /σ 2 y

donde σ 2 y es la varianza total del rasgo y;

σ 2 x - dispersión de la característica y debido al factor x. En consecuencia, la suma de las desviaciones al cuadrado debidas a la regresión lineal será:

∑(y x -y promedio) 2 =b 2 ∑(x-x promedio) 2 .

Dado que, para un volumen dado de observaciones en x e y, la suma de cuadrados de los factores en la regresión lineal depende solo de una constante del coeficiente de regresión b, entonces esta suma de cuadrados tiene un grado de libertad. Consideremos el lado del contenido del valor calculado del atributo y, es decir yx. El valor y x está determinado por la ecuación de regresión lineal: y x ​​= a + bx.

El parámetro a se puede definir como a=y-bx. Sustituyendo la expresión del parámetro a en el modelo lineal, obtenemos: y x ​​=y-bx+bx avg =y-b(x-x avg).

Para un conjunto dado de variables y y x, el valor calculado de y x en regresión lineal es función de un solo parámetro: el coeficiente de regresión. En consecuencia, la suma factorial de las desviaciones al cuadrado tiene un número de grados de libertad igual a 1.

Existe igualdad entre el número de grados de libertad de las sumas total, factorial y residual de los cuadrados. El número de grados de libertad de la suma residual de cuadrados en regresión lineal es (n-2). El número de grados de libertad para la suma total de cuadrados está determinado por el número de unos, y como usamos el promedio calculado a partir de los datos de la muestra, perdemos un grado de libertad, es decir (n-1). Entonces, tenemos dos igualdades: para sumas y para el número de grados de libertad. Y esto, a su vez, nos devuelve a varianzas comparables por grado de libertad, cuya relación da el criterio de Fisher.

25. Evaluar la importancia de los parámetros individuales de la ecuación de regresión y los coeficientes mediante la prueba de Student.

27. Regresión lineal y no lineal y métodos para su estudio.

La regresión lineal y los métodos de su investigación y evaluación no serían tan importantes si, además de este caso muy importante, pero aún así el más simple, no obtuviéramos con su ayuda una herramienta para analizar dependencias no lineales más complejas. Las regresiones no lineales se pueden dividir en dos clases significativamente diferentes. La primera y más sencilla es la clase de dependencias no lineales en las que hay no linealidad respecto de las variables explicativas, pero que permanecen lineales en los parámetros incluidos en ellas y sujetos a evaluación. Esto incluye polinomios de varios grados y una hipérbola equilátera.

Dicha regresión no lineal para las variables incluidas en la explicación, simplemente transformando (reemplazando) las variables, puede reducirse fácilmente a una regresión lineal ordinaria para nuevas variables. Por tanto, la estimación de parámetros en este caso se realiza simplemente por mínimos cuadrados, ya que las dependencias son lineales en los parámetros. Por tanto, la dependencia no lineal descrita por una hipérbola equilátera juega un papel importante en economía:

Sus parámetros se evalúan bien mediante el método de mínimos cuadrados, y esta dependencia en sí misma caracteriza la conexión entre los costos específicos de las materias primas, el combustible, los materiales con el volumen de producción, el tiempo de circulación de las mercancías y todos estos factores con el volumen del comercio. Rotación. Por ejemplo, la curva de Phillips caracteriza la relación no lineal entre la tasa de desempleo y el porcentaje de crecimiento salarial.

La situación es completamente diferente con la regresión no lineal en los parámetros estimados, por ejemplo, representada por una función de potencia, en la que el grado en sí (su exponente) es un parámetro o depende del parámetro. También puede ser una función exponencial, donde la base del grado es un parámetro y una función exponencial, en la que nuevamente el indicador contiene un parámetro o una combinación de parámetros. Esta clase, a su vez, se divide en dos subclases: una incluye no lineales externamente, pero esencialmente lineales internamente. En este caso, puede llevar el modelo a una forma lineal mediante transformaciones. Sin embargo, si el modelo es internamente no lineal, entonces no puede reducirse a una función lineal.

Por lo tanto, sólo los modelos que son intrínsecamente no lineales en el análisis de regresión se consideran verdaderamente no lineales. Todos los demás, que pueden reducirse a lineales mediante transformaciones, no se consideran como tales, y son ellos los que se consideran con mayor frecuencia en los estudios econométricos. Al mismo tiempo, esto no significa que sea imposible estudiar dependencias esencialmente no lineales en econometría. Si el modelo es internamente no lineal en sus parámetros, entonces se utilizan procedimientos iterativos para estimar los parámetros, cuyo éxito depende del tipo de ecuación para las características del método iterativo utilizado.

Volvamos a las dependencias reducidas a lineales. Si son no lineales tanto en parámetros como en variables, por ejemplo, de la forma y = a multiplicado por la potencia de X, cuyo exponente es el parámetro -  (beta):

Obviamente, dicha relación se puede convertir fácilmente en una ecuación lineal mediante un logaritmo simple.

Después de introducir nuevas variables que denotan logaritmos, se obtiene una ecuación lineal. El procedimiento para estimar la regresión consiste entonces en calcular nuevas variables para cada observación tomando logaritmos de los valores originales. Luego se estima la dependencia de regresión de las nuevas variables. Para ir a las variables originales, debes tomar el antilogaritmo, es decir, regresar a las potencias mismas en lugar de a sus exponentes (después de todo, el logaritmo es el exponente). De manera similar se puede considerar el caso de las funciones exponenciales o exponenciales.

Para una regresión significativamente no lineal, no es posible aplicar el procedimiento de estimación de regresión habitual porque la relación correspondiente no se puede convertir a lineal. El esquema general de actuaciones es el siguiente:

1. Se aceptan algunos valores de parámetros iniciales plausibles;

2. Los valores Y pronosticados se calculan a partir de los valores X reales utilizando estos valores de parámetros;

3. Se calculan los residuos para todas las observaciones de la muestra y luego la suma de los cuadrados de los residuos;

4. Se realizan pequeños cambios en una o más estimaciones de parámetros;

5. Se calculan nuevos valores predichos de Y, residuos y suma de cuadrados de residuos;

6. Si la suma de los cuadrados de los residuos es menor que antes, entonces las nuevas estimaciones de parámetros son mejores que las anteriores y deben usarse como un nuevo punto de partida;

7. Los pasos 4, 5 y 6 se repiten nuevamente hasta que sea imposible realizar cambios en las estimaciones de los parámetros que conducirían a un cambio en la suma de los residuos de cuadrados;

8. Se concluye que la suma de los residuos cuadrados se minimiza y las estimaciones finales de los parámetros son estimaciones de mínimos cuadrados.

Entre las funciones no lineales que se pueden reducir a forma lineal, la función de potencia se utiliza ampliamente en econometría. El parámetro b tiene una interpretación clara, siendo un coeficiente de elasticidad. En modelos que son no lineales en los parámetros estimados, pero que pueden reducirse a forma lineal, se aplica el método de mínimos cuadrados a las ecuaciones transformadas. El uso práctico de logaritmos y, en consecuencia, de los exponentes es posible cuando el signo resultante no tiene valores negativos. Al estudiar las relaciones entre funciones utilizando el logaritmo del atributo resultante, en econometría predominan las dependencias de ley de potencia (curvas de oferta y demanda, funciones de producción, curvas de absorción para caracterizar la relación entre la intensidad del trabajo de los productos, la escala de producción, la dependencia del INB sobre el nivel de empleo, curvas de Engel).

28. Modelo inverso y su uso.

En ocasiones se utiliza el llamado modelo inverso, que es internamente no lineal, pero en él, a diferencia de una hipérbola equilátera, no es la variable explicativa la que está sujeta a transformación, sino el atributo resultante Y. Por tanto, el modelo inverso resulta ser internamente no lineal y el requisito de MCO no se cumple para los valores reales del atributo resultante Y, y para sus valores inversos. Especial atención merece el estudio de la correlación para la regresión no lineal. En el caso general, una parábola de segundo grado, como los polinomios de orden superior, cuando se linealiza, toma la forma de una ecuación de regresión múltiple. Si, cuando se linealiza, una ecuación de regresión que no es lineal con respecto a la variable explicada toma la forma de una ecuación de regresión lineal pareada, entonces se puede utilizar un coeficiente de correlación lineal para evaluar la cercanía de la relación.

Si las transformaciones de la ecuación de regresión a forma lineal están asociadas con la variable dependiente (característica resultante), entonces el coeficiente de correlación lineal basado en los valores transformados de las características da solo una estimación aproximada de la relación y no coincide numéricamente con la índice de correlación. Hay que tener en cuenta que al calcular el índice de correlación se utilizan las sumas de las desviaciones al cuadrado de la característica resultante Y, y no sus logaritmos. La evaluación de la importancia del índice de correlación se realiza de la misma manera que la evaluación de la confiabilidad (significancia) del coeficiente de correlación. El índice de correlación en sí, al igual que el índice de determinación, se utiliza para probar la significancia general de la ecuación de regresión no lineal mediante la prueba F de Fisher.

Tenga en cuenta que la posibilidad de construir modelos no lineales, tanto reduciéndolos a una forma lineal como utilizando regresión no lineal, por un lado, aumenta la universalidad del análisis de regresión. Por otro lado, complica significativamente las tareas del investigador. Si nos limitamos al análisis de regresión pareada, podemos representar las observaciones Y y X como un diagrama de dispersión. A menudo, varias funciones no lineales diferentes se aproximan a las observaciones si se encuentran en alguna curva. Pero en el caso del análisis de regresión múltiple, ese gráfico no se puede construir.

Al considerar modelos alternativos con la misma definición de variable dependiente, el procedimiento de selección es relativamente sencillo. Se puede estimar una regresión basada en todas las funciones plausibles que se puedan imaginar y seleccionar la función que mejor explique el cambio en la variable dependiente. Está claro que cuando una función lineal explica aproximadamente el 64% de la varianza en y, y una función hiperbólica explica el 99,9%, obviamente se debe elegir esta última. Pero cuando diferentes modelos Al utilizar diferentes formas funcionales, el problema de elegir un modelo se vuelve significativamente más complicado.

29. Usando la prueba de Box-Cox.

En términos más generales, cuando se consideran modelos alternativos con la misma definición de variable dependiente, la elección es sencilla. Lo más razonable es estimar la regresión basándose en todas las funciones posibles, centrándose en la función que más explica el cambio en la variable dependiente. Si el coeficiente de determinación mide, en un caso, la proporción de varianza explicada por la regresión, y en el otro, la proporción de varianza en el logaritmo de esta variable dependiente explicada por la regresión, entonces la elección se hace sin dificultad. Otra cuestión es cuando estos valores para dos modelos son muy parecidos y el problema de elección se vuelve mucho más complicado.

A continuación se debe aplicar el procedimiento estándar en forma de prueba de Box-Cox. Si solo necesita comparar modelos utilizando el factor efectivo y su logaritmo como variante de la variable dependiente, entonces se utiliza una versión de la prueba de Zarembka. Propone una transformación de la escala de observación Y, que permite la comparación directa del error cuadrático medio (MSE) en modelos lineales y logarítmicos. El procedimiento correspondiente incluye los siguientes pasos:

    Se calcula la media geométrica de los valores de Y en la muestra, la cual coincide con el exponente de la media aritmética del logaritmo de Y;

    Las observaciones Y se recalculan de tal forma que se dividen por el valor obtenido en el primer paso;

    La regresión se estima para un modelo lineal usando los valores Y escalados en lugar de los valores Y originales, y para un modelo logarítmico usando el logaritmo de los valores Y escalados. Los valores RMSE para las dos regresiones ahora son comparables y por lo tanto el modelo con la suma más pequeña de desviaciones al cuadrado proporciona un mejor ajuste a la verdadera relación de los valores observados;

    Para comprobar que uno de los modelos no proporciona un ajuste significativamente mejor, se puede utilizar el producto de la mitad del número de observaciones por el logaritmo de la relación de los valores de la desviación estándar en las regresiones recalculadas, y luego tomar la valor absoluto de este valor.

30. Conceptos de intercorrelación y multicolinealidad de factores.

34. Fundamentos de MNC y validez de su aplicación.

Veamos ahora los conceptos básicos de MCO, la validez de su aplicación (incluidos los problemas de regresión múltiple) y las propiedades más importantes de las estimaciones obtenidas mediante MCO. Para empezar, junto con la dependencia analítica del lado derecho de la ecuación de regresión, el término aleatorio también juega un papel importante. Este componente aleatorio es una cantidad no observable. Sami pruebas estadisticas Los parámetros de regresión y las medidas de correlación se basan en suposiciones no comprobables sobre la distribución de este componente aleatorio de la regresión múltiple. Estas suposiciones son sólo preliminares. Sólo después de construir la ecuación de regresión se comprueba si las estimaciones de los residuos aleatorios (análogos empíricos del componente aleatorio) tienen propiedades asumidas a priori. Básicamente, cuando se estiman los parámetros del modelo, se calculan las diferencias entre los valores teóricos y reales del atributo resultante para así estimar el componente aleatorio en sí. Es importante tener en cuenta que esto es sólo una implementación de muestra del resto desconocido de una ecuación dada.

Los coeficientes de regresión obtenidos de un sistema de ecuaciones normales son estimaciones muestrales de la fuerza de la relación. Está claro que sólo tienen importancia práctica cuando son imparciales. Recordemos que en este caso la media de los residuos es igual a cero, o lo que es lo mismo, la media de la estimación es igual al propio parámetro estimado. Entonces los residuos no se acumularán en un gran número de estimaciones de muestra, y el propio parámetro de regresión encontrado puede considerarse como el promedio de un gran número de estimaciones insesgadas.

Además, las estimaciones deben tener la varianza más pequeña, es decir ser eficaz y entonces será posible pasar de estimaciones puntuales prácticamente inutilizables a estimaciones de intervalo. Finalmente, los intervalos de confianza son útiles cuando la probabilidad de obtener una estimación a una distancia determinada del valor verdadero (desconocido) del parámetro es cercana a uno. Estas estimaciones se denominan consistentes y la propiedad de coherencia se caracteriza por un aumento de su precisión al aumentar el tamaño de la muestra.

Sin embargo, la condición de coherencia no se cumple automáticamente y depende significativamente del cumplimiento de los dos importantes requisitos siguientes. En primer lugar, los propios residuos deben ser estocásticos con la aleatoriedad más pronunciada, es decir todas las dependencias claramente funcionales deben incluirse específicamente en el componente analítico de la regresión múltiple y, además, los valores de los residuos deben distribuirse independientemente entre sí para diferentes muestras (sin autocorrelación de residuos). El segundo requisito, no menos importante, es que la varianza de cada desviación (residual) sea idéntica para todos los valores de las variables X (homoscedasticidad). Aquellos. la homocedasticidad se expresa por la constancia de la varianza para todas las observaciones:

Por el contrario, la heteroscedasticidad es la violación de dicha constancia de varianza para diferentes observaciones. En este caso, la probabilidad a priori (antes de las observaciones) de obtener valores muy desviados con diferentes distribuciones teóricas del término aleatorio para diferentes observaciones en la muestra será relativamente alta.

La autocorrelación de residuos, o la presencia de una correlación entre los residuos de las observaciones actuales y anteriores (posteriores), está determinada por el valor del coeficiente de correlación lineal habitual. Si difiere significativamente de cero, entonces los residuos están autocorrelacionados y, por tanto, la función de densidad de probabilidad (distribución de residuos) depende del punto de observación y de la distribución de los valores residuales en otros puntos de observación. Es conveniente determinar la autocorrelación de los residuos utilizando la información estadística disponible si existe un orden de las observaciones por factor X. La ausencia de autocorrelación de los residuos asegura la coherencia y eficacia de las estimaciones de los coeficientes de regresión.

35. Homoscedasticidad y heterocedasticidad, autocorrelación de residuos, mínimos cuadrados generalizados (GLM).

La igualdad de las varianzas de los residuos para todos los valores de las variables X, u homocedasticidad, también es absolutamente necesaria para obtener estimaciones consistentes de los parámetros de regresión utilizando MCO. El incumplimiento de la condición de homocedasticidad conduce a la llamada heterocedasticidad. Puede dar lugar a estimaciones sesgadas de los coeficientes de regresión. La heteroscedasticidad afectará principalmente a la reducción de la eficiencia de las estimaciones de los coeficientes de regresión. En este caso, resulta especialmente difícil utilizar la fórmula para el error estándar del coeficiente de regresión, cuyo uso supone una dispersión uniforme de los residuos para cualquier valor del factor. En cuanto a la insesgación de las estimaciones de los coeficientes de regresión, depende principalmente de la independencia de los residuos y de los valores de los propios factores.

Una forma bastante clara, aunque no rigurosa y que requiere habilidades, de probar la homocedasticidad es estudiar gráficamente la naturaleza de la dependencia de los residuos del atributo resultante promedio calculado (teórico), o los campos de correlación correspondientes. Los métodos analíticos para estudiar y evaluar la heterocedasticidad son más rigurosos. Si hay presencia significativa de heteroscedasticidad, es recomendable utilizar OLS generalizado (GLM) en lugar de OLS.

Además de los requisitos de regresión múltiple derivados del uso de MCO, también es necesario cumplir con las condiciones sobre las variables incluidas en el modelo. Estos, en primer lugar, incluyen requisitos relacionados con el número de factores del modelo para un volumen determinado de observaciones (1 a 7). De lo contrario, los parámetros de regresión serán estadísticamente insignificantes. Desde el punto de vista de la efectividad de aplicar los métodos numéricos correspondientes al implementar LSM, es necesario que el número de observaciones exceda el número de parámetros estimados (en un sistema de ecuaciones, el número de ecuaciones es mayor que el número de parámetros buscados variables).

El logro más significativo de la econometría es el desarrollo significativo de los métodos para estimar parámetros desconocidos y la mejora de los criterios para identificar la importancia estática de los efectos considerados. En este sentido, la imposibilidad o inconveniencia de utilizar OLS tradicionales debido a la heterocedasticidad manifestada en diversos grados llevó al desarrollo de un OLS generalizado (GLM). De hecho, esto implica ajustar el modelo, cambiar su especificación y transformar los datos originales para garantizar estimaciones imparciales, eficientes y consistentes de los coeficientes de regresión.

Se supone que el promedio de los residuos es cero, pero su dispersión ya no es constante, sino que es proporcional a los valores de K i, donde estos valores son coeficientes de proporcionalidad que son diferentes para diferentes valores de la factor X. Por tanto, son estos coeficientes (valores Ki) los que caracterizan la heterogeneidad de la dispersión. Naturalmente, se cree que se desconoce la magnitud de la dispersión en sí, que es un factor común para estos coeficientes de proporcionalidad.

El modelo original, después de introducir estos coeficientes en la ecuación de regresión múltiple, sigue siendo heterocedástico (más precisamente, estos son los valores residuales del modelo). Dejemos que estos residuos (residuales) no estén autocorrelacionados. Introduzcamos nuevas variables obtenidas dividiendo las variables del modelo inicial registradas como resultado de la i-ésima observación por la raíz cuadrada de los coeficientes de proporcionalidad Ki. Luego obtenemos una nueva ecuación en variables transformadas, en la que los residuos serán homocedásticos. Las nuevas variables en sí mismas son variables antiguas (originales) ponderadas.

Por tanto, la estimación de los parámetros de la nueva ecuación obtenida de esta forma con residuos homocedásticos se reducirá al método de mínimos cuadrados ponderados (en esencia, este es el método MCO). Cuando se utilizan en lugar de las variables de regresión en sí, sus desviaciones de los promedios, las expresiones para los coeficientes de regresión adquieren una forma simple y estandarizada (uniforme), ligeramente diferente para MCO y MCO por el factor de corrección 1/K en el numerador y denominador. de la fracción que da el coeficiente de regresión.

Debe tenerse en cuenta que los parámetros del modelo transformado (ajustado) dependen significativamente del concepto que se utilice como base para los coeficientes de proporcionalidad K i. A menudo se supone que los residuos son simplemente proporcionales a los valores de los factores. El modelo toma su forma más simple cuando se acepta la hipótesis de que los errores son proporcionales a los valores del último factor en orden. Luego, OLS permite aumentar el peso de las observaciones con valores más pequeños de variables transformadas al determinar los parámetros de regresión en comparación con el funcionamiento de OLS estándar con las variables fuente originales. Pero estas nuevas variables ya reciben un contenido económico diferente.

La hipótesis sobre la proporcionalidad de los residuos con respecto al tamaño del factor bien puede tener una base real. Dejemos que se procese un determinado conjunto de datos insuficientemente homogéneo, que incluya, por ejemplo, a grandes y pequeñas empresas al mismo tiempo. Entonces, valores volumétricos grandes del factor pueden corresponder tanto a una gran dispersión de la característica resultante como a una gran dispersión de los valores residuales. Además, el uso de MCO y la correspondiente transición a valores relativos no solo reduce la variación de los factores, sino que también reduce la varianza del error. Por tanto, el caso más sencillo de tener en cuenta y corregir la heterocedasticidad en modelos de regresión se realiza mediante el uso de MCO.

El enfoque anterior para implementar OLS en forma de OLS ponderado es bastante práctico: se implementa de manera sencilla y tiene una interpretación económica transparente. Por supuesto, este no es el enfoque más general, y en el contexto de la estadística matemática, que sirve como base teórica de la econometría, se nos ofrece un método mucho más riguroso que implementa MCO en su forma misma. vista general. En él, es necesario conocer la matriz de covarianza del vector de error (columna residual). Y esto suele ser injusto en situaciones prácticas, y puede resultar imposible encontrar esta matriz como tal. Por lo tanto, en términos generales, es necesario estimar de alguna manera la matriz requerida para poder utilizar dicha estimación en las fórmulas correspondientes en lugar de la matriz misma. Por tanto, la versión descrita de la implementación del OMNC representa una de esas estimaciones. A veces se le llama mínimos cuadrados generalizados accesibles.

También se debe tener en cuenta que el coeficiente de determinación no puede servir como una medida satisfactoria de la calidad del ajuste cuando se utiliza MCO. Volviendo al uso de MCO, también observamos que el método de utilizar desviaciones estándar (errores estándar) en forma de White (los llamados errores estándar consistentes en presencia de heterocedasticidad) tiene suficiente generalidad. Este método es aplicable siempre que la matriz de covarianza del vector de error sea diagonal. Si existe autocorrelación de residuos (errores), cuando hay elementos (coeficientes) distintos de cero en la matriz de covarianza y fuera de la diagonal principal, entonces se debe utilizar un método de error estándar más general en la forma de Neve West. Existe una limitación significativa: los elementos distintos de cero, además de la diagonal principal, se encuentran solo en diagonales adyacentes, separadas de la diagonal principal por no más de una cierta cantidad.

De lo anterior se desprende claramente que es necesario poder comprobar la heterocedasticidad de los datos. Las pruebas siguientes sirven para este propósito. Prueban la hipótesis principal sobre la igualdad de las varianzas de los residuos frente a la hipótesis alternativa (sobre la desigualdad de estas hipótesis). Además, existen restricciones estructurales a priori sobre la naturaleza de la heterocedasticidad. La prueba de Goldfeld-Quandt suele utilizar el supuesto de que la varianza del error (residual) depende directamente del valor de alguna variable independiente. El esquema para utilizar esta prueba es el siguiente. Primero, los datos se ordenan en orden descendente de la variable independiente para la cual se sospecha heterocedasticidad. Este conjunto de datos ordenados luego elimina el promedio de pocas observaciones, donde la palabra "pocas" significa aproximadamente una cuarta parte (25%) de numero total todas las observaciones. A continuación, se ejecutan dos regresiones independientes sobre la primera de las observaciones promedio restantes (después de la eliminación) y las dos últimas de estas observaciones promedio restantes. Después de esto, se construyen dos restos correspondientes. Finalmente, se compila el estadístico F de Fisher y si la hipótesis en estudio es cierta, entonces F es efectivamente la distribución de Fisher con los grados de libertad apropiados. Entonces, un valor grande de esta estadística significa que la hipótesis que se está probando debe rechazarse. Sin el paso de eliminación, la potencia de esta prueba se reduce.

La prueba de Breusch-Pagan se utiliza en los casos en que se supone a priori que las varianzas dependen de algunas variables adicionales. Primero, se realiza una regresión ordinaria (estándar) y se obtiene un vector de residuos. Luego se construye una estimación de la varianza. A continuación, se realiza una regresión del vector cuadrado de residuos dividido por la varianza empírica (estimación de la varianza). Para ello (regresión), se encuentra la parte explicada de la variación. Y para esta parte explicada de la variación, dividida por la mitad, se construyen estadísticas. Si la hipótesis nula es verdadera (ninguna heterocedasticidad es verdadera), entonces este valor tiene una distribución ji-cuadrado. Si la prueba, por el contrario, revela heterocedasticidad, entonces el modelo original se transforma dividiendo las componentes del vector de residuos por las componentes correspondientes del vector de variables independientes observadas.

36. Método de desviación estándar en forma de White.

Se pueden sacar las siguientes conclusiones. El uso de MCO en presencia de heterocedasticidad se reduce a minimizar la suma de las desviaciones cuadradas ponderadas. El uso de MCO disponibles está asociado con la necesidad de tener una gran cantidad de observaciones que excedan la cantidad de parámetros estimados. El caso más favorable para utilizar MCO es cuando el error (residuales) es proporcional a una de las variables independientes y las estimaciones resultantes son consistentes. Sin embargo, si en un modelo con heterocedasticidad es necesario utilizar no MCO, sino MCO estándar, entonces, para obtener estimaciones consistentes, se pueden usar estimaciones de error en la forma de White o Nevier-West.

Al analizar series temporales, a menudo es necesario tener en cuenta la dependencia estadística de las observaciones en diferentes momentos. En este caso, no se cumple el supuesto de errores no correlacionados. Consideremos modelo sencillo, en el que los errores forman un proceso autorregresivo de primer orden. En este caso, los errores satisfacen una relación de recurrencia simple, en cuyo lado derecho uno de los términos es una secuencia de variables aleatorias independientes distribuidas normalmente con media cero y varianza constante. El segundo término es el producto del parámetro (coeficiente de autorregresión) y los valores de los residuos en el momento anterior. La secuencia de valores de error (residuales) forma en sí misma un proceso aleatorio estacionario. Un proceso aleatorio estacionario se caracteriza por la constancia de sus características en el tiempo, en particular, la media y la varianza. En este caso, la matriz de covarianza (sus términos) que nos interesa se puede escribir fácilmente utilizando potencias del parámetro.

La estimación de un modelo autorregresivo para un parámetro conocido se realiza mediante MCO. En este caso, basta con reducir el modelo original mediante una simple transformación a un modelo cuyos errores satisfagan las condiciones de un modelo de regresión estándar. Es muy raro, pero aún así existe una situación en la que se conoce el parámetro de autorregresión. Por lo tanto, generalmente es necesario realizar una estimación con un parámetro autorregresivo desconocido. Hay tres procedimientos más utilizados para dicha evaluación. Método Cochrane-Orcutt, procedimiento Hildreth-Lu y método Durbin.

En general, las siguientes conclusiones son ciertas. El análisis de series de tiempo requiere la corrección del MCO convencional, ya que los errores en este caso suelen estar correlacionados. A menudo estos errores forman un proceso autorregresivo estacionario de primer orden. Los estimadores MCO para autorregresión de primer orden son insesgados y consistentes, pero ineficaces. Con un coeficiente de autorregresión conocido, OLS se reduce a simples transformaciones (correcciones) del sistema original y luego a la aplicación de OLS estándar. Si, como suele ser el caso, se desconoce el coeficiente autorregresivo, entonces existen varios procedimientos disponibles para MCO, que consisten en estimar el parámetro desconocido (coeficiente), tras lo cual se aplican las mismas transformaciones que en el caso anterior del coeficiente autorregresivo. parámetro.

37. Concepto de prueba de Breusch-Pagan, prueba de Goldfeldt-Quandt

El error de aproximación es uno de los problemas que surgen con más frecuencia al aplicar ciertos métodos de aproximación de datos fuente. Existen diferentes tipos de errores de aproximación:

Errores asociados con errores de datos de origen;

Errores asociados a la discrepancia entre el modelo aproximado y la estructura de los datos aproximados.

Excel tiene una función lineal bien desarrollada para procesamiento de datos y aproximaciones que utiliza matemáticas sofisticadas. Para tener una idea al respecto pasemos (vía F1) a la parte descriptiva de este desarrollo, que presentamos con abreviaturas y algunos cambios en la notación.

Calcula estadísticas para una serie utilizando mínimos cuadrados para calcular la línea recta que mejor se ajusta a los datos disponibles. La función devuelve una matriz que describe la línea resultante. Debido a que se devuelve una matriz de valores, la función debe especificarse como una fórmula matricial.

La ecuación de una recta es:

y=a+b1*x1+b2*x2+...bn*xn

Sintaxis:

ESTIMACIÓN LINEAL(y;x;const;estadísticas)

Matriz y - valores conocidos y.

Matriz x: valores conocidos de x. La matriz x puede contener uno o más conjuntos de variables.

constante es valor booleano, que especifica si se requiere que el término ficticio a sea igual a 0.

Si el argumento constante es VERDADERO, 1 u omitido, entonces a se evalúa como de costumbre. Si el argumento constante es FALSO o 0, entonces a se establece en 0.

Las estadísticas son un valor booleano que indica si se deben devolver estadísticas de regresión adicionales. Si el argumento estadístico es VERDADERO o 1, ESTIMACIÓN LINEAL devuelve estadísticas de regresión adicionales. Si la estadística es FALSA, 0 u omitida, entonces ESTIMACIÓN LINEAL devuelve solo los coeficientes y la intersección.

Estadísticas de regresión adicionales:

se1,se2,...,sen - valores de error estándar para los coeficientes b1,b2,...,bn.

mar: valor de error estándar para la constante a (mar = #N/A si const es FALSO).

r2 es el coeficiente de determinismo. Se comparan los valores reales de y y los valores obtenidos de la ecuación de la recta; Con base en los resultados de la comparación, se calcula el coeficiente de determinismo, normalizado de 0 a 1. Si es igual a 1, entonces existe una correlación completa con el modelo, es decir no hay diferencia entre los valores reales y estimados de y. En el caso contrario, si el coeficiente de determinación es 0, entonces la ecuación de regresión no logra predecir los valores de y. Para obtener información sobre cómo se calcula r2, consulte las "Notas" al final de esta sección.

sey es el error estándar para estimar y.

Estadístico F o valor F observado. El estadístico F se utiliza para determinar si la relación observada entre las variables dependientes e independientes se debe al azar o no.

df - grados de libertad. Los grados de libertad son útiles para encontrar valores F críticos en una tabla estadística. Para determinar el nivel de confianza del modelo, se comparan los valores de la tabla con el estadístico F devuelto por la función ESTIMACIÓN LINEAL.

ssreg es la suma de cuadrados de la regresión.

ssresid es la suma residual de cuadrados.

La siguiente figura muestra el orden en el que se devuelven estadísticas de regresión adicionales.

Notas

La información seleccionada de la función se puede obtener a través de la función ÍNDICE, por ejemplo:

Intersección en Y (término libre):

ÍNDICE(ESTIMACIÓN LINEAL(y,x),2)

La precisión de la aproximación utilizando la línea recta calculada por la función ESTIMACIÓN LINEAL depende del grado de dispersión de los datos. Cuanto más cerca estén los datos de una línea recta, más preciso será el modelo utilizado por la función ESTIMACIÓN LINEAL. La función ESTIMACIÓN LINEAL utiliza mínimos cuadrados para determinar el mejor ajuste a los datos.

Al realizar un análisis de regresión, Microsoft Excel calcula para cada punto el cuadrado de la diferencia entre el valor y predicho y el valor y real. La suma de estas diferencias al cuadrado se llama suma residual de cuadrados. Luego, Microsoft Excel calcula la suma de cuadrados de las diferencias entre los valores de y reales y el valor de y medio, que se denomina suma de cuadrados total (suma de cuadrados de regresión + suma de cuadrados residual). Cuanto menor sea la suma de cuadrados residual en comparación con la suma de cuadrados total, mayor será el valor del coeficiente de determinación r2, lo que muestra qué tan buena es la ecuación obtenida usando análisis de regresión, explica las relaciones entre variables.

Tenga en cuenta que los valores de y predichos por la ecuación de regresión pueden no ser correctos si quedan fuera del rango de los valores de y que se utilizaron para definir la ecuación.

Ejemplo 1 Pendiente e intersección en Y

LINEST((1;9;5;7);(0;4;2;3)) es igual a (2;1), pendiente = 2 e intersección con el eje y = 1.

Usando estadísticas F y R2

Puede utilizar el estadístico F para determinar si un resultado con un valor r2 alto se debe al azar. Si la F observada es mayor que la F crítica, entonces existe una relación entre las variables. F-crítico se puede obtener de la tabla de valores F-crítico en cualquier libro de referencia sobre estadística matemática. Para encontrar este valor usando una prueba de una cola, establezca el valor de Alfa (el valor de Alfa se usa para indicar la probabilidad de concluir erróneamente que existe una relación fuerte) igual a 0.05, y para el número de grados de libertad ( generalmente denotados como v1 y v2), pongamos v1 = k = 4 y v2 = n - (k + 1) = 11 - (4 + 1) = 6, donde k es el número de variables y n es el número de puntos de datos . Según la tabla de referencia, F-crítico es 4,53. El valor F observado es 459,753674 (este valor se obtuvo en el ejemplo que omitimos), que es notablemente mayor que Valor crítico F 4.53. Por lo tanto, el resultado ecuación de regresiónútil para predecir el resultado deseado.

Para una evaluación general de la calidad de la econometría construida, se utilizan características tales como el coeficiente de determinación, el índice de correlación, el promedio error relativo aproximación, y también verifica la importancia de la ecuación de regresión usando F-Criterio de Fisher. Las características enumeradas son bastante universales y pueden usarse tanto para modelos lineales como no lineales, así como para modelos con dos o más variables factoriales. Varios residuos desempeñan un papel decisivo en el cálculo de todas las características de calidad enumeradas. ε yo, que se calcula restando de los valores reales (obtenidos de las observaciones) de la característica en estudio y yo valores calculados usando la ecuación del modelo y рi.

Coeficiente de determinación

muestra qué proporción del cambio en la característica que se está estudiando se tiene en cuenta en el modelo. En otras palabras, el coeficiente de determinación muestra qué parte del cambio en la variable en estudio se puede calcular en función de los cambios en las variables factoriales incluidas en el modelo utilizando el tipo de función seleccionado que conecta las variables factoriales y la característica en estudio en el modelo. ecuación del modelo.

Coeficiente de determinación R 2 puede tomar valores de 0 a 1. Cuanto más se acerque el coeficiente de determinación R 2 a uno, el mejor calidad modelos.

Índice de correlación Se puede calcular fácilmente, conociendo el coeficiente de determinación:

Índice de correlación R caracteriza la cercanía del tipo de conexión elegido al construir el modelo entre los factores tomados en cuenta en el modelo y la variable en estudio. En el caso de la regresión lineal por pares, su valor absoluto coincide con el coeficiente de correlación por pares. r(x,y), que examinamos anteriormente, y caracteriza la cercanía de la relación lineal entre X Y y. Los valores del índice de correlación, obviamente, también se encuentran en el rango de 0 a 1. Cuanto más se acerque el valor R a la unidad, cuanto más estrechamente conecte el tipo de función seleccionado las variables factoriales y la característica en estudio, mejor será la calidad del modelo.

(2.11)

expresado como porcentaje y caracteriza la precisión del modelo. La precisión aceptable del modelo al resolver problemas prácticos se puede determinar basándose en consideraciones de viabilidad económica, teniendo en cuenta la situación específica. Un criterio ampliamente utilizado es que la precisión se considera satisfactoria si el error relativo medio es inferior al 15%. Si E promedio rel. menos del 5%, entonces se dice que el modelo tiene alta precisión. No se recomienda utilizar modelos con una precisión insatisfactoria para el análisis y el pronóstico, es decir, cuando E promedio rel. más del 15%.

Prueba F de Fisher Se utiliza para evaluar la importancia de una ecuación de regresión. El valor calculado del criterio F se determina a partir de la relación:

. (2.12)

Valor crítico F-Los criterios se determinan a partir de tablas para un nivel de significancia α y grados de libertad determinados (puede utilizar la función FRIST en Excel). Aquí, como antes, metro– número de factores tenidos en cuenta en el modelo, norte– número de observaciones. Si el valor calculado es mayor que el valor crítico, entonces la ecuación del modelo se considera significativa. Cuanto mayor sea el valor calculado F-criterios, mejor será la calidad del modelo.

Determinemos las características de calidad del modelo lineal que hemos construido para Ejemplo 1. Usemos los datos de la Tabla 2. Coeficiente de determinación:

Por tanto, en el marco del modelo lineal, un cambio en el volumen de ventas del 90,1% se explica por cambios en la temperatura del aire.

Índice de correlación

.

El valor del índice de correlación en el caso de un modelo lineal pareado, como vemos, es efectivamente igual en valor absoluto al coeficiente de correlación entre las variables correspondientes (volumen de ventas y temperatura). Dado que el valor obtenido es bastante cercano a la unidad, podemos concluir que existe una estrecha relación lineal entre la variable en estudio (volumen de ventas) y la variable factorial (temperatura).

Prueba F de Fisher

Valor crítico Fcr en α = 0,1; v1 =1; ν 2 =7-1-1=5 es 4,06. Valor calculado F-El criterio es mayor que el tabular, por lo tanto, la ecuación del modelo es significativa.

Error relativo medio de aproximación

El modelo de regresión lineal pareada construido tiene una precisión insatisfactoria (>15%) y no se recomienda su uso para análisis y pronósticos.

Como resultado, a pesar de que la mayoría de las características estadísticas cumplen los criterios para ellas, el modelo de regresión lineal por pares no es adecuado para predecir el volumen de ventas en función de la temperatura del aire. La naturaleza no lineal de la relación entre estas variables según los datos observacionales es claramente visible en la Fig. 1. El análisis lo confirmó.


Determinaremos los coeficientes de regresión empírica b 0 , b 1 utilizando la herramienta "Regresión" del complemento "Análisis de datos" del procesador de hojas de cálculo MS Excel.

El algoritmo para determinar los coeficientes es el siguiente.

1. Ingrese los datos iniciales en el procesador de hojas de cálculo de MS Excel.

2. Llame al complemento Análisis de datos (Figura 2).

3. Seleccione la herramienta de análisis Regresión (Figura 3).

4. Complete las posiciones correspondientes de la ventana Regresión (Figura 4).

5. Haga clic en el botón Aceptar en la ventana Regresión y obtenga un protocolo para resolver el problema (Figura 5).


Figura 3: Selección de la herramienta Regresión




Figura 4 – Ventana de regresión

Figura 5 – Protocolo para resolver el problema

En la Figura 5 se puede ver que los coeficientes de regresión empírica son respectivamente iguales a

segundo 0 = 223,

b1 = 0,0088.

Entonces la ecuación de regresión lineal pareada que conecta el valor de la pensión mensual y con el valor del mínimo de subsistencia tiene la forma

.(3.2)

A continuación, de acuerdo con la tarea, es necesario evaluar la cercanía de la relación estadística entre el valor del costo de vida x y el valor de la pensión mensual y. Esta estimación se puede hacer utilizando el coeficiente de correlación. El valor de este coeficiente en la Figura 5 se designa como múltiplo R y, en consecuencia, es igual a 0,038. Dado que teóricamente el valor de este coeficiente está en el rango de –1 a +1, podemos concluir que la relación estadística entre el valor del costo de vida x y el valor de la pensión mensual y no es significativa.

El parámetro “R – cuadrado”, presentado en la Figura 5, es el cuadrado del coeficiente de correlación y se denomina coeficiente de determinación. El valor de este coeficiente caracteriza la proporción de la varianza de la variable dependiente y explicada por la regresión (la variable explicativa x). En consecuencia, el valor 1- caracteriza la proporción de varianza en la variable y causada por la influencia de todas las demás variables explicativas no tomadas en cuenta en el modelo econométrico. En la Figura 5 se puede ver que la proporción de todas las variables explicativas no tomadas en cuenta en el modelo econométrico resultante es aproximadamente 1 - 0,00145 = 0,998 o 99,8%.



En la siguiente etapa, de acuerdo con la tarea, es necesario determinar el grado de conexión entre la variable explicativa x y la variable dependiente y, utilizando el coeficiente de elasticidad. El coeficiente de elasticidad para un modelo de regresión lineal pareada se define como:

Por tanto, si el coste de vida cambia un 1%, la pensión mensual cambia un 0,000758%.

. (3.4)

Para ello, complementamos la tabla 1 original con dos columnas en las que determinamos los valores calculados usando la dependencia (3.2) y el valor de la diferencia.

Tabla 3.2. Cálculo del error medio de aproximación.

Entonces el error de aproximación promedio es

.

Se sabe por la práctica que el valor del error de aproximación promedio no debe exceder el (12...15)%.

En la última etapa, evaluaremos la confiabilidad estadística del modelado mediante la prueba F de Fisher. Para ello, probaremos la hipótesis nula H 0 sobre la insignificancia estadística de la ecuación de regresión resultante según la condición:

si para un nivel de significancia dado a = 0,05 el valor teórico (calculado) del criterio F es mayor que su valor crítico F crit (tabulado), entonces se rechaza la hipótesis nula y la ecuación de regresión resultante se acepta como significativa.

De la Figura 5 se deduce que F calculado = 0,0058. El valor crítico del criterio F se determina utilizando la función estadística MÁS RÁPIDO (Figura 6). Los parámetros de entrada de la función son el nivel de significancia (probabilidad) y el número de grados de libertad 1 y 2. Para un modelo de regresión pareada, el número de grados de libertad es respectivamente 1 (una variable explicativa) y n-2 = 6 -2=4.



Figura 6 – Ventana de la función estadística MÁS RÁPIDO

En la Figura 6 se puede ver que el valor crítico de la prueba F es 7,71.

Desde F calculado< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Construir un modelo de regresión múltiple usando EXCEL.

De acuerdo con la opción de asignación, es necesario utilizar material estadístico.

1. Construya una ecuación de regresión lineal múltiple y explique el significado económico de sus parámetros.

2. Dar una evaluación comparativa de la cercanía de la relación entre los factores y el atributo resultante utilizando coeficientes de elasticidad promedio (generales).

3. Evalúe la significancia estadística de los coeficientes de regresión mediante la prueba t de Student y la hipótesis nula sobre la significancia de la ecuación mediante la prueba F.

4. Evaluar la calidad de la ecuación determinando el error promedio de aproximación.

Los datos iniciales para construir un modelo de regresión pareada se dan en la Tabla 3.3.

Tabla 3.3. Datos iniciales.

Utilidad neta, millones de dólares estadounidenses Rotación de capital, ml. Dólares estadounidenses, x 1 Capital utilizado, ml. dólares estadounidenses x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

La tecnología para construir una ecuación de regresión es similar al algoritmo descrito en el párrafo 3.1. El protocolo para construir la ecuación de regresión se muestra en la Figura 7.

CONCLUSIÓN DE RESULTADOS
Estadísticas de regresión
Plural R 0,901759207
R Plaza 0,813169667
R cuadrado normalizado 0,759789572
Error estándar 0,789962026
Observaciones
Análisis de variación
df EM F
Regresión 9,50635999 15,23357468
Resto 0,624040003
Total
Impares estadística t
Intersección en Y 1,113140304 2,270238114
Variable X 1 -0,000592199 -0,061275574
variablex2 0,063902851 5,496523193

Figura 7. Conclusión.



Nuevo en el sitio

>

Más popular