Hogar Cavidad oral Fiabilidad del coeficiente de correlación. Prueba: evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student

Fiabilidad del coeficiente de correlación. Prueba: evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student

Algunos investigadores, después de calcular el valor del coeficiente de correlación, se detienen ahí. Pero desde el punto de vista de una metodología experimental competente, también conviene determinar el nivel de significancia (es decir, el grado de fiabilidad) de este coeficiente.

El nivel de significancia del coeficiente de correlación se calcula utilizando la tabla de valores críticos. A continuación se muestra un fragmento de esta tabla, que nos permite determinar el nivel de significancia del coeficiente que obtuvimos.

Seleccionamos la fila que corresponde al tamaño de la muestra. En nuestro caso, n = 10. Seleccionamos en esta fila el valor de la tabla que es ligeramente menor que el empírico (o exactamente igual a él, lo cual es extremadamente raro). Ese número en negrita es 0,632. Se refiere a una columna con un nivel de significancia de p = 0,05. Es decir, de hecho, el valor empírico es intermedio entre las columnas p = 0,05 y p = 0,01, por lo tanto 0,05  p  0,01. Así, rechazamos la hipótesis nula y concluimos que el resultado obtenido (R xy = 0,758) es significativo al nivel p< 0,05 (это уровень статистической значимости): R эмп >R cr (p.< 0,05) H 0 ,  Н 1 ! ст. зн.

En el lenguaje cotidiano, esto se puede interpretar de la siguiente manera: podemos esperar que esta fuerza de conexión ocurra en la muestra con menos frecuencia que en cinco casos de cada 100, si esta conexión es una consecuencia del azar.

    1. Análisis de regresión

X(altura)

Y(peso)

METRO X = 166,6

METRO y = 58,3

X = 6 , 54

y = 8 , 34

El análisis de regresión se utiliza para estudiar la relación entre dos cantidades medidas en una escala de intervalo. Este tipo de análisis implica la construcción de una ecuación de regresión que permite describir cuantitativamente la dependencia de una característica de otra (el coeficiente de correlación de Pearson indica la presencia o ausencia de una relación, pero no describe esta relación). Conociendo el valor aleatorio de una de las características y utilizando esta ecuación, el investigador puede, con cierto grado de probabilidad, predecir el valor correspondiente de la segunda característica. La dependencia lineal de las características se describe mediante el siguiente tipo de ecuación:

y = a +b y * X ,

Dónde A - término libre de la ecuación igual al ascenso de la gráfica en un punto x=0 relativo al eje de abscisas, b – el coeficiente angular de la pendiente de la recta de regresión es igual a la tangente del ángulo de inclinación del gráfico al eje de abscisas (siempre que la escala de los valores en ambos ejes sea la misma).

Conociendo los valores de las características en estudio, se puede determinar el valor del término libre y el coeficiente de regresión mediante las siguientes fórmulas:

un =METRO y b y * METRO X

En nuestro caso:
;

un = 58,3 – 0,97 * 166,6 = -103,3

Así, la fórmula de peso versus altura es la siguiente: y = 0,969 * x – 103,3

El gráfico correspondiente se muestra a continuación.

Si es necesario describir la relación entre altura y peso ( X de en), entonces los valores A Y b se vuelven diferentes y las fórmulas deben modificarse en consecuencia:

X= un +b X * en

un =METRO X b X * METRO y

En este caso, la apariencia del gráfico también cambia.

El coeficiente de regresión está estrechamente relacionado con el coeficiente de correlación. Esta última es la media geométrica de los coeficientes de regresión de características:

El cuadrado del coeficiente de correlación se llama coeficiente de determinación. Su valor determina el porcentaje de influencia mutua de las variables. En nuestro caso R 2 = 0,76 2 = 0,58 . Esto significa que el 58% de la varianza total en Y se explica por la influencia de la variable X, el 42% restante se debe a la influencia de factores no tomados en cuenta en la ecuación.

Cabe señalar que un verdadero indicador del grado de relación lineal entre variables es coeficiente de correlación teórica, que se calcula en base a datos de toda la población (es decir, todos valores posibles indicadores):

Dónde - medida de covarianza teórica, que se calcula como la esperanza matemática de los productos de las desviaciones de SV
Y de sus expectativas matemáticas.

Como regla general, no podemos calcular el coeficiente de correlación teórico. Sin embargo, del hecho de que el coeficiente de muestreo no es igual a cero
no se sigue que el coeficiente teórico también sea
(es decir, los indicadores pueden ser linealmente independientes). Eso. A partir de datos de muestreo aleatorio, no se puede afirmar que exista una relación entre los indicadores.

El coeficiente de correlación muestral es una estimación del coeficiente teórico, porque se calcula sólo para parte de los valores de las variables.

siempre existe error del coeficiente de correlación. Este error es la discrepancia entre el coeficiente de correlación del volumen de muestra. y el coeficiente de correlación para la población está determinado por las fórmulas:

en
; Y
en
.

Probar la importancia de un coeficiente de correlación lineal significa probar cuánto podemos confiar en los datos de la muestra.

Para ello se prueba la hipótesis nula
que el valor del coeficiente de correlación para la población general es cero, es decir no hay correlación en la población. Una hipótesis alternativa es
.

Para probar esta hipótesis, calculamos - Estadísticas ( -Prueba t de Student:

.

Que tiene una distribución de Estudiantes con
grados de libertad 1.

El valor crítico se determina a partir de las tablas de distribución de Student.
.

Si el valor del criterio calculado
, entonces se rechaza la hipótesis nula, es decir, el coeficiente de correlación calculado difiere significativamente de cero con probabilidad
.

Si
, entonces no se puede rechazar la hipótesis nula. En este caso, es posible que el valor real del coeficiente de correlación sea cero, es decir la relación entre los indicadores puede considerarse estadísticamente insignificante.

Ejemplo 1. La tabla muestra datos de 8 años sobre el ingreso total. y gastos de consumo final .

Estudiar y medir la cercanía de la relación entre indicadores dados.

Tema 4. Regresión lineal pareada. método de mínimos cuadrados

El coeficiente de correlación indica el grado de cercanía de la relación entre dos características, pero no responde a la pregunta de cómo un cambio en una característica en una unidad de su dimensión afecta el cambio en otra característica. Para responder a esta pregunta se utilizan métodos de análisis de regresión.

Análisis de regresión conjuntos forma dependencias entre una variable aleatoria y valores variables
y los valores
se consideran especificados con precisión.

Ecuación de regresión es una fórmula para la relación estadística entre variables.

Si esta fórmula es lineal, entonces estamos hablando de regresión lineal. La fórmula para la relación estadística entre dos variables se llama regresión por pares(varias variables - múltiple).

La elección de la fórmula de dependencia se llama especificación ecuaciones de regresión. Estimar los valores de los parámetros de la fórmula seleccionada se llama parametrización.

¿Cómo estimar los valores de los parámetros y comprobar la fiabilidad de las estimaciones realizadas?

Miremos el dibujo.

    En el gráfico (a) la relación X Y en es casi lineal, la recta 1 aquí está cerca de los puntos de observación y estos últimos se desvían de ella sólo debido a influencias aleatorias relativamente pequeñas.

    El gráfico (b) muestra la relación real entre las cantidades X Y en se describe mediante una función no lineal 2, y no importa qué línea recta dibujemos (por ejemplo, 1), las desviaciones de los puntos no serán aleatorias.

    En el gráfico (c) la relación entre las variables X Y en falta y los resultados de la parametrización de cualquier fórmula de dependencia no tendrán éxito.

El punto de partida para el análisis de relaciones econométricas suele ser estimar dependencia lineal variables. Siempre puedes intentar dibujar una línea recta que esté "más cerca" de los puntos de observación en su totalidad (por ejemplo, en la Figura (c) la línea recta 1 será mejor que la línea recta 2).

Ecuación teórica de regresión lineal por pares tiene la forma:


,

Dónde
son llamados parámetros teóricos (coeficientes teóricos) regresión; -desviación aleatoria(error aleatorio).

En general, presentaremos el modelo teórico como:

.

Para determinar los valores de los coeficientes de regresión teóricos es necesario conocer todos los valores de las variables. X Y Y, es decir. todo población general, lo cual es prácticamente imposible.

La tarea es la siguiente: según los datos de observación disponibles.
,
es necesario estimar los valores de los parámetros
.

Dejar Aestimación de parámetros
,bestimación de parámetros .

Entonces la ecuación de regresión estimada es:
,

Dónde
valores teóricos de la variable dependiente y, - valores de error observados . Esta ecuación se llama ecuación de regresión empírica. Lo escribiremos en el formulario.
.

La base para estimar los parámetros de regresión lineal es método de mínimos cuadrados (EMN) es un método para estimar parámetros de regresión lineal que minimiza la suma de las desviaciones al cuadrado de las observaciones de la variable dependiente de la función lineal deseada.

Función q es función cuadrática dos parametros a Y b. Porque es continuo, convexo y acotado por debajo (
), por lo que alcanza un mínimo. Una condición necesaria para la existencia de un mínimo es la igualdad a cero de sus derivadas parciales con respecto a a Y b:


.

Dividiendo ambas ecuaciones del sistema por norte, obtenemos:


o

De lo contrario puedes escribir:

Y - desviaciones estándar de los valores de las mismas características.

Eso. la recta de regresión pasa por el punto con los valores medios X Y en
, A coeficiente de regresion b es proporcional al índice de covarianza y al coeficiente correlación lineal.

Si además de la regresión Y en X para los mismos valores empíricos, se encontró la ecuación de regresión de X sobre Y (
, Dónde
), entonces el producto de los coeficientes
:

.

A coeficiente de regresion  este es un valor que muestra cuántas unidades de dimensión cambiará el valor al cambiar el valor por unidad de su dimensión. El coeficiente se determina de manera similar. .

En la investigación científica, a menudo surge la necesidad de encontrar una conexión entre las variables de resultado y factoriales (el rendimiento de un cultivo y la cantidad de precipitación, la altura y el peso de una persona en grupos homogéneos por sexo y edad, frecuencia cardíaca y temperatura corporal). , etc.).

Los segundos son signos que contribuyen a cambios en quienes están asociados a ellos (los primeros).

El concepto de análisis de correlación.

Hay muchos Con base en lo anterior, podemos decir que el análisis de correlación es un método utilizado para probar la hipótesis sobre significancia estadística dos o más variables si el investigador puede medirlas pero no cambiarlas.

Existen otras definiciones del concepto en cuestión. El análisis de correlación es un método de procesamiento que implica estudiar coeficientes de correlación entre variables. En este caso, se comparan los coeficientes de correlación entre un par o muchos pares de características para establecer relaciones estadísticas entre ellas. El análisis de correlación es un método para estudiar la dependencia estadística entre variables aleatorias con la presencia opcional de una naturaleza funcional estricta, en el que la dinámica de una variable aleatoria conduce a la dinámica. expectativa matemática otro.

El concepto de falsa correlación.

Al realizar Análisis de correlación es necesario tener en cuenta que puede llevarse a cabo en relación con cualquier conjunto de características, muchas veces absurdas entre sí. A veces no tienen ninguna conexión causal entre sí.

En este caso se habla de una falsa correlación.

Problemas del análisis de correlación.

Con base en las definiciones anteriores, podemos formular las siguientes tareas del método descrito: obtener información sobre una de las variables buscadas utilizando otra; determinar la cercanía de la relación entre las variables estudiadas.

El análisis de correlación implica determinar la relación entre las características que se estudian y, por lo tanto, las tareas del análisis de correlación se pueden complementar con lo siguiente:

  • identificación de factores que tienen mayor impacto en la característica resultante;
  • identificación de causas de conexiones previamente inexploradas;
  • construcción de un modelo de correlación con su análisis paramétrico;
  • estudio de la importancia de los parámetros de comunicación y su evaluación de intervalos.

Relación entre análisis de correlación y regresión.

El método de análisis de correlación a menudo no se limita a encontrar la cercanía de la relación entre las cantidades estudiadas. A veces se complementa con la elaboración de ecuaciones de regresión, que se obtienen mediante el análisis del mismo nombre y que representan una descripción de la correlación entre la característica (características) resultante y el factor (factor). Este método, junto con el análisis considerado, constituye el método

Condiciones para utilizar el método.

Los factores efectivos dependen de uno o varios factores. El método de análisis de correlación se puede utilizar si hay una gran cantidad de observaciones sobre el valor de los indicadores efectivos y factoriales (factores), mientras que los factores en estudio deben ser cuantitativos y reflejarse en fuentes específicas. El primero puede determinarse mediante la ley normal; en este caso, el resultado del análisis de correlación son los coeficientes de correlación de Pearson o, si las características no obedecen a esta ley, se utiliza el coeficiente. correlación de rango Lancero.

Reglas para seleccionar factores de análisis de correlación.

Cuando usas este método es necesario determinar los factores que influyen en los indicadores de desempeño. Se seleccionan teniendo en cuenta que debe existir una relación de causa y efecto entre los indicadores. En el caso de crear un modelo de correlación multifactorial, se seleccionan aquellos que tienen un impacto significativo en el indicador resultante, siendo preferible no incluir en el modelo de correlación factores interdependientes con un coeficiente de correlación de pares superior a 0,85, así como aquellos para los cuales la relación con el parámetro resultante no es de carácter lineal o funcional.

Mostrando resultados

Los resultados del análisis de correlación se pueden presentar en forma de texto y gráficos. En el primer caso se presentan como un coeficiente de correlación, en el segundo, en forma de diagrama de dispersión.

En ausencia de correlación entre los parámetros, los puntos en el diagrama están ubicados al azar, el grado promedio de conexión se caracteriza por un mayor grado de orden y se caracteriza por una distancia más o menos uniforme de las marcas marcadas desde la mediana. Una conexión fuerte tiende a ser recta y en r=1 el diagrama de puntos es una línea plana. La correlación inversa difiere en la dirección del gráfico desde la esquina superior izquierda hasta la inferior derecha, la correlación directa, desde la esquina inferior izquierda hasta la esquina superior derecha.

Representación 3D de un diagrama de dispersión.

Además de la visualización tradicional del diagrama de dispersión 2D, ahora se utiliza una representación gráfica 3D del análisis de correlación.

También se utiliza una matriz de diagrama de dispersión, que muestra todos los diagramas emparejados en una sola figura en formato matricial. Para n variables, la matriz contiene n filas y n columnas. El gráfico ubicado en la intersección de la i-ésima fila y la j-ésima columna es un gráfico de las variables Xi versus Xj. Por lo tanto, cada fila y columna es una dimensión, una sola celda muestra un diagrama de dispersión de dos dimensiones.

Evaluación de la estanqueidad de la conexión.

La cercanía de la conexión de correlación está determinada por el coeficiente de correlación (r): fuerte - r = ±0,7 a ±1, medio - r = ±0,3 a ±0,699, débil - r = 0 a ±0,299. Esta clasificación no es estricta. La figura muestra un diagrama ligeramente diferente.

Un ejemplo de uso del método de análisis de correlación.

En el Reino Unido se llevó a cabo un interesante estudio. Está dedicado a la relación entre el tabaquismo y el cáncer de pulmón y se llevó a cabo mediante análisis de correlación. Esta observación se presenta a continuación.

Datos iniciales para el análisis de correlación.

grupo profesional

mortalidad

Agricultores, silvicultores y pescadores

Mineros y trabajadores de canteras

Fabricantes de gas, coque y productos químicos.

Fabricantes de vidrio y cerámica.

Trabajadores de hornos, forjas, fundiciones y laminadores

Trabajadores de electricidad y electrónica.

Ingeniería y profesiones afines.

Industrias madereras

peletero

Trabajadores textiles

Fabricantes de ropa de trabajo.

Trabajadores de las industrias de alimentos, bebidas y tabaco.

Fabricantes de papel e impresión

Fabricantes de otros productos.

Constructores

Pintores y decoradores

Conductores de motores estacionarios, grúas, etc.

Trabajadores no incluidos en otra parte

Trabajadores del transporte y las comunicaciones.

Trabajadores de almacenes, almacenistas, envasadores y trabajadores de máquinas llenadoras.

Trabajadores de oficina

Vendedores

Trabajadores del deporte y la recreación.

Administradores y gerentes

Profesionales, técnicos y artistas.

Comenzamos el análisis de correlación. Es mejor comenzar la solución para mayor claridad con método gráfico, para lo cual construiremos un diagrama de dispersión.

Demuestra una conexión directa. Sin embargo, es difícil sacar una conclusión inequívoca basándose únicamente en el método gráfico. Por lo tanto, continuaremos realizando análisis de correlación. A continuación se presenta un ejemplo de cálculo del coeficiente de correlación.

Usando software (MS Excel se describirá a continuación como ejemplo), determinamos el coeficiente de correlación, que es 0,716, lo que significa una fuerte conexión entre los parámetros en estudio. Determinemos la confiabilidad estadística del valor obtenido usando la tabla correspondiente, para lo cual debemos restar 2 de 25 pares de valores, como resultado obtenemos 23 y usando esta línea en la tabla encontramos r crítico para p = 0.01 (ya que son datos médicos, una dependencia más estricta, en otros casos es suficiente p=0,05), que es 0,51 para este análisis de correlación. El ejemplo demostró que la r calculada es mayor que la r crítica y el valor del coeficiente de correlación se considera estadísticamente confiable.

Uso de software al realizar análisis de correlación

El tipo descrito de procesamiento de datos estadísticos se puede llevar a cabo utilizando software, en particular, MS Excel. La correlación implica calcular los siguientes parámetros usando funciones:

1. El coeficiente de correlación se determina utilizando la función CORREL (matriz1; matriz2). Array1,2 - celda del intervalo de valores de las variables resultantes y factoriales.

El coeficiente de correlación lineal también se denomina coeficiente de correlación de Pearson y, por lo tanto, a partir de Excel 2007, puede utilizar la función con las mismas matrices.

La visualización gráfica del análisis de correlación en Excel se realiza utilizando el panel "Gráficos" con la selección "Gráfico de dispersión".

Después de especificar los datos iniciales, obtenemos un gráfico.

2. Evaluar la importancia del coeficiente de correlación por pares mediante la prueba t de Student. El valor calculado del criterio t se compara con el valor tabulado (crítico) de este indicador de la tabla correspondiente de valores del parámetro considerado, teniendo en cuenta el nivel de significancia especificado y el número de grados de libertad. Esta estimación se realiza mediante la función ESTUDISCOVER(probabilidad; grados_de_libertad).

3. Matriz de coeficientes de correlación de pares. El análisis se realiza mediante la herramienta Análisis de datos, en la que se selecciona Correlación. La evaluación estadística de los coeficientes de correlación de pares se lleva a cabo comparándolos. valor absoluto con un valor tabular (crítico). Cuando el coeficiente de correlación por pares calculado excede el crítico, podemos decir, teniendo en cuenta el grado de probabilidad dado, que la hipótesis nula sobre la importancia de la relación lineal no se rechaza.

Finalmente

El uso del método de análisis de correlación en la investigación científica nos permite determinar la relación entre varios factores e indicadores de desempeño. Es necesario tener en cuenta que a partir de un par o conjunto de datos absurdo se puede obtener un alto coeficiente de correlación, y por tanto este tipo El análisis debe realizarse sobre un conjunto de datos suficientemente grande.

Después de obtener el valor calculado de r, es aconsejable compararlo con el r crítico para confirmar la confiabilidad estadística de un determinado valor. El análisis de correlación se puede realizar manualmente mediante fórmulas o mediante software, en particular MS Excel. Aquí también puede construir un diagrama de dispersión con el fin de representar visualmente la relación entre los factores estudiados del análisis de correlación y la característica resultante.

Etapa 3. Encontrar relaciones entre datos.

Correlación lineal

La última etapa de la tarea de estudiar las conexiones entre fenómenos es evaluar la cercanía de la conexión utilizando indicadores de correlación. Esta etapa es muy importante para identificar dependencias entre factores y características de desempeño y, en consecuencia, para la posibilidad de realizar un diagnóstico y pronóstico del fenómeno en estudio.

Diagnóstico(del reconocimiento de diagnóstico griego): determinación de la esencia y características del estado de un objeto o fenómeno a partir de su estudio integral.

Pronóstico(del griego pronóstico, predicción): cualquier predicción específica, juicio sobre el estado de cualquier fenómeno en el futuro (previsión del tiempo, resultado de las elecciones, etc.). Un pronóstico es una hipótesis con base científica sobre el probable estado futuro del sistema, objeto o fenómeno en estudio y los indicadores que caracterizan este estado. Previsión – desarrollo de previsión, especial Investigación científica perspectivas específicas para el desarrollo de cualquier fenómeno.

Recordemos la definición de correlación:

Correlación– dependencia entre variables aleatorias, expresada en el hecho de que la distribución de un valor depende del valor de otro valor.

Se observa una correlación no solo entre características cuantitativas, sino también cualitativas. Existir varias maneras e indicadores para evaluar la cercanía de los vínculos. Sólo nos detendremos en coeficiente de correlación de pares lineales , que se utiliza cuando existe una relación lineal entre variables aleatorias. En la práctica, a menudo existe la necesidad de determinar el nivel de conexión entre variables aleatorias de dimensiones desiguales, por lo que es deseable tener alguna característica adimensional de esta conexión. Tal característica (medida de conexión) es el coeficiente de correlación lineal. r xy, que está determinado por la fórmula

Dónde , .

Denotando y , podemos obtener la siguiente expresión para calcular el coeficiente de correlación

.

Si introducimos el concepto desviación normalizada , que expresa la desviación de los valores correlacionados del promedio en fracciones de la desviación estándar:



entonces la expresión para el coeficiente de correlación tomará la forma

.

Si calcula el coeficiente de correlación en función de los valores finales del inicial variables aleatorias de la tabla de cálculo, entonces el coeficiente de correlación se puede calcular usando la fórmula

.

Propiedades del coeficiente de correlación lineal:

1). El coeficiente de correlación es una cantidad adimensional.

2). |r| £1 o .

3). , a, b= const, – el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y se multiplican (o dividen) por una constante.

4). , a, b= constante, – el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y aumentan (o disminuyen) en una constante.

5). Existe una relación entre el coeficiente de correlación y el coeficiente de regresión:

Los valores de los coeficientes de correlación se pueden interpretar de la siguiente manera:

Criterios cuantitativos para evaluar la cercanía de la comunicación:

Para fines de pronóstico, los valores con |r| > 0,7.

El coeficiente de correlación nos permite concluir que existe una relación lineal entre dos variables aleatorias, pero no indica cuál de las variables provoca el cambio en la otra. De hecho, puede existir una conexión entre dos variables aleatorias sin una relación de causa y efecto entre los valores mismos, porque un cambio en ambas variables aleatorias puede ser causado por un cambio (influencia) de la tercera.

Coeficiente de correlación r xy es simétrico con respecto a las variables aleatorias consideradas X Y Y. Esto significa que para determinar el coeficiente de correlación es completamente indiferente cuál de las cantidades es independiente y cuál es dependiente.

Importancia del coeficiente de correlación

Incluso para cantidades independientes el coeficiente de correlación puede ser diferente de cero debido a la dispersión aleatoria de los resultados de la medición o debido a una pequeña muestra de variables aleatorias. Por lo tanto, se debe comprobar la importancia del coeficiente de correlación.

La importancia del coeficiente de correlación lineal se verifica en función de prueba t de Student :

.

Si t > tcr(p,n-2), entonces coeficiente lineal la correlación es significativa y, por lo tanto, la conexión estadística también es significativa X Y Y.

.

Para facilitar el cálculo, se han creado tablas de valores de límites de confianza de los coeficientes de correlación para varios numeros grados de libertad f = norte–2 (prueba de dos colas) y varios niveles de significancia a= 0,1; 0,05; 0,01 y 0,001. La correlación se considera significativa si el coeficiente de correlación calculado excede el valor del límite de confianza del coeficiente de correlación para el dado F Y a.

para los grandes norte Y a= 0,01 el valor del límite de confianza del coeficiente de correlación se puede calcular utilizando la fórmula aproximada

.

Introducción. 2

1. Evaluar la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student. 3

2. Cálculo de la significancia de los coeficientes de regresión y correlación mediante la prueba f de Student. 6

Conclusión. 15

Después de construir la ecuación de regresión, es necesario verificar su importancia: utilizando criterios especiales, determine si la dependencia resultante es expresado por la ecuación regresión, aleatoria, es decir ¿Se puede utilizar con fines de previsión y para análisis factorial. En estadística, se han desarrollado métodos para probar estrictamente la importancia de los coeficientes de regresión utilizando Análisis de variación y cálculo de criterios especiales (por ejemplo, criterio F). Se puede realizar una prueba flexible calculando la desviación lineal relativa promedio (e), llamada error promedio aproximaciones:

Pasemos ahora a evaluar la significancia de los coeficientes de regresión bj y a construir un intervalo de confianza para los parámetros del modelo de regresión Ru (J=l,2,..., p).

Bloque 5: evaluación de la importancia de los coeficientes de regresión según el valor de la prueba ^ de Student. Los valores calculados de ta se comparan con el valor permitido

Bloque 5: evaluación de la importancia de los coeficientes de regresión en función del valor del criterio ^. Los valores calculados de t0n se comparan con el valor permitido 4,/, que se determina a partir de las tablas de distribución t para una probabilidad de error dada (a) y el número de grados de libertad (/).

Además de comprobar la significancia de todo el modelo, es necesario probar la significancia de los coeficientes de regresión utilizando la prueba / de Student. El valor mínimo del coeficiente de regresión br debe corresponder a la condición bifob- ^t, donde bi es el valor del coeficiente de la ecuación de regresión en escala natural para la característica del i-ésimo factor; ah. - error cuadrático medio de cada coeficiente. incomparabilidad de los coeficientes D en su importancia;

Un análisis estadístico adicional se refiere a probar la significancia de los coeficientes de regresión. Para hacer esto, encontramos el valor del criterio ^ para los coeficientes de regresión. Como resultado de su comparación, se determina el criterio ^ más pequeño. El factor cuyo coeficiente corresponde al criterio ^ más pequeño queda excluido del análisis posterior.

Para evaluar la significación estadística de los coeficientes de regresión y correlación, se utilizó la prueba t de Student y intervalos de confianza cada uno de los indicadores. Se plantea una hipótesis sobre el carácter aleatorio de los indicadores, es decir sobre su insignificante diferencia con respecto a cero. La evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student se lleva a cabo comparando sus valores con la magnitud del error aleatorio:

Evaluar la importancia de los coeficientes de regresión pura mediante la prueba / de Student se reduce a calcular el valor

La calidad del trabajo es una característica del trabajo específico, que refleja el grado de complejidad, intensidad (intensidad), condiciones e importancia para el desarrollo económico. Kt. medido a través de un sistema arancelario que permite diferenciar los salarios dependiendo del nivel de calificaciones (complejidad del trabajo), condiciones, severidad del trabajo y su intensidad, así como la importancia de las industrias y producciones individuales, regiones, territorios para el desarrollo de la economía del país. Kt. encuentra expresión en salarios trabajadores, desarrollándose en el mercado laboral bajo la influencia de la oferta y la demanda. fuerza laboral(tipos específicos de trabajo). Kt. - estructura compleja

Los puntajes obtenidos de la importancia relativa de las consecuencias económicas, sociales y ambientales individuales del proyecto proporcionan además una base para comparar proyectos alternativos y sus opciones utilizando el "criterio adimensional de puntaje complejo de eficiencia social y ambiental-económica" del proyecto Ek, calculado (en puntuaciones de significancia promedio) usando la fórmula

La regulación intraindustrial garantiza diferencias en los salarios de los trabajadores de una industria determinada, dependiendo de la importancia de los tipos individuales de producción en una industria determinada, de la complejidad y las condiciones de trabajo, así como de las formas de remuneración utilizadas.

La evaluación de calificación resultante de la empresa analizada en relación con la empresa estándar sin tener en cuenta la importancia de los indicadores individuales es comparativa. Al comparar calificaciones de varias empresas. calificación más alta tiene una empresa con el valor mínimo de la evaluación comparativa obtenida.

Entender la calidad de un producto como una medida de su utilidad pone prácticamente pregunta importante sobre su medida. Su solución se logra estudiando la importancia de las propiedades individuales para satisfacer una necesidad específica. El significado de incluso la misma propiedad puede ser diferente dependiendo de las condiciones de consumo del producto. En consecuencia, la utilidad del producto en diferentes circunstancias sus usos son diferentes.

La segunda etapa del trabajo consiste en estudiar datos estadísticos e identificar la relación e interacción de los indicadores, determinando la importancia de los factores individuales y las razones de los cambios en los indicadores generales.

Todos los indicadores considerados se combinan en uno de tal manera que el resultado es una evaluación integral de todos los aspectos analizados de las actividades de la empresa, teniendo en cuenta las condiciones de su actividad, teniendo en cuenta el grado de importancia de los indicadores individuales para varios tipos inversores:

Los coeficientes de regresión muestran la intensidad de la influencia de los factores sobre el indicador de desempeño. Si se lleva a cabo una estandarización preliminar de los indicadores de factores, entonces b0 es igual al valor promedio del indicador efectivo en su conjunto. Los coeficientes b, b2 ..... bl muestran en cuántas unidades se desvía el nivel del indicador efectivo de su valor promedio si los valores del indicador del factor se desvían del promedio igual a cero en uno Desviación Estándar. Por tanto, los coeficientes de regresión caracterizan el grado de importancia de los factores individuales para aumentar el nivel del indicador de desempeño. Los valores específicos de los coeficientes de regresión se determinan a partir de datos empíricos según el método. mínimos cuadrados(como resultado de resolver sistemas de ecuaciones normales).

2. Cálculo de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student

Consideremos la forma lineal de las relaciones multifactoriales no sólo como la más simple, sino también como la forma proporcionada por los paquetes de software de aplicación para PC. Si la conexión entre un factor individual y el atributo resultante no es lineal, entonces la ecuación se linealiza reemplazando o transformando el valor del atributo del factor.

forma general La ecuación de regresión multivariada tiene la forma:


donde k es el número de características de los factores.

Para simplificar el sistema de ecuaciones de mínimos cuadrados necesario para calcular los parámetros de la ecuación (8.32), generalmente se introducen las desviaciones de los valores individuales de todas las características de los valores promedio de estas características.

Obtenemos un sistema de k ecuaciones de mínimos cuadrados:

Resolviendo este sistema, obtenemos los valores de los coeficientes de regresión condicionalmente puros b. El término libre de la ecuación se calcula mediante la fórmula.


El término "coeficiente de regresión condicionalmente puro" significa que cada uno de los valores bj mide la desviación promedio agregada de la característica resultante de su valor promedio cuando un factor dado xj se desvía de su valor promedio en una unidad de su medida y siempre que todos otros factores incluidos en la ecuación de regresión, fijados en valores promedio, no cambian, no varían.

Así, a diferencia del coeficiente de regresión pareada, el coeficiente de regresión pura condicional mide la influencia de un factor, haciendo abstracción de la relación de la variación de este factor con la variación de otros factores. Si fuera posible incluir en la ecuación de regresión todos los factores que influyen en la variación de la característica resultante, entonces los valores de bj. podrían considerarse medidas de la influencia pura de factores. Pero como es realmente imposible incluir todos los factores en la ecuación, entonces los coeficientes bj. no está libre de la mezcla de la influencia de factores no incluidos en la ecuación.

Es imposible incluir todos los factores en la ecuación de regresión por una de tres razones o todos a la vez, ya que:

1) algunos factores pueden ser desconocidos ciencia moderna, el conocimiento de cualquier proceso es siempre incompleto;

2) no hay información sobre algunos de los factores teóricos conocidos o no es confiable;

3) el tamaño de la población en estudio (muestra) es limitado, lo que permite incluir un número limitado de factores en la ecuación de regresión.

Coeficientes de regresión pura condicional bj. Se denominan números expresados ​​en diferentes unidades de medida y, por tanto, son incomparables entre sí. Para convertirlos en indicadores relativos comparables se utiliza la misma transformación que para obtener el coeficiente de correlación por pares. El valor resultante se llama coeficiente estandarizado regresión o?-coeficiente.


El coeficiente del factor xj determina la medida de la influencia de la variación del factor xj sobre la variación de la característica resultante y, haciendo abstracción de la variación concomitante de otros factores incluidos en la ecuación de regresión.

Es útil expresar los coeficientes de regresión condicionalmente pura en forma de indicadores de conexión relativos comparables, coeficientes de elasticidad:

El coeficiente de elasticidad del factor xj dice que cuando el valor de un factor dado se desvía de su valor promedio en un 1% y haciendo abstracción de la desviación concomitante de otros factores incluidos en la ecuación, la característica resultante se desviará de su valor promedio en un ej por ciento. de y. Más a menudo, los coeficientes de elasticidad se interpretan y aplican en términos de dinámica: con un aumento en el factor x en un 1% de su valor promedio, la característica resultante aumentará en un por ciento de su valor promedio.

Consideremos el cálculo y la interpretación de la ecuación de regresión multifactorial utilizando las mismas 16 granjas como ejemplo (Tabla 8.1). Signo resultante - nivel ingresos brutos y en la tabla se presentan tres factores que influyen en él. 8.7.

Recordemos una vez más que para obtener indicadores de correlación fiables y suficientemente precisos se necesita una población mayor.


Tabla 8.7

Nivel de ingreso bruto y sus factores.

Números de granja

Ingresos brutos, rublos/ra

Costos laborales, días-hombre/ha x1

Proporción de tierra cultivable,

Producción de leche por 1 vaca,

Cuadro 8.8 Indicadores de ecuaciones de regresión

Variable dependiente: y

Coeficiente de regresion

Constante-240.112905

Estándar error de est. = 79,243276


La solución se realizó mediante el programa “Microstat” para PC. Aquí están las tablas de la impresión: tabla. 8.7 da los valores promedio y las desviaciones estándar de todas las características. Mesa 8.8 contiene coeficientes de regresión y su evaluación probabilística:

la primera columna "var" - variables, es decir factores; la segunda columna “coeficiente de regresión” - coeficientes de regresión condicionalmente puros bj; tercera columna “estándar. errr" - errores promedio en las estimaciones de los coeficientes de regresión; cuarta columna: valores de la prueba t de Student con 12 grados de libertad de variación; quinta columna “prob”: la probabilidad de la hipótesis nula en relación con los coeficientes de regresión;

sexta columna “r2 parcial” - coeficientes de determinación parciales. El contenido y la metodología para calcular los indicadores de las columnas 3 a 6 se analizan con más detalle en el Capítulo 8. “Constante” es el término libre de la ecuación de regresión a; "Estándar. error de est." - error cuadrático medio de la estimación de la característica efectiva utilizando la ecuación de regresión. La ecuación se obtuvo regresión múltiple:

y = 2,26x1 - 4,31x2 + 0,166x3 - 240.

Esto significa que la cantidad de ingresos brutos por hectárea de tierra agrícola aumentó en promedio en 2,26 rublos. con un aumento de los costes laborales de 1 hora/ha; disminuyó en un promedio de 4,31 rublos. con un aumento en la proporción de tierras cultivables en tierras agrícolas en un 1% y un aumento de 0,166 rublos. con un aumento de 1 kg en la producción de leche por vaca. El valor negativo del término libre es bastante natural y, como ya se señaló en el párrafo 8.2, el signo efectivo es que el ingreso bruto se vuelve cero mucho antes de que los factores alcancen valores cero, lo cual es imposible en la producción.

Un valor negativo del coeficiente para x^ es una señal de problemas importantes en la economía de las granjas en estudio, donde la agricultura no es rentable y sólo la ganadería es rentable. Con métodos racionales de agricultura y precios normales (de equilibrio o cercanos a ellos) para los productos de todos los sectores, los ingresos no deberían disminuir, sino aumentar con un aumento de la parte más fértil de las tierras agrícolas: la tierra cultivable.

Basado en los datos de las dos penúltimas filas de la tabla. 8.7 y tabla. 8.8 calculamos los coeficientes p y los coeficientes de elasticidad según las fórmulas (8.34) y (8.35).

Tanto la variación en el nivel de ingresos como su posible cambio en la dinámica están influenciados más fuertemente por el factor x3, la productividad de las vacas, y el más débil por x2, la proporción de tierra cultivable. Los valores P2/ se seguirán utilizando (Tabla 8.9);

Cuadro 8.9 Influencia comparativa de los factores sobre el nivel de ingresos

factores xj


Entonces, hemos obtenido que el coeficiente ? del factor xj se relaciona con el coeficiente de elasticidad de este factor, así como el coeficiente de variación del factor se relaciona con el coeficiente de variación de la característica resultante. Desde entonces, como se puede ver en la última línea de la tabla. 8.7, los coeficientes de variación de todos los factores son menores que el coeficiente de variación de la característica resultante; todos los coeficientes ? son menores que los coeficientes de elasticidad.

Consideremos la relación entre el coeficiente de regresión pareado y condicionalmente puro usando el factor -с, como ejemplo. Pares ecuación lineal la conexión y con x tiene la forma:

y = 3.886x1 – 243.2

El coeficiente de regresión condicionalmente puro en x1 es sólo el 58% del pareado. El 42% restante se debe a que la variación x1 va acompañada de una variación en los factores x2 x3, lo que, a su vez, afecta al rasgo resultante. Las conexiones de todas las características y sus coeficientes de regresión por pares se presentan en el gráfico de conexiones (Fig. 8.2).


Si sumamos las estimaciones de la influencia directa e indirecta de la variación x1 sobre y, es decir, el producto de los coeficientes de regresión pareados a lo largo de todos los “caminos” (Fig. 8.2), obtenemos: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Este valor es aún mayor. coeficiente de par conexiones x1 con y. En consecuencia, la influencia indirecta de la variación x1 a través de factores no incluidos en la ecuación es la contraria, dando en total:

1 Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de la econometría. Libro de texto para universidades. - M.: UNIDAD, 2008, – 311 p.

2 Johnston J. Métodos econométricos. - M.: Estadísticas, 1980. – 282s.

3 Dougherty K. Introducción a la econometría. - M.: INFRA-M, 2004, – 354 p.

4 Dreyer N., Smith G., Aplicado análisis de regresión. - M.: Finanzas y Estadísticas, 2006, – 191 p.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. Econometría. Curso inicial.-M.: Delo, 2006, – 259 p.

6 Taller de Econometría/Ed. II Eliseeva. - M.: Finanzas y Estadísticas, 2004, – 248 p.

7 Econometría/Ed. II Eliseeva. - M.: Finanzas y Estadísticas, 2004, – 541 p.

8 Kremer N., Putko B. Econometría.- M.: UNITY-DANA, 200, – 281 p.


Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de la econometría. Libro de texto para universidades. - M.: UNIDAD, 2008, – pág. 23.

Kremer N., Putko B. Econometría.- M.: UNITY-DANA, 200, – p.64

Dreyer N., Smith G., Análisis de regresión aplicado. - M.: Finanzas y Estadísticas, 2006, – p57.

Taller de econometría/Ed. I. I. Eliseeva. - M.: Finanzas y Estadísticas, 2004, – p. 172.



Nuevo en el sitio

>

Más popular