Hogar Cavidad oral Cómo comprobar la importancia de los coeficientes de correlación. Prueba: evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student

Cómo comprobar la importancia de los coeficientes de correlación. Prueba: evaluación de la importancia de los coeficientes de regresión y correlación mediante la prueba f de Student

Ejercicio. Para los territorios de la región se proporcionan datos para 199X;
Número de región Salario digno promedio per cápita por día de una persona sana, frotar. X Salario diario medio, frotar., en
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Requerido:
1. Construya una ecuación lineal para la regresión por pares de y a partir de x.
2. Calcular coeficiente lineal correlación de pares y error promedio aproximaciones.
3. Evaluar la significación estadística de los parámetros de regresión y correlación.
4. Ejecute un pronóstico salarios y con un valor previsto del nivel medio de subsistencia per cápita x que asciende al 107% del nivel medio.
5. Evaluar la precisión del pronóstico calculando el error de pronóstico y su intervalo de confianza.

Solución encontrar usando una calculadora.
Uso método gráfico .
Este método se utiliza para representar visualmente la forma de conexión entre los objetos estudiados. indicadores económicos. Para ello, se dibuja un gráfico en un sistema de coordenadas rectangular, los valores individuales de la característica resultante Y se trazan a lo largo del eje de ordenadas y los valores individuales de la característica del factor X se trazan a lo largo del eje de abscisas.
El conjunto de puntos de las características resultante y factorial se llama campo de correlación.
Con base en el campo de correlación, podemos plantear la hipótesis (para la población) de que la relación entre todos los valores posibles de X e Y es lineal.
La ecuación de regresión lineal es y = bx + a + ε
Aquí ε es un error aleatorio (desviación, perturbación).
Razones de la existencia de un error aleatorio:
1. No incluir variables explicativas significativas en el modelo de regresión;
2. Agregación de variables. Por ejemplo, la función de consumo total es un intento expresión general conjunto de decisiones de gasto individuales. Esta es sólo una aproximación de relaciones individuales que tienen diferentes parámetros.
3. Descripción incorrecta de la estructura del modelo;
4. Especificación funcional incorrecta;
5. Errores de medición.
Dado que las desviaciones ε i para cada observación específica i son aleatorias y sus valores en la muestra son desconocidos, entonces:
1) a partir de las observaciones x i y y i sólo se pueden obtener estimaciones de los parámetros α y β
2) Las estimaciones de los parámetros α y β del modelo de regresión son los valores a y b, respectivamente, que son de naturaleza aleatoria, porque corresponder a una muestra aleatoria;
Entonces, la ecuación de regresión de estimación (construida a partir de datos de muestra) tendrá la forma y = bx + a + ε, donde e i son los valores observados (estimaciones) de los errores ε i, y a y b son, respectivamente, estimaciones de los parámetros α y β del modelo de regresión que deben encontrarse.
Para estimar los parámetros α y β, se utiliza el método de mínimos cuadrados (método de mínimos cuadrados).
Sistema de ecuaciones normales.
Para nuestros datos, el sistema de ecuaciones tiene la forma
De la primera ecuación expresamos a y la sustituimos en la segunda ecuación.
Obtenemos b = 0,92, a = 76,98
Ecuación de regresión:
y = 0,92 x + 76,98

1. Parámetros de la ecuación de regresión.
Medios de muestra.



Variaciones de muestra:


Desviación Estándar


Coeficiente de correlación
Calculamos el indicador de cercanía de la conexión. Este indicador es el coeficiente de correlación lineal muestral, que se calcula mediante la fórmula:

El coeficiente de correlación lineal toma valores de –1 a +1.
Las conexiones entre características pueden ser débiles y fuertes (estrechas). Sus criterios se evalúan según la escala de Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
En nuestro ejemplo, la conexión entre el salario diario promedio y el salario digno per cápita promedio es alta y directa.
1.2. Ecuación de regresión(estimación de la ecuación de regresión).

La ecuación de regresión lineal es y = 0,92 x + 76,98
Coeficientes de ecuación regresión lineal se le puede dar significado económico.
El coeficiente b = 0,92 muestra el cambio promedio en el indicador efectivo (en unidades de medida y) con un aumento o disminución en el valor del factor x por unidad de su medida. En este ejemplo, con un aumento de 1 frote. nivel de subsistencia per cápita por día, el salario diario promedio aumenta en un promedio de 0,92.
El coeficiente a = 76,98 muestra formalmente el nivel previsto del salario diario promedio, pero sólo si x=0 está cerca de los valores de la muestra.
Al sustituir los valores de x apropiados en la ecuación de regresión, podemos determinar los valores alineados (predichos) del indicador de desempeño y(x) para cada observación.
La relación entre el salario medio diario y el mínimo de subsistencia medio per cápita por día está determinada por el signo del coeficiente de regresión b (si > 0 - relación directa, en caso contrario - inversa). En nuestro ejemplo, la conexión es directa.
Coeficiente de elasticidad.
No es aconsejable utilizar coeficientes de regresión (en el ejemplo b) para evaluar directamente la influencia de los factores sobre una característica resultante si existe una diferencia en las unidades de medida del indicador resultante y y la característica del factor x.
Para estos efectos se calculan los coeficientes de elasticidad y los coeficientes beta. El coeficiente de elasticidad se encuentra mediante la fórmula:


Muestra en qué porcentaje en promedio cambia el atributo efectivo y cuando el atributo del factor x cambia en un 1%. No tiene en cuenta el grado de fluctuación de los factores.
El coeficiente de elasticidad es menor que 1. Por lo tanto, si el costo de vida promedio per cápita por día cambia en un 1%, el salario diario promedio cambiará en menos del 1%. En otras palabras, la influencia del nivel de subsistencia promedio per cápita X sobre el salario diario promedio Y no es significativa.
coeficiente beta muestra en qué parte del valor de su promedio desviación cuadrada el valor promedio de la característica resultante cambiará cuando la característica del factor cambie en el valor de su desviación estándar con el valor de las variables independientes restantes fijados en un nivel constante:

Aquellos. un aumento de x en la desviación estándar de este indicador conducirá a un aumento del salario diario medio Y en 0,721 desviación estándar de este indicador.
1.4. Error de aproximación.
Evaluemos la calidad de la ecuación de regresión utilizando el error de aproximación absoluta.


Dado que el error es inferior al 15%, esta ecuación se puede utilizar como regresión.
Coeficiente de determinación.
El cuadrado del coeficiente de correlación (múltiple) se denomina coeficiente de determinación y muestra la proporción de variación en el atributo resultante explicada por la variación en el atributo del factor.
Muy a menudo, al interpretar el coeficiente de determinación, se expresa como porcentaje.
R2 = 0,722 = 0,5199
aquellos. en el 51,99% de los casos, los cambios en el nivel de subsistencia promedio per cápita x conducen a un cambio en el salario diario promedio y. En otras palabras, la precisión al seleccionar la ecuación de regresión es promedio. El 48,01% restante de la variación del salario medio diario Y se explica por factores no tenidos en cuenta en el modelo.

X y x2 y 2 x o y y(x) (y yo -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Estimación de parámetros de ecuaciones de regresión.
2.1. Importancia del coeficiente de correlación.

Usando la tabla de Student con nivel de significancia α=0,05 y grados de libertad k=10, encontramos t crit:
t crítico = (10;0,05) = 1,812
donde m = 1 es el número de variables explicativas.
Si t observado > t crítico, entonces el valor resultante del coeficiente de correlación se considera significativo (se rechaza la hipótesis nula que afirma que el coeficiente de correlación es igual a cero).
Como t obs > t crit, rechazamos la hipótesis de que el coeficiente de correlación es igual a 0. En otras palabras, el coeficiente de correlación es estadísticamente significativo.
En regresión lineal pareada t 2 r = t 2 b y luego probar hipótesis sobre la importancia de los coeficientes de regresión y correlación es equivalente a probar la hipótesis sobre la significancia ecuación lineal regresión.

2.3. Análisis de la precisión de la determinación de estimaciones de coeficientes de regresión.
Una estimación insesgada de la dispersión de perturbaciones es el valor:


S 2 y = 157,4922 - varianza inexplicable (una medida de la dispersión de la variable dependiente alrededor de la línea de regresión).

12,5496 - error estándar de estimación (error estándar de regresión).
S un - Desviación Estándar variable aleatoria a.


S b - desviación estándar de la variable aleatoria b.


2.4. Intervalos de confianza para la variable dependiente.
Los pronósticos económicos basados ​​en el modelo construido suponen que las relaciones preexistentes entre las variables se mantienen durante el período de anticipación.
Para predecir la variable dependiente del atributo resultante, es necesario conocer los valores predichos de todos los factores incluidos en el modelo.
Los valores predichos de los factores se sustituyen en el modelo y se obtienen estimaciones puntuales predictivas del indicador en estudio.
(a + bx p ± ε)
Dónde

Calculemos los límites del intervalo en el que se concentrará el 95%. valores posibles Y para un número ilimitado de observaciones y X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
Con una probabilidad del 95% es posible garantizar que el valor Y para un número ilimitado de observaciones no quedará fuera de los límites de los intervalos encontrados.
2.5. Probar hipótesis sobre los coeficientes de una ecuación de regresión lineal.
1) estadístico t. Prueba t de Student.
Comprobemos la hipótesis H 0 sobre la igualdad de los coeficientes de regresión individuales a cero (si la alternativa no es igual a H 1) en el nivel de significancia α=0,05.
t crítico = (10;0,05) = 1,812


Dado que 3,2906 > 1,812, se confirma la significancia estadística del coeficiente de regresión b (rechazamos la hipótesis de que este coeficiente sea igual a cero).


Dado que 3,1793 > 1,812, se confirma la significancia estadística del coeficiente de regresión a (rechazamos la hipótesis de que este coeficiente sea igual a cero).
Intervalo de confianza para coeficientes de ecuaciones de regresión.
definamos intervalos de confianza coeficientes de regresión, que con un 95% de confiabilidad serán los siguientes:
(b - t crítico S b ; b + t crítico S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Con una probabilidad del 95% se puede afirmar que el valor de este parámetro estará en el intervalo encontrado.
2) Estadística F. Criterio de Fisher.
La prueba de significancia de un modelo de regresión se lleva a cabo mediante la prueba F de Fisher, cuyo valor calculado se encuentra como la relación entre la varianza de la serie original de observaciones del indicador en estudio y la estimación insesgada de la varianza de la secuencia residual. para este modelo.
Si el valor calculado con k1=(m) y k2=(n-m-1) grados de libertad es mayor que el valor tabulado en un nivel de significancia determinado, entonces el modelo se considera significativo.

donde m es el número de factores en el modelo.
Calificación significancia estadística La regresión lineal pareada se realiza utilizando el siguiente algoritmo:
1. Se plantea la hipótesis nula de que la ecuación en su conjunto es estadísticamente insignificante: H 0: R 2 =0 en el nivel de significancia α.
2. A continuación, determine el valor real del criterio F:


donde m=1 para regresión por pares.
3. Valor de la tabla determinado a partir de las tablas de distribución de Fisher para un nivel de significancia dado, teniendo en cuenta que el número de grados de libertad para cantidad total cuadrados (varianza mayor) es 1 y el número de grados de libertad de la suma residual de cuadrados (varianza menor) en regresión lineal es n-2.
4. Si el valor real de la prueba F es menor que el valor de la tabla, entonces dicen que no hay razón para rechazar la hipótesis nula.
En caso contrario, se rechaza la hipótesis nula y se acepta con probabilidad (1-α) la hipótesis alternativa sobre la significancia estadística de la ecuación en su conjunto.
Tabla de valores del criterio con grados de libertad k1=1 y k2=10, Fkp = 4,96
Dado que el valor real de F > Fkp, el coeficiente de determinación es estadísticamente significativo (la estimación encontrada de la ecuación de regresión es estadísticamente confiable).

Etapa 3. Encontrar relaciones entre datos.

Correlación lineal

La última etapa de la tarea de estudiar las conexiones entre fenómenos es evaluar la cercanía de la conexión basándose en indicadores. conexión de correlación. Esta etapa es muy importante para identificar dependencias entre factores y características de desempeño y, en consecuencia, para la posibilidad de realizar un diagnóstico y pronóstico del fenómeno en estudio.

Diagnóstico(del reconocimiento de diagnóstico griego): determinación de la esencia y características del estado de un objeto o fenómeno a partir de su estudio integral.

Pronóstico(del griego pronóstico, predicción): cualquier predicción específica, juicio sobre el estado de cualquier fenómeno en el futuro (previsión del tiempo, resultado de las elecciones, etc.). Un pronóstico es una hipótesis con base científica sobre el probable estado futuro del sistema, objeto o fenómeno en estudio y los indicadores que caracterizan este estado. Previsión – desarrollo de previsión, especial Investigación científica perspectivas específicas para el desarrollo de cualquier fenómeno.

Recordemos la definición de correlación:

Correlación– dependencia entre variables aleatorias, expresada en el hecho de que la distribución de un valor depende del valor de otro valor.

Se observa una correlación no solo entre características cuantitativas, sino también cualitativas. Existir varias maneras e indicadores para evaluar la cercanía de los vínculos. Sólo nos detendremos en coeficiente de correlación de pares lineales , que se utiliza cuando existe una relación lineal entre variables aleatorias. En la práctica, a menudo existe la necesidad de determinar el nivel de conexión entre variables aleatorias de dimensiones desiguales, por lo que es deseable tener alguna característica adimensional de esta conexión. Tal característica (medida de conexión) es el coeficiente correlación lineal r xy, que está determinado por la fórmula

Dónde , .

Denotando y , podemos obtener la siguiente expresión para calcular el coeficiente de correlación

.

Si introducimos el concepto desviación normalizada , que expresa la desviación de los valores correlacionados del promedio en fracciones de la desviación estándar:



entonces la expresión para el coeficiente de correlación tomará la forma

.

Si calcula el coeficiente de correlación utilizando los valores finales de las variables aleatorias originales de la tabla de cálculo, entonces el coeficiente de correlación se puede calcular usando la fórmula

.

Propiedades del coeficiente de correlación lineal:

1). El coeficiente de correlación es una cantidad adimensional.

2). |r| £1 o .

3). , a, b= const, – el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y se multiplican (o dividen) por una constante.

4). , a, b= constante, – el valor del coeficiente de correlación no cambiará si todos los valores de las variables aleatorias X e Y aumentan (o disminuyen) en una constante.

5). Existe una relación entre el coeficiente de correlación y el coeficiente de regresión:

Los valores de los coeficientes de correlación se pueden interpretar de la siguiente manera:

Criterios cuantitativos para evaluar la cercanía de la comunicación:

Para fines de pronóstico, los valores con |r| > 0,7.

El coeficiente de correlación nos permite concluir la existencia dependencia lineal entre dos variables aleatorias, pero no indica cuál de las variables causa el cambio en la otra. De hecho, puede existir una conexión entre dos variables aleatorias sin una relación de causa y efecto entre los valores mismos, porque un cambio en ambas variables aleatorias puede ser causado por un cambio (influencia) de la tercera.

Coeficiente de correlación r xy es simétrico con respecto a las variables aleatorias consideradas X Y Y. Esto significa que para determinar el coeficiente de correlación es completamente indiferente cuál de las cantidades es independiente y cuál es dependiente.

Importancia del coeficiente de correlación

Incluso para cantidades independientes el coeficiente de correlación puede ser diferente de cero debido a la dispersión aleatoria de los resultados de la medición o debido a una pequeña muestra de variables aleatorias. Por lo tanto, se debe comprobar la importancia del coeficiente de correlación.

La importancia del coeficiente de correlación lineal se verifica en función de prueba t de Student :

.

Si t > tcr(pag, norte-2), entonces el coeficiente de correlación lineal es significativo y, por tanto, la relación estadística también es significativa. X Y Y.

.

Para facilitar el cálculo, se han creado tablas de valores de límites de confianza de los coeficientes de correlación para varios numeros grados de libertad f = norte–2 (prueba de dos colas) y varios niveles de significancia a= 0,1; 0,05; 0,01 y 0,001. La correlación se considera significativa si el coeficiente de correlación calculado excede el valor del límite de confianza del coeficiente de correlación para el dado F Y a.

para los grandes norte Y a= 0,01 el valor del límite de confianza del coeficiente de correlación se puede calcular utilizando la fórmula aproximada

.

Como se ha señalado repetidamente, para llegar a una conclusión estadística sobre la presencia o ausencia de correlación entre las variables en estudio, es necesario verificar la importancia del coeficiente de correlación muestral. Debido a que la confiabilidad de las características estadísticas, incluido el coeficiente de correlación, depende del tamaño de la muestra, puede surgir una situación en la que el valor del coeficiente de correlación esté enteramente determinado por fluctuaciones aleatorias en la muestra a partir de la cual se calcula. . Si existe una relación significativa entre las variables, el coeficiente de correlación debe ser significativamente diferente de cero. Si no existe correlación entre las variables en estudio, entonces el coeficiente de correlación de la población es igual a cero. En la investigación práctica, por regla general, se basan en observaciones de muestras. Como cualquier característica estadística, el coeficiente de correlación muestral es variable aleatoria, es decir, sus valores están dispersos aleatoriamente alrededor del parámetro de población del mismo nombre (el valor real del coeficiente de correlación). Si no existe correlación entre las variables, su coeficiente de correlación en la población es igual a cero. Pero debido a la naturaleza aleatoria de la dispersión, son fundamentalmente posibles situaciones en las que algunos coeficientes de correlación calculados a partir de muestras de esta población sean diferentes de cero.

¿Se pueden atribuir las diferencias observadas a fluctuaciones aleatorias en la muestra o reflejan un cambio significativo en las condiciones bajo las cuales se formaron las relaciones entre las variables? Si los valores del coeficiente de correlación muestral caen dentro de la zona de dispersión,

Debido a la naturaleza aleatoria del indicador en sí, esto no es evidencia de la ausencia de una relación. Lo máximo que se puede decir es que los datos observacionales no niegan la ausencia de relación entre las variables. Pero si el valor del coeficiente de correlación muestral se encuentra fuera de la zona de dispersión mencionada, entonces concluyen que es significativamente diferente de cero, y podemos suponer que existe una diferencia estadística entre las variables. conexión significativa. El criterio utilizado para resolver este problema, basado en la distribución de diversas estadísticas, se denomina criterio de significancia.

El procedimiento de prueba de significancia comienza con la formulación de la hipótesis nula B. vista general radica en que no existen diferencias significativas entre el parámetro muestral y el parámetro poblacional. Una hipótesis alternativa es que existen diferencias significativas entre estos parámetros. Por ejemplo, cuando se prueba la presencia de una correlación en una población, la hipótesis nula es que el coeficiente de correlación verdadero es cero. Si la prueba da como resultado que la hipótesis nula sea inaceptable, entonces el coeficiente de correlación de la muestra es significativamente diferente de cero (el coeficiente nulo). Se rechaza la hipótesis y se acepta la alternativa. En otras palabras, el supuesto de que las variables aleatorias no están correlacionadas en la población debe considerarse infundado y viceversa, si, con base en el criterio de significancia, se acepta la hipótesis nula, es decir, miente. en la zona permisible de dispersión aleatoria, entonces no hay razón para considerar cuestionable el supuesto de que las variables no están correlacionadas en la población.

En una prueba de significancia, el investigador establece un nivel de significancia a que proporciona cierta confianza práctica en que sólo en casos muy raros se extraerán conclusiones erróneas. El nivel de significancia expresa la probabilidad de que se rechace la hipótesis nula cuando en realidad es cierta. Claramente, tiene sentido elegir esta probabilidad lo más pequeña posible.

Conozcamos la distribución de la característica de la muestra, que es una estimación insesgada del parámetro poblacional. El nivel de significancia seleccionado a corresponde a las áreas sombreadas bajo la curva de esta distribución (ver Fig. 24). El área no sombreada bajo la curva de distribución determina la probabilidad. Los límites de los segmentos en el eje de abscisas debajo de las áreas sombreadas se denominan valores críticos y los segmentos mismos forman la región crítica o el área de rechazo de hipótesis.

En el procedimiento de prueba de hipótesis, la característica de la muestra calculada a partir de los resultados de las observaciones se compara con el valor crítico correspondiente. En este caso, se debe distinguir entre áreas críticas unilaterales y bilaterales. La forma de especificar la región crítica depende de la formulación del problema cuando investigación estadística. Se necesita una región crítica bilateral al comparar un parámetro de muestra y un parámetro de población

necesita ser evaluado valor absoluto Son de interés las discrepancias entre ellos, es decir, las diferencias tanto positivas como negativas entre las cantidades estudiadas. Cuando es necesario asegurarse de que un valor en promedio sea estrictamente mayor o menor que otro, se utiliza una región crítica unilateral (derecha o izquierda). Es bastante obvio que para el mismo valor crítico el nivel de significancia cuando se usa una región crítica unilateral es menor que cuando se usa una región crítica bilateral.

Arroz. 24. Prueba de hipótesis nula

Si la distribución de la característica de la muestra es simétrica, entonces el nivel de significancia de la región crítica bilateral es igual a a, y la región crítica unilateral es igual a y (ver Fig. 24). Limitémonos a la formulación general del problema. Más detalladamente con la justificación teórica de la prueba. hipótesis estadísticas puedes encontrarte en literatura especializada. A continuación sólo indicaremos los criterios de significación para varios procedimientos, sin detenernos en su construcción.

Al comprobar la importancia del coeficiente de correlación del par, se establece la presencia o ausencia de una correlación entre los fenómenos en estudio. Si no hay conexión, el coeficiente de correlación de la población es igual a cero. El procedimiento de verificación comienza con la formulación de las hipótesis nula y alternativa:

La diferencia entre el coeficiente de correlación muestral es insignificante,

La diferencia entre ellos es significativa, y por tanto existe una relación significativa entre sus variables. La hipótesis alternativa implica que necesitamos utilizar una región crítica de dos lados.

Ya se mencionó en la Sección 8.1 que el coeficiente de correlación muestral, bajo ciertas premisas, está asociado a una variable aleatoria sujeta a la distribución de Student con grados de libertad. Estadísticas calculadas a partir de resultados de muestra.

se compara con el valor crítico determinado a partir de la tabla de distribución de Student para un nivel de significancia a y grados de libertad dados. La regla para aplicar el criterio es la siguiente: si se rechaza la hipótesis nula en el nivel de significancia a, es decir, la relación entre las variables es significativa; si entonces se acepta la hipótesis nula en el nivel de significancia a. La desviación del valor se puede atribuir a una variación aleatoria. Los datos de la muestra caracterizan la hipótesis considerada como muy posible y plausible, es decir, la hipótesis sobre la ausencia de conexión no suscita objeciones.

El procedimiento de prueba de hipótesis se simplifica enormemente si, en lugar de estadísticas, utilizamos los valores críticos del coeficiente de correlación, que se pueden determinar a través de los cuantiles de la distribución de Student sustituyendo en

Hay tablas detalladas de valores críticos, de las cuales se incluye un extracto en el apéndice de este libro (ver Tabla 6). La regla para probar una hipótesis en este caso se reduce a lo siguiente: si es así, podemos afirmar que la relación entre las variables es significativa. Si es así, consideramos que los resultados de la observación son consistentes con la hipótesis de ausencia de conexión.

Probemos la hipótesis sobre la independencia de la productividad laboral del nivel de mecanización del trabajo de acuerdo con los datos proporcionados en la sección 4.1. Anteriormente se calculó que De (8.38) obtenemos

Usando la tabla de distribución de Student encontramos el valor crítico de este estadístico: Ya que rechazamos la hipótesis nula, cometiendo un error solo en el 5% de los casos.

Obtendremos el mismo resultado si comparamos con el valor crítico del coeficiente de correlación encontrado en la tabla correspondiente en

que tiene -distribución con grados de libertad. A continuación se realiza el procedimiento de comprobación de significancia de forma similar al anterior utilizando el criterio -.

Ejemplo

Con base en el análisis económico de los fenómenos, asumimos en la población general una fuerte conexión entre la productividad laboral y el nivel de mecanización del trabajo. Dejemos, por ejemplo, . Como alternativa, en este caso podemos plantear la hipótesis de que el coeficiente de correlación muestral, por tanto, debemos utilizar una región crítica unilateral. De (8.40) se deduce que

Comparamos el valor obtenido con el valor crítico. Así, con un nivel de significancia del 5%, podemos suponer la presencia de una conexión muy estrecha entre las características estudiadas, es decir, los datos iniciales permiten considerar plausible que.

La importancia de los coeficientes de correlación parcial se comprueba de forma similar. Solo cambia el número de grados de libertad, que se vuelve igual a donde está el número de variables explicativas. Valor estadístico calculado mediante la fórmula.

se compara con el valor crítico a encontrado en la tabla de distribución en el nivel de significancia a y el número de grados de libertad. La aceptación o rechazo de la hipótesis sobre la importancia del coeficiente de correlación parcial se lleva a cabo de acuerdo con la misma regla descrita anteriormente. . Las pruebas de significancia también se pueden realizar utilizando los valores críticos del coeficiente de correlación según (8.39), así como utilizando la transformación de Fisher (8.40).

Ejemplo

Comprobemos la confiabilidad estadística de los coeficientes de correlación parcial calculados en la Sección 4.5 en el nivel de significancia. A continuación, junto con los coeficientes de correlación parcial, se proporcionan los valores estadísticos críticos y calculados correspondientes.

Debido a que se acepta la hipótesis sobre la significancia de los coeficientes, concluimos: el nivel de mecanización del trabajo tiene un impacto significativo en la productividad laboral, excluyendo la influencia de la edad promedio de los trabajadores (y el porcentaje promedio de cumplimiento de normas). Diferencia desde cero de los coeficientes restantes.

Las correlaciones parciales pueden atribuirse a fluctuaciones aleatorias en la muestra y, por lo tanto, a partir de ellas no podemos decir nada definitivo sobre las influencias parciales de las variables relevantes.

La importancia del coeficiente de correlación múltiple se juzga por el resultado del procedimiento para verificar la importancia del coeficiente de determinación múltiple. Discutiremos esto con más detalle en la siguiente sección.

Una pregunta que suele ser de interés es: ¿dos coeficientes de correlación son significativamente diferentes entre sí? Al probar esta hipótesis se supone que se consideran las mismas características de poblaciones homogéneas; los datos representan resultados pruebas independientes; Se utilizan coeficientes de correlación del mismo tipo, es decir, coeficientes de correlación por pares o coeficientes de correlación parcial cuando se excluye el mismo número de variables.

Los volúmenes de las dos muestras a partir de las cuales se calculan los coeficientes de correlación pueden ser diferentes. Hipótesis nula: es decir, los coeficientes de correlación de las dos poblaciones consideradas son iguales. Hipótesis alternativa: La hipótesis alternativa implica que se debe utilizar una región crítica bidireccional. En otras palabras, debes verificar si la diferencia es significativamente diferente de cero. Usemos estadísticas que tengan una distribución aproximadamente normal:

donde - los resultados de las transformaciones de los coeficientes de correlación - volúmenes de muestra. Regla de prueba: si entonces se rechaza la hipótesis; si entonces se acepta la hipótesis.

Si se acepta, el valor

después del nuevo cálculo usando (8.6) sirve como una estimación resumida del coeficiente de correlación. A continuación, la hipótesis se puede probar usando estadísticas.

teniendo una distribución normal.

Ejemplo

Será necesario establecer si la estrecha relación entre la productividad laboral y el nivel de mecanización del trabajo difiere en empresas de la misma industria ubicadas en diferentes regiones del país. Comparemos empresas ubicadas en dos áreas. Calcule el coeficiente de correlación para uno de ellos utilizando una muestra de volumen (consulte la Sección 4.1). Para la Otra región, calculado utilizando una muestra de volumen

Después de convertir ambos coeficientes de correlación en valores -, calculamos usando (8.42) el valor del estadístico X:

El valor crítico de la estadística en es Por lo tanto, se acepta la hipótesis, es decir, con base en las muestras disponibles, no podemos establecer una diferencia significativa entre los coeficientes de correlación. Además, ambos coeficientes de correlación son significativos.

Utilizando (8.43) y (8.6), obtenemos una estimación resumida del coeficiente de correlación para dos regiones:

Finalmente, verifiquemos la hipótesis de si la estimación resumida del coeficiente de correlación es significativamente diferente de cero usando estadística (8.44):

Desde entonces podemos afirmar que en la población general existe una conexión significativa entre la productividad laboral y el nivel de mecanización del trabajo.

El criterio X se puede utilizar en varios aspectos. Así, en lugar de regiones, se pueden considerar diferentes industrias, por ejemplo, cuando es necesario determinar si las diferencias en la fuerza de las relaciones estudiadas entre los indicadores económicos de empresas que pertenecen a dos industrias diferentes son significativas.

Calculemos, a partir de dos muestras de volumen, coeficientes de correlación que caracterizan la estrecha relación entre la productividad laboral y el nivel de mecanización del trabajo en empresas pertenecientes a dos industrias (dos poblaciones generales). De (8.42) obtenemos

Ya que rechazamos la hipótesis nula. En consecuencia, se puede argumentar que existen diferencias significativas en la cercanía de la relación entre la productividad laboral y el nivel de mecanización del trabajo en empresas pertenecientes a diversas industrias. Continuaremos con este ejemplo en la Sección 8.7, donde compararemos líneas de regresión construidas para dos poblaciones.

Analizando los ejemplos dados, estamos convencidos de que considerando solo la diferencia absoluta de los coeficientes de correlación comparados

(los tamaños de muestra son los mismos en ambos casos) sin comprobar la importancia de esta diferencia se llegará a conclusiones erróneas. Esto confirma la necesidad de utilizar criterios estadísticos al comparar los coeficientes de correlación.

El procedimiento para comparar dos coeficientes de correlación se puede generalizar a numero mayor coeficientes sujetos a los requisitos previos anteriores. La hipótesis de igualdad de coeficientes de correlación entre variables se expresa de la siguiente manera: se prueba sobre la base de coeficientes de correlación calculados a partir de muestras de volumen de poblaciones generales. los coeficientes de correlación se recalculan en -valores: Dado que en caso general desconocida, encontramos su estimación mediante la fórmula, que es una generalización de (8.43).

TRABAJO DEL CURSO

Tema: Análisis de correlación

Introducción

1. Análisis de correlación

1.1 El concepto de correlación

1.2 Clasificación general de correlaciones

1.3 Campos de correlación y el propósito de su construcción.

1.4 Etapas Análisis de correlación

1.5 Coeficientes de correlación

1.6 Coeficiente de correlación de Bravais-Pearson normalizado

1.7 Coeficiente correlación de rango Lancero

1.8 Propiedades básicas de los coeficientes de correlación

1.9 Comprobación de la importancia de los coeficientes de correlación

1.10 Valores criticos coeficiente de correlación de pares

2. Planificación de un experimento multifactorial

2.1 Condición del problema

2.2 Determinación del centro del plan (nivel básico) y el nivel de variación de los factores

2.3 Construcción de la matriz de planificación

2.4 Comprobación de la homogeneidad de dispersión y equivalencia de medición en diferentes series

2.5 Coeficientes de la ecuación de regresión

2.6 Varianza de reproducibilidad

2.7 Comprobación de la importancia de los coeficientes de las ecuaciones de regresión

2.8 Comprobación de la adecuación de la ecuación de regresión

Conclusión

Bibliografía

INTRODUCCIÓN

La planificación experimental es una disciplina matemática y estadística que estudia métodos de organización racional. investigación experimental- de elección óptima factores que se estudian y que determinan el plan experimental real de acuerdo con su propósito hasta los métodos para analizar los resultados. La planificación experimental comenzó con los trabajos del estadístico inglés R. Fisher (1935), quien enfatizó que la planificación experimental racional proporciona ganancias no menos significativas en la precisión de las estimaciones que el procesamiento óptimo de los resultados de las mediciones. En los años 60 del siglo XX hubo teoría moderna planeando el experimento. Sus métodos están estrechamente relacionados con la teoría de la aproximación de funciones y la programación matemática. Se construyeron planos óptimos y se estudiaron sus propiedades para una amplia clase de modelos.

Planificación experimental: selección de un plan experimental que cumpla con requisitos específicos, un conjunto de acciones destinadas a desarrollar una estrategia de experimentación (desde obtener información a priori hasta obtener un modelo matemático viable o determinar condiciones óptimas). Se trata de un control intencionado de un experimento, implementado en condiciones de conocimiento incompleto del mecanismo del fenómeno que se está estudiando.

En el proceso de medición, posterior procesamiento de datos, así como la formalización de los resultados en forma de modelo matemático, surgen errores y parte de la información contenida en los datos originales se pierde. El uso de métodos de planificación experimental permite determinar el error del modelo matemático y juzgar su adecuación. Si la precisión del modelo resulta insuficiente, entonces el uso de métodos de planificación experimentales permite modernizarlo. modelo matemático con experimentos adicionales sin pérdida de información previa y con costes mínimos.

El propósito de planificar un experimento es encontrar condiciones y reglas para realizar experimentos bajo las cuales sea posible obtener información confiable y confiable sobre un objeto con la menor cantidad de trabajo, así como presentar esta información en una forma compacta y conveniente. con una evaluación cuantitativa de la precisión.

Entre los principales métodos de planificación utilizados en las diferentes etapas del estudio se encuentran:

Planificar un experimento de detección, cuyo significado principal es la selección de un conjunto completo de factores significativos que están sujetos a un estudio más detallado;

Planificando un experimento para Análisis de variación, es decir. elaboración de planos de objetos con factores cualitativos;

Planificar un experimento de regresión que permita obtener modelos de regresión (polinomiales y otros);

Planificar un experimento extremo en el que la tarea principal sea la optimización experimental del objeto de investigación;

Planificación al estudiar procesos dinámicos, etc.

El propósito del estudio de la disciplina es preparar a los estudiantes para las actividades productivas y técnicas de su especialidad utilizando métodos de la teoría de la planificación y tecnologías de la información modernas.

Objetivos de la disciplina: estudio. métodos modernos planificar, organizar y optimizar experimentos científicos e industriales, realizar experimentos y procesar los resultados obtenidos.

1. ANÁLISIS DE CORRELACIÓN

1.1 El concepto de correlación.

Un investigador suele estar interesado en cómo se relacionan dos o más variables entre sí en una o más muestras que se estudian. Por ejemplo, ¿puede la altura afectar el peso de una persona o la presión arterial puede afectar la calidad del producto?

Este tipo de dependencia entre variables se llama correlación o correlación. Una correlación es un cambio consistente en dos características, que refleja el hecho de que la variabilidad de una característica está de acuerdo con la variabilidad de la otra.

Se sabe, por ejemplo, que en promedio existe una relación positiva entre la altura de las personas y su peso, de manera que a mayor altura, mayor peso. Sin embargo, hay excepciones a esta regla cuando relativamente gente pequeña tener exceso de peso y, por el contrario, los asténicos, de gran altura, tienen poco peso. La razón de tales excepciones es que toda condición biológica, fisiológica o signo psicológico determinado por la influencia de muchos factores: ambientales, genéticos, sociales, ambientales, etc.

Las conexiones de correlación son cambios probabilísticos que solo pueden estudiarse en muestras representativas utilizando métodos. estadística matemática. Ambos términos (vínculo de correlación y dependencia de correlación) se utilizan a menudo indistintamente. Dependencia implica influencia, conexión, cualquier cambio coordinado que pueda explicarse por cientos de razones. Las conexiones de correlación no pueden considerarse como evidencia de una relación de causa y efecto; sólo indican que los cambios en una característica suelen ir acompañados de ciertos cambios en otra.

Dependencia de correlación - Son cambios que introducen los valores de una característica en la probabilidad de ocurrencia. diferentes significados otra señal.

La tarea del análisis de correlación se reduce a establecer la dirección (positiva o negativa) y la forma (lineal, no lineal) de la relación entre diferentes características, medir su cercanía y, finalmente, verificar el nivel de significancia de los coeficientes de correlación obtenidos.

Las conexiones de correlación varían en forma, dirección y grado (fuerza) .

La forma de la relación de correlación puede ser lineal o curvilínea. Por ejemplo, la relación entre el número de sesiones de entrenamiento en el simulador y el número de problemas resueltos correctamente en la sesión de control puede ser sencilla. Por ejemplo, la relación entre el nivel de motivación y la efectividad de una tarea puede ser curvilínea (Figura 1). A medida que aumenta la motivación, primero aumenta la efectividad para completar una tarea, luego se logra el nivel óptimo de motivación, que corresponde a la efectividad máxima para completar la tarea; Un mayor aumento de la motivación va acompañado de una disminución de la eficiencia.

Figura 1 - Relación entre la eficacia de la resolución de problemas y la fuerza de las tendencias motivacionales

En dirección, la relación de correlación puede ser positiva (“directa”) y negativa (“inversa”). Con una correlación lineal positiva, los valores más altos de una característica corresponden a valores más altos de otra, y los valores más bajos de una característica corresponden a valores bajos otro (Figura 2). Con una correlación negativa, las relaciones son inversas (Figura 3). Con una correlación positiva, el coeficiente de correlación tiene signo positivo, con una correlación negativa, un signo negativo.

Figura 2 – Correlación directa

Figura 3 – Correlación inversa


Figura 4 – Sin correlación

El grado, fuerza o cercanía de la correlación está determinado por el valor del coeficiente de correlación. La fuerza de la conexión no depende de su dirección y está determinada por el valor absoluto del coeficiente de correlación.

1.2 Clasificación general de correlaciones.

Dependiendo del coeficiente de correlación, se distinguen las siguientes correlaciones:

Fuerte o cercana con un coeficiente de correlación r>0,70;

Promedio (a 0,50

Moderado (a 0,30

Débil (a 0,20

Muy débil (en r<0,19).

1.3 Campos de correlación y el propósito de su construcción.

La correlación se estudia sobre la base de datos experimentales, que son los valores medidos (xi, y i) de dos características. Si hay pocos datos experimentales, entonces la distribución empírica bidimensional se representa como una serie doble de valores x i e y i. Al mismo tiempo, la correlación entre características se puede describir de diferentes maneras. La correspondencia entre un argumento y una función puede estar dada por una tabla, fórmula, gráfica, etc.

El análisis de correlación, al igual que otros métodos estadísticos, se basa en el uso de modelos probabilísticos que describen el comportamiento de las características en estudio en una determinada población general de la que se obtienen los valores experimentales xi e y i. Al estudiar la correlación entre características cuantitativas, cuyos valores se pueden medir con precisión en unidades de escalas métricas (metros, segundos, kilogramos, etc.), muy a menudo se adopta un modelo de población bidimensional distribuido normalmente. Un modelo de este tipo muestra gráficamente la relación entre las variables x i e y i en forma de una ubicación geométrica de puntos en un sistema de coordenadas rectangulares. Esta relación gráfica también se denomina diagrama de dispersión o campo de correlación.
Este modelo de distribución normal bidimensional (campo de correlación) nos permite dar una interpretación gráfica clara del coeficiente de correlación, porque la distribución total depende de cinco parámetros: μ x, μ y – valores medios (expectativas matemáticas); σ x,σ y – desviaciones estándar de las variables aleatorias X e Y y p – coeficiente de correlación, que es una medida de la relación entre las variables aleatorias X e Y.
Si p = 0, entonces los valores x i , y i obtenidos de una población normal bidimensional se ubican en el gráfico en las coordenadas x, y dentro del área limitada por el círculo (Figura 5, a). En este caso, no existe correlación entre las variables aleatorias X e Y y se denominan no correlacionadas. Para una distribución normal bidimensional, la falta de correlación significa simultáneamente independencia de las variables aleatorias X e Y.

En la investigación científica, a menudo surge la necesidad de encontrar una conexión entre las variables de resultado y factoriales (el rendimiento de un cultivo y la cantidad de precipitación, la altura y el peso de una persona en grupos homogéneos por sexo y edad, frecuencia cardíaca y temperatura corporal). , etc.).

Los segundos son signos que contribuyen a cambios en quienes están asociados a ellos (los primeros).

El concepto de análisis de correlación.

Hay muchos Con base en lo anterior, podemos decir que el análisis de correlación es un método utilizado para probar la hipótesis sobre la significancia estadística de dos o más variables si el investigador puede medirlas, pero no cambiarlas.

Existen otras definiciones del concepto en cuestión. El análisis de correlación es un método de procesamiento que implica estudiar coeficientes de correlación entre variables. En este caso, se comparan los coeficientes de correlación entre un par o muchos pares de características para establecer relaciones estadísticas entre ellas. El análisis de correlación es un método para estudiar la dependencia estadística entre variables aleatorias con la presencia opcional de una naturaleza estrictamente funcional, en el que la dinámica de una variable aleatoria conduce a la dinámica de la expectativa matemática de otra.

El concepto de falsa correlación.

Al realizar un análisis de correlación, es necesario tener en cuenta que se puede realizar en relación con cualquier conjunto de características, a menudo absurdas entre sí. A veces no tienen ninguna conexión causal entre sí.

En este caso se habla de una falsa correlación.

Problemas del análisis de correlación.

Con base en las definiciones anteriores, podemos formular las siguientes tareas del método descrito: obtener información sobre una de las variables buscadas utilizando otra; determinar la cercanía de la relación entre las variables estudiadas.

El análisis de correlación implica determinar la relación entre las características en estudio y, por lo tanto, las tareas del análisis de correlación se pueden complementar con lo siguiente:

  • identificación de factores que tienen mayor impacto en la característica resultante;
  • identificación de causas de conexiones previamente inexploradas;
  • construcción de un modelo de correlación con su análisis paramétrico;
  • estudio de la importancia de los parámetros de comunicación y su evaluación de intervalos.

Relación entre análisis de correlación y regresión.

El método de análisis de correlación a menudo no se limita a encontrar la cercanía de la relación entre las cantidades estudiadas. A veces se complementa con la elaboración de ecuaciones de regresión, que se obtienen mediante el análisis del mismo nombre y que representan una descripción de la correlación entre la característica (características) resultante y el factor (factor). Este método, junto con el análisis considerado, constituye el método

Condiciones para utilizar el método.

Los factores efectivos dependen de uno o varios factores. El método de análisis de correlación se puede utilizar si hay una gran cantidad de observaciones sobre el valor de los indicadores efectivos y factoriales (factores), mientras que los factores en estudio deben ser cuantitativos y reflejarse en fuentes específicas. El primero puede determinarse mediante la ley normal; en este caso, el resultado del análisis de correlación son los coeficientes de correlación de Pearson o, si las características no obedecen a esta ley, se utiliza el coeficiente de correlación de rango de Spearman.

Reglas para seleccionar factores de análisis de correlación.

Al aplicar este método, es necesario determinar los factores que influyen en los indicadores de desempeño. Se seleccionan teniendo en cuenta que debe existir una relación de causa y efecto entre los indicadores. En el caso de crear un modelo de correlación multifactorial, se seleccionan aquellos que tienen un impacto significativo en el indicador resultante, siendo preferible no incluir en el modelo de correlación factores interdependientes con un coeficiente de correlación de pares superior a 0,85, así como aquellos para los cuales la relación con el parámetro resultante no es de carácter lineal o funcional.

Mostrando resultados

Los resultados del análisis de correlación se pueden presentar en forma de texto y gráficos. En el primer caso se presentan como un coeficiente de correlación, en el segundo, en forma de diagrama de dispersión.

En ausencia de correlación entre los parámetros, los puntos en el diagrama están ubicados al azar, el grado promedio de conexión se caracteriza por un mayor grado de orden y se caracteriza por una distancia más o menos uniforme de las marcas marcadas desde la mediana. Una conexión fuerte tiende a ser recta y en r=1 el diagrama de puntos es una línea plana. La correlación inversa difiere en la dirección del gráfico desde la esquina superior izquierda hasta la inferior derecha, la correlación directa, desde la esquina inferior izquierda hasta la esquina superior derecha.

Representación 3D de un diagrama de dispersión.

Además de la visualización tradicional del diagrama de dispersión 2D, ahora se utiliza una representación gráfica 3D del análisis de correlación.

También se utiliza una matriz de diagrama de dispersión, que muestra todos los diagramas emparejados en una sola figura en formato matricial. Para n variables, la matriz contiene n filas y n columnas. El gráfico ubicado en la intersección de la i-ésima fila y la j-ésima columna es un gráfico de las variables Xi versus Xj. Por lo tanto, cada fila y columna es una dimensión, una sola celda muestra un diagrama de dispersión de dos dimensiones.

Evaluación de la estanqueidad de la conexión.

La cercanía de la conexión de correlación está determinada por el coeficiente de correlación (r): fuerte - r = ±0,7 a ±1, medio - r = ±0,3 a ±0,699, débil - r = 0 a ±0,299. Esta clasificación no es estricta. La figura muestra un diagrama ligeramente diferente.

Un ejemplo de uso del método de análisis de correlación.

En el Reino Unido se llevó a cabo un interesante estudio. Está dedicado a la relación entre el tabaquismo y el cáncer de pulmón y se llevó a cabo mediante análisis de correlación. Esta observación se presenta a continuación.

Datos iniciales para el análisis de correlación.

grupo profesional

mortalidad

Agricultores, silvicultores y pescadores

Mineros y trabajadores de canteras

Fabricantes de gas, coque y productos químicos.

Fabricantes de vidrio y cerámica.

Trabajadores de hornos, forjas, fundiciones y laminadores

Trabajadores de electricidad y electrónica.

Ingeniería y profesiones afines.

Industrias de la madera

peletero

Trabajadores textiles

Fabricantes de ropa de trabajo.

Trabajadores de las industrias de alimentos, bebidas y tabaco.

Fabricantes de papel e impresión

Fabricantes de otros productos.

Constructores

Pintores y decoradores

Conductores de motores estacionarios, grúas, etc.

Trabajadores no incluidos en otra parte

Trabajadores del transporte y las comunicaciones.

Trabajadores de almacenes, almacenistas, envasadores y trabajadores de máquinas llenadoras.

Trabajadores de oficina

Vendedores

Trabajadores del deporte y la recreación.

Administradores y gerentes

Profesionales, técnicos y artistas.

Comenzamos el análisis de correlación. Para mayor claridad, es mejor comenzar la solución con un método gráfico, para lo cual construiremos un diagrama de dispersión.

Demuestra una conexión directa. Sin embargo, es difícil sacar una conclusión inequívoca basándose únicamente en el método gráfico. Por lo tanto, continuaremos realizando análisis de correlación. A continuación se presenta un ejemplo de cálculo del coeficiente de correlación.

Usando software (MS Excel se describirá a continuación como ejemplo), determinamos el coeficiente de correlación, que es 0,716, lo que significa una fuerte conexión entre los parámetros en estudio. Determinemos la confiabilidad estadística del valor obtenido usando la tabla correspondiente, para lo cual debemos restar 2 de 25 pares de valores, como resultado obtenemos 23 y usando esta línea en la tabla encontramos r crítico para p = 0.01 (ya que son datos médicos, una dependencia más estricta, en otros casos es suficiente p=0,05), que es 0,51 para este análisis de correlación. El ejemplo demostró que la r calculada es mayor que la r crítica y el valor del coeficiente de correlación se considera estadísticamente confiable.

Uso de software al realizar análisis de correlación

El tipo de procesamiento de datos estadísticos descrito se puede realizar mediante software, en particular MS Excel. La correlación implica calcular los siguientes parámetros usando funciones:

1. El coeficiente de correlación se determina utilizando la función CORREL (matriz1; matriz2). Array1,2 - celda del intervalo de valores de las variables resultantes y factoriales.

El coeficiente de correlación lineal también se denomina coeficiente de correlación de Pearson y, por lo tanto, a partir de Excel 2007, puede utilizar la función con las mismas matrices.

La visualización gráfica del análisis de correlación en Excel se realiza utilizando el panel "Gráficos" con la selección "Gráfico de dispersión".

Después de especificar los datos iniciales, obtenemos un gráfico.

2. Evaluar la importancia del coeficiente de correlación por pares mediante la prueba t de Student. El valor calculado del criterio t se compara con el valor tabulado (crítico) de este indicador de la tabla correspondiente de valores del parámetro considerado, teniendo en cuenta el nivel de significancia especificado y el número de grados de libertad. Esta estimación se realiza mediante la función ESTUDISCOVER(probabilidad; grados_de_libertad).

3. Matriz de coeficientes de correlación de pares. El análisis se realiza mediante la herramienta Análisis de datos, en la que se selecciona Correlación. La evaluación estadística de los coeficientes de correlación de pares se lleva a cabo comparando su valor absoluto con el valor tabulado (crítico). Cuando el coeficiente de correlación por pares calculado excede el crítico, podemos decir, teniendo en cuenta el grado de probabilidad dado, que la hipótesis nula sobre la importancia de la relación lineal no se rechaza.

Finalmente

El uso del método de análisis de correlación en la investigación científica nos permite determinar la relación entre varios factores e indicadores de desempeño. Es necesario tener en cuenta que se puede obtener un coeficiente de correlación alto a partir de un par o conjunto de datos absurdos y, por lo tanto, este tipo de análisis debe realizarse sobre una matriz de datos suficientemente grande.

Después de obtener el valor calculado de r, es aconsejable compararlo con el r crítico para confirmar la confiabilidad estadística de un determinado valor. El análisis de correlación se puede realizar manualmente mediante fórmulas o mediante software, en particular MS Excel. Aquí también puede construir un diagrama de dispersión con el fin de representar visualmente la relación entre los factores estudiados del análisis de correlación y la característica resultante.



Nuevo en el sitio

>

Más popular