Hogar odontologia infantil Propiedades del coeficiente de correlación lineal. Un ejemplo de cómo encontrar el coeficiente de correlación.

Propiedades del coeficiente de correlación lineal. Un ejemplo de cómo encontrar el coeficiente de correlación.

Coeficiente de correlación lineal

Un indicador más perfecto del grado de cercanía de la conexión es coeficiente lineal correlaciones (r).

Al calcular este indicador, no solo se tienen en cuenta los signos de desviaciones de los valores individuales de una característica del promedio, sino también la magnitud de dichas desviaciones en sí, es decir, respectivamente para las características, valores y factoriales y resultantes. Sin embargo, es imposible comparar directamente los valores absolutos obtenidos entre sí, ya que las características mismas se pueden expresar en diferentes unidades (como es el caso en el ejemplo presentado), y si están presentes las mismas unidades de medida, el los promedios pueden tener diferentes valores. En este sentido, las desviaciones expresadas en valores relativos pueden estar sujetas a comparación, es decir, en fracciones de la desviación estándar (se llaman desviaciones normalizadas). Así, para una característica factorial tendremos un conjunto de valores, y para una característica efectiva, .

Las desviaciones normalizadas resultantes se pueden comparar entre sí. Para obtener una característica general del grado de cercanía entre las características para toda la población basándose en una comparación de las desviaciones normalizadas calculadas, se calcula el producto promedio de las desviaciones normalizadas. El promedio obtenido de esta forma será el coeficiente de correlación lineal. r.

(1.2)

o porque s x Y s y Como estas series son constantes y se pueden quitar entre paréntesis, entonces la fórmula para el coeficiente de correlación lineal toma la siguiente forma:

(1.3)

El coeficiente de correlación lineal puede tomar cualquier valor entre –1 y +1. Cuanto más cercano a 1 sea el coeficiente de correlación en valor absoluto, más cercana será la relación entre las características. El signo del coeficiente de correlación lineal indica la dirección de la relación: la relación directa corresponde a un signo más y la relación inversa corresponde a un signo menos.

Si con un aumento en los valores de la característica del factor. X, signo resultante en tiende a aumentar, entonces el valor del coeficiente de correlación estará entre 0 y 1. Si, con valores crecientes X signo resultante en tiende a disminuir, el coeficiente de correlación puede tomar valores en el rango de 0 a –1.

El valor obtenido del coeficiente de correlación lineal, como el coeficiente de Fechner encontrado anteriormente, indica posible disponibilidad Existe una relación directa bastante estrecha entre los costos de publicidad y el número de turistas que utilizaron los servicios de la empresa.

Coeficiente de correlación al cuadrado ( r 2) se llama coeficiente de determinación. Para el ejemplo considerado, su valor es 0,6569, lo que significa que el 65,69% de la variación en el número de clientes que utilizaron los servicios de la empresa se explica por la variación en los costos de publicidad de sus servicios.

Aquí conviene recordar una vez más que el valor del coeficiente de correlación en sí no es evidencia de la presencia de una relación causa-efecto entre las características en estudio, sino una evaluación del grado de coherencia mutua en los cambios de características. El establecimiento de una relación causa-efecto va precedido de un análisis de la naturaleza cualitativa de los fenómenos. Pero hay una circunstancia más que explica la formulación de conclusiones sobre la posible presencia de una conexión a partir del valor del coeficiente de correlación.

Esto se debe al hecho de que la evaluación del grado de cercanía de la conexión mediante el coeficiente de correlación se realiza, por regla general, sobre la base de información más o menos limitada sobre el fenómeno en estudio. Surge la pregunta de cuán legítima es nuestra conclusión basada en datos de muestra sobre la presencia real de una correlación en ese población, de donde se tomó la muestra?

ANÁLISIS DE CORRELACIÓN Y REGRESIÓN EN

CÁLCULOS ECONÓMICOS

Conceptos básicos en análisis de correlación y regresión.

En matemáticas, hay dos conceptos que reflejan relaciones de causa y efecto entre características: dependencia funcional y de correlación.

Se entiende por dependencia funcional una relación entre cantidades cuando el valor de la cantidad dependiente, una función, está completamente determinado por los valores de las variables dependientes.

Una dependencia de correlación ocurre cuando cada valor de una cantidad (resultante) corresponde a un conjunto de valores aleatorios de otra, que ocurren con una cierta probabilidad.

Al estudiar los fenómenos económicos, no nos enfrentamos a una dependencia funcional, sino a una correlación. Usando correlación y análisis de regresión se puede calcular Coeficientes de correlación, que evalúan la fuerza de la relación entre indicadores individuales, seleccione

ecuación de regresión, que determina la forma de esta conexión y establece la confiabilidad de la existencia de esta conexión.

El proceso de análisis de correlación y regresión de procesos económicos consta de las siguientes etapas:

Procesamiento preliminar de datos estadísticos y selección de las principales características de los factores que influyen en el indicador efectivo;

Evaluar la cercanía de la conexión e identificar la forma de la conexión existente entre las características resultantes y de los factores;

Desarrollo de un modelo (multifactorial) del fenómeno en estudio y su análisis;

Aplicación de los resultados obtenidos del análisis para la toma de decisiones de gestión.

La correlación enfrenta dos desafíos principales. El primero es identificar cómo cambia la característica efectiva promedio en relación con un cambio en el factor uno. Este problema se puede solucionar Encontrar la ecuación de comunicación. La segunda tarea determina el grado de influencia de los factores distorsionantes. Este problema se resuelve estudiando indicadores de cercanía de conexión. Dichos indicadores son coeficientes de correlación y ratios de correlación.



2. Signos efectivos y factoriales. . Al estudiar la influencia de algunos signos de un fenómeno sobre otros, de la cadena de signos que caracterizan este fenómeno, se distinguen dos: signos factoriales (que afectan el resultado) y resultantes. Es necesario establecer cuál de las características es factorial y cuál productiva. En primer lugar, el análisis lógico ayuda en esto.

Ejemplo. El costo de los productos industriales de una empresa individual depende de muchos factores, incluido el volumen de producción de esta empresa. El costo de producción actúa en este caso como atributo efectivo y el volumen de producción como factorial.

Otro ejemplo. Para juzgar las ventajas de las grandes empresas sobre las pequeñas, podemos considerar cómo aumenta la productividad laboral de los trabajadores en las grandes empresas e identificar la dependencia de la productividad laboral del aumento del tamaño de la empresa.

3. El concepto de ecuación de la comunicación. La ecuación de esta función será la ecuación de la conexión entre las características resultante y factorial.

La ecuación de acoplamiento se encuentra usando el método. mínimos cuadrados, lo que requiere que la suma de las desviaciones al cuadrado de los valores empíricos de los valores obtenidos con base en la ecuación de acoplamiento sea mínima.

El uso del método de mínimos cuadrados permite encontrar los parámetros de la ecuación de comunicación resolviendo un sistema de las llamadas ecuaciones normales, diferentes para cada tipo de conexión.

Para observar que la relación entre dos características se expresa mediante el promedio, se denotan los valores de la característica resultante encontrada a partir de la ecuación de relación. Puaj.

Conociendo la ecuación de relación, se puede calcular de antemano el valor medio de la característica resultante cuando se calcula el valor. Se conoce la característica factorial. Por tanto, la ecuación de conexión es un método para generalizar las relaciones estadísticas observadas, un método para estudiarlas.

El uso de una u otra función como ecuación de acoplamiento distingue los acoplamientos por su forma: acoplamiento lineal y acoplamiento curvilíneo (parabólico, hiperbólico, etc.).

Consideremos las ecuaciones de conexión para dependencias de una característica en diferentes formas conexiones (lineales, curvilíneas, parabólicas, hiperbólicas) y para conexiones múltiples.

4. Relación lineal entre características.. La ecuación de conexión como ecuación de línea recta Ух==ао+а1х se utiliza en el caso de un aumento uniforme en el atributo efectivo con un aumento en el atributo factorial. Tal dependencia será una dependencia lineal (rectilínea).

Los parámetros de la ecuación de la recta ao y a1 se encuentran resolviendo un sistema de ecuaciones normales obtenido mediante el método de mínimos cuadrados:

Un ejemplo de cálculo de los parámetros de la ecuación y los valores promedio de la característica efectiva Vx es la siguiente tabla, la cual es el resultado de agrupar por característica factorial y calcular los valores promedio por característica efectiva.

Para la ecuación de relación es necesario agrupar empresas por valor de activos fijos y calcular montos.

De la tabla encontramos: n==6; =18; =39,0; =71,5

132,0. Construimos un sistema de dos ecuaciones con dos incógnitas:

Dividiendo cada término de ambas ecuaciones por los coeficientes de a® obtenemos:

Reste la primera de la segunda ecuación: 0,97a1=0,83; a1==0,86. Sustituyendo los valores de a1 en la primera ecuación ao+3*0,86 =6,5, encontramos ao=6,5-2,58=+3,92.

La ecuación de conexión tomará la forma: yx=3,92+0,86x. Sustituyendo la x correspondiente en esta ecuación, obtenemos los valores de la característica resultante, que refleja la dependencia promedio de y de x en forma de dependencia de correlación.

Tenga en cuenta que las cantidades calculadas por la ecuación y las reales son iguales entre sí. Representación de los valores reales y calculados en la Fig. 4 muestra que la ecuación de acoplamiento refleja la dependencia observada en promedio.

5. Dependencia parabólica entre signos . La dependencia parabólica, expresada por la ecuación de una parábola de segundo orden yx = ao + a1x + a2x 2, ocurre con un aumento o disminución acelerado del atributo efectivo en combinación con un aumento uniforme del atributo factorial.

Parámetros de la ecuación de parábola a®; a1; a2, se calculan resolviendo un sistema de 3 ecuaciones normales:

Tomemos como ejemplo la dependencia. edición mensual productos (y) a partir del valor de los activos fijos (x). Ambas cifras están redondeadas al millón de rublos más cercano. Los cálculos de las cantidades requeridas se dan en la tabla. 5.

Con base en los datos de la tabla, creamos un sistema de ecuaciones:

6. Ecuación de hipérbola. La retroalimentación indica una disminución en el atributo efectivo a medida que aumenta el factorial. Esta es una relación lineal con un valor negativo de a1. En varios otros casos, la retroalimentación se puede expresar mediante la ecuación de hipérbola

Los parámetros de la ecuación de hipérbola ao y a1 se encuentran a partir del sistema de ecuaciones normales:

7. Tabla de correlación. Con un gran volumen de observaciones, cuando el número de pares interconectados es grande, los datos emparejados se pueden ubicar fácilmente en una tabla de correlación, que es la forma más conveniente de representar un número significativo de pares de números.

En una tabla de correlación, una característica se ubica en las filas y la otra en las columnas de la tabla. El número ubicado en la celda en la intersección del gráfico y la columna muestra con qué frecuencia un valor dado de la característica resultante ocurre en combinación con un valor dado de la característica factorial.

Para simplificar el cálculo, tomaremos un pequeño número de observaciones en 20 empresas de la producción mensual promedio por trabajador (miles de rublos) y el costo de los activos fijos de producción (millones de rublos).

En una tabla emparejada normal, esta información se organiza así:

Los totales de las filas y muestran la frecuencia de la característica nу, los totales de la columna x muestran la frecuencia de la característica nx. Los números en las celdas de la tabla de correlación son frecuencias relacionadas con ambas características y se denominan nxy.

La tabla de correlación, incluso con un conocimiento superficial, da Idea general sobre línea recta y comentario. Si las frecuencias están ubicadas en diagonal hacia abajo hacia la derecha, entonces la conexión entre las características es directa (con valores crecientes de la característica en filas y columnas). Si las frecuencias están ubicadas en diagonal hacia arriba y hacia la derecha, entonces la conexión es inversa.

8. Relación de correlación. Si un fenómeno se mide por dos características, entonces es posible encontrar medidas de dispersión (principalmente dispersión) por la característica resultante para los mismos valores de la característica factorial.

Se da, por ejemplo, una tabla de correlación de dos series interdependientes, en la que, por simplicidad, solo hay tres valores de la característica factorial de la cantidad de fertilizante aplicado (x), y la característica resultante: rendimiento (y) —fluctúa significativamente. Tabla 16

A cada grupo de parcelas con diferentes rendimientos se les aplicaron diferentes cantidades de fertilizante. Así, cuando se aplicaron fertilizantes a razón de 20 g/el rendimiento en diferentes zonas fue igual: en una zona fue de 0,8 toneladas, en dos zonas - 0,9 toneladas, en tres - 1,0 toneladas y en una - 1,1 toneladas. Hallemos el rendimiento medio y dispersión del rendimiento para este grupo de parcelas.

Para un grupo de parcelas con una cantidad de fertilizante aplicado de 30,0 g, el rendimiento medio será:

Calculemos características similares para un grupo de áreas. recibió 40 toneladas de fertilizantes:

A partir de estos datos también se puede determinar el rendimiento medio de las 20 parcelas, independientemente de la cantidad de fertilizante aplicado, es decir, el promedio general:

y una medida de variabilidad (dispersión) del rendimiento promedio de los grupos alrededor del promedio general. Esta dispersión se llama dispersión intergrupal y se denota b 2

donde yi son los rendimientos promedio para grupos de parcelas que difieren en la cantidad de fertilizante aplicado; m1,m2,m3,-número de grupos. La varianza entre grupos para este ejemplo es:

La varianza entre grupos muestra la dispersión que se produce debido al atributo factorial. En este ejemplo, Y = == 0,01&247 es un indicador de la dispersión del rendimiento resultante de la diferencia en la cantidad de fertilizante aplicado.

Sin embargo, además de la dispersión entre grupos, también es posible calcular la dispersión como un indicador de la dispersión debida a otros factores (si se denomina así a todos los demás factores, excepto a los fertilizantes). Este indicador será un valor promedio (ponderado) de los indicadores de dispersión (varianzas) para grupos de sitios.

Esto prácticamente significa que es posible obtener una medida general de dispersión (dispersión) para las 20 parcelas si se dispone de información sobre las medias y variaciones para grupos de parcelas que difieren en la cantidad de fertilizante aplicado. Por lo tanto, la variación del rendimiento total para las 20 parcelas será;

Las fórmulas para calcular las variaciones intergrupales y promedio de grupo se pueden abreviar de la siguiente manera:

El cálculo de la varianza total, intragrupo e intergrupo nos permite sacar algunas conclusiones sobre el grado de influencia del atributo factorial sobre la variabilidad del atributo efectivo. Esta medida de influencia se encuentra utilizando la relación de correlación:

Esto significa que el 78% de la variabilidad del rendimiento de la parcela depende de la variabilidad de la cantidad de fertilizante aplicado.

Coeficiente de correlación lineal

Al estudiar la cercanía de la relación entre dos series interdependientes, se utiliza un coeficiente de correlación lineal, que muestra si existe una relación entre estas series y en qué medida. Puede tomar valores que oscilan entre –1 y +1.

10.Coeficiente de correlación acumulativa :

,

Dónde r- los coeficientes de correlación lineal y los subíndices indican entre qué características se calculan.

1) El coeficiente de correlación lineal puede tomar valores que oscilan entre –1 y +1.

2) Si , entonces la conexión entre las características es funcional, es decir, la característica efectiva está influenciada sólo por la característica factorial considerada y nada más, si r= 0, entonces no hay conexión entre las características.

3) si r> 0, entonces la relación entre las características es directa, si r< 0, то связь – обратная.

4) Asigne los siguientes intervalos para r:

prácticamente no existe conexión entre los signos;

la conexión es débil;

la conexión es moderada;

la conexión es fuerte.

Arroz. 2. Ejemplos de ubicación de puntos en el gráfico y valores del coeficiente de correlación.

Para evaluar la importancia del coeficiente de correlación lineal r usar t– Prueba de estudiante. En este caso, se plantea la hipótesis de que el coeficiente de correlación es igual a cero.

Evaluación de la hipótesis:

1. Calcular los valores reales t- criterio para r:

(Esta fórmula se utiliza para un tamaño de muestra pequeño).

2. Según la tabla t- Se determina la distribución de Student teniendo en cuenta el nivel de significancia aceptado y el número de grados de libertad.

3. Si , entonces se rechaza la hipótesis, lo que indica la significancia del coeficiente de correlación.

Relación de correlación determinado por las fórmulas:

η = o η = ,

¿Dónde está la varianza intergrupal del rasgo resultante causada por la influencia del rasgo factorial?

– dispersión total del atributo resultante;

– el promedio de las variaciones dentro del grupo del rasgo resultante.

Calcular una relación de correlación requiere una cantidad bastante grande de información, que debe presentarse en forma de tabla de grupo o en forma de tabla de correlación, es decir, requisito previo es la agrupación de datos por atributo-factor.

Para datos no agrupados, el índice de correlación empírica se puede calcular utilizando la siguiente fórmula:

.

donde y – valores empíricos (reales) de la característica resultante;

– valor medio de la característica efectiva;

– valores ecualizados de la característica resultante, calculados mediante la ecuación analítica.

La relación de correlación al cuadrado (), y para una relación por pares, el coeficiente de correlación lineal al cuadrado () se llama coeficiente de determinación (causalidad), refleja la proporción de la varianza del factor en la varianza total.

Coeficiente de determinación (D) muestra en qué porcentaje el cambio en el valor medio de la característica resultante está determinado por la influencia de esta característica del factor.

En la práctica, se pueden utilizar otros indicadores para determinar el grado de cercanía de la conexión.

Una característica elemental del grado de cercanía de la conexión es coeficiente de Fechner :

,

Dónde n / A– número de coincidencias de signos de desviaciones de valores individuales de una característica de factor X y signo resultante en de su media aritmética (por ejemplo, “más” y “más”, “menos” y “menos”, “sin desviación” y “sin desviación”);

nb– el número de discrepancias en los signos de desviaciones de los valores individuales de las características del valor de su media aritmética.

El coeficiente de Fechner se utiliza cuando la cantidad de información inicial es pequeña. Varía de –1 a 1.

Para determinar la cercanía de la relación entre características cuantitativas y cualitativas, siempre que los valores de estas características puedan clasificarse en orden ascendente o descendente, se utiliza Coeficiente de correlación de rangos de Spearman :

,

Dónde yo– la diferencia entre los valores de rango de la característica del factor y la característica resultante;

norte– el número de indicadores (rangos) de la serie en estudio.

Varía de –1 a 1.

Fin del trabajo -

Este tema pertenece a la sección:

Estadísticas

Universidad Humanitaria Estatal de Vyatka.. m a kunilova o o antonenko..

Si necesitas material adicional sobre este tema, o no encontraste lo que buscabas, te recomendamos utilizar la búsqueda en nuestra base de datos de obras:

Qué haremos con el material recibido:

Si este material te resultó útil, puedes guardarlo en tu página en las redes sociales:

Todos los temas de esta sección:

Valores críticos de la prueba F de Fisher
k1 k2 Nivel de significancia

Varios fenómenos económicos, tanto a nivel micro como macro, no son independientes, sino que están interconectados (precio de un producto y demanda del mismo, volumen de producción y beneficio de la empresa, etc.).

Esta dependencia puede ser estrictamente funcional (determinista) y estadística.

La dependencia entre y se llama funcional cuando a cada valor de una característica le corresponde un único valor de otra característica. (Un ejemplo de una relación tan única es la dependencia del área de un círculo del radio).

En realidad, es más común otra conexión entre fenómenos, cuando cada valor de una característica puede corresponder a varios valores de otra (por ejemplo, la conexión entre la edad de los niños y su altura).

La forma de conexión en la que uno o más indicadores (factores) interrelacionados influyen en otro indicador (resultado) no de manera inequívoca, pero con un cierto grado de probabilidad, se llama estadística. En particular, si cuando una de las cantidades cambia, el valor promedio de la otra cambia, entonces en este caso la dependencia estadística se llama correlación.

Dependiendo del número de factores incluidos en el modelo, se distingue entre correlación de pares (relación entre dos variables) y correlación múltiple (dependencia del resultado de varios factores).

Análisis de correlación consiste en definir direcciones, formas y grados conexiones (cercanía) entre dos (varias) características aleatorias y.

En dirección, la correlación es positiva (directa) si, a medida que aumentan los valores de una variable, aumenta el valor de otra, y negativa (inversa) si, a medida que aumentan los valores de una variable, disminuye el valor de otra .

En forma, una relación de correlación puede ser lineal (línea recta), cuando un cambio en los valores de una característica conduce a un cambio uniforme en otra (matemáticamente descrita por la ecuación de una línea recta), y curvilínea, cuando una un cambio en los valores de una característica conduce a cambios desiguales en otra (matemáticamente, se describe mediante ecuaciones de líneas curvas, por ejemplo hipérbolas, parábolas, etc.).

La forma más simple de dependencia entre variables es la dependencia lineal. Y comprobar la presencia de tal dependencia, evaluar sus indicadores y parámetros es una de las áreas más importantes de la econometría.

Existen métodos estadísticos especiales y, en consecuencia, indicadores, cuyos valores de cierta manera indican la presencia o ausencia de una relación lineal entre variables.

Coeficiente de correlación lineal

La forma más sencilla y aproximada de identificar correlaciones es gráfica.

Con un tamaño de muestra pequeño, los datos experimentales se presentan en forma de dos series de valores interconectados y. Si cada par se representa como un punto en el plano, se obtiene el llamado campo de correlación (Fig. 1).

Si el campo de correlación es una elipse, cuyo eje se ubica de izquierda a derecha y de abajo hacia arriba (Fig. 1c), entonces podemos suponer que existe una relación lineal positiva entre las características.

Si el campo de correlación se extiende a lo largo del eje de izquierda a derecha y de arriba a abajo (Fig. 1d), entonces podemos asumir la presencia de una conexión lineal negativa.

Si los puntos de observación están ubicados caóticamente en el plano, es decir, el campo de correlación forma un círculo (Fig. 1a), esto indica una falta de conexión entre las características.

La Figura 1b muestra una relación funcional lineal estricta.

Se entiende por estrecha relación entre dos cantidades el grado de conjugación entre ellas, que se revela con un cambio en las cantidades en estudio. Si cada valor dado corresponde a valores cercanos entre sí, entonces la relación se considera cercana (fuerte); si los valores están muy dispersos, entonces la relación se considera menos estrecha. En caso de una conexión de correlación estrecha, el campo de correlación es una elipse más o menos comprimida.

Un criterio cuantitativo para la dirección y cercanía de una relación lineal es el coeficiente de correlación lineal.

El coeficiente de correlación determinado a partir de datos de muestra se denomina coeficiente de correlación de muestra. Se calcula mediante la fórmula:

donde, valores actuales de características y; y valores medios aritméticos de características; - la media aritmética de los productos de la variante y las desviaciones típicas de estas características; tamaño de la muestra.


Para calcular el coeficiente de correlación, basta con aceptar el supuesto de una relación lineal entre características aleatorias. Entonces el coeficiente de correlación calculado será una medida de esta relación lineal.

El coeficiente de correlación lineal toma valores desde ?1 en el caso de una relación negativa lineal estricta, hasta +1 en el caso de una relación lineal estricta. conexión positiva(aquellos.). La cercanía del coeficiente de correlación a 0 indica la ausencia lineal conexiones entre características, pero no sobre la ausencia de conexiones entre ellas en absoluto.

Al coeficiente de correlación se le puede dar una interpretación gráfica clara.

Si, entonces existe una dependencia funcional lineal del tipo entre las características, lo que significa una correlación completa de las características. Cuando, la línea recta tiene una pendiente positiva con respecto al eje y negativa (Fig. 1b).

Si los puntos están en el área. linea limitada, parecido a una elipse. Cuanto más cercano esté el coeficiente de correlación, más estrecha será la elipse y más concentrados estarán los puntos cerca de la línea recta. Cuando dicen que hay una correlación positiva. En este caso, los valores tienden a aumentar al aumentar (Fig. 1c). Cuando hablan de correlación negativa; los valores tienden a disminuir con el crecimiento (Fig. 1d).

Si, entonces los puntos están ubicados en el área delimitada por el círculo. Esto significa que no existe correlación entre características aleatorias y dichas características se denominan no correlacionadas (Fig. 1a).

Además, el coeficiente de correlación lineal puede ser cercano (igual) a cero cuando existe una relación entre las características, pero no es lineal (Fig. 2).

Al evaluar la estanqueidad de una conexión, puede utilizar la siguiente tabla condicional:

Tenga en cuenta que el numerador de la fórmula para el coeficiente de correlación lineal muestral de cantidades y con contiene su indicador de covarianza:

Este indicador, como el coeficiente de correlación, caracteriza el grado de relación lineal entre las cantidades y. Si es mayor que cero, entonces la relación entre las cantidades es positiva; si es menor que cero, entonces la relación es negativa; si es igual a cero, no hay relación lineal.

A diferencia del coeficiente de correlación, el indicador de covarianza está normalizado: tiene una dimensión y su valor depende de las unidades de medida y. En el análisis estadístico, el indicador de covarianza se suele utilizar como elemento intermedio en el cálculo del coeficiente de correlación lineal. Eso. la fórmula para calcular el coeficiente de correlación muestral toma la forma:

Estimación de la significancia (fiabilidad) del coeficiente de correlación.

Cabe señalar que el verdadero indicador del grado de relación lineal entre variables es el coeficiente de correlación teórico, que se calcula a partir de datos de toda la población (es decir, todos valores posibles indicadores):

¿Dónde está el índice de covarianza teórico, que se calcula como valor esperado productos de las desviaciones de los SV y de sus expectativas matemáticas.

Como regla general, no podemos calcular el coeficiente de correlación teórico. Sin embargo, del hecho de que el coeficiente muestral no sea igual a cero, no se sigue que el coeficiente teórico también lo sea (es decir, los indicadores pueden ser linealmente independientes). Eso. A partir de datos de muestreo aleatorio, no se puede afirmar que exista una relación entre los indicadores.

El coeficiente de correlación muestral es una estimación del coeficiente teórico, porque se calcula sólo para parte de los valores de las variables.

Siempre hay un error en el coeficiente de correlación. Este error: la discrepancia entre el coeficiente de correlación del tamaño de la muestra y el coeficiente de correlación para la población general está determinada por las fórmulas:

en; y en.

Probar la importancia de un coeficiente de correlación lineal significa probar cuánto podemos confiar en los datos de la muestra.

Para ello se prueba la hipótesis nula de que el valor del coeficiente de correlación para la población es igual a cero, es decir no hay correlación en la población. La alternativa es una hipótesis.

Para probar esta hipótesis, se calcula la estadística de Student (-criterio):

El cual tiene una distribución de Estudiante con grados de libertad. Usando tablas de distribución de Student, se determina valor crítico. Si el valor calculado del criterio, entonces se rechaza la hipótesis nula, es decir, el coeficiente de correlación calculado difiere significativamente de cero con probabilidad.

Si, entonces no se puede rechazar la hipótesis nula. En este caso, es posible que el valor real del coeficiente de correlación sea cero, es decir la relación entre los indicadores puede considerarse estadísticamente insignificante.

Ejemplo 1. La tabla muestra datos de 8 años sobre ingresos totales y gastos de consumo final.

Estudiar y medir la cercanía de la relación entre indicadores dados.

El análisis de correlación se ocupa del grado de conexión entre dos variables aleatorias X y Y.

El análisis de correlación de datos experimentales para dos variables aleatorias incluye las siguientes técnicas básicas:
1. Cálculo de coeficientes de correlación muestral.
2. Elaboración de una tabla de correlación.
3. Verificar hipótesis estadística el significado de la conexión.

DEFINICIÓN. La dependencia de la correlación entre las variables aleatorias X e Y se denomina correlación lineal si ambas funciones de regresión f(x) y φ(x) son lineales. En este caso, ambas líneas de regresión son rectas; se llaman líneas de regresión.

Por suficiente descripción completa características de la dependencia de correlación entre cantidades, no basta con determinar la forma de esta dependencia y en el caso dependencia lineal evaluar su fuerza por el valor del coeficiente de regresión. Por ejemplo, está claro que la correlación entre la edad Y de los estudiantes de secundaria y el año X de su escolaridad es, por regla general, más estrecha que la dependencia similar de la edad de los estudiantes de educación superior. institución educativa dependiendo del año de estudios, ya que entre estudiantes de un mismo año de estudios en una universidad suele haber una mayor dispersión de edades que entre escolares de una misma promoción.

Para evaluar la cercanía de las correlaciones lineales entre los valores de X e Y con base en los resultados de observaciones muestrales, se introduce el concepto de coeficiente de correlación lineal muestral, definido por la fórmula:

donde σ X y σ Y son desviaciones estándar muestrales de los valores X e Y, que se calculan mediante las fórmulas:

Cabe señalar que el significado principal del coeficiente de correlación lineal muestral r B es que representa una estimación empírica (es decir, encontrada a partir de los resultados de las observaciones de los valores X e Y) del correspondiente coeficiente de correlación lineal general r: r= rB (9 )

Teniendo en cuenta las fórmulas:

vemos que la ecuación de muestreo regresión lineal Y por X se ve así:

(10)

Dónde . Lo mismo puede decirse de los ejemplos de ecuaciones de regresión lineal de X sobre Y:

(11)

Propiedades básicas del coeficiente de correlación lineal muestral:

1. El coeficiente de correlación de dos cantidades que no están relacionadas por una correlación lineal es igual a cero.
2. El coeficiente de correlación de dos cantidades relacionadas por una dependencia de correlación lineal es igual a 1 en el caso de una dependencia creciente y -1 en el caso de una dependencia decreciente.
3. El valor absoluto del coeficiente de correlación de dos cantidades relacionadas por una dependencia de correlación lineal satisface la desigualdad 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Cuanto más cerca |r| a 1, más cercana será la correlación lineal entre los valores de Y y X.

Por su naturaleza, la correlación puede ser directa o inversa, y por fuerza: fuerte, media, débil. Además, la conexión puede estar ausente o completa.

La fuerza y ​​naturaleza de la relación entre parámetros.

Ejemplo 4. Se estudió la relación entre dos cantidades Y y X. Los resultados de la observación se presentan en la tabla en forma de una muestra bidimensional del volumen 11:

X 68 37 50 53 75 66 52 65 74 65 54
Y 114 149 146 141 114 112 124 105 141 120 124

Requerido:
1) Calcular el coeficiente de correlación muestral;
2) Evaluar la naturaleza y fuerza de la correlación;
3) Escribe una ecuación de regresión lineal para Y en X.

Solución. Según fórmulas conocidas:

Por tanto, según (7) y (8):

Por lo tanto, se debe concluir que la dependencia de correlación considerada entre los valores de X e Y es de naturaleza inversa y de fuerza promedio.

3) Ecuación de regresión lineal de Y sobre X:

Ejemplo 5. Se estudió la relación entre la calidad Y (%) y la cantidad X (uds). Los resultados de la observación se presentan en forma de tabla de correlación:

Y\X 18 22 26 30 n y
70 5 5
75 7 46 1 54
80 29 72 101
85 29 8
90 3 3
n x 12 75 102 11 200

Se requiere calcular el coeficiente de correlación lineal muestral de la dependencia de Y con respecto a X.

Solución. Para simplificar los cálculos, pasemos a nuevas variables: opciones condicionales (u i, vi i), usando fórmulas (*) (§3) con h 1 =4, h 2 =5, x 0 =26, y 0 =80. Por conveniencia, reescribimos esta tabla en notación nueva:

u\v -2 -1 0 1 Nevada
-2 5 5
-1 7 46 1 54
0 29 72 101
1 29 8
2 3 3
n tu 12 75 102 11 200

Tenemos para x i =u i y y j =v j:

De este modo:

De aquí,

Conclusión: La correlación entre los valores de X e Y es directa y fuerte.



Nuevo en el sitio

>

Más popular