Hogar Cena ¿Cuáles son los requisitos en un modelo de análisis de regresión? Métodos de estadística matemática.

¿Cuáles son los requisitos en un modelo de análisis de regresión? Métodos de estadística matemática.

CONCLUSIÓN DE RESULTADOS

Cuadro 8.3a. Estadísticas de regresión
Estadísticas de regresión
Plural R 0,998364
R Plaza 0,99673
R cuadrado normalizado 0,996321
Error estándar 0,42405
Observaciones 10

Consideremos primero parte superior cálculos presentados en la tabla 8.3a - estadísticas de regresión.

El valor R-cuadrado, también llamado medida de certeza, caracteriza la calidad de la línea de regresión resultante. Esta cualidad se expresa por el grado de correspondencia entre los datos fuente y el modelo de regresión (datos calculados). La medida de certeza está siempre dentro del intervalo.

En la mayoría de los casos, el valor de R cuadrado se encuentra entre estos valores, llamados valores extremos, es decir entre cero y uno.

Si el valor de R cuadrado es cercano a uno, esto significa que el modelo construido explica casi toda la variabilidad en las variables relevantes. Por el contrario, un valor de R cuadrado cercano a cero significa que la calidad del modelo construido es pobre.

En nuestro ejemplo, la medida de certeza es 0,99673, lo que indica un muy buen ajuste de la línea de regresión a los datos originales.

Plural R- coeficiente de correlación múltiple R - expresa el grado de dependencia de las variables independientes (X) y la variable dependiente (Y).

Múltiple R es igual a raíz cuadrada A partir del coeficiente de determinación, esta cantidad toma valores en el rango de cero a uno.

En el análisis de regresión lineal simple, R múltiple es igual al coeficiente de correlación de Pearson. De hecho, el múltiplo R en nuestro caso es igual al coeficiente de correlación de Pearson del ejemplo anterior (0,998364).

Cuadro 8.3b. Coeficientes de regresión
Impares Error estándar estadística t
Intersección en Y 2,694545455 0,33176878 8,121757129
Variable X 1 2,305454545 0,04668634 49,38177965
* Se proporciona una versión truncada de los cálculos.

Consideremos ahora la parte media de los cálculos, presentada en la tabla 8.3b. Aquí se dan el coeficiente de regresión b (2,305454545) y el desplazamiento a lo largo del eje de ordenadas, es decir constante a (2,694545455).

Según los cálculos, podemos escribir la ecuación de regresión de la siguiente manera:

Y=x*2,305454545+2,694545455

La dirección de la relación entre variables se determina en función de los signos (negativos o positivos) coeficientes de regresión(coeficiente b).

Si el cartel en coeficiente de regresion- positivo, la relación entre la variable dependiente y la variable independiente será positiva. En nuestro caso, el signo del coeficiente de regresión es positivo, por tanto, la relación también es positiva.

Si el cartel en coeficiente de regresion- negativo, la relación entre la variable dependiente y la variable independiente es negativa (inversa).

En el cuadro 8.3c. Se presentan los resultados de la derivación de residuos. Para que estos resultados aparezcan en el informe, debe activar la casilla de verificación “Residuales” al ejecutar la herramienta “Regresión”.

RETIRO DEL RESTO

Cuadro 8.3c. Sobras
Observación Y previsto Sobras Balanzas estándar
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Usando esta parte del informe, podemos ver las desviaciones de cada punto de la línea de regresión construida. Valor absoluto más grande

El propósito del análisis de regresión es medir la relación entre una variable dependiente y una (análisis de regresión por pares) o más (múltiples) variables independientes. Las variables independientes también se denominan variables factoriales, explicativas, determinantes, regresadoras y predictoras.

La variable dependiente a veces se denomina variable definida, explicada o de “respuesta”. El uso extremadamente extendido del análisis de regresión en la investigación empírica no se debe sólo al hecho de que es una herramienta conveniente para probar hipótesis. La regresión, especialmente la regresión múltiple, es método efectivo modelado y pronóstico.

Comencemos a explicar los principios del análisis de regresión con uno más simple: el método de pares.

Análisis de regresión pareada

Los primeros pasos al utilizar el análisis de regresión serán casi idénticos a los que tomamos al calcular el coeficiente de correlación. Tres condiciones principales para la eficacia Análisis de correlación según el método de Pearson (distribución normal de variables, medición de intervalos de variables, relación lineal entre variables) también son relevantes para la regresión múltiple. Para ello, en una primera etapa se construyen diagramas de dispersión, se realiza un análisis estadístico y descriptivo de las variables y se calcula una línea de regresión. Como en el marco del análisis de correlación, las líneas de regresión se construyen utilizando el método mínimos cuadrados.

Para ilustrar más claramente las diferencias entre los dos métodos de análisis de datos, pasemos al ejemplo ya analizado con las variables “apoyo MSF” y “participación de la población rural”. Los datos de origen son idénticos. La diferencia en los diagramas de dispersión será que en el análisis de regresión es correcto trazar la variable dependiente (en nuestro caso, el "apoyo del SPS" en el eje Y), mientras que en el análisis de correlación esto no importa. Después de limpiar los valores atípicos, el diagrama de dispersión se ve así:

La idea fundamental del análisis de regresión es que, teniendo tendencia general para las variables, en forma de línea de regresión, se puede predecir el valor de la variable dependiente, dados los valores de la independiente.

Imaginemos la matemática habitual. función lineal. Cualquier línea en el espacio euclidiano se puede describir mediante la fórmula:

donde a es una constante que especifica el desplazamiento a lo largo del eje de ordenadas; b es un coeficiente que determina el ángulo de inclinación de la línea.

Conociendo la pendiente y la constante, puedes calcular (predecir) el valor de y para cualquier x.

Este función más simple y formó la base para un modelo de análisis de regresión con la salvedad de que no predeciremos el valor de y exactamente, sino dentro de un cierto intervalo de confianza, es decir. aproximadamente.

La constante es el punto de intersección de la línea de regresión y el eje y (intersección F, normalmente denominada "interceptor" en los paquetes estadísticos). En nuestro ejemplo de votación por la Unión de Fuerzas de Derecha, su valor redondeado será 10,55. El coeficiente angular b será aproximadamente -0,1 (como en el análisis de correlación, el signo muestra el tipo de conexión: directa o inversa). Por tanto, el modelo resultante tendrá la forma SP C = -0,1 x Sel. a nosotros. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

La diferencia entre los valores originales y predichos se llama resto (ya nos hemos encontrado con este término, fundamental para la estadística, al analizar tablas de contingencia). Así, para el caso de la “República de Adygea”, el resto será igual a 3,92 - 5,63 = -1,71. Cuanto mayor sea el valor modular del resto, menos exitoso será el valor predicho.

Calculamos los valores previstos y los residuos para todos los casos:
Sucediendo Se sentó. a nosotros. Gracias

(original)

Gracias

(predicho)

Sobras
República de Adiguesia 47 3,92 5,63 -1,71 -
República de Altái 76 5,4 2,59 2,81
República de Bashkortostán 36 6,04 6,78 -0,74
La República de Buriatia 41 8,36 6,25 2,11
La República de Daguestán 59 1,22 4,37 -3,15
La República de Ingusetia 59 0,38 4,37 3,99
Etc.

El análisis de la relación entre los valores iniciales y predichos sirve para evaluar la calidad del modelo resultante y su capacidad predictiva. Uno de los principales indicadores de las estadísticas de regresión es el coeficiente de correlación múltiple R, el coeficiente de correlación entre los valores originales y predichos de la variable dependiente. En el análisis de regresión pareada, es igual al coeficiente de correlación habitual de Pearson entre las variables dependientes e independientes, en nuestro caso: 0,63. Para interpretar de manera significativa R múltiple, debe convertirse en un coeficiente de determinación. Esto se hace de la misma manera que en el análisis de correlación: elevando al cuadrado. El coeficiente de determinación R cuadrado (R 2) muestra la proporción de variación en la variable dependiente que se explica por la(s) variable(s) independiente(s).

En nuestro caso, R 2 = 0,39 (0,63 2); esto significa que la variable “participación de la población rural” explica aproximadamente el 40% de la variación en la variable “apoyo MSF”. Cuanto mayor sea el coeficiente de determinación, mayor será la calidad del modelo.

Otro indicador de la calidad del modelo es el error estándar de estimación. Esta es una medida de cuán ampliamente están “dispersos” los puntos alrededor de la línea de regresión. La medida de dispersión para las variables de intervalo es Desviación Estándar. En consecuencia, el error estándar de la estimación es la desviación estándar de la distribución de residuos. Cuanto mayor sea su valor, mayor será la dispersión y peor será el modelo. En nuestro caso, el error estándar es 2,18. Es en esta cantidad que nuestro modelo “errará en promedio” al predecir el valor de la variable “apoyo MSF”.

Las estadísticas de regresión también incluyen análisis de varianza. Con su ayuda, averiguamos: 1) qué proporción de la variación (dispersión) de la variable dependiente se explica por la variable independiente; 2) qué proporción de la varianza de la variable dependiente se explica por los residuos (parte no explicada); 3) ¿cuál es la relación entre estas dos cantidades (relación /"). Las estadísticas de dispersión son especialmente importantes para estudios de muestra- Muestra la probabilidad de que exista una relación entre las variables independientes y dependientes en población. Sin embargo, incluso para una investigación continua (como en nuestro ejemplo), estudiar los resultados Análisis de variación Inútil. En este caso, verifican si el patrón estadístico identificado es causado por una coincidencia de circunstancias aleatorias, qué tan típico es del conjunto de condiciones en las que se encuentra la población en estudio, es decir, lo que se establece no es la verdad del resultado obtenido para una población general más grande, sino el grado de su regularidad y su ausencia de influencias aleatorias.

En nuestro caso, las estadísticas de ANOVA son las siguientes:

SS df EM F significado
Regreso. 258,77 1,00 258,77 54,29 0.000000001
Resto 395,59 83,00 L,11
Total 654,36

El índice F de 54,29 es significativo al nivel 0,0000000001. En consecuencia, podemos rechazar con confianza la hipótesis nula (que la relación que descubrimos se debe al azar).

El criterio t realiza una función similar, pero en relación con los coeficientes de regresión (angular y de intersección F). Utilizando el criterio /, probamos la hipótesis de que en la población general los coeficientes de regresión son iguales a cero. En nuestro caso, podemos nuevamente rechazar con seguridad la hipótesis nula.

Análisis de regresión multiple

Modelo regresión múltiple casi idéntico al modelo de regresión pareada; la única diferencia es que varias variables independientes se incluyen secuencialmente en la función lineal:

Y = b1X1 + b2X2 + …+ bpXp + a.

Si hay más de dos variables independientes, no podemos tener una idea visual de su relación; en este sentido, la regresión múltiple es menos "visual" que la regresión por pares. Cuando tiene dos variables independientes, puede resultar útil mostrar los datos en un diagrama de dispersión 3D. En los paquetes de software estadístico profesional (por ejemplo, Statistica) existe una opción para rotar un gráfico tridimensional, lo que le permite representar visualmente bien la estructura de los datos.

Cuando se trabaja con regresión múltiple, a diferencia de la regresión por pares, es necesario determinar el algoritmo de análisis. El algoritmo estándar incluye todos los predictores disponibles en el modelo de regresión final. Algoritmo paso a paso Implica la inclusión (exclusión) secuencial de variables independientes en función de su “peso” explicativo. El método paso a paso es bueno cuando hay muchas variables independientes; "limpia" el modelo de predictores francamente débiles, haciéndolo más compacto y conciso.

Una condición adicional para la exactitud de la regresión múltiple (junto con el intervalo, la normalidad y la linealidad) es la ausencia de multicolinealidad, es decir, la presencia de fuertes correlaciones entre variables independientes.

La interpretación de los estadísticos de regresión múltiple incluye todos los elementos que consideramos para el caso de la regresión por pares. Además, existen otros componentes importantes en las estadísticas del análisis de regresión múltiple.

Ilustraremos el trabajo con regresión múltiple usando el ejemplo de probar hipótesis que explican las diferencias en el nivel de actividad electoral entre las regiones rusas. Estudios empíricos específicos han sugerido que los niveles de participación electoral están influenciados por:

Factor nacional (variable “población rusa”; operacionalizada como la proporción de la población rusa en las entidades constitutivas de la Federación de Rusia). Se supone que un aumento en la proporción de la población rusa conduce a una disminución en la participación electoral;

Factor de urbanización (variable " población urbana"; operacionalizado como la proporción de la población urbana en las entidades constitutivas de la Federación de Rusia, ya hemos trabajado con este factor en el marco del análisis de correlación). Se supone que un aumento en la proporción de la población urbana también conduce a una disminución en la participación electoral.

La variable dependiente - “intensidad de la actividad electoral” (“activa”) se operacionaliza a través de datos de participación promedio por región en las elecciones federales de 1995 a 2003. La tabla de datos inicial para dos variables independientes y una dependiente será la siguiente:

Sucediendo variables
Activos. Gor. a nosotros. Rusia. a nosotros.
República de Adiguesia 64,92 53 68
República de Altái 68,60 24 60
La República de Buriatia 60,75 59 70
La República de Daguestán 79,92 41 9
La República de Ingusetia 75,05 41 23
República de Kalmukia 68,52 39 37
República de Karachay-Cherkess 66,68 44 42
República de Carelia 61,70 73 73
República de Komi 59,60 74 57
República de Mari El 65,19 62 47

Etc. (después de limpiar las emisiones, quedan 83 de 88 casos)

Estadísticas que describen la calidad del modelo:

1. R múltiple = 0,62; L-cuadrado = 0,38. En consecuencia, el factor nacional y el factor de urbanización juntos explican alrededor del 38% de la variación en la variable “actividad electoral”.

2. error promedio es 3,38. Así de “equivocado en promedio” es exactamente el modelo construido al predecir el nivel de participación.

3. La relación /l de variación explicada e inexplicada es 25,2 en el nivel 0,000000003. Se rechaza la hipótesis nula sobre la aleatoriedad de las relaciones identificadas.

4. El criterio / para los coeficientes constante y de regresión de las variables “población urbana” y “población rusa” es significativo al nivel de 0,0000001; 0,00005 y 0,007 respectivamente. Se rechaza la hipótesis nula de que los coeficientes son aleatorios.

Estadísticas útiles adicionales para analizar la relación entre los valores originales y predichos de la variable dependiente son la distancia de Mahalanobis y la distancia de Cook. La primera es una medida de la unicidad del caso (muestra cuánto es la combinación de valores de todas las variables independientes para este caso se desvía de la media para todas las variables independientes simultáneamente). La segunda es una medida de la influencia del caso. Diferentes observaciones tienen diferentes efectos sobre la pendiente de la línea de regresión y la distancia de Cook se puede utilizar para compararlas en este indicador. Esto puede resultar útil a la hora de limpiar valores atípicos (un valor atípico puede considerarse un caso demasiado influyente).

En nuestro ejemplo, casos únicos e influyentes incluyen Daguestán.

Sucediendo Original

valores

predská

valores

Sobras Distancia

mahalanobis

Distancia
Adygea 64,92 66,33 -1,40 0,69 0,00
República de Altái 68,60 69.91 -1,31 6,80 0,01
La República de Buriatia 60,75 65,56 -4,81 0,23 0,01
La República de Daguestán 79,92 71,01 8,91 10,57 0,44
La República de Ingusetia 75,05 70,21 4,84 6,73 0,08
República de Kalmukia 68,52 69,59 -1,07 4,20 0,00

El modelo de regresión en sí tiene los siguientes parámetros: intersección Y (constante) = 75,99; b (horizontal) = -0,1; Kommersant (nas. rusa) = -0,06. Fórmula definitiva.

Características de las dependencias causales.

Relaciones causa y efecto- esta es una conexión entre fenómenos y procesos, cuando un cambio en uno de ellos - la causa - conduce a un cambio en el otro - el efecto.

Los signos según su importancia para el estudio de la relación se dividen en dos clases.

Los signos que provocan cambios en otros signos asociados a ellos se denominan factorial (o factores).

Los signos que cambian bajo la influencia de los signos de los factores son eficaz.

Se distinguen las siguientes formas de comunicación: funcional y estocástica. Funcional Es una relación en la que un cierto valor de una característica de un factor corresponde a uno y sólo un valor de la característica resultante. La conexión funcional se manifiesta en todos los casos de observación y para cada unidad específica de la población en estudio.

La relación funcional se puede representar mediante la siguiente ecuación:
y yo =f(x yo), donde: y yo - signo resultante; f(xi) - una función conocida de la conexión entre las características resultantes y factoriales; xyo - signo factorial.
En la naturaleza real no existen conexiones funcionales. Son sólo abstracciones, útiles para analizar fenómenos, pero simplificando la realidad.

Estocástico (estadístico o aleatorio)conexión representa una relación entre cantidades en la que una de ellas reacciona ante un cambio en otra cantidad u otras cantidades cambiando la ley de distribución. En otras palabras, con esta conexión diferentes significados una variable corresponde a diferentes distribuciones de otra variable. Esto se debe al hecho de que la variable dependiente, además de las independientes consideradas, está influenciada por una serie de factores aleatorios no contabilizados o no controlados, así como por algunos errores inevitables en la medición de las variables. Debido a que los valores de la variable dependiente están sujetos a dispersión aleatoria, no se pueden predecir con suficiente precisión, sino que solo se pueden indicar con una cierta probabilidad.

Debido a la ambigüedad de la dependencia estocástica entre Y y X, en particular, es de interés el esquema de dependencia promediado sobre x, es decir, un patrón en el cambio en el valor promedio: la expectativa matemática condicional Mx(Y) (la expectativa matemática de una variable aleatoria Y, encontrada siempre que la variable X tome el valor x) dependiendo de x.

Un caso especial de comunicación estocástica es la comunicación de correlación. Correlación(del lat. correlación- correlación, relación). Definición directa del término. correlación - estocástico, probable, posible conexión entre dos (par) o varios (múltiple) variables aleatorias.

Una dependencia de correlación entre dos variables también se denomina relación estadística entre estas variables, en la que cada valor de una variable corresponde a un determinado valor promedio, es decir, La expectativa matemática condicional es diferente. La dependencia de la correlación es un caso especial de dependencia estocástica, en el que un cambio en los valores de las características de los factores (x 1 x 2 ..., x n) implica un cambio en el valor promedio de la característica resultante.



Se acostumbra distinguir los siguientes tipos de correlación:

1. Correlación de pares: una conexión entre dos características (resultante y factor o dos factores).

2. Correlación parcial: la dependencia entre las características resultantes y de un factor con un valor fijo de otras características de los factores incluidos en el estudio.

3. Correlación múltiple: la dependencia del resultado y dos o más características de los factores incluidos en el estudio.

Propósito del análisis de regresión

La forma analítica de representar las relaciones de causa y efecto son los modelos de regresión. La validez científica y popularidad del análisis de regresión lo convierte en una de las principales herramientas matemáticas para modelar el fenómeno en estudio. Este método se utiliza para suavizar datos experimentales y obtener estimaciones cuantitativas de influencia comparativa. varios factores a la variable de resultado.

Análisis de regresión es para determinar la expresión analítica de una relación en la que un cambio en un valor (variable dependiente o característica resultante) se debe a la influencia de uno o más cantidades independientes(factores o predictores), y el conjunto de todos los demás factores que también influyen en el valor dependiente se toma como valores constantes y promedio.

Objetivos del análisis de regresión:

Evaluación de la dependencia funcional del valor promedio condicional de la característica resultante y de los factores factoriales (x 1, x 2, ..., x n);

Predecir el valor de una variable dependiente utilizando las variables independientes.

Determinar la contribución de las variables independientes individuales a la variación de la variable dependiente.

El análisis de regresión no se puede utilizar para determinar si existe una relación entre variables, ya que la presencia de dicha relación es un requisito previo para aplicar el análisis.

En el análisis de regresión, se supone de antemano que existen relaciones de causa y efecto entre la resultante (U) y las características del factor x 1, x 2..., x n.

Función , op La dependencia determinante del indicador de los parámetros se llama ecuación (función) de regresión. 1 . La ecuación de regresión muestra el valor esperado de la variable dependiente dados ciertos valores de las variables independientes.
Dependiendo del número de factores incluidos en el modelo. X Los modelos se dividen en unifactorial (modelo de regresión de pares) y multifactorial (modelo de regresión múltiple). Según el tipo de función, los modelos se dividen en lineales y no lineales.

Modelo de regresión emparejada

Debido a la influencia de factores y causas aleatorios no contabilizados, las observaciones individuales y se desviarán en mayor o menor medida de la función de regresión f(x). En este caso, la ecuación para la relación entre dos variables (modelo de regresión pareada) se puede presentar como:

Y=f(X) + ɛ,

donde ɛ es una variable aleatoria que caracteriza la desviación de la función de regresión. Esta variable se llama perturbación o perturbación (residual o error). Así, en el modelo de regresión la variable dependiente Y hay alguna función f(X) hasta perturbación aleatoria ɛ.

Consideremos el modelo clásico de regresión lineal por pares (CLMPR). Ella se ve como

y yo =β 0 +β 1 x yo +ɛ yo (i=1,2, …, n),(1)

Dónde y yo– explicada (variable resultante, dependiente, endógena); xyo– variable explicativa (predictora, factorial, exógena); β 0 , β 1– coeficientes numéricos; ɛi– componente aleatorio (estocástico) o error.

Condiciones básicas (requisitos previos, hipótesis) de KLMPR:

1) xyo– una cantidad determinista (no aleatoria), y se supone que entre los valores x i - no todos son iguales.

2) Valor esperado(valor medio) perturbaciones ɛi es igual a cero:

М[ɛ i ]=0 (i=1,2,…, n).

3) La dispersión de la perturbación es constante para cualquier valor de i (condición de homocedasticidad):

D[ɛ i ]=σ 2 (i=1,2,…, n).

4) Las perturbaciones de diferentes observaciones no están correlacionadas:

cov[ɛ i, ɛ j]=M[ɛ i, ɛ j]=0 para i≠j,

donde cov[ɛ i , ɛ j ] es el coeficiente de covarianza (momento de correlación).

5) Las perturbaciones son variables aleatorias distribuidas normalmente con media cero y varianza σ 2:

ɛ yo ≈ N(0, σ 2).

Para obtener una ecuación de regresión son suficientes las primeras cuatro premisas. El requisito de cumplir el quinto requisito previo es necesario para evaluar la precisión de la ecuación de regresión y sus parámetros.

Comentario: El enfoque en las relaciones lineales se explica por la variación limitada de las variables y el hecho de que en la mayoría de los casos las formas no lineales de relaciones se convierten (mediante logaritmo o sustitución de variables) a una forma lineal para realizar cálculos.

Método tradicional mínimos cuadrados (LS)

La estimación del modelo de la muestra es la ecuación

ŷ yo = a 0 + a 1 x yo(yo=1,2,…,n), (2)

donde ŷ i – valores teóricos (aproximados) de la variable dependiente obtenidos de la ecuación de regresión; a 0 , a 1 - coeficientes (parámetros) de la ecuación de regresión (estimaciones de muestra de los coeficientes β 0, β 1, respectivamente).

Según los mínimos cuadrados, los parámetros desconocidos a 0 , a 1 se eligen de modo que la suma de las desviaciones al cuadrado de los valores ŷ i de los valores empíricos y i (suma residual de cuadrados) sea mínima:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

donde e i = y i - ŷ i – estimación muestral de la perturbación ɛ i, o regresión residual.

El problema se reduce a encontrar los valores de los parámetros a 0 y a 1 para los cuales la función Q e toma valor más pequeño. Tenga en cuenta que la función Q e = Q e (a 0, a 1) es una función de dos variables a 0 y a 1 hasta que encontramos y luego fijamos sus “mejores” valores (en el sentido del método de mínimos cuadrados), a x i , y i son números constantes encontrados experimentalmente.

Las condiciones necesarias Los extremos (3) se encuentran igualando las derivadas parciales de esta función de dos variables a cero. Como resultado obtenemos un sistema de dos ecuaciones lineales, que se llama sistema de ecuaciones normales:

(4)

El coeficiente a 1 es un coeficiente de regresión muestral de y sobre x, que muestra cuántas unidades en promedio cambia la variable y cuando la variable x cambia en una unidad de su medida, es decir, la variación en y por unidad de variación en x. Firmar un 1 indica la dirección de este cambio. Coeficiente a 0 – desplazamiento, según (2) igual al valorŷ i para x=0 y puede no tener una interpretación significativa. Por esta razón, a la variable dependiente a veces se le llama respuesta.

Propiedades estadísticas de las estimaciones de coeficientes de regresión:

Las estimaciones de coeficientes a 0 , a 1 son insesgadas;

Las varianzas de las estimaciones a 0 , a 1 disminuyen (la precisión de las estimaciones aumenta) al aumentar el tamaño de la muestra n;

La varianza de la estimación de la pendiente a 1 disminuye al aumentar y por lo tanto es aconsejable elegir x i de manera que su dispersión alrededor del valor promedio sea grande;

Para x¯ > 0 (que es de mayor interés), existe una relación estadística negativa entre un 0 y un 1 (un aumento en un 1 conduce a una disminución en un 0).

La característica principal del análisis de regresión: con su ayuda se puede obtener información específica sobre la forma y naturaleza de la relación entre las variables en estudio.

Secuencia de etapas del análisis de regresión.

Consideremos brevemente las etapas del análisis de regresión.

    Formulación del problema. En esta etapa se forman hipótesis preliminares sobre la dependencia de los fenómenos en estudio.

    Definición de variables dependientes e independientes (explicativas).

    Recopilación de datos estadísticos. Se deben recopilar datos para cada una de las variables incluidas en el modelo de regresión.

    Formulación de una hipótesis sobre la forma de conexión (simple o múltiple, lineal o no lineal).

    Definición funciones de regresión (consiste en calcular los valores numéricos de los parámetros de la ecuación de regresión)

    Evaluación de la precisión del análisis de regresión.

    Interpretación de los resultados obtenidos. Los resultados obtenidos del análisis de regresión se comparan con hipótesis preliminares. Se evalúa la exactitud y credibilidad de los resultados obtenidos.

    Predicción valores desconocidos variable dependiente.

Utilizando el análisis de regresión, es posible resolver el problema de previsión y clasificación. Los valores pronosticados se calculan sustituyendo los valores de las variables explicativas en la ecuación de regresión. El problema de clasificación se resuelve de esta manera: la línea de regresión divide todo el conjunto de objetos en dos clases, y la parte del conjunto donde el valor de la función es mayor que cero pertenece a una clase, y la parte donde es menor que cero pertenece a otra clase.

Problemas de análisis de regresión

Consideremos las principales tareas del análisis de regresión: establecer la forma de dependencia, determinar funciones de regresión, estimación de valores desconocidos de la variable dependiente.

Estableciendo la forma de dependencia.

La naturaleza y forma de la relación entre variables puede formar los siguientes tipos de regresión:

    positivo regresión lineal(expresado en crecimiento uniforme de la función);

    regresión positiva uniformemente creciente;

    regresión positiva uniformemente creciente;

    regresión lineal negativa (expresada como una disminución uniforme de la función);

    regresión decreciente negativa uniformemente acelerada;

    regresión negativa uniformemente decreciente.

Sin embargo, las variedades descritas no suelen encontrarse en forma pura, pero en combinación entre sí. En este caso, hablamos de formas combinadas de regresión.

Definición de la función de regresión.

La segunda tarea se reduce a identificar el efecto sobre la variable dependiente de los principales factores o causas, en igualdad de condiciones y sujeto a la exclusión de la influencia de elementos aleatorios sobre la variable dependiente. Función de regresión se define en forma de una ecuación matemática de un tipo u otro.

Estimación de valores desconocidos de la variable dependiente.

La solución a este problema se reduce a resolver un problema de uno de los siguientes tipos:

    Estimación de los valores de la variable dependiente dentro del intervalo considerado de los datos iniciales, es decir valores faltantes; en este caso, el problema de interpolación está resuelto.

    Estimación de valores futuros de la variable dependiente, es decir encontrar valores fuera del intervalo especificado de los datos de origen; en este caso, el problema de la extrapolación está resuelto.

Ambos problemas se resuelven sustituyendo las estimaciones de los parámetros encontrados por los valores de las variables independientes en la ecuación de regresión. El resultado de resolver la ecuación es una estimación del valor de la variable objetivo (dependiente).

Veamos algunos de los supuestos en los que se basa el análisis de regresión.

Supuesto de linealidad, es decir Se supone que la relación entre las variables consideradas es lineal. Entonces, en este ejemplo, trazamos un diagrama de dispersión y pudimos ver una relación lineal clara. Si en el diagrama de dispersión de las variables vemos una clara ausencia de relación lineal, es decir Si existe una relación no lineal, se deben utilizar métodos de análisis no lineales.

Supuesto de normalidad sobras. Se supone que la distribución de la diferencia entre los valores predichos y observados es normal. Para determinar visualmente la naturaleza de la distribución, puede utilizar histogramas. sobras.

Al utilizar el análisis de regresión, se debe considerar su principal limitación. Consiste en el hecho de que el análisis de regresión nos permite detectar solo dependencias y no las conexiones subyacentes a estas dependencias.

El análisis de regresión le permite estimar la fuerza de la relación entre variables calculando el valor estimado de una variable en función de varios valores conocidos.

Ecuación de regresión.

La ecuación de regresión se ve así: Y=a+b*X

Usando esta ecuación, la variable Y se expresa en términos de una constante a y la pendiente de la recta (o pendiente) b, multiplicada por el valor de la variable X. La constante a también se llama término de intercepción y la pendiente es el coeficiente de regresión o coeficiente B.

En la mayoría de los casos (si no siempre) existe una cierta dispersión de observaciones con respecto a la línea de regresión.

Resto es la desviación de un solo punto (observación) de la línea de regresión (valor previsto).

Para resolver el problema del análisis de regresión en MS Excel, seleccione del menú Servicio"Paquete de análisis" y la herramienta de análisis de regresión. Establecemos los intervalos de entrada X e Y. El intervalo de entrada Y es el rango de datos analizados dependientes, debe incluir una columna. El intervalo de entrada X es el rango de datos independientes que deben analizarse. El número de rangos de entrada no debe exceder los 16.

A la salida del procedimiento en el rango de salida obtenemos el informe dado en tabla 8.3a-8,3v.

CONCLUSIÓN DE RESULTADOS

Cuadro 8.3a. Estadísticas de regresión

Estadísticas de regresión

Plural R

R Plaza

R cuadrado normalizado

Error estándar

Observaciones

Veamos primero la parte superior de los cálculos presentados en tabla 8.3a, - estadísticas de regresión.

Magnitud R Plaza, también llamada medida de certeza, caracteriza la calidad de la línea de regresión resultante. Esta cualidad se expresa por el grado de correspondencia entre los datos fuente y el modelo de regresión (datos calculados). La medida de certeza está siempre dentro del intervalo.

En la mayoría de los casos el valor R Plaza está entre estos valores, llamado extremo, es decir entre cero y uno.

si el valor R Plaza cercano a la unidad, esto significa que el modelo construido explica casi toda la variabilidad en las variables correspondientes. Por el contrario, el significado R Plaza, cercano a cero, significa mala calidad del modelo construido.

En nuestro ejemplo, la medida de certeza es 0,99673, lo que indica un muy buen ajuste de la línea de regresión a los datos originales.

plural R - coeficiente de correlación múltiple R - expresa el grado de dependencia de las variables independientes (X) y la variable dependiente (Y).

Plural R es igual a la raíz cuadrada del coeficiente de determinación; esta cantidad toma valores en el rango de cero a uno;

En análisis de regresión lineal simple plural R igual al coeficiente de correlación de Pearson. En realidad, plural R en nuestro caso, es igual al coeficiente de correlación de Pearson del ejemplo anterior (0,998364).

Cuadro 8.3b. Coeficientes de regresión

Impares

Error estándar

estadística t

Intersección en Y

Variable X 1

* Se proporciona una versión truncada de los cálculos.

Consideremos ahora la parte media de los cálculos presentados en tabla 8.3b. Aquí se dan el coeficiente de regresión b (2,305454545) y el desplazamiento a lo largo del eje de ordenadas, es decir constante a (2,694545455).

Según los cálculos, podemos escribir la ecuación de regresión de la siguiente manera:

Y=x*2,305454545+2,694545455

La dirección de la relación entre variables se determina en función de los signos (negativos o positivos) de los coeficientes de regresión (coeficiente b).

Si el signo del coeficiente de regresión es positivo, la relación entre la variable dependiente y la variable independiente será positiva. En nuestro caso, el signo del coeficiente de regresión es positivo, por tanto, la relación también es positiva.

Si el signo del coeficiente de regresión es negativo, la relación entre la variable dependiente y la variable independiente es negativa (inversa).

EN tabla 8.3c. se presentan los resultados de salida sobras. Para que estos resultados aparezcan en el informe, debe activar la casilla de verificación “Residuales” al ejecutar la herramienta “Regresión”.

RETIRO DEL RESTO

Cuadro 8.3c. Sobras

Observación

Y previsto

Sobras

Balanzas estándar

Usando esta parte del informe, podemos ver las desviaciones de cada punto de la línea de regresión construida. Valor absoluto más grande resto en nuestro caso - 0,778, el más pequeño - 0,043. Para interpretar mejor estos datos, usaremos la gráfica de los datos originales y la línea de regresión construida presentada en arroz. 8.3. Como puede ver, la línea de regresión se "ajusta" con bastante precisión a los valores de los datos originales.

Debe tenerse en cuenta que el ejemplo considerado es bastante simple y no siempre es posible construir cualitativamente una línea de regresión lineal.

Arroz. 8.3. Datos de origen y línea de regresión

El problema de estimar valores futuros desconocidos de la variable dependiente basándose en valores conocidos de la variable independiente no ha sido considerado, es decir problema de previsión.

Teniendo una ecuación de regresión, el problema de pronóstico se reduce a resolver la ecuación Y= x*2.305454545+2.694545455 con valores conocidos de x. Se presentan los resultados de predecir la variable dependiente Y seis pasos adelante. en la tabla 8.4.

Tabla 8.4. Resultados de la variable de pronóstico Y

Y (predicho)

Por lo tanto, como resultado del uso del análisis de regresión en Microsoft Excel, podemos:

    construyó una ecuación de regresión;

    estableció la forma de dependencia y dirección de conexión entre variables: regresión lineal positiva, que se expresa en un crecimiento uniforme de la función;

    estableció la dirección de la relación entre las variables;

    evaluó la calidad de la línea de regresión resultante;

    pudieron ver desviaciones de los datos calculados de los datos del conjunto original;

    Valores futuros predichos de la variable dependiente.

Si función de regresión definido, interpretado y justificado, y la evaluación de la precisión del análisis de regresión cumple con los requisitos, se puede considerar que el modelo construido y los valores predichos tienen suficiente confiabilidad.

Los valores predichos obtenidos de esta forma son los valores medios que se pueden esperar.

En este trabajo revisamos las principales características estadísticas descriptivas y entre ellos conceptos como valor promedio,mediana,máximo,mínimo y otras características de la variación de los datos.

También se discutió brevemente el concepto. emisiones. Las características consideradas se refieren al llamado análisis de datos exploratorio; sus conclusiones pueden no aplicarse a la población general, sino sólo a una muestra de datos. El análisis de datos exploratorios se utiliza para obtener conclusiones primarias y formular hipótesis sobre la población.

También se discutieron los fundamentos del análisis de correlación y regresión, sus tareas y posibilidades de uso práctico.

El método de análisis de regresión se utiliza para determinar los parámetros técnicos y económicos de productos que pertenecen a una serie paramétrica específica con el fin de construir y alinear relaciones de valor. Este método se utiliza para analizar y justificar el nivel y las relaciones de precios de productos caracterizados por la presencia de uno o más parámetros técnicos y económicos que reflejan las principales propiedades del consumidor. El análisis de regresión nos permite encontrar una fórmula empírica que describe la dependencia del precio de los parámetros técnicos y económicos de los productos:

P=f(X1X2,...,Xn),

donde P es el valor del precio unitario del producto, rublos; (X1, X2, ... Xn) - parámetros técnicos y económicos de los productos.

El método de análisis de regresión, el más avanzado de los métodos normativos-paramétricos utilizados, es eficaz cuando se realizan cálculos basados ​​en el uso de métodos modernos. tecnologías de la información y sistemas. Su aplicación incluye los siguientes pasos principales:

  • determinación de grupos paramétricos de clasificación de productos;
  • selección de parámetros que más influyen en el precio del producto;
  • selección y justificación de la forma de conexión entre los cambios de precios cuando cambian los parámetros;
  • construcción de un sistema de ecuaciones normales y cálculo de coeficientes de regresión.

Básico grupo de calificación productos, cuyo precio está sujeto a igualación, es una serie paramétrica, dentro de la cual los productos se pueden agrupar en diferentes diseños dependiendo de su aplicación, condiciones y requisitos de operación, etc. Al formar series paramétricas, se pueden utilizar métodos de clasificación automática, que permiten a los productos identificar sus grupos homogéneos. La selección de parámetros técnicos y económicos se realiza en base a los siguientes requisitos básicos:

  • Los parámetros seleccionados incluyen los parámetros registrados en las normas y condiciones tecnicas; además de los parámetros técnicos (potencia, capacidad de carga, velocidad, etc.), se utilizan indicadores de serialización del producto, coeficientes de complejidad, unificación, etc.;
  • el conjunto de parámetros seleccionados debe caracterizar suficientemente las propiedades de diseño, tecnológicas y operativas de los productos incluidos en la serie y tener una correlación bastante estrecha con el precio;
  • Los parámetros no deben ser interdependientes.

Para seleccionar los parámetros técnicos y económicos que afectan significativamente el precio, se calcula una matriz de coeficientes de correlación de pares. Según la magnitud de los coeficientes de correlación entre los parámetros, se puede juzgar la cercanía de su conexión. Al mismo tiempo, una correlación cercana a cero muestra una influencia insignificante del parámetro en el precio. La selección final de parámetros técnicos y económicos se lleva a cabo en el proceso de análisis de regresión paso a paso utilizando equipo de computadora y los programas estándar correspondientes.

En la práctica de precios, se utiliza el siguiente conjunto de funciones:

lineal

P = ao + alXl + ... + hormigaXn,

potencia lineal

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritmo inverso

P = a0 + a1: En X1 + ... + an: En Xn,

fuerza

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indicativo

P = e^(a1+a1X1+...+anXn)

hiperbólico

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

donde P es la igualación de precios; X1 X2,..., Xn - el valor de los parámetros técnicos y económicos de los productos de la serie; a0, a1 ..., an - coeficientes calculados de la ecuación de regresión.

En el trabajo práctico sobre fijación de precios, dependiendo de la forma de relación entre los precios y los parámetros técnicos y económicos, se pueden utilizar otras ecuaciones de regresión. El tipo de función de relación entre el precio y un conjunto de parámetros técnicos y económicos puede preestablecerse o seleccionarse automáticamente durante el procesamiento informático. La cercanía de la correlación entre el precio y un conjunto de parámetros se evalúa mediante el valor. coeficiente múltiple correlaciones. Su proximidad a uno indica una conexión cercana. Utilizando la ecuación de regresión, se obtienen valores de precios igualados (calculados) para productos de una serie paramétrica determinada. Para evaluar los resultados de la ecualización, se calculan los valores relativos de la desviación de los valores de precio calculados de los reales:

Tsr = Rf - Rr: R x 100

donde Рф, Рр - precios reales y calculados.

El valor de CR no debe exceder el 8-10%. En caso de desviaciones significativas de los valores calculados de los reales, es necesario investigar:

  • la exactitud de la formación de una serie paramétrica, ya que puede contener productos que, en sus parámetros, difieren mucho de otros productos de la serie. Deben ser excluidos;
  • correcta selección de parámetros técnicos y económicos. Es posible un conjunto de parámetros que esté débilmente correlacionado con el precio. En este caso es necesario continuar buscando y seleccionando parámetros.

El procedimiento y metodología para realizar análisis de regresión, encontrar parámetros desconocidos de la ecuación y evaluación económica de los resultados obtenidos se llevan a cabo de acuerdo con los requisitos de la estadística matemática.



Nuevo en el sitio

>

Más popular