Hogar Cena Modelos de suavizado exponencial y previsión de series temporales. Previsión basada en suavizamiento exponencial

Modelos de suavizado exponencial y previsión de series temporales. Previsión basada en suavizamiento exponencial

1. Disposiciones metodológicas básicas.

El método de suavizado exponencial simple utiliza un promedio móvil ponderado (exponencial) de todos los datos de observaciones anteriores. Este modelo se aplica con mayor frecuencia a datos en los que es necesario evaluar la presencia de una relación entre los indicadores analizados (tendencia) o la dependencia de los datos analizados. El propósito del suavizamiento exponencial es estimar estado actual, cuyos resultados determinarán todas las previsiones posteriores.

El suavizado exponencial proporciona Actualización constante del modelo utilizando los últimos datos. Este método se basa en promediar (suavizar) series temporales de observaciones pasadas en dirección descendente (exponencial). Es decir, se da más peso a los acontecimientos más recientes. El peso se asigna de la siguiente manera: para la última observación el peso será α, para la penúltima - (1-α), para la anterior - (1-α) 2, etc.

En una forma suavizada, un nuevo pronóstico (para el período t+1) se puede representar como un promedio ponderado de la última observación de una cantidad en el momento t y su pronóstico anterior para el mismo período t. Además, el peso α se asigna al valor observado y el peso (1- α) se asigna al pronóstico; se supone que 0< α<1. Это правило в общем виде можно записать следующим образом.

Nuevo pronóstico = [α*(última observación)]+[(1- α)*último pronóstico]

¿Dónde está el valor predicho en próximo período;

α – constante de suavizado;

Y t – observación del valor de periodo actual t;

El pronóstico suavizado anterior de este valor para el período t.

El suavizado exponencial es un procedimiento para revisar continuamente los resultados del pronóstico a la luz de los eventos más recientes.

La constante de suavizado α es un factor ponderado. Su valor real está determinado por el grado en que la observación actual debería influir en el valor previsto. Si α es cercano a 1, entonces el pronóstico tiene en cuenta significativamente la magnitud del error del último pronóstico. Por el contrario, para valores pequeños de α, el valor predicho es el más cercano al pronóstico anterior. Puede considerarse como un promedio ponderado de todas las observaciones pasadas, con pesos que disminuyen exponencialmente a medida que los datos envejecen.



Tabla 2.1

Comparación de la influencia de diferentes valores de constantes de suavizado.

La constante α es la clave para el análisis de datos. Si se requiere que los valores predichos sean estables y se suavicen las desviaciones aleatorias, es necesario elegir un valor pequeño de α. Un valor grande de la constante α tiene sentido si se necesita una respuesta rápida a los cambios en el espectro de observaciones.

2. Un ejemplo práctico de suavizado exponencial.

Se presentan los datos de la empresa sobre el volumen de ventas (miles de unidades) durante siete años, la constante de suavizado se toma igual a 0,1 y 0,6. Los datos de 7 años constituyen la parte de la prueba; A partir de ellos es necesario evaluar la efectividad de cada modelo. Para el suavizado exponencial de series, el valor inicial se toma igual a 500 (el primer valor de los datos reales o el valor promedio de 3 a 5 períodos se registra en el valor suavizado para el segundo trimestre).

Tabla 2.2

Datos iniciales

Tiempo Valor real (real) Valor suavizado Error de pronóstico
año cuarto 0,1 0,1
Sobresalir según la fórmula
#N / A 0,00
500,00 -150,00
485,00 485,00 -235,00
461,50 461,50 -61,50
455,35 455,35 -5,35
454,82 454,82 -104,82
444,33 444,33 -244,33
419,90 419,90 -119,90
407,91 407,91 -57,91
402,12 402,12 -202,12
381,91 381,91 -231,91
358,72 358,72 41,28
362,84 362,84 187,16
381,56 381,56 -31,56
378,40 378,40 -128,40
365,56 365,56 184,44
384,01 384,01 165,99
400,61 400,61 -0,61
400,55 400,55 -50,55
395,49 395,49 204,51
415,94 415,94 334,06
449,35 449,35 50,65
454,41 454,41 -54,41
448,97 448,97 201,03
469,07 469,07 380,93

En la figura. La Figura 2.1 presenta un pronóstico basado en suavizamiento exponencial con una constante de suavizamiento igual a 0,1.



Arroz. 2.1. Suavizado exponencial

Solución en Excel.

1. Seleccione el menú “Herramientas” – “Análisis de datos”. En la lista Herramientas de análisis, seleccione Suavizado exponencial. Si no hay análisis de datos en el menú "Servicio", entonces necesita instalar el "Paquete de análisis". Para hacer esto, busque el elemento "Configuración" en "Opciones" y en el cuadro de diálogo que aparece, marque la casilla "Paquete de análisis" y haga clic en Aceptar.

2. El cuadro de diálogo que se muestra en la Fig. 1 se abrirá en la pantalla. 2.2.

3. En el campo “intervalo de entrada”, ingrese los valores de los datos de origen (más una celda libre).

4. Seleccione la casilla de verificación "etiquetas" (si el rango de entrada contiene nombres de columnas).

5. Ingrese el valor (1-α) en el campo “factor de atenuación”.

6. En el campo "intervalo de entrada", ingrese el valor de la celda en la que le gustaría ver los valores resultantes.

7. Marque la casilla de verificación "Opciones" - "Salida del gráfico" para generarlo automáticamente.

Arroz. 2.2. Cuadro de diálogo para suavizado exponencial

3. Asignación de laboratorio.

Hay datos iniciales sobre los volúmenes de producción de una empresa productora de petróleo durante 2 años, presentados en la Tabla 2.3:

Tabla 2.3

Datos iniciales

Realizar un suavizado exponencial de la serie. Tome el coeficiente de suavizado exponencial igual a 0,1; 0,2; 0.3. Comente los resultados obtenidos. Puede utilizar las estadísticas presentadas en el Apéndice 1.

Los problemas de previsión se basan en cambios de determinados datos a lo largo del tiempo (ventas, demanda, oferta, PIB, emisiones de carbono, población...) y en proyectar estos cambios hacia el futuro. Desafortunadamente, las tendencias identificadas a partir de datos históricos pueden verse alteradas por muchas circunstancias imprevistas. Por lo tanto, los datos del futuro pueden diferir significativamente de lo que ocurrió en el pasado. Éste es el problema de la previsión.

Sin embargo, existen técnicas (llamadas suavizamiento exponencial) que permiten no solo intentar predecir el futuro, sino también cuantificar la incertidumbre de todo lo asociado con el pronóstico. Expresar numéricamente la incertidumbre mediante la creación de intervalos de pronóstico es realmente invaluable, pero a menudo se pasa por alto en el mundo de los pronósticos.

Descarga la nota en formato o, ejemplos en formato

Datos iniciales

Digamos que eres fanático de “El Señor de los Anillos” y llevas tres años fabricando y vendiendo espadas (Fig. 1). Mostremos las ventas gráficamente (Fig. 2). La demanda se ha duplicado en tres años. ¿Quizás sea una tendencia? Volveremos a esta idea un poco más tarde. El gráfico tiene varios picos y valles, lo que puede ser un signo de estacionalidad. En concreto, los picos se producen en los meses 12, 24 y 36, que coinciden con diciembre. ¿Pero tal vez esto sea sólo una coincidencia? Averigüemos.

Suavizado exponencial simple

Los métodos de suavizado exponencial se basan en predecir el futuro a partir de datos del pasado, donde las observaciones más nuevas pesan más que las más antiguas. Esta ponderación es posible gracias a constantes de suavizado. El primer método de suavizado exponencial que probaremos se llama suavizado exponencial simple (SES). Utiliza sólo una constante de suavizado.

El suavizado exponencial simple supone que los datos de la serie temporal constan de dos componentes: un nivel (o promedio) y algún error alrededor de ese valor. No hay tendencia ni fluctuación estacional: simplemente hay un nivel alrededor del cual fluctúa la demanda, rodeado de pequeños errores aquí y allá. Al dar preferencia a observaciones más recientes, TEC puede provocar cambios en este nivel. En el lenguaje de las fórmulas,

Demanda en el momento t = nivel + error aleatorio alrededor del nivel en el momento t

Entonces, ¿cómo se encuentra el valor de nivel aproximado? Si aceptamos que todos los valores de tiempo tienen el mismo valor, entonces simplemente deberíamos calcular su valor promedio. Sin embargo, esta es una mala idea. Se debería dar más peso a las observaciones recientes.

Creemos varios niveles. calculemos base en el primer año:

nivel 0 = demanda promedio para el primer año (meses 1-12)

Para la demanda de espadas es 163. Usamos el nivel 0 (163) como pronóstico de demanda para el mes 1. La demanda para el mes 1 es 165, es decir, está 2 espadas por encima del nivel 0. Vale la pena actualizar la aproximación de referencia. La ecuación para el suavizamiento exponencial simple es:

nivel 1 = nivel 0 + un pequeño porcentaje × (demanda 1 – nivel 0)

nivel 2 = nivel 1 + un pequeño porcentaje × (demanda 2 – nivel 1)

Etc. “Un pequeño porcentaje” se denomina constante de suavizado y se denota por alfa. Puede ser cualquier número del 0 al 100% (0 a 1). Aprenderá cómo elegir el valor alfa más adelante. En general, el valor para diferentes momentos en el tiempo:

Nivel periodo actual = nivel periodo anterior +
alfa × (demanda período actual – nivel período anterior)

La demanda futura es igual al último nivel calculado (Fig. 3). Como no sabes qué es alfa, configura la celda C2 en 0,5 para empezar. Una vez construido el modelo, encuentre un alfa tal que la suma del error al cuadrado - E2 (o desviación estándar - F2) sea mínima. Para hacer esto, ejecute la opción Encontrar una solución. Para hacer esto, vaya al menú. DATOS –> Encontrar una solución, e instalar en la ventana Opciones de búsqueda de soluciones valores requeridos (Fig. 4). Para mostrar los resultados del pronóstico en un gráfico, primero seleccione el rango A6:B41 y cree un gráfico de líneas simple. A continuación, haga clic derecho en el diagrama y seleccione la opción Seleccionar datos. En la ventana que se abre, cree una segunda fila e inserte predicciones del rango A42:B53 en ella (Fig. 5).

Quizás tengas una tendencia

Para comprobar este supuesto basta con ajustar regresión lineal bajo los datos de demanda y realice una prueba t sobre el aumento de esta línea de tendencia (como en ). Si la pendiente de la línea es distinta de cero y estadísticamente significativa (en las pruebas que utilizan la prueba t de Student, el valor r inferior a 0,05), los datos tienen una tendencia (Fig. 6).

Usamos la función ESTIMACIÓN LINEAL, que devuelve 10 estadísticas descriptivas (si no ha usado esta función antes, la recomiendo) y la función ÍNDICE, que le permite "sacar" solo las tres estadísticas requeridas, y no el conjunto completo. Resultó que la pendiente es 2,54 y es significativa, ya que la prueba de Student mostró que 0,000000012 es significativamente menor que 0,05. Entonces, hay una tendencia y solo queda incluirla en el pronóstico.

Suavizado exponencial de Holt con ajuste de tendencia

A menudo se le llama suavizado exponencial doble porque no tiene un parámetro de suavizado: alfa, sino dos. Si una secuencia de tiempo tiene una tendencia lineal, entonces:

demanda en el momento t = nivel + t × tendencia + desviación aleatoria del nivel en el momento t

El suavizado exponencial de Holt con ajuste de tendencia tiene dos nuevas ecuaciones, una para el nivel a medida que avanza en el tiempo y la otra para la tendencia. La ecuación de nivel contiene un parámetro de suavizado alfa y la ecuación de tendencia contiene gamma. Así es como se ve la nueva ecuación de nivel:

nivel 1 = nivel 0 + tendencia 0 + alfa × (demanda 1 – (nivel 0 + tendencia 0))

tenga en cuenta que nivel 0 + tendencia 0 es solo un pronóstico de un paso desde los valores iniciales hasta el mes 1, por lo que demanda 1 – (nivel 0 + tendencia 0)- esta es una desviación de un paso. Así, la ecuación de aproximación de nivel básico será:

nivel período actual = nivel período anterior + tendencia período anterior + alfa × (demanda período actual – (nivel período anterior) + tendencia período anterior))

Ecuación de actualización de tendencias:

tendencia período actual = tendencia período anterior + gamma × alfa × (demanda período actual – (nivel período anterior) + tendencia período anterior))

El suavizado Holt en Excel es similar alisado sencillo(Fig. 7), y como arriba, el objetivo es encontrar dos coeficientes minimizando la suma de errores al cuadrado (Fig. 8). Para obtener el nivel inicial y los valores de tendencia (en las celdas C5 y D5 de la Figura 7), trace un gráfico para los primeros 18 meses de ventas y agréguele una línea de tendencia con una ecuación. Ingrese el valor de tendencia inicial de 0,8369 y el nivel inicial de 155,88 en las celdas C5 y D5. Los datos de pronóstico se pueden presentar gráficamente (Fig. 9).

Arroz. 7. Suavizado exponencial de Holt con ajuste de tendencia; Para ampliar la imagen, haga clic derecho sobre ella y seleccione Abrir imagen en nueva pestaña

Identificar patrones en los datos

Hay una manera de probar la solidez de un modelo predictivo: comparar los errores consigo mismos, desplazados en un paso (o varios pasos). Si las desviaciones son aleatorias, entonces el modelo no se puede mejorar. Sin embargo, puede haber un factor estacional en los datos de demanda. El concepto de un término de error que está correlacionado con la versión de sí mismo de otro período se llama autocorrelación (para más información sobre la autocorrelación, consulte ). Para calcular la autocorrelación, comience con los datos de error de pronóstico para cada período (la columna F en la Figura 7 pasa a la columna B en la Figura 10). A continuación, defina error promedio pronóstico (Fig. 10, celda B39; fórmula en la celda: =PROMEDIO(B3:B38)). En la columna C, calcule la desviación del error de pronóstico de la media; fórmula en la celda C3: =B3-B$39. A continuación, mueva secuencialmente la columna C una columna hacia la derecha y una fila hacia abajo. Fórmulas en las celdas D39: =SUMAPRODUCTO($C3:$C38,D3:D38), D41: =D39/$C39, D42: =2/SQRT(36), D43: =-2/SQRT(36).

¿Qué significa que una de las columnas D:O sea “sincrónica” con la columna C? Por ejemplo, si las columnas C y D son sincrónicas, entonces un número que es negativo en una de ellas debe ser negativo en la otra, positivo? en uno, positivo en amigo. Esto significa que la suma de los productos de las dos columnas será significativa (las diferencias se acumulan). O, lo que es lo mismo, que valor más cercano en el rango D41:O41 a cero, menor es la correlación de la columna (de D a O, respectivamente) con la columna C (Fig. 11).

Una autocorrelación mayor valor crítico. El error desplazado un año se correlaciona consigo mismo. Esto significa un ciclo estacional de 12 meses. Y esto no es sorprendente. Si nos fijamos en el gráfico de demanda (Fig. 2), resulta que hay picos de demanda cada Navidad y mínimos en abril-mayo. Consideremos una técnica de pronóstico que tenga en cuenta la estacionalidad.

Suavizado exponencial multiplicativo de Holt-Winters

El método se llama multiplicativo (de multiplicar - multiplicar), porque utiliza la multiplicación para tener en cuenta la estacionalidad:

Demanda en el momento t = (nivel + t × tendencia) × ajuste estacional para el momento t × cualquier ajuste irregular restante que no podamos explicar

El suavizado de Holt-Winters también se denomina suavizado triple exponencial porque tiene tres parámetros de suavizado (alfa, gamma y delta). Por ejemplo, si hay un ciclo estacional de 12 meses:

Pronóstico para el mes 39 = (nivel 36 + 3 × tendencia 36) x estacionalidad 27

Al analizar datos, es necesario descubrir qué es una tendencia en una serie de datos y qué es estacionalidad. Para realizar cálculos utilizando el método Holt-Winters, debe:

  • Suavizar datos históricos utilizando el método de media móvil.
  • Compare una versión suavizada de una serie temporal de datos con la original para obtener una estimación aproximada de la estacionalidad.
  • Obtenga nuevos datos sin el componente estacional.
  • Encuentre aproximaciones de nivel y tendencia basadas en estos nuevos datos.

Comience con los datos sin procesar (columnas A y B en la Figura 12) y agregue la columna C con los valores suavizados del promedio móvil. Dado que la estacionalidad tiene ciclos de 12 meses, tiene sentido utilizar un promedio de 12 meses. Hay un pequeño problema con este promedio. 12 es un número par. Si suaviza la demanda del mes 7, ¿debería considerarla como la demanda promedio de los meses 1 al 12 o de los meses 2 al 13? Para superar esta dificultad, es necesario suavizar la demanda utilizando una “media móvil de 2x12”. Es decir, toma la mitad de los dos promedios de los meses 1 al 12 y de los meses 2 al 13. La fórmula de la celda C8: =(PROMEDIO(B3:B14)+PROMEDIO(B2:B13))/2.

No se pueden obtener datos suavizados para los meses 1 a 6 y 31 a 36, ​​ya que no hay suficientes períodos anteriores y posteriores. Para mayor claridad, los datos originales y suavizados se pueden reflejar en el diagrama (Fig. 13).

Ahora, en la columna D, divida el valor original por el suavizado y obtenga el valor aproximado del ajuste estacional (columna D en la Fig. 12). La fórmula en la celda D8 es =B8/C8. Tenga en cuenta los picos del 20% por encima de la demanda normal en los meses 12 y 24 (diciembre), mientras que se observan depresiones en la primavera. Esta técnica de alisado te dio dos estimaciones puntuales para cada mes (24 meses en total). La columna E encuentra el promedio de estos dos factores. Fórmula en la celda E1: =PROMEDIO(D14,D26). Para mayor claridad, el nivel de fluctuaciones estacionales se puede presentar gráficamente (Fig. 14).

Ahora se pueden obtener datos desestacionalizados. La fórmula en la celda G1 es: =B2/E2. Construya un gráfico basado en los datos de la columna G, complételo con una línea de tendencia, muestre la ecuación de tendencia en el gráfico (Fig. 15) y utilice los coeficientes en cálculos posteriores.

Forme una nueva hoja como se muestra en la Fig. 16. Sustituya los valores en el rango E5:E16 de la Fig. 12 áreas E2:E13. Tome los valores de C16 y D16 de la ecuación de la línea de tendencia en la Fig. 15. Establezca los valores de las constantes de suavizado para que comiencen en 0,5. Estire los valores en la línea 17 para cubrir el rango de los meses 1 al 36. Ejecute Encontrar una solución para optimizar los coeficientes de suavizado (Fig. 18). La fórmula en la celda B53 es: =(C$52+(A53-A$52)*D$52)*E41.

Ahora es necesario comprobar las autocorrelaciones en el pronóstico realizado (Fig. 18). Dado que todos los valores están ubicados entre los límites superior e inferior, comprende que el modelo ha hecho un buen trabajo al comprender la estructura de los valores de demanda.

Construyendo un intervalo de confianza para el pronóstico.

Entonces, tenemos un pronóstico completamente funcional. ¿Cómo se establecen límites superiores e inferiores que se pueden utilizar para hacer suposiciones realistas? La simulación de Monte Carlo que ya has visto en (ver también) te ayudará con esto. La idea es generar escenarios futuros de comportamiento de la demanda e identificar el grupo en el que se ubica el 95% de ellas.

Elimine el pronóstico de las celdas B53:B64 de la hoja de Excel (ver Fig. 17). Allí registrará la demanda según la simulación. Este último se puede generar usando la función NORMINV. Para meses futuros, solo necesita proporcionarle la media (0), la distribución estándar (10,37 de la celda $H$2) y numero aleatorio de 0 a 1. La función devolverá la desviación con una probabilidad correspondiente a una curva en forma de campana. Coloque la simulación de error de un paso en la celda G53: =NORMIN(RAND(),0,H$2). Extiende esta fórmula hasta G64 y obtendrás simulaciones de error de pronóstico para 12 meses de un pronóstico de un solo paso (Figura 19). Los valores de su simulación diferirán de los que se muestran en la figura (¡por eso es una simulación!).

Con la incertidumbre del pronóstico, tienes todo lo que necesitas para actualizar el nivel, la tendencia y el coeficiente estacional. Así que seleccione las celdas C52:F52 y estírelas hasta la fila 64. Como resultado, tendrá un error de pronóstico simulado y el pronóstico en sí. Basándonos en lo contrario, podemos predecir los valores de la demanda. Inserte la fórmula en la celda B53: =F53+G53 y estírela hasta B64 (Fig. 20, rango B53:F64). Ahora puedes presionar el botón F9, actualizando el pronóstico cada vez. Coloque los resultados de 1000 simulaciones en las celdas A71:L1070, transponiendo cada vez los valores del rango B53:B64 al rango A71:L71, A72:L72, ... A1070:L1070. Si esto te molesta, escribe algún código VBA.

Ahora tiene 1000 escenarios para cada mes y puede usar la función PERCENTIL para obtener los límites superior e inferior en el medio del intervalo de confianza del 95%. En la celda A66 la fórmula es: =PERCENTIL(A71:A1070,0.975), y en la celda A67: =PERCENTIL(A71:A1070,0.025).

Como es habitual, para mayor claridad, los datos se pueden presentar gráficamente (Fig. 21).

Hay dos puntos interesantes en el gráfico:

  • El error se hace más amplio con el tiempo. Esto tiene sentido. La incertidumbre se acumula cada mes que pasa.
  • De la misma manera, el error aumenta en las piezas que caen durante los períodos de aumento estacional de la demanda. Con su posterior caída, el error se reduce.

Escrito basado en el libro de John Forman. – M.: Editorial Alpina, 2016. – P. 329–381

El suavizado exponencial es un método de promedio ponderado más complejo. Cada nuevo pronóstico se basa en el pronóstico anterior más el porcentaje de la diferencia entre ese pronóstico y el valor real de la serie en ese momento.

F t = F t -1 + (A t -1 - F t -1) (2)

Dónde: Pie – previsión para el período t

Ft-1– previsión para el periodo t-1

– constante de suavizado

En - 1 – demanda o ventas reales para el período t-1

La constante de suavizado es un porcentaje del error de pronóstico. Cada nuevo pronóstico es igual al pronóstico anterior más un porcentaje del error anterior.

La sensibilidad del ajuste del pronóstico al error está determinada por la constante de suavizado; cuanto más cerca esté su valor de 0, más lento se adaptará el pronóstico a los errores de pronóstico (es decir, mayor será el grado de suavizado). Por el contrario, cuanto más cerca esté el valor de 1,0, mayor será la sensibilidad y menor será el suavizado.

La elección de la constante de suavizado es en gran medida una cuestión de libre elección o de prueba y error. El objetivo es elegir una constante de suavizado tal que, por un lado, el pronóstico siga siendo suficientemente sensible a los cambios reales en los datos de la serie temporal y, por otro lado, suavice bien los saltos causados ​​por factores aleatorios. Los valores comúnmente utilizados oscilan entre 0,05 y 0,50.

El suavizado exponencial es uno de los métodos de pronóstico más utilizados, en parte debido a sus requisitos mínimos de almacenamiento de datos y su facilidad de cálculo, y en parte debido a la facilidad con la que el sistema de coeficientes de significancia se puede cambiar simplemente cambiando el valor de .

Tabla 3. Suavizado exponencial

Período Demanda real α= 0,1 α = 0,4
pronóstico error pronóstico error
10 000 - - - -
11 200 10 000 11 200-10 000=1 200 10 000 11 200-10 000=1 200
11 500 10 000+0,1(11 200-10 000)=10 120 11 500-10 120=1 380 10 000+0,4(11 200-10 000)=10 480 11 500-10 480=1 020
13 200 10 120+0,1(11 500-10 120)=10 258 13 200-10 258=2 942 10 480+0,4(11 500-10 480)=10 888 13 200-10 888=2 312
14 500 10 258+0,1(13 200-10 258)=10 552 14 500-10 552=3 948 10 888+0,4(13 200-10 888)=11 813 14 500-11 813=2 687
- 10 552+0,1(14 500-10 552)=10 947 - 11 813+0,4(14 500-11 813)=12 888 -



Métodos para la tendencia.

hay dos métodos importantes, que se puede utilizar para desarrollar pronósticos cuando hay una tendencia presente. Uno de ellos implica el uso de una ecuación de tendencia; otro – extensión del suavizado exponencial.

Ecuación de tendencia:

ecuación lineal las tendencias se ven así:

Yt = a + δ∙t (3)

Dónde: t – definido numero de periodos de vez en cuando t= 0;

yt– pronóstico del período t;

α - significado yt en t=0

δ – pendiente de la línea.

Coeficientes directos α Y δ , se puede calcular a partir de datos estadísticos para un período determinado, utilizando las dos ecuaciones siguientes:

δ= , (4)

α = , (5)

Dónde: norte – número de períodos,

y– valor de serie temporal

Tabla 3. Nivel de tendencia.

Periodo (t) Año Nivel de ventas (años) t∙y t 2
10 000 10 000
11 200 22 400
11 500 34 500
13 200 52 800
14 500 72 500
Total: - 60 400 192 200

Calculemos los coeficientes de la línea de tendencia:

δ=

Entonces la línea de tendencia Y t = α + δ ∙ t

En nuestro caso, Yt = 43 900+1 100 ∙t,

Dónde t = 0 para el periodo 0.

Creemos una ecuación para los períodos 6 (2015) y 7 (2016):

– previsión para 2015.

Y 7 = 43.900+1.100*7= 51.600

Construyamos un gráfico:

Suavizado exponencial de tendencias

Se puede utilizar una forma de suavizado exponencial simple cuando la serie temporal revela una tendencia. Esta variación se denomina suavizado exponencial de tendencia o, a veces, suavizado doble. Se diferencia del suavizado exponencial simple, que se utiliza sólo cuando los datos varían alrededor de algún valor promedio o tienen cambios abruptos o graduales.

Si una serie muestra una tendencia y se utiliza un suavizado exponencial simple, todos los pronósticos se retrasarán con respecto a la tendencia. Por ejemplo, si los datos aumentan, se subestimarán todos los pronósticos. Por el contrario, reducir los datos da como resultado una previsión sobreestimada. La visualización gráfica de los datos puede mostrar cuándo sería preferible el suavizado doble al suavizado simple.

El pronóstico ajustado por tendencia (TAF) consta de dos elementos: un error suavizado y un factor de tendencia.

TAF t +1 = S t + T t, (6)

Dónde: Calle – pronóstico suavizado;

t t – evaluación de la tendencia actual

Y S t = TAF t + α 1 (A t - TAF t) , (7)

T t = T t-1 + α 2 (TAF t –TAF t-1 – T t-1) (8)

Dónde α1, α2– constantes de suavizado.

Para utilizar este método, debe seleccionar los valores α 1, α 2 (mediante la selección habitual) y hacer pronóstico inicial y evaluar tendencias.

Tabla 4. Tendencia de suavizamiento exponencial.

Un modelo de serie temporal simple y lógicamente claro se ve así:

Dónde b es una constante y ε - error aleatorio. Constante b es relativamente estable en cada intervalo de tiempo, pero también puede cambiar lentamente con el tiempo. Una de las formas intuitivas de resaltar el significado. b de los datos es utilizar suavizado de media móvil, en el que a las observaciones más recientes se les asigna mayor peso que a las penúltimas, a las penúltimas más pesos que a las penúltimas, etc. El suavizado exponencial simple está diseñado exactamente así. Aquí, se asignan pesos exponencialmente decrecientes a las observaciones más antiguas y, a diferencia de un promedio móvil, se tienen en cuenta todas las observaciones anteriores de la serie, y no solo aquellas que se encuentran dentro de una ventana determinada. La fórmula exacta para el suavizado exponencial simple es:

Cuando esta fórmula se aplica de forma recursiva, cada nuevo valor suavizado (que también es un pronóstico) se calcula como el promedio ponderado de la observación actual y la serie suavizada. Obviamente, el resultado del suavizado depende del parámetro. α . Si α es igual a 1, entonces las observaciones anteriores se ignoran por completo. Si a es 0, entonces se ignoran las observaciones actuales. Valores α entre 0 y 1 dan resultados intermedios. Investigación empírica demostró que el suavizado exponencial simple a menudo proporciona suficiente pronóstico preciso.

En la práctica se suele recomendar tomar α menos de 0,30. Sin embargo, elegir un valor superior a 0,30 a veces da una predicción más precisa. Esto significa que es mejor evaluar valor optimo α basados ​​en datos reales en lugar de utilizar recomendaciones generales.

En la práctica, el parámetro de suavizado óptimo suele encontrarse mediante un procedimiento de búsqueda en cuadrícula. El posible rango de valores de parámetros se divide en una cuadrícula con un paso determinado. Por ejemplo, considere una cuadrícula de valores de α = 0,1 a α = 0,9 en incrementos de 0,1. Entonces se selecciona este valor α , para el cual la suma de los cuadrados (o cuadrados medios) de los residuos (valores observados menos predicciones de avance) es mínima.

Excel tiene una función de suavizado exponencial, que normalmente se utiliza para suavizar los niveles de una serie de tiempo empírica basada en el método de suavizado exponencial simple. Para llamar a esta función, seleccione el comando Herramientas - Análisis de datos en la barra de menú. Se abrirá la ventana de Análisis de datos en la pantalla, en la que deberá seleccionar el valor de suavizado exponencial. Como resultado, aparecerá un cuadro de diálogo. Suavizado exponencial, presentado en la Fig. 11.5.


En el cuadro de diálogo Suavizado exponencial, se configuran casi los mismos parámetros que en el cuadro de diálogo Media móvil comentado anteriormente.

1. Rango de entrada: en este campo se ingresa el rango de celdas que contienen los valores del parámetro en estudio.

2. Etiquetas: esta casilla de verificación de opción está seleccionada si la primera fila (columna) en el rango de entrada contiene un título. Si no hay título, la casilla de verificación debe estar desactivada. En este caso, se crearán automáticamente nombres estándar para los datos del rango de salida.

3. Factor de amortiguación: en este campo se ingresa el valor del coeficiente de suavizado exponencial seleccionado. α . El valor predeterminado es α = 0,3.

4. Opciones de salida: en este grupo, además de especificar el rango de celdas para los datos de salida en el campo Rango de salida, también puede solicitar que el gráfico se genere automáticamente marcando la opción Salida del gráfico y calcular los errores estándar marcando la opción Errores estándar.

Usemos la función Suavizado exponencial para volver a resolver el problema discutido anteriormente, pero utilizando el método de suavizado exponencial simple. Los valores seleccionados de los parámetros de suavizado se presentan en la Fig. 11.5. En la figura. 11.6 muestra los indicadores calculados, y la Fig. 11.7 - gráficos construidos.

Tema 3. Suavizado y previsión de series temporales basadas en modelos de tendencia.

Objetivo estudiar este tema es crear una base básica para la formación de gerentes en la especialidad 080507 en el campo de la construcción de modelos. varias tareas en el campo de la economía, desarrollando en los estudiantes un enfoque sistemático para plantear y resolver problemas de previsión. El curso propuesto permitirá a los especialistas adaptarse rápidamente al trabajo práctico, navegar mejor por la información y la literatura científica y técnica de su especialidad y tener más confianza en la toma de decisiones que surjan en su trabajo.

Principal tareas estudiar el tema son: los estudiantes obtienen conocimientos teóricos profundos sobre el uso de modelos de pronóstico, adquieren habilidades sostenibles en el desempeño de trabajos de investigación, la capacidad de resolver problemas científicos complejos asociados con la construcción de modelos, incluidos los multidimensionales, la capacidad de analizar lógicamente los resultados obtenidos y determinar formas de encontrar decisiones aceptables.

Suficiente método sencillo Identificar tendencias de desarrollo es suavizar las series temporales, es decir, reemplazar los niveles reales por niveles calculados que tengan variaciones menores que los datos originales. La transformación correspondiente se llama filtración. Veamos varios métodos de suavizado.

3.1. Promedios simples

El propósito del suavizado es construir un modelo de pronóstico para períodos posteriores basado en observaciones pasadas. En el método de promedios simples se toman como datos iniciales los valores de la variable Y en momentos en el tiempo t y el valor previsto se define como un promedio simple para el siguiente período de tiempo. Fórmula de cálculo parece

Dónde norte número de observaciones.

Cuando se dispone de una nueva observación, el pronóstico recién obtenido debe tenerse en cuenta al realizar pronósticos para el siguiente período. Cuando se utiliza este método, el pronóstico se realiza promediando todos los datos anteriores; sin embargo, la desventaja de dicho pronóstico es la dificultad de utilizarlo en modelos de tendencias.

3.2. Método de media móvil

Este método se basa en representar una serie como la suma de una tendencia bastante suave y un componente aleatorio. El método se basa en la idea de calcular un valor teórico a partir de una aproximación local. Para construir una estimación de tendencia en un punto t basado en valores de series del intervalo de tiempo Calcular el valor teórico de la serie. El caso más común en la práctica del suavizado de series es cuando todos los pesos de los elementos del intervalo son iguales entre sí. Por esta razón este método se llama método de media móvil, ya que al realizar el procedimiento aparece una ventana con un ancho de (2 metros + 1) a lo largo de toda la fila. El ancho de la ventana generalmente se toma impar, ya que el valor teórico se calcula para importancia central: número de términos k = 2m + 1 con el mismo número de niveles a la izquierda y a la derecha del momento t.

La fórmula para calcular la media móvil en este caso toma la forma:

La varianza de la media móvil se define como σ2/k, donde a través s 2 denota la dispersión de los términos originales de la serie, y k Por lo tanto, cuanto mayor sea el intervalo de suavizado, más fuerte será el promedio de los datos y menos variable será la tendencia identificada. La mayoría de las veces, el suavizado se realiza utilizando tres, cinco y siete miembros de la serie original. En este caso, se deben tener en cuenta las siguientes características de la media móvil: si consideramos una serie con fluctuaciones periódicas de longitud constante, entonces al suavizar la media móvil con un intervalo de suavizado igual o múltiplo del período, las fluctuaciones serán completamente eliminadas. A menudo, el suavizado basado en una media móvil transforma la serie con tanta fuerza que la tendencia de desarrollo identificada aparece sólo en las zonas más esquema general, y los detalles más pequeños, pero importantes para el análisis (ondas, curvas, etc.) desaparecen; Después del suavizado, las ondas pequeñas a veces pueden cambiar de dirección y aparecen “agujeros” en lugar de “picos”, y viceversa. Todo esto requiere precaución en el uso de una media móvil simple y nos obliga a buscar métodos de descripción más sutiles.

El método de media móvil no proporciona valores de tendencia para el primero y el último metro miembros de la serie. Esta desventaja es especialmente notable cuando la longitud de la fila es corta.

3.3. Suavizado exponencial

Promedio exponencial y t es un ejemplo de media móvil ponderada asimétrica, que tiene en cuenta el grado de antigüedad de los datos: la información más antigua con menos peso se incluye en la fórmula para calcular el valor suavizado del nivel de la serie

Aquí — promedio exponencial, reemplazando el valor observado de la serie y t(el suavizado involucra todos los datos recibidos hasta la fecha t), α parámetro de suavizado que caracteriza el peso de la observación actual (más reciente); 0< α <1.

El método se utiliza para pronosticar series temporales no estacionarias con cambios aleatorios de nivel y pendiente. A medida que nos alejamos del momento actual en el pasado, el peso del miembro correspondiente de la serie disminuye rápidamente (exponencialmente) y prácticamente deja de tener algún efecto sobre el valor.

Es fácil obtener que la última relación nos permite dar la siguiente interpretación de la media exponencial: si — pronóstico del valor de la serie y t, entonces la diferencia es el error de pronóstico. Por lo tanto, el pronóstico para el próximo momento t+1 tiene en cuenta lo que se supo en este momento t error de pronóstico.

Parámetro de suavizado α es un factor de ponderación. En caso α está cerca de la unidad, entonces el pronóstico tiene en cuenta significativamente la magnitud del error del último pronóstico. En valores pequeños α el valor previsto está cerca del pronóstico anterior. Elegir un parámetro de suavizado es un problema bastante complejo. Las consideraciones generales son las siguientes: el método es bueno para predecir series bastante suaves. En este caso, puede elegir una constante de suavizado minimizando el error de pronóstico de un paso adelante estimado a partir del último tercio de la serie. Algunos expertos no recomiendan utilizar valores elevados del parámetro de suavizado. En la figura. La Figura 3.1 muestra un ejemplo de una serie suavizada utilizando el método de suavizado exponencial con α= 0,1.

Arroz. 3.1. El resultado del suavizamiento exponencial en α =0,1
(1 serie original; 2 series suavizadas; 3 restos)

3.4. Suavizado exponencial
teniendo en cuenta la tendencia (método Holt)

Este método tiene en cuenta la tendencia lineal local presente en la serie temporal. Si en la serie temporal hay una tendencia ascendente, entonces, junto con una evaluación del nivel actual, también es necesaria una evaluación de la pendiente. En la técnica de Holt, los valores de nivel y pendiente se suavizan directamente utilizando constantes diferentes para cada parámetro. El suavizado constante le permite estimar el nivel y la pendiente actuales, refinándolos cada vez que aparecen nuevas observaciones.

El método Holt utiliza tres fórmulas de cálculo:

  1. Serie suavizada exponencialmente (estimación del nivel actual)

(3.2)

  1. Evaluación de tendencias

(3.3)

  1. Previsión para r períodos venideros

(3.4)

Dónde α, β constantes de suavizado del intervalo.

La ecuación (3.2) es similar a la ecuación (3.1) para el suavizado exponencial simple excepto por el término de tendencia. Constante β necesario para suavizar la estimación de la tendencia. En la ecuación de pronóstico (3.3), la estimación de la tendencia se multiplica por el número de períodos r, en el que se basa el pronóstico, y luego este producto se agrega al nivel actual de datos suavizados.

Permanente α Y β se seleccionan subjetivamente o minimizando el error de predicción. Cuanto mayores sean las ponderaciones, más rápida será la respuesta a los cambios y más fluidos serán los datos. Los pesos más pequeños hacen que la estructura de los valores suavizados sea menos fluida.

En la figura. 3.2 muestra un ejemplo de suavizado de una serie usando el método Holt con valores α Y β , igual a 0,1.

Arroz. 3.2. El resultado del alisado mediante el método Holt.
en α = 0,1 Y β = 0,1

3.5. Suavizado exponencial teniendo en cuenta las variaciones estacionales y de tendencia (método de Winters)

Cuando hay variaciones estacionales en la estructura de datos, se utiliza un modelo de suavizado exponencial de tres parámetros propuesto por Winters para reducir los errores de pronóstico. Este enfoque es una extensión del modelo anterior de Holt. Para tener en cuenta las variaciones estacionales, aquí se utiliza una ecuación adicional, y este método se describe completamente mediante cuatro ecuaciones:

  1. Serie suavizada exponencialmente

(3.5)

  1. Evaluación de tendencias

(3.6)

  1. Evaluación de estacionalidad

.

(3.7)

  1. Previsión para r períodos venideros

(3.8)

Dónde α, β, γ suavización constante de nivel, tendencia y estacionalidad, respectivamente; s- duración del período de fluctuación estacional.

La ecuación (3.5) corrige la serie suavizada. El término en esta ecuación tiene en cuenta la estacionalidad en los datos de origen. Después de tener en cuenta la estacionalidad y la tendencia en las ecuaciones (3.6), (3.7), las estimaciones se suavizan y se hace un pronóstico en la ecuación (3.8).

Igual que en el método anterior, los pesos α, β, γ se puede seleccionar subjetivamente o minimizando el error de predicción. Antes de aplicar la ecuación (3.5), es necesario determinar los valores iniciales de la serie suavizada. teniente, tendencia t t, coeficientes de estacionalidad Calle. Normalmente, el valor inicial de la serie suavizada se toma igual a la primera observación, luego la tendencia es igual a cero y los coeficientes de estacionalidad se igualan a uno.

En la figura. La Figura 3.3 muestra un ejemplo de suavizado de una serie utilizando el método de Winters.

Arroz. 3.3. El resultado del alisado con el método Winters.
en α = 0,1 = 0,1; γ = 0,1(1 - serie original; 2 series suavizadas; 3 restos)

3.6. Previsión basada en modelos de tendencias.

Muy a menudo, las series de tiempo tienen una tendencia lineal (tendencia). Suponiendo una tendencia lineal, es necesario construir una línea recta que refleje con mayor precisión el cambio en la dinámica durante el período considerado. Existen varios métodos para construir una línea recta, pero el más objetivo desde un punto de vista formal será la construcción basada en minimizar la suma de las desviaciones negativas y positivas de los valores iniciales de la serie de la línea recta.

Una línea recta en un sistema de dos coordenadas. (x,y) puede ser determinado por el punto de intersección de una de las coordenadas en y ángulo de inclinación con respecto al eje. INCÓGNITA. La ecuación de dicha línea se verá así Dónde a- punto de intersección; bángulo de inclinación.

Para que una línea recta refleje el curso de la dinámica, es necesario minimizar la suma de las desviaciones verticales. Cuando se utiliza una simple suma de desviaciones como criterio para evaluar la minimización, el resultado no será muy bueno, ya que las desviaciones negativas y positivas se compensan mutuamente. Minimizar la suma de valores absolutos tampoco conduce a resultados satisfactorios, ya que las estimaciones de parámetros en este caso son inestables y también existen dificultades computacionales al implementar dicho procedimiento de estimación. Por lo tanto, el procedimiento más comúnmente utilizado es minimizar la suma de las desviaciones al cuadrado o método de mínimos cuadrados(EMN).

Dado que la serie de valores iniciales tiene fluctuaciones, el modelo de la serie contendrá errores, cuyos cuadrados deben minimizarse

donde y i valor observado; y i * valores teóricos del modelo; número de observación.

Al modelar la tendencia de la serie temporal original utilizando una tendencia lineal, asumimos que

Dividiendo la primera ecuación por norte, llegamos al siguiente

Sustituyendo la expresión resultante en la segunda ecuación del sistema (3.10), por el coeficiente b* obtenemos:

3.7. Comprobando el ajuste del modelo

Como ejemplo en la Fig. 3.4 muestra un gráfico de regresión lineal entre la potencia del automóvil incógnita y su costo en.

Arroz. 3.4. Gráfico de regresión lineal

La ecuación para este caso es: en=1455,3 + 13,4 incógnita. El análisis visual de esta figura muestra que para varias observaciones existen desviaciones significativas de la curva teórica. La gráfica residual se muestra en la Fig. 3.5.

Arroz. 3.5. tabla de equilibrio

El análisis de los residuos de la línea de regresión puede proporcionar una medida útil de qué tan bien la regresión estimada refleja los datos reales. Una buena regresión es aquella que explica una porción significativa de la varianza y, a la inversa, una mala regresión no rastrea una gran cantidad de variación en los datos originales. Es intuitivamente claro que cualquier información adicional mejorará el modelo, es decir, reducirá la porción inexplicable de la variación en la variable. en. Para analizar la regresión, descompondremos la varianza en componentes. Es obvio que

El último término será igual a cero, ya que representa la suma de los restos, por lo que llegamos al siguiente resultado

Dónde ES 0, ES 1, ES 2 determinar las sumas de cuadrados total, de regresión y residual, respectivamente.

La suma de cuadrados de la regresión mide la porción de varianza explicada por una relación lineal; parte residual de la varianza que no se explica por una relación lineal.

Cada una de estas sumas se caracteriza por un número correspondiente de grados de libertad (DOF), que determina el número de unidades de datos independientes entre sí. En otras palabras, la frecuencia cardíaca está relacionada con el número de observaciones. norte y el número de parámetros calculados a partir de la totalidad de los datos. En el caso que nos ocupa, para calcular ES 0 sólo se determina una constante (el valor promedio), por lo tanto, la frecuencia cardíaca para ES 0 será (norte1), frecuencia cardiaca para SS 2 – (n – 2) y frecuencia cardiaca para ES 1 será norte – (norte – 1)=1, ya que hay n – 1 puntos constantes en la ecuación de regresión. Al igual que las sumas de cuadrados, las frecuencias cardíacas están relacionadas por la relación

Las sumas de cuadrados asociadas a la descomposición de la varianza, junto con los HR correspondientes, se pueden colocar en la denominada tabla de análisis de varianza (tabla ANOVA ANalysis Of VAriance) (Tabla 3.1).

Tabla 3.1

tabla ANOVA

Fuente

suma de cuadrados

Cuadrado medio

Regresión

ES 2/(n-2)

Usando la abreviatura introducida para sumas de cuadrados, definimos coeficiente de determinación como la relación entre la suma de cuadrados de la regresión y la suma total de cuadrados en la forma

(3.13)

El coeficiente de determinación mide la proporción de variabilidad de una variable. Y, que se puede explicar utilizando información sobre la variabilidad de la variable independiente INCÓGNITA. El coeficiente de determinación cambia de cero cuando incógnita no afecta Y, a uno cuando el cambio Y completamente explicado por el cambio INCÓGNITA.

3.8. Modelo de pronóstico de regresión

El mejor pronóstico es el que tiene la mínima varianza. En nuestro caso, el MCO ordinario produce el mejor pronóstico de todos los métodos que producen estimaciones insesgadas basadas en ecuaciones lineales. El error de pronóstico asociado con el procedimiento de pronóstico puede provenir de cuatro fuentes.

Primero, la naturaleza aleatoria de los errores aditivos manejados por la regresión lineal asegura que el pronóstico se desviará de los valores verdaderos incluso si el modelo se especifica correctamente y sus parámetros se conocen con precisión.

En segundo lugar, el proceso de estimación en sí introduce errores en la estimación de los parámetros: rara vez pueden ser iguales a los valores verdaderos, aunque en promedio son iguales a ellos.

En tercer lugar, en el caso de una previsión condicional (en el caso de valores precisamente desconocidos de las variables independientes), se introduce un error en la previsión de las variables explicativas.

Cuarto, puede ocurrir un error porque la especificación del modelo es inexacta.

En consecuencia, las fuentes de error se pueden clasificar de la siguiente manera:

  1. naturaleza de la variable;
  2. naturaleza del modelo;
  3. error introducido por el pronóstico de variables aleatorias independientes;
  4. error de especificación.

Consideraremos un pronóstico incondicional cuando las variables independientes se predigan con facilidad y precisión. Comencemos a considerar el problema de la calidad del pronóstico con la ecuación de regresión pareada.

El planteamiento del problema en este caso se puede formular de la siguiente manera: ¿cuál será el mejor pronóstico y T+1, siempre que en el modelo y = a + bx parámetros A Y b se estiman con precisión y el valor xT+1 conocido.

Entonces el valor predicho se puede definir como

El error de pronóstico será

.

El error de pronóstico tiene dos propiedades:

La varianza resultante es mínima entre todas las estimaciones posibles basadas en ecuaciones lineales.

A pesar de A y b son conocidos, el error de pronóstico aparece debido a que en T+1 puede no estar en la recta de regresión debido a un error εT+1, sujeto a una distribución normal con media y varianza cero s 2. Para comprobar la calidad del pronóstico, introducimos un valor normalizado.

Luego puede definir el intervalo de confianza del 95% de la siguiente manera:

Dónde β 0,05 cuantiles de distribución normal.

Los límites del intervalo del 95% se pueden definir como

Tenga en cuenta que en este caso el ancho intervalo de confianza no depende del tamaño INCÓGNITA, y los límites del intervalo son líneas rectas paralelas a la línea de regresión.

Más a menudo, al construir una línea de regresión y verificar la calidad del pronóstico, es necesario evaluar no solo los parámetros de regresión, sino también la varianza del error de pronóstico. Se puede demostrar que en este caso la varianza del error depende del valor (), donde es el valor promedio de la variable independiente. Además, cuanto más larga sea la serie, más precisa será la previsión. El error de pronóstico disminuye si el valor de X T+1 se acerca al valor promedio de la variable independiente y, a la inversa, al alejarse del valor promedio, el pronóstico se vuelve menos preciso. En la figura. La Figura 3.6 muestra los resultados del pronóstico utilizando una ecuación de regresión lineal para 6 intervalos de tiempo adelante junto con intervalos de confianza.

Arroz. 3.6. Pronóstico mediante ecuación de regresión lineal

Como se puede ver en la Fig. 3.6, esta línea de regresión no describe suficientemente bien los datos originales: hay una gran variación con respecto a la línea de ajuste. La calidad del modelo también puede juzgarse por los residuos, que, si el modelo es satisfactorio, deberían distribuirse aproximadamente según la ley normal. En la figura. La figura 3.7 muestra una gráfica de residuos construida utilizando una escala de probabilidad.

Fig.3.7. tabla de equilibrio

Cuando se utiliza una escala de este tipo, los datos que obedecen a la ley normal deben estar en línea recta. Como se desprende de la figura anterior, los puntos al principio y al final del período de observación se desvían algo de la línea recta, lo que indica que el modelo seleccionado en forma de ecuación de regresión lineal no es de una calidad suficientemente alta.

en la mesa El cuadro 3.2 muestra los resultados del pronóstico (segunda columna) junto con intervalos de confianza del 95% (tercera columna inferior y cuarta columna superior, respectivamente).

Tabla 3.2

Resultados del pronóstico

3.9. Modelo de regresión multivariante

En la regresión multivariada, los datos de cada caso incluyen los valores de la variable dependiente y de cada variable independiente. Variable dependiente y esta es una variable aleatoria relacionada con las variables independientes por la siguiente relación:

donde se determinarán los coeficientes de regresión; ε Componente de error correspondiente a la desviación de los valores de la variable dependiente de la relación verdadera (se supone que los errores son independientes y tienen una distribución normal con expectativa matemática cero y varianza desconocida). σ ).

Para un conjunto de datos determinado, las estimaciones de los coeficientes de regresión se pueden encontrar utilizando MCO. Si las estimaciones de MCO se denotan por , entonces la función de regresión correspondiente tendrá la forma:

Los residuos son estimaciones del componente de error y son similares a los residuos en el caso de la regresión lineal simple.

El análisis estadístico de un modelo de regresión multivariante se lleva a cabo de manera similar al análisis de regresión lineal simple. Los paquetes de software estadístico estándar permiten obtener estimaciones OLS para los parámetros del modelo y estimaciones de sus errores estándar. Alternativamente, puedes obtener el valor. t-estadísticas para comprobar la importancia de los términos individuales del modelo de regresión y el valor F-estadísticas para comprobar la importancia de la dependencia de la regresión.

La forma de dividir sumas de cuadrados en el caso de regresión multivariada es similar a la expresión (3.13), pero la relación para la frecuencia cardíaca será la siguiente

Recalquemos una vez más que norte representa el volumen de observaciones, y k número de variables en el modelo. La variación total de una variable dependiente consta de dos componentes: la variación explicada por las variables independientes a través de la función de regresión y la variación no explicada.

La tabla ANOVA para el caso de regresión multivariada tendrá la forma que se muestra en la tabla. 3.3.

Tabla 3.3

tabla ANOVA

Fuente

suma de cuadrados

Cuadrado medio

Regresión

ES 2/(n-k-1)

Como ejemplo de regresión multivariada, usaremos datos del paquete Statistica (archivo de datos Pobreza.Sta) Los datos presentados se basan en una comparación de los resultados de los censos de 1960 y 1970. para una muestra aleatoria de 30 países. Los nombres de los países se ingresaron como nombres de cadenas y los nombres de todas las variables en este archivo se muestran a continuación:

POP_CHNG cambio de población para 1960-1970;

N_EMPLD número de personas empleadas en la agricultura;

PT_POOR porcentaje de familias que viven por debajo del nivel de pobreza;

TAX_RATE tasa impositiva;

PT_PHONE porcentaje de apartamentos con teléfono;

PT_RURAL porcentaje de población rural;

EDAD mediana edad.

Como variable dependiente elegimos el signo pt_pobre, y como independiente - todo lo demás. Los coeficientes de regresión calculados entre las variables seleccionadas se dan en la Tabla. 3.4

Tabla 3.4

Coeficientes de regresión

Esta tabla muestra los coeficientes de regresión ( EN) y coeficientes de regresión estandarizados ( Beta). Usando coeficientes EN Se establece la forma de la ecuación de regresión, que en este caso tiene la forma:

La inclusión de sólo estas variables en el lado derecho se debe a que sólo estos signos tienen un valor de probabilidad r menos de 0,05 (ver cuarta columna de la Tabla 3.4).

Bibliografía

  1. Basovsky L. E. Previsión y planificación en condiciones de mercado. – M.: Infra-M, 2003.
  2. Caja J., Jenkins G. Análisis de series de tiempo. Número 1. Previsión y gestión. – M.: Mir, 1974.
  3. Borovikov V. P., Ivchenko G. I. Previsión en el sistema Statistica en entorno Windows. – M.: Finanzas y Estadística, 1999.
  4. Duque V. Procesamiento de datos en una PC en ejemplos. – San Petersburgo: Peter, 1997.
  5. Ivchenko B. P., Martyshchenko L. A., Ivantsov I. B. Microeconomía de la información. Parte 1. Métodos de análisis y previsión. – San Petersburgo: Nordmed-Izdat, 1997.
  6. Krichevsky M. L. Introducción a las redes neuronales artificiales: Libro de texto. prestación. – SPb.: SPb. estado tecnología marina. Universidad, 1999.
  7. Soshnikova L. A., Tamashevich V. N., Uebe G. et al. Análisis estadístico multivariante en economía. – M.: Unity-Dana, 1999.


Nuevo en el sitio

>

Más Popular