Hogar Eliminación Probar hipótesis estadísticas en MS EXCEL sobre la igualdad del valor medio de la distribución (se desconoce la varianza). Probar la hipótesis sobre la igualdad de las medias de dos o más poblaciones.

Probar hipótesis estadísticas en MS EXCEL sobre la igualdad del valor medio de la distribución (se desconoce la varianza). Probar la hipótesis sobre la igualdad de las medias de dos o más poblaciones.

3. COMPROBAR LA HIPÓTESIS SOBRE LA IGUALDAD DE PROMEDIOS

Se utiliza para probar la proposición de que la media de dos indicadores representados por muestras son significativamente diferentes. Hay tres tipos de prueba: una para muestras relacionadas y dos para muestras no relacionadas (con varianzas iguales y diferentes). Si las muestras no están relacionadas, primero debe probar la hipótesis de igualdad de varianzas para determinar qué criterio utilizar. Al igual que en el caso de comparar varianzas, hay 2 formas de resolver el problema, que consideraremos usando un ejemplo.

EJEMPLO 3. Hay datos sobre el número de ventas de bienes en dos ciudades. Pruebe con un nivel de significancia de 0,01 la hipótesis estadística de que el número promedio de ventas de productos en las ciudades es diferente.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Usamos el paquete de Análisis de Datos. Dependiendo del tipo de criterio, se selecciona uno de tres: "Prueba t de medias de dos muestras pareadas" - para muestras conectadas, y "Prueba t de dos muestras con varianzas iguales" o "Prueba t de dos muestras con diferentes variaciones” - para muestras desconectadas. Llame a la prueba con las mismas varianzas, en la ventana que se abre, en los campos “Intervalo variable 1” e “Intervalo variable 2”, ingrese enlaces a los datos (A1-N1 y A2-L2, respectivamente); si hay datos etiquetas, luego marque la casilla junto a "Etiquetas" "(no las tenemos, por lo que la casilla de verificación no está marcada). A continuación, ingrese el nivel de significancia en el campo "Alfa": 0,01. El campo "Diferencia de medias hipotética" se deja en blanco. En la sección "Opciones de salida", marque la casilla "Intervalo de salida" y, colocando el cursor en el campo que aparece frente a la inscripción, haga clic en el botón izquierdo en la celda B7. El resultado se generará a partir de esta celda. Al hacer clic en “Aceptar”, aparece una tabla de resultados. Mueva el borde entre las columnas B y C, C y D, D y E aumentando el ancho de las columnas B, C y D para que quepan todas las etiquetas. El procedimiento muestra las principales características de la muestra, estadísticos t, valores criticos estas estadísticas y niveles críticos significado "P(T<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Prueba t de dos muestras con varianzas iguales

Promedio 23,57142857 26,41666667
Dispersión 17,34065934 15,35606061
Observaciones 14 12
Varianza agrupada 16,43105159
Diferencia de medias hipotética 0
df 24
estadística t -1,784242592
PAG(T)<=t) одностороннее 0,043516846
t crítico unilateral 2,492159469
PAG(T)<=t) двухстороннее 0,087033692
t crítico de dos vías 2,796939498

Trabajo de laboratorio No. 3.

REGRESIÓN LINEAL PAR

Objetivo: Dominar los métodos de construcción de una ecuación lineal de regresión pareada utilizando una computadora, aprender a obtener y analizar las principales características de la ecuación de regresión.

Consideremos la metodología para construir una ecuación de regresión usando un ejemplo.

EJEMPLO. Se dan muestras de factores x i y y i. Usando estas muestras, encuentre la ecuación de regresión lineal ỹ = ax + b. Encuentre el coeficiente de correlación del par. Verifique la adecuación del modelo de regresión en el nivel de significancia a = 0,05.

X 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

Para encontrar los coeficientes a y b de la ecuación de regresión, utilice las funciones PENDIENTE e INTERCEPCIÓN, categorías “Estadísticas”. Ingresamos la firma "a=" en A5 e ingresamos la función TILT en la celda adyacente B5, colocamos el cursor en el campo "Iz_value_y" y establecemos un enlace a las celdas B2-K2 rodeándolas con el mouse. El resultado es 0,14303. Encontremos ahora el coeficiente b. Introducimos la firma “b="” en A6, y en B6 la función CORTAR con los mismos parámetros que las funciones TILT. El resultado es 5,976364. por lo tanto, la ecuación de regresión lineal es y=0,14303x+5,976364.

Tracemos la ecuación de regresión. Para hacer esto, en la tercera línea de la tabla ingresamos los valores de la función en los puntos dados X (primera línea) – y(x 1). Para obtener estos valores, utilice la función TENDENCIA de la categoría Estadística. Introducimos la firma “Y(X)” en A3 y, colocando el cursor en B3, llamamos a la función TENDENCIA. En los campos “From_value_y” y “From_value_x” damos un enlace a B2-K2 y B1-K1. en el campo “New_value_x” también ingresamos un enlace a B1-K1. en el campo "Constante" ingrese 1 si la ecuación de regresión tiene la forma y=ax+b, y 0 si y=ax. En nuestro caso, ingresamos uno. La función TENDENCIA es una matriz, por lo que para mostrar todos sus valores, seleccione el área B3-K3 y presione F2 y Ctrl+Shift+Enter. El resultado son los valores de la ecuación de regresión en puntos dados. Estamos construyendo un cronograma. Coloque el cursor en cualquier celda libre, llame al asistente de diagrama, seleccione la categoría "Afilado", el tipo de gráfico - línea sin puntos (en la esquina inferior derecha), haga clic en "Siguiente", ingrese el enlace a B3-K3 en el Campo “Diagnóstico”. vaya a la pestaña "Fila" y en el campo "Valores X" ingrese el enlace a B1-K1, haga clic en "Finalizar". El resultado es una línea de regresión recta. Veamos en qué se diferencian las gráficas de datos experimentales y las ecuaciones de regresión. Para hacer esto, coloque el cursor en cualquier celda libre, llame al asistente de gráficos, categoría "Gráfico", tipo de gráfico - línea discontinua con puntos (segundo desde arriba a la izquierda), haga clic en "Siguiente", en el campo "Rango" ingrese un enlace a la segunda y tercera línea B2- K3. vaya a la pestaña "Fila" y en el campo "Etiquetas del eje X", ingrese el enlace a B1-K1, haga clic en "Finalizar". El resultado son dos líneas (azul – original, roja – ecuación de regresión). Se puede observar que las líneas difieren poco entre sí.

un = 0,14303
b= 5,976364

Para calcular el coeficiente de correlación r xy, utilice la función PEARSON. Colocamos el gráfico de manera que queden ubicados encima de la línea 25, y en A25 hacemos la firma “Correlación”, en B25 llamamos a la función PEARSON, en cuyos campos “Array 2” ingresamos un enlace a los datos de origen B1 -K1 y B2-K2. el resultado es 0,993821. el coeficiente de determinación R xy es el cuadrado del coeficiente de correlación r xy . En A26 firmamos “Determinación”, y en B26 escribimos la fórmula “=B25*B25”. El resultado es 0,265207.

Sin embargo, existe una función en Excel que calcula todas las características básicas de la regresión lineal. Esta es la función ESTIMACIÓN LINEAL. Coloque el cursor en B28 y llame a la función ESTIMACIÓN LINEAL, categoría “Estadística”. En los campos “From_value_y” y “From_value_x” damos un enlace a B2-K2 y B1-K1. El campo “Constante” tiene el mismo significado que la función TENDENCIA, en nuestro caso es igual a 1. El campo “Estadística” debe contener 1 si necesita mostrar estadísticas completas sobre la regresión. En nuestro caso, ponemos uno ahí. La función devuelve una matriz de 2 columnas y 5 filas. Después de ingresar, seleccione la celda B28-C32 con el mouse y presione F2 y Ctrl+Shift+Enter. El resultado es una tabla de valores, cuyos números tienen el siguiente significado:



Coeficiente a

Coeficiente b

Error estándar m o

Error estándar m·h

Coeficiente de determinación R xy

Desviación Estándar

F – estadísticas

Grados de libertad n-2

Regresión suma de cuadrados S n 2

Suma residual de cuadrados S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Análisis del resultado: en la primera línea - los coeficientes de la ecuación de regresión, compárelos con las funciones calculadas PENDIENTE e INTERCEPCIÓN. La segunda línea son los errores estándar de los coeficientes. Si uno de ellos es mayor en valor absoluto que el coeficiente mismo, entonces el coeficiente se considera cero. El coeficiente de determinación caracteriza la calidad de la relación entre factores. El valor resultante de 0,070335 indica una muy buena relación entre los factores, F - estadística prueba la hipótesis sobre la adecuación del modelo de regresión. Este número debe compararse con el valor crítico, para obtenerlo ingresamos la firma “F-critical” en E33, y en F33 la función FRIST, cuyos argumentos ingresamos respectivamente “0.05” (nivel de significancia), “1” (número de factores X) y "8" (grados de libertad).

F-crítico 5,317655

Se puede observar que el estadístico F es menor que el F crítico, lo que significa que el modelo de regresión no es adecuado. La última línea muestra la suma de cuadrados de la regresión. y sumas residuales de cuadrados . Es importante que la suma de la regresión (explicada por la regresión) sea mucho mayor que el residual (no explicado por la regresión, causado por factores aleatorios). En nuestro caso, esta condición no se cumple, lo que indica una mala regresión.

Conclusión: En el transcurso de mi trabajo, dominé los métodos para construir una ecuación lineal de regresión de pares usando una computadora, aprendí a obtener y analizar las principales características de la ecuación de regresión.


Trabajo de laboratorio No. 4

REGRESIÓN NO LINEAL

Objetivo: dominar los métodos para construir los principales tipos de ecuaciones de regresión de pares no lineales utilizando una computadora (modelos lineales internos), aprender a obtener y analizar indicadores de calidad de ecuaciones de regresión.

Consideremos el caso en el que los modelos no lineales se pueden reducir a lineales mediante la transformación de datos (modelos lineales internos).

EJEMPLO. Construya una ecuación de regresión y = f(x) para la muestra x n y n (f = 1,2,…,10). Como f(x), considere cuatro tipos de funciones: lineal, potencia, exponencial e hipérbola:

y = Ax + B; y = Hacha B; y = AeBx; y = A/x + B.

Es necesario encontrar sus coeficientes A y B, y luego de comparar los indicadores de calidad, seleccionar la función que mejor describa la dependencia.

Beneficio Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Beneficio X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Ingresemos los datos en la tabla junto con las firmas (celdas A1-K2). Dejemos libres tres líneas debajo de la tabla para ingresar los datos convertidos, seleccione las primeras cinco líneas deslizando el dedo a lo largo del borde gris izquierdo a lo largo de los números del 1 al 5 y seleccione un color (amarillo claro o rosa) para colorear el fondo de la células. A continuación, comenzando desde A6, mostramos los parámetros de regresión lineal. Para hacer esto, escriba "Lineal" en la celda A6 e ingrese la función ESTIMACIÓN LINEAL en la celda B6 adyacente. En los campos “Izv_value_x” damos un enlace a B2-K2 y B1-K1, los dos campos siguientes toman valores de uno. A continuación, encierre en un círculo el área de abajo en 5 líneas y hacia la izquierda en 2 líneas y presione F2 y Ctrl+Shift+Enter. El resultado es una tabla con parámetros de regresión, de los cuales el mayor interés es el coeficiente de determinación de la primera columna, la tercera desde arriba. En nuestro caso, es igual a R 1 = 0,951262. El valor del criterio F, que permite comprobar la adecuación del modelo F 1 = 156,1439

(cuarta fila, primera columna). La ecuación de regresión es

y = 12,96 x +6,18 (los coeficientes a y b se dan en las celdas B6 y C6).

Lineal 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Determinemos características similares para otras regresiones y, como resultado de comparar los coeficientes de determinación, encontraremos el mejor modelo de regresión. Consideremos la regresión hiperbólica. Para obtenerlo transformamos los datos. En la tercera línea, en la celda A3 ingresamos la firma “1/x” y en la celda B3 ingresamos la fórmula “=1/B2”. Completemos automáticamente esta celda en el área B3-K3. Consigamos las características del modelo de regresión. En la celda A12 ingresamos la firma “Hiperbola”, y en la función ESTIMACIÓN LINEAL adyacente. En los campos “From_value_y” y “From_value_x2” damos un enlace a B1-K1 y los datos convertidos del argumento x – B3-K3, los dos campos siguientes toman valores de uno. A continuación, encierre en un círculo el área debajo de 5 líneas y 2 líneas a la izquierda y presione F2 y Ctrl+Shift+Enter. Obtenemos una tabla de parámetros de regresión. Coeficiente de determinación en en este caso es igual a R 2 = 0,475661, que es mucho peor que en el caso de la regresión lineal. El estadístico F es F2 = 7,257293. La ecuación de regresión es y = -6,25453x 18,96772.

Hipérbola -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Consideremos la regresión exponencial. Para linealizarlo obtenemos la ecuación , donde ỹ = ln y, ã = b, = ln a. Se puede ver que es necesario realizar una transformación de datos: reemplace y con ln y. Coloque el cursor en la celda A4 y escriba el título "ln y". Coloque el cursor en B4 e ingrese la fórmula LN (categoría “Matemática”). Como argumento hacemos referencia a B1. Usando el autocompletar, extendemos la fórmula a la cuarta fila hasta las celdas B4-K4. A continuación, en la celda F6 configuramos la firma "Exponente" y en la G6 adyacente ingresamos la función ESTIMACIÓN LINEAL, cuyos argumentos serán los datos transformados B4-K4 (en el campo "Measured_value_y"), y los campos restantes son los Lo mismo que para el caso de regresión lineal (B2-K2, once). A continuación, encierre en un círculo las celdas G6-H10 y presione F2 y Ctrl+Shift+Enter. El resultado es R 3 = 0,89079, F 3 = 65,25304, lo que indica una muy buena regresión. Encontrar los coeficientes de la ecuación de regresión b = ã; ponemos el cursor en J6 y ponemos el encabezado “a=”, y en el vecino K6 la fórmula “=EXP(H6)”, en J7 ponemos el encabezado “b=”, y en K7 la fórmula “=G6”. La ecuación de regresión es y = 0,511707· e 6,197909 x.

Expositor 1,824212 -0,67 un = 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Consideremos la regresión de poder. Para linealizarlo obtenemos la ecuación ỹ = ã, donde ỹ = ln y, = ln x, ã = b, = ln a. Se puede ver que es necesario transformar los datos: reemplazar y con ln y y reemplazar x con ln x. Ya tenemos la línea con ln y. Transformemos las variables x. En la celda A5 escribimos la firma “ln x”, y en la celda B5 ingresamos la fórmula LN (categoría “Matemática”). Como argumento hacemos referencia a B2. Usando el autocompletar, extendemos la fórmula a la quinta fila hasta las celdas B5-K5. A continuación, en la celda F12 configuramos la firma "Poder" y en la G12 adyacente ingresamos la función LINEST, cuyos argumentos serán los datos convertidos B4-K4 (en el campo "From_value_y") y B5-K5 (en el campo “From_value_x”), los campos restantes son unos. A continuación, libere las celdas G12-H16 y presione F2 y Ctrl+Shift+Enter. El resultado es R 4 = 0,997716, F 4 = 3494,117, lo que indica una buena regresión. Encontrar los coeficientes de la ecuación de regresión b = ã; ponemos el cursor en J12 y ponemos el encabezado “a=”, y en el vecino K12 la fórmula “=EXP(H12)”, en J13 ponemos el encabezado “b=”, y en K13 la fórmula “=G12”. La ecuación de regresión es y = 4,90767/x+ 7,341268.

Fuerza 1,993512 1,590799 un = 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Comprobemos si todas las ecuaciones describen adecuadamente los datos. Para hacer esto, es necesario comparar las estadísticas F de cada criterio con el valor crítico. Para obtenerlo, ingresamos la firma "F-crítica" en A21, y en B21 la función FRIST, cuyos argumentos ingresamos, respectivamente, "0.05" (nivel de significancia), "1" (el número de factores X en la línea “Nivel de significancia 1”) y “ 8" (grado de libertad 2 = n – 2). El resultado es 5,317655. F – crítico es mayor que F – estadístico, lo que significa que el modelo es adecuado. Las regresiones restantes también son adecuadas. Para determinar qué modelo describe mejor los datos, comparamos los índices de determinación para cada modelo R 1, R 2, R 3, R 4. El mayor es R4 = 0,997716. Esto significa que los datos experimentales se describen mejor mediante y = 4,90767/x + 7,341268.

Conclusión: En el transcurso de mi trabajo, dominé los métodos para construir los principales tipos de ecuaciones de regresión por pares no lineales utilizando una computadora (modelos lineales internos), aprendí a obtener y analizar indicadores de calidad de ecuaciones de regresión.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
X 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
en y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
en x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Lineal 12,96 -6,18 Expositor 1,824212 -0,67 un = 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Hipérbola -6,25453 18,96772 Fuerza 1,993512 1,590799 un = 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - crítico 5,317655

Trabajo de laboratorio No. 5.

REGRESIÓN POLINOMIAL

Propósito: Utilizando datos experimentales, construya una ecuación de regresión de la forma y = ax 2 + bx + c.

PROGRESO:

Se considera la dependencia del rendimiento de un determinado cultivo y i de la cantidad de fertilizantes minerales aplicados al suelo x i. Se supone que esta dependencia es cuadrática. Es necesario encontrar una ecuación de regresión de la forma ỹ = ax 2 + bx + c.

X 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Ingresemos estos datos en la hoja de cálculo junto con las firmas en las celdas A1-K2. Construyamos un gráfico. Para hacer esto, encierre en un círculo los datos Y (celdas B2-K2), llame al asistente de gráficos, seleccione el tipo de gráfico "Gráfico", tipo de gráfico - gráfico con puntos (segundo desde la parte superior izquierda), haga clic en "Siguiente", vaya a Pestaña "Serie" y en " Etiquetas del eje X" haga un enlace a B2-K2, haga clic en "Finalizar". La gráfica se puede aproximar mediante un polinomio de grado 2 y = ax 2 + bx + c. Para encontrar los coeficientes a, b, c, debes resolver el sistema de ecuaciones:

Calculemos las cantidades. Para hacer esto, ingrese la firma "X^2" en la celda A3, ingrese la fórmula "= B1*B1" en la celda B3 y transfiérala a toda la línea B3-K3 usando Autocompletar. En la celda A4 ingresamos la firma “X^3”, y en B4 la fórmula “=B1*B3” y Autocompletar la transferimos a toda la línea B4-K4. En la celda A5 ingresamos “X^4”, y en B5 la fórmula “=B4*B1”, autocompleta la línea. En la celda A6 ingresamos “X*Y”, y en B8 la fórmula “=B2*B1”, autocompleta la línea. En la celda A7 ingresamos “X^2*Y”, y en B9 la fórmula “=B3*B2”, autocompleta la línea. Ahora contamos las cantidades. Seleccione la columna L con un color diferente haciendo clic en el encabezado y seleccionando un color. Coloque el cursor en la celda L1 y haga clic en el botón de autosuma con el ícono ∑ para calcular la suma de la primera fila. Usando Autocompletar, transferimos la fórmula a las celdas L1-710.

Ahora resolvemos el sistema de ecuaciones. Para ello, introducimos la matriz principal del sistema. En la celda A13 ingresamos la firma “A=”, y en las celdas de la matriz B13-D15 ingresamos los enlaces reflejados en la tabla

B C D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

También introducimos los lados derechos del sistema de ecuaciones. En G13 ingresamos la firma “B=”, y en H13-H15 ingresamos, respectivamente, enlaces a las celdas “=L7”, “=L6”, “=L2”. Resolvemos el sistema usando el método matricial. De las matemáticas superiores se sabe que la solución es igual a A -1 B. Encuentre la matriz inversa. Para hacer esto, ingrese la firma "A arr." en la celda J13. y, colocando el cursor en K13, establezca la fórmula MOBR (categoría “Matemática”). Como argumento de Matriz, proporcionamos una referencia a las celdas B13:D15. El resultado también debería ser una matriz de 4x4. Para obtenerlo, circule las celdas K13-M15 con el mouse, seleccionándolas y presionando F2 y Ctrl+Shift+Enter. El resultado es la matriz A -1. Encontremos ahora el producto de esta matriz y la columna B (celdas H13-H15). Ingresamos la firma “Coeficientes” en la celda A18 y en B18 configuramos la función MÚLTIPLE (categoría “Matemática”). Los argumentos de la función “Matriz 1” son un enlace a la matriz A-1 (celdas K13-M15), y en el campo “Matriz 2” proporcionamos un enlace a la columna B (celdas H13-H16). A continuación, seleccione B18-B20 y presione F2 y Ctrl+Shift+Enter. La matriz resultante son los coeficientes de la ecuación de regresión a, b, c. Como resultado, obtenemos una ecuación de regresión de la forma: y = 1,201082x 2 – 5,619177x + 78,48095.

Construyamos gráficas de los datos originales y los obtenidos a partir de la ecuación de regresión. Para hacer esto, ingrese la firma "Regresión" en la celda A8 e ingrese la fórmula "=$B$18*B3+$B$19*B1+$B$20" en B8. Usando Autocompletar, transferimos la fórmula a las celdas B8-K8. Para construir un gráfico, seleccione las celdas B8-K8 y, manteniendo presionada la tecla Ctrl, seleccione también las celdas B2-M2. Llame al asistente de gráficos, seleccione el tipo de gráfico "Gráfico", tipo de gráfico: gráfico con puntos (segundo desde la parte superior izquierda), haga clic en "Siguiente", vaya a la pestaña "Serie" y en el campo "Etiquetas del eje X" haga un enlace a B2-M2, haga clic en "Listo". Se puede observar que las curvas casi coinciden.

CONCLUSIÓN: en el proceso de trabajo, basado en datos experimentales, aprendí a construir una ecuación de regresión de la forma y = ax 2 + bx + c.





Densidad de distribución empírica de la variable aleatoria analizada y cálculo de sus características. Determinar el rango de datos disponibles, es decir. diferencia entre los valores de muestra más grandes y más pequeños (R = Xmax – Xmin): Seleccionar el número de intervalos de agrupación k para el número de observaciones n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

Con los datos, se pueden juzgar de manera confiable las relaciones estadísticas que existen entre las variables que se están estudiando en este experimento. Todos los métodos de análisis matemático y estadístico se dividen convencionalmente en primarios y secundarios. Los métodos primarios son aquellos que pueden utilizarse para obtener indicadores que reflejen directamente los resultados de las mediciones realizadas en un experimento. En consecuencia, bajo...

Procesadores de uso general (por ejemplo, Excel, Lotus 1-2-3, etc.), así como algunas bases de datos. Los paquetes estadísticos occidentales (SPSS, SAS, BMDP, etc.) tienen las siguientes capacidades: Le permiten procesar cantidades gigantescas de datos. Incluye herramientas para describir tareas en un lenguaje integrado. Permiten construir sobre su base sistemas de procesamiento de información para empresas enteras. Permitir...



Curso de masaje y durante 1-2 meses después. 1.2 Formas de masaje terapéutico La modalidad de masaje terapéutico se divide en general y privado. Estas formas son típicas de todos los tipos y métodos de masaje. Tanto el masaje privado como el general pueden ser realizados por un masajista en forma de masaje mutuo, masaje en pareja o automasaje. 1.2.1 Masaje general El masaje general es una sesión de masaje (independientemente de...

X 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
x^2 0 1 4 9 16 25 36 49 64 81
x^3 0 1 8 27 64 125 216 343 512 729
x^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Regresión. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 Un Arr. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Coeficiente 1,201082 a
5,619177

5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Conferencia 6. Comparación de dos muestras 6-1. Hipótesis de igualdad de medias. Muestras pareadas 6-2.Intervalo de confianza para la diferencia de medias. Muestras pareadas 6-3. Hipótesis de igualdad de varianzas 6-4. Hipótesis de igualdad de acciones 6-5. Intervalo de confianza para la diferencia de proporciones.


2 Ivanov O.V., 2005 En esta conferencia... En la conferencia anterior probamos la hipótesis sobre la igualdad de los promedios de dos poblaciones generales y construimos intervalo de confianza para la diferencia de medias para el caso de muestras independientes. Ahora consideraremos el criterio para probar la hipótesis de igualdad de medias y construiremos un intervalo de confianza para la diferencia de medias en el caso de muestras pareadas (dependientes). Luego, en la sección 6-3 se probará la hipótesis de igualdad de varianzas, en la sección 6-4, la hipótesis de igualdad de participaciones. Finalmente, construimos un intervalo de confianza para la diferencia de proporciones.


5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Hipótesis de igualdad de medias. Muestras pareadas Planteamiento del problema Hipótesis y estadística Secuencia de acciones Ejemplo


4 Ivanov O.V., 2005 Muestras pareadas. Descripción del problema Qué tenemos 1. Dos muestras aleatorias simples obtenidas de dos poblaciones generales. Las muestras están emparejadas (dependientes). 2. Ambas muestras tienen un tamaño de n 30. De lo contrario, ambas muestras se toman de poblaciones distribuidas normalmente. Lo que queremos es probar la hipótesis sobre la diferencia entre las medias de dos poblaciones:


5 Ivanov O.V., 2005 Estadísticas para muestras pareadas Para probar la hipótesis, se utilizan estadísticas: ¿dónde está la diferencia entre dos valores en un par - el promedio general para diferencias pareadas - el promedio muestral para diferencias pareadas - Desviación Estándar diferencias para la muestra - número de pares


6 Ivanov O.V., 2005 Ejemplo. Formación de estudiantes Un grupo de 15 estudiantes realizó una prueba antes y después de la formación. Los resultados de la prueba están en la tabla. Probemos la hipótesis para muestras pareadas de ausencia de influencia de la formación en la preparación de los estudiantes con un nivel de significancia de 0,05. Solución. Calculemos las diferencias y sus cuadrados. EstudianteAntesDespués Σ= 21 Σ= 145


7 Ivanov O.V., 2005 Solución Paso 1. Hipótesis principal y alternativa: Paso 2. Se establece un nivel de significancia =0,05. Paso 3. Usando la tabla para df = 15 – 1=14, encontramos el valor crítico t = 2,145 y escribimos la región crítica: t > 2,145. 2.145."> 2.145."> 2.145." title="7 Ivanov O.V., 2005 Solución Paso 1. Hipótesis principal y alternativa: Paso 2. El nivel de significancia se establece = 0,05. Paso 3. Por tabla para gl = 15 – 1=14 encontramos el valor crítico t = 2.145 y escribimos la región crítica: t > 2.145."> title="7 Ivanov O.V., 2005 Solución Paso 1. Hipótesis principal y alternativa: Paso 2. Se establece un nivel de significancia =0,05. Paso 3. Usando la tabla para df = 15 – 1=14, encontramos el valor crítico t = 2,145 y escribimos la región crítica: t > 2,145."> !}




9 Ivanov O.V., 2005 Solución La estadística toma el valor: Paso 5. Comparar el valor obtenido con la región crítica. 1.889


5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Intervalo de confianza para la diferencia de medias. Muestras pareadas Planteamiento del problema Método para construir un intervalo de confianza Ejemplo


11 Ivanov O.V., 2005 Descripción del problema Qué tenemos Tenemos dos muestras aleatorias pareadas (dependientes) de tamaño n de dos poblaciones generales. Las poblaciones generales tienen una ley de distribución normal con los parámetros 1, 1 y 2, 2 o los volúmenes de ambas muestras son 30. Lo que queremos es estimar el valor promedio de las diferencias pareadas para dos poblaciones generales. Para hacer esto, construya un intervalo de confianza para el promedio en la forma:






5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Hipótesis de igualdad de varianzas Planteamiento del problema Hipótesis y estadística Secuencia de acciones Ejemplo


15 Ivanov O.V., 2005 Durante el estudio... Es posible que el investigador deba verificar la suposición de que las varianzas de las dos poblaciones estudiadas son iguales. En el caso de que estas poblaciones generales tengan distribución normal Para ello existe una prueba F, también llamada criterio de Fisher. A diferencia de Student, Fischer no trabajaba en una cervecería.


16 Ivanov O.V., 2005 Descripción del problema Lo que tenemos 1. Dos muestras aleatorias simples obtenidas de dos poblaciones distribuidas normalmente. 2. Las muestras son independientes. Esto significa que no existe relación entre los sujetos de la muestra. Lo que queremos es probar la hipótesis de igualdad de varianzas poblacionales:














23 Ivanov O.V., 2005 Ejemplo Un investigador médico quiere comprobar si existe una diferencia entre la frecuencia cardíaca de pacientes fumadores y no fumadores (número de latidos por minuto). Los resultados de dos grupos seleccionados al azar se muestran a continuación. Usando α = 0,05, averigüe si el médico tiene razón. Fumadores No fumadores


24 Ivanov O.V., 2005 Solución Paso 1. Hipótesis principal y alternativa: Paso 2. Se establece un nivel de significancia =0,05. Paso 3. Usando la tabla para el número de grados de libertad del numerador 25 y denominador 17, encontramos el valor crítico f = 2,19 y la región crítica: f > 2,19. Paso 4. Usando la muestra, calculamos el valor estadístico: 2.19. Paso 4. Usando la muestra, calculamos el valor estadístico: ">




5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Hipótesis de partes iguales Planteamiento del problema Hipótesis y estadística Secuencia de acciones Ejemplo


27 Ivanov O.V., 2005 Pregunta De 100 estudiantes de la facultad de sociología seleccionados al azar, 43 asisten a cursos especiales. De 200 estudiantes de economía seleccionados al azar, 90 asisten a cursos especiales. ¿Difiere la proporción de estudiantes que asisten a cursos especiales entre los departamentos de sociología y economía? No parece ser significativamente diferente. ¿Cómo puedo comprobar esto? La proporción de quienes asisten a cursos especiales es la proporción del atributo. 43 – número de “éxitos”. 43/100 – cuota de éxito. La terminología es la misma que en el esquema de Bernoulli.


28 Ivanov O.V., 2005 Descripción del problema Lo que tenemos 1. Dos muestras aleatorias simples obtenidas de dos poblaciones distribuidas normalmente. Las muestras son independientes. 2. Para muestras se cumplen np 5 y nq 5. Esto significa que al menos 5 elementos de la muestra tienen el valor característico estudiado y al menos 5 no. Lo que queremos es probar la hipótesis sobre la igualdad de las proporciones de una característica en dos poblaciones generales:






31 Ivanov O.V., 2005 Ejemplo. Cursos especiales de dos facultades De 100 estudiantes de la facultad de sociología seleccionados al azar, 43 asisten a cursos especiales. De los 200 estudiantes de economía, 90 asisten a cursos especiales. Con un nivel de significancia = 0,05, pruebe la hipótesis de que no hay diferencia entre la proporción de estudiantes que asisten a cursos especiales en estas dos facultades. 33 Ivanov O.V., 2005 Solución Paso 1. Hipótesis principal y alternativa: Paso 2. Se establece un nivel de significancia =0,05. Paso 3. Usando la tabla de distribución normal, encontramos los valores críticos z = – 1,96 y z = 1,96, y construimos la región crítica: z 1,96. Paso 4. A partir de la muestra, calculamos el valor de las estadísticas.


34 Ivanov O.V., 2005 Solución Paso 5. Comparar el valor obtenido con la región crítica. El valor estadístico resultante no se encontraba dentro de la región crítica. Paso 6. Formule la conclusión. No hay razón para rechazar la hipótesis principal. La proporción de personas que asisten a cursos especiales no difiere estadísticamente de manera significativa.


5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 5 de noviembre de 2012 Intervalo de confianza para la diferencia de proporciones Planteamiento del problema Método para construir un intervalo de confianza Ejemplo





Considere dos muestras independientes x 1, x 2, ….., x n e y 1, y 2, …, y n, extraídas de poblaciones normales con varianzas iguales, con tamaños de muestra n y m, respectivamente, y promedios μ x, μ y y la varianza σ 2 son desconocidas. Es necesario probar la hipótesis principal H 0: μ x = μ y con la competidora H 1: μ x μ y.

Como se sabe, los promedios muestrales tendrán las siguientes propiedades: ~N(μ x, σ 2 /n), ~N(μ y, σ 2 /m).

Su diferencia es un valor normal con el promedio. y varianza, entonces

~ (23).

Supongamos por un momento que la hipótesis principal H 0 es correcta: μ x – μ y =0. Entonces y dividiendo el valor por su desviación estándar, obtenemos la normal estándar sl. Tamaño ~NORTE(0,1).

Anteriormente se señaló que magnitud distribuido según la ley con (n-1)ésimo grado de libertad, a - según la ley con (m-1) grado de libertad. Teniendo en cuenta la independencia de estas dos sumas, encontramos que son cantidad total distribuido según la ley con n+m-2 grados de libertad.

Recordando el paso 7, vemos que la fracción obedece a la distribución t (Student) con ν=m+n-2 grados de libertad: Z=t. Este hecho ocurre sólo cuando la hipótesis H 0 es verdadera.

Reemplazando ξ y Q con sus expresiones, obtenemos una fórmula ampliada para Z:

(24)

El siguiente valor Z, llamado criterio estadístico, le permite tomar una decisión con la siguiente secuencia de acciones:

1. Se establece el área D=[-t β,ν , +t β,ν ], que contiene áreas β=1–α bajo la curva de distribución t ν (Tabla 10).

2. El valor experimental Z on de la estadística Z se calcula mediante la fórmula (24), para la cual se sustituyen los valores x 1 e y 1 de muestras específicas, así como sus medias muestrales y , en lugar de X 1 e Y 1. .

3. Si Z está en D, entonces se considera que la hipótesis H 0 no contradice los datos experimentales y se acepta.

Si Z está en D, entonces se acepta la hipótesis H 1.

Si la hipótesis H 0 es correcta, entonces Z obedece a la distribución t ν conocida con media cero y con una alta probabilidad β = 1–α cae en la región D de aceptación de la hipótesis H 0 . Cuando el valor experimental observado de Z on cae en D. Consideramos esto como evidencia a favor de la hipótesis H 0.

Cuando Z 0 n se encuentra fuera de D (como dicen, se encuentra en la región crítica K), lo cual es natural si la hipótesis H 1 es verdadera, pero improbable si H 0 es cierta, entonces sólo podemos rechazar la hipótesis H 0 aceptando H1.

Ejemplo 31.

Se comparan dos grados de gasolina: A y B. En 11 vehículos de la misma potencia se probaron una vez gasolina de los grados A y B en un chasis circular. Un automóvil se averió en el camino y no hay datos sobre él sobre la gasolina B.

Consumo de gasolina cada 100 km.

Tabla 12

i
X yo 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
U yo 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - metro=10

Se desconoce la variación en el consumo de gasolina grados A y B y se supone que es la misma. ¿Es posible, con un nivel de significancia de α=0,05, aceptar la hipótesis de que los verdaderos costos promedio μ A y μ B de estos tipos de gasolina son los mismos?

Solución. Probando la hipótesis H 0: μ A -μ B = 0 con una competidora. H 1:μ 1 μ 2 haga lo siguiente:

1. Encuentre las medias muestrales y la suma de las desviaciones al cuadrado Q.

;

;

2. Calcular el valor experimental del estadístico Z.

3. De la Tabla 10 de la distribución t encontramos el límite t β,ν para el número de grados de libertad ν=m+n–2=19 y β=1–α=0,95. La tabla 10 tiene t 0.95.20 =2.09 y t 0.95.15 =2.13, pero no t 0.95.19. Por interpolación encontramos t 0.95.19 =2.09+ =2.10.

4. Compruebe cuál de las dos áreas D o K contiene el número Zon. Zona=-2,7 D=[-2,10; -2.10].

Como el valor observado de Z on se encuentra en la región crítica, K = R\D, lo descartamos. H 0 y aceptar la hipótesis H 1. En este caso, dicen que su diferencia es significativa. Si, bajo todas las condiciones de este ejemplo, sólo Q hubiera cambiado, digamos que Q se hubiera duplicado, entonces nuestra conclusión habría cambiado. Duplicar Q conduciría a una disminución en el valor de Zon en un factor, y entonces el número Zon caería en la región admisible D, de modo que la hipótesis H 0 resistiría la prueba y sería aceptada. En este caso, la discrepancia entre y se explicaría por la dispersión natural de los datos y no por el hecho de que μ A μ B.

La teoría de la prueba de hipótesis es muy extensa; las hipótesis pueden ser sobre el tipo de ley de distribución, sobre la homogeneidad de las muestras, sobre la independencia de las siguientes cantidades, etc.

CRITERIO c 2 (PEARSON)

El criterio más común en la práctica para probar una hipótesis simple. Se aplica cuando se desconoce la ley de distribución. Considere una variable aleatoria X sobre la cual n pruebas independientes. Se obtiene la realización x 1 , x 2 ,...,x n. Es necesario probar la hipótesis sobre la ley de distribución de esta variable aleatoria.

Consideremos el caso de una hipótesis simple. Una hipótesis simple prueba el ajuste de una muestra con una población que se distribuye normalmente (conocida). Construimos según muestras. serie de variación x (1), x (2), ..., x (n). Dividimos el intervalo en subintervalos. Sean estos intervalos r. Luego encontraremos la probabilidad de que X, como resultado de la prueba, caiga en el intervalo Di, i=1,..., r si la hipótesis que se está probando es verdadera.

El criterio no verifica la verdad de la densidad de probabilidad, sino la verdad de los números.

Con cada intervalo Di asociamos un evento aleatorio Ai: un acierto en este intervalo (un acierto como resultado de una prueba en X de su implementación resulta en Di). Introduzcamos variables aleatorias. m i es el número de pruebas de n realizadas en las que ocurrió el evento A i. m i se distribuyen según la ley del binomio y si la hipótesis es verdadera

Dm i = np i (1-p i)

El criterio c 2 tiene la forma

p 1 +p 2 +...+p r =1

metro 1 + metro 2 +...+metro r = n

Si la hipótesis que se está probando es correcta, entonces m i representa la frecuencia de ocurrencia de un evento que tiene una probabilidad pi en cada uno de los n ensayos, por lo tanto, podemos considerar a m i como una variable aleatoria sujeta a la ley del binomio centrada en el punto npi. Cuando n es grande, entonces podemos suponer que la frecuencia se distribuye asintóticamente normalmente con los mismos parámetros. Si la hipótesis es correcta, deberíamos esperar que estén distribuidos asintóticamente normalmente

interconectados por la relación

Como medida de la discrepancia entre los datos muestrales m 1 +m 2 +...+m r y el teórico np 1 +np 2 +...+np r, considere el valor

c 2 - la suma de cuadrados de cantidades asintóticamente normales asociadas dependencia lineal. Anteriormente nos hemos encontrado con un caso similar y sabemos que la presencia de una conexión lineal condujo a una disminución en el número de grados de libertad en uno.

Si la hipótesis que se está probando es correcta, entonces el criterio c 2 tiene una distribución que tiende como n®¥ a la distribución de c 2 con r-1 grados de libertad.

Supongamos que la hipótesis es falsa. Entonces hay una tendencia a que los términos de la suma aumenten, es decir si la hipótesis es incorrecta, entonces esta suma caerá en una determinada región de valores grandes de c 2. Como región crítica, tomamos la región de valores positivos del criterio.


En el caso de parámetros de distribución desconocidos, cada parámetro reduce en uno el número de grados de libertad para el criterio de Pearson.

8.1. El concepto de muestras dependientes e independientes.

Seleccionar un criterio para probar una hipótesis

se determina principalmente por si las muestras consideradas son dependientes o independientes. Introduzcamos las definiciones correspondientes.

Def. Las muestras se llaman independiente, si el procedimiento de selección de unidades de la primera muestra no tiene ningún vínculo con el procedimiento de selección de unidades de la segunda muestra.

Un ejemplo de dos muestras independientes serían las muestras analizadas anteriormente de hombres y mujeres que trabajan en la misma empresa (en la misma industria, etc.).

Tenga en cuenta que la independencia de dos muestras no significa en absoluto que no se requiera un cierto tipo de similitud entre estas muestras (su homogeneidad). Por lo tanto, al estudiar el nivel de ingresos de hombres y mujeres, es poco probable que admitamos una situación en la que los hombres sean seleccionados entre los empresarios de Moscú y las mujeres entre los aborígenes de Australia. Las mujeres también deberían ser moscovitas y, además, “mujeres de negocios”. Pero aquí no estamos hablando de la dependencia de las muestras, sino del requisito de homogeneidad de la población de objetos estudiada, que debe cumplirse tanto al recopilar como al analizar datos sociológicos.

Def. Las muestras se llaman dependiente, o emparejado, si cada unidad de una muestra está “vinculada” a una unidad específica de la segunda muestra.

Esta última definición probablemente quedará más clara si damos un ejemplo de muestras dependientes.

Supongamos que queremos saber si el estatus social del padre es, en promedio, más bajo que el estatus social del hijo (creemos que podemos medir este complejo y ambiguamente entendido características sociales persona). Parece obvio que en tal situación es aconsejable seleccionar pares de encuestados (padre, hijo) y suponer que cada elemento de la primera muestra (uno de los padres) está "vinculado" a un determinado elemento de la segunda muestra (su hijo). Estas dos muestras se llamarán dependientes.

8.2. Prueba de hipótesis para muestras independientes.

Para independiente muestras, la elección del criterio depende de si conocemos las varianzas generales s 1 2 y s 2 2 de la característica bajo consideración para las muestras que se estudian. Daremos por resuelto este problema, suponiendo que las varianzas muestrales coinciden con las generales. En este caso, el criterio es el valor:

Antes de pasar a discutir la situación en la que desconocemos las variaciones generales (o al menos una de ellas), observemos lo siguiente.

La lógica para utilizar el criterio (8.1) es similar a la que describimos al considerar el criterio “Chi-cuadrado” (7.2). Sólo hay una diferencia fundamental. Hablando del significado del criterio (7.2), consideramos un número infinito de muestras de tamaño n, “extraídas” de nuestra población. Aquí, analizando el significado del criterio (8.1), pasamos a considerar un número infinito vapor muestras de tamaño n 1 y n 2. Para cada par, se calculan estadísticas de la forma (8.1). La totalidad de los valores obtenidos de dichas estadísticas, de acuerdo con nuestra notación, corresponde a una distribución normal (como acordamos, la letra z se usa para denotar el criterio al que corresponde la distribución normal).

Entonces, si desconocemos las varianzas generales, entonces nos vemos obligados a utilizar sus estimaciones muestrales s 1 2 y s 2 2 en su lugar. Sin embargo, en este caso, la distribución normal debe reemplazarse por la distribución de Student; z debe reemplazarse por t (como fue el caso en una situación similar al construir un intervalo de confianza para la expectativa matemática). Sin embargo, con tamaños de muestra suficientemente grandes (n 1, n 2 ³ 30), como ya sabemos, la distribución de Student prácticamente coincide con la normal. En otras palabras, para muestras grandes podemos seguir usando el criterio:

La situación es más complicada cuando se desconocen las varianzas y el tamaño de al menos una muestra es pequeño. Entonces entra en juego otro factor. El tipo de criterio depende de si podemos considerar iguales las varianzas desconocidas de la característica considerada en las dos muestras analizadas. Para averiguarlo, necesitamos probar la hipótesis:

H 0: s 1 2 = s 2 2. (8.3)

Para probar esta hipótesis se utiliza el criterio

Sobre los detalles del uso de este criterio hablaremos a continuación, y ahora continuaremos discutiendo el algoritmo para seleccionar un criterio que se utiliza para probar hipótesis sobre la igualdad de las expectativas matemáticas.

Si se rechaza la hipótesis (8.3), entonces el criterio que nos interesa toma la forma:

(8.5)

(es decir, difiere del criterio (8.2), que se utilizó para muestras grandes, en que las estadísticas correspondientes no tienen una distribución normal, sino una distribución de Student). Si se acepta la hipótesis (8.3), entonces cambia el tipo de criterio utilizado:

(8.6)

Resumamos cómo se selecciona un criterio para probar la hipótesis sobre la igualdad de las expectativas matemáticas generales basándose en el análisis de dos muestras independientes.

conocido

desconocido

el tamaño de la muestra es grande

H 0: s 1 = s 2 rechazado

Aceptado

8.3. Prueba de hipótesis para muestras dependientes.

Pasemos a considerar muestras dependientes. Deja que las secuencias de números.

X 1, X 2,…, X n;

Y 1, Y 2,…, Y norte –

estos son los valores del aleatorio considerado para los elementos de dos muestras dependientes. Introduzcamos la notación:

D yo = X yo - Y yo , yo = 1, ... , norte.

Para dependiente Criterio de muestra que permite probar una hipótesis.

como sigue:

Tenga en cuenta que la expresión que acabamos de dar para s D no es más que una nueva expresión para formula famosa, expresando la desviación estándar. En este caso hablamos de la desviación estándar de los valores de Di. Una fórmula similar se utiliza a menudo en la práctica como un método más simple (en comparación con el cálculo "frontal" de la suma de las desviaciones al cuadrado de los valores del valor considerado de la media aritmética correspondiente) para calcular la dispersión.

Si comparamos las fórmulas anteriores con las que usamos al discutir los principios de construcción de un intervalo de confianza, es fácil notar que probar la hipótesis de igualdad de medias para el caso de muestras dependientes es esencialmente probar la igualdad de la expectativa matemática de los valores D i a cero. Magnitud

es la desviación estándar para Di. Por lo tanto, el valor del criterio recién descrito t n -1 es esencialmente igual al valor de Di expresado como una fracción de la desviación estándar. Como dijimos anteriormente (al discutir los métodos para construir intervalos de confianza), este indicador se puede utilizar para juzgar la probabilidad del valor considerado Di. La diferencia es que arriba hablábamos de una media aritmética simple, normalmente distribuida, y aquí estamos hablando de diferencias de medias, dichas medias tienen una distribución de Student. Pero el razonamiento sobre la relación entre la probabilidad de desviación de la media aritmética muestral de cero (con expectativa matemática, igual a cero) con cuántas unidades s asciende esta desviación para mantenerse vigente.

Ejemplo. Los ingresos de las farmacias en uno de los microdistritos de la ciudad durante un período determinado ascendieron a 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (unidades convencionales). En el microdistrito vecino, al mismo tiempo, eran 286; 240; 263; 266; 484; 223; 335.
Para ambas muestras, calcule la media, la varianza corregida y la desviación estándar. Encuentre el rango de variación, la desviación absoluta (lineal) promedio, el coeficiente de variación, coeficiente lineal variaciones, coeficiente de oscilación.
Suponiendo que esto valor aleatorio tiene una distribución normal, determine el intervalo de confianza para la media general (en ambos casos).
Utilizando el criterio de Fisher, verifique la hipótesis de igualdad de varianzas generales. Utilizando la prueba de Student, verifique la hipótesis sobre la igualdad de medias generales (la hipótesis alternativa es sobre su desigualdad).
En todos los cálculos, el nivel de significancia es α = 0,05.

Realizamos la solución utilizando la calculadora Probando la hipótesis de igualdad de varianzas.
1. Encuentre los indicadores de variación para la primera muestra..

X|x - x av |(x - x promedio) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Indicadores de variación.
.

R = X máx - X mín
R = 398 - 98 = 300
Desviación lineal promedio


Cada valor de la serie difiere del otro en un promedio de 57,36
Dispersión


Estimador de varianza insesgado


.

Cada valor de la serie difiere del valor medio de 225,3 en una media de 78,37
.

.

El coeficiente de variación.

Dado que v>30%, pero v o

Coeficiente de oscilación

.
.


Usando la tabla de Student encontramos:
Tabla T (n-1;α/2) = Tabla T (9;0,025) = 2,262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Encuentre los indicadores de variación para la segunda muestra..
Clasifiquemos la fila. Para ello, ordenamos sus valores en orden ascendente.
Tabla de cálculo de indicadores.

X|x - x av |(x - x promedio) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

Para evaluar la serie de distribución, encontramos los siguientes indicadores:
Indicadores del centro de distribución.
media aritmética simple


Indicadores de variación.
variaciones absolutas.
El rango de variación es la diferencia entre los valores máximo y mínimo de la característica de la serie primaria.
R = X máx - X mín
R = 484 - 223 = 261
Desviación lineal promedio- calculado para tener en cuenta las diferencias de todas las unidades de la población en estudio.


Cada valor de la serie difiere del otro en un promedio de 62,82
Dispersión- caracteriza la medida de dispersión alrededor de su valor promedio (una medida de dispersión, es decir, desviación del promedio).


Estimador de varianza insesgado- estimación consistente de la varianza (varianza corregida).


Desviación Estándar.

Cada valor de la serie difiere del valor medio de 299,57 en una media de 82,23
Estimación de la desviación estándar.

Medidas de variación relativa.
Los indicadores relativos de variación incluyen: coeficiente de oscilación, coeficiente lineal de variación, desviación lineal relativa.
El coeficiente de variación.- una medida de la dispersión relativa de los valores de la población: muestra qué proporción del valor medio de este valor es su dispersión media.

Como v ≤ 30%, la población es homogénea y la variación es débil. Se puede confiar en los resultados obtenidos.
Coeficiente de variación lineal o Desviación lineal relativa- caracteriza la proporción del valor medio del signo de desviaciones absolutas del valor medio.

Coeficiente de oscilación- refleja la fluctuación relativa de los valores extremos de la característica alrededor del promedio.

Estimación por intervalos del centro de población..
Intervalo de confianza para la media general.

Determine el valor de t kp usando la tabla de distribución de Student
Usando la tabla de Student encontramos:
Tabla T (n-1;α/2) = Tabla T (6;0,025) = 2,447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
Con una probabilidad de 0,95, se puede afirmar que el valor promedio con un tamaño de muestra mayor no quedará fuera del intervalo encontrado.
Probamos la hipótesis de igualdad de varianzas:
H 0: D x = D y ;
H 1: D x Encontremos el valor observado del criterio de Fisher:

Dado que s y 2 > s x 2, entonces s b 2 = s y 2, s m 2 = s x 2
Número de grados de libertad:
f 1 = norte y – 1 = 7 – 1 = 6
f 2 = norte x – 1 = 10 – 1 = 9
Utilizando la tabla de puntos críticos de la distribución de Fisher-Snedecor a un nivel de significancia de α = 0,05 y dados los números de grados de libertad, encontramos F cr (6;9) = 3,37
Porque F obs. Probamos la hipótesis sobre la igualdad de medias generales:


Encontremos el valor experimental del criterio de Student:


Número de grados de libertad f = n x + n y – 2 = 10 + 7 – 2 = 15
Determine el valor de t kp usando la tabla de distribución de Student
Usando la tabla de Student encontramos:
T tabla (f;α/2) = T tabla (15;0,025) = 2,131
Usando la tabla de puntos críticos de la distribución de Student a un nivel de significancia de α = 0,05 y un número dado de grados de libertad, encontramos tcr = 2,131
Porque obs.



Nuevo en el sitio

>

Más popular