Hogar Prótesis e implantación. Ejemplo de cómo encontrar un intervalo de confianza. Intervalo de confianza

Ejemplo de cómo encontrar un intervalo de confianza. Intervalo de confianza

Intervalo de confianza– valores límite valor estadístico, que con una probabilidad de confianza dada γ estará en este intervalo cuando se muestree un volumen mayor. Se denota como P(θ - ε. En la práctica, la probabilidad de confianza γ se elige entre valores bastante cercanos a la unidad: γ = 0,9, γ = 0,95, γ = 0,99.

Objeto del servicio. Con este servicio, puede determinar:

  • intervalo de confianza para la media general, intervalo de confianza para la varianza;
  • intervalo de confianza para la desviación estándar, intervalo de confianza para la participación general;
La solución resultante se guarda en un archivo de Word (ver ejemplo). A continuación se muestra una instrucción en video sobre cómo completar los datos iniciales.

Ejemplo No. 1. En una granja colectiva, de un rebaño total de 1.000 ovejas, 100 fueron sometidas a una esquila de control selectiva. Como resultado se estableció un recorte de lana promedio de 4,2 kg por oveja. Determine con una probabilidad de 0,99 el error cuadrático medio de la muestra al determinar el esquileo promedio de lana por oveja y los límites dentro de los cuales se contiene el valor de esquileo si la varianza es 2,5. La muestra no es repetitiva.
Ejemplo No. 2. De un lote de productos importados en el puesto de Aduanas del Norte de Moscú, se tomaron 20 muestras del producto "A" mediante muestreo aleatorio repetido. Como resultado de la prueba se estableció el contenido de humedad promedio del producto “A” en la muestra, el cual resultó ser igual al 6% con una desviación estándar del 1%.
Determine con una probabilidad de 0,683 los límites del contenido de humedad promedio del producto en todo el lote de productos importados.
Ejemplo No. 3. Una encuesta realizada a 36 estudiantes mostró que el número promedio de libros de texto que leen por año año académico, resultó ser igual a 6. Suponiendo que el número de libros de texto leídos por un estudiante por semestre tiene una ley de distribución normal con una desviación estándar igual a 6, encuentre: A) con una confiabilidad de 0.99, una estimación de intervalo para la matemática expectativa de esto variable aleatoria; B) ¿Con qué probabilidad podemos decir que el número promedio de libros de texto leídos por un estudiante por semestre, calculado a partir de una muestra dada, se desviará de la expectativa matemática según valor absoluto no más de 2.

Clasificación de intervalos de confianza.

Por tipo de parámetro a evaluar:

Por tipo de muestra:

  1. Intervalo de confianza para una muestra infinita;
  2. Intervalo de confianza para la muestra final;
La muestra se llama remuestreo., si el objeto seleccionado se devuelve a la población antes de seleccionar el siguiente. La muestra se llama no repetida., si el objeto seleccionado no se devuelve a la población. En la práctica, normalmente trabajamos con muestras no repetitivas.

Cálculo del error muestral medio para muestreo aleatorio.

La discrepancia entre los valores de los indicadores obtenidos de la muestra y los parámetros correspondientes de la población general se denomina error de representatividad.
Designaciones de los principales parámetros de la población general y muestral.
Fórmulas de error de muestreo promedio
reselecciónselección no repetitiva
para promediopara compartirpara promediopara compartir
La relación entre el límite de error muestral (Δ) garantizado con cierta probabilidad Р(t), Y error promedio muestra tiene la forma: o Δ = t·μ, donde t– coeficiente de confianza, determinado en función del nivel de probabilidad P(t) según la tabla de la función integral de Laplace.

Fórmulas para calcular el tamaño de la muestra utilizando un método de muestreo puramente aleatorio.

En las subsecciones anteriores consideramos la cuestión de estimar un parámetro desconocido. A un número. Esto se llama estimación “puntual”. En una serie de tareas, no sólo es necesario buscar el parámetro A valor numérico adecuado, sino también para evaluar su precisión y fiabilidad. Necesita saber qué errores puede provocar la sustitución de un parámetro A su estimación puntual A¿Y con qué grado de confianza podemos esperar que estos errores no excedan los límites conocidos?

Los problemas de este tipo son especialmente relevantes con un número pequeño de observaciones, cuando la estimación puntual y en es en gran medida aleatorio y la sustitución aproximada de a por a puede provocar errores graves.

Para dar una idea de la exactitud y fiabilidad de la estimación. A,

V estadística matemática Utilizan los llamados intervalos de confianza y probabilidades de confianza.

Sea el parámetro A estimación insesgada obtenida de la experiencia A. Queremos estimar el posible error en este caso. Asignemos una probabilidad p suficientemente grande (por ejemplo, p = 0,9, 0,95 o 0,99) tal que un evento con probabilidad p pueda considerarse prácticamente confiable, y encontremos un valor s para el cual

Entonces el rango es prácticamente valores posibles error que ocurre al reemplazar A en A, será ± s; Los errores grandes en valor absoluto aparecerán sólo con una probabilidad baja a = 1 - p. Reescribamos (14.3.1) como:

La igualdad (14.3.2) significa que con probabilidad p el valor desconocido del parámetro A cae dentro del intervalo

Es necesario señalar una circunstancia. Anteriormente, hemos considerado repetidamente la probabilidad de que una variable aleatoria caiga en un intervalo no aleatorio determinado. Aquí la situación es diferente: la magnitud A no es aleatorio, pero el intervalo /p es aleatorio. Su posición en el eje x es aleatoria, determinada por su centro A; En general, la longitud del intervalo 2s también es aleatoria, ya que el valor de s se calcula, por regla general, a partir de datos experimentales. Por lo tanto, en en este caso Sería mejor interpretar el valor p no como la probabilidad de "acertar" en un punto. A en el intervalo / p, y como la probabilidad de que un intervalo aleatorio / p cubra el punto A(Figura 14.3.1).

Arroz. 14.3.1

La probabilidad p generalmente se llama probabilidad de confianza, y intervalo / p - intervalo de confianza. Límites de intervalo Si. ax = a- arena un 2 = un + y se llaman límites de confianza.

Demos otra interpretación al concepto de intervalo de confianza: puede considerarse como un intervalo de valores de parámetros. A, compatible con los datos experimentales y no contradecirlos. De hecho, si aceptamos considerar un evento con probabilidad a = 1-p prácticamente imposible, entonces aquellos valores del parámetro a para los cuales un - un> s deben ser reconocidos como datos experimentales contradictorios, y aquellos para los cuales |a - A a t na 2 .

Sea el parámetro A hay una estimación imparcial A. Si conociéramos la ley de distribución de la cantidad A, la tarea de encontrar un intervalo de confianza sería muy sencilla: bastaría con encontrar un valor s para el cual

La dificultad es que la ley de distribución de estimaciones. A Depende de la ley de distribución de la cantidad. X y, por tanto, de sus parámetros desconocidos (en particular, del propio parámetro A).

Para solucionar esta dificultad, puede utilizar la siguiente técnica aproximada: reemplazar los parámetros desconocidos en la expresión para s con sus estimaciones puntuales. Con un número relativamente grande de experimentos. PAG(alrededor de 20...30) esta técnica suele dar resultados satisfactorios en términos de precisión.

Como ejemplo, consideremos el problema de un intervalo de confianza para la expectativa matemática.

Que se produzca PAG X, cuyas características son valor esperado t y varianza D- desconocido. Se obtuvieron las siguientes estimaciones para estos parámetros:

Se requiere construir un intervalo de confianza /p correspondiente a la probabilidad de confianza p para la expectativa matemática. t cantidades X.

Al resolver este problema, usaremos el hecho de que la cantidad t representa la suma PAG variables aleatorias independientes distribuidas idénticamente xh y de acuerdo con el teorema del límite central, para un valor suficientemente grande PAG su ley de distribución es cercana a la normal. En la práctica, incluso con un número relativamente pequeño de términos (alrededor de 10...20), la ley de distribución de la suma puede considerarse aproximadamente normal. Supondremos que el valor t distribuidos según la ley normal. Las características de esta ley (expectativa matemática y varianza) son iguales, respectivamente. t Y

(ver capítulo 13 subsección 13.3). Supongamos que el valor D conocemos y encontraremos un valor Ep para el cual

Usando la fórmula (6.3.5) del Capítulo 6, expresamos la probabilidad en el lado izquierdo de (14.3.5) mediante la función de distribución normal

¿Dónde está la desviación estándar de la estimación? T.

De la ecuación.

encuentre el valor de Sp:

donde arg Ф* (х) es la función inversa de Ф* (X), aquellos. el valor del argumento en el que función normal la distribución es igual a X.

Dispersión D, a través del cual se expresa la cantidad A 1P, no lo sabemos exactamente; como valor aproximado se puede utilizar la estimación D(14.3.4) y poner aproximadamente:

Así, se ha resuelto aproximadamente el problema de construir un intervalo de confianza, que es igual a:

donde gp está determinado por la fórmula (14.3.7).

Para evitar la interpolación inversa en las tablas de la función Ф* (l) al calcular s p, es conveniente compilar una tabla especial (Tabla 14.3.1), que da los valores de la cantidad.

dependiendo de r. El valor (p determina para la ley normal el número de desviaciones estándar que deben trazarse a la derecha y a la izquierda del centro de dispersión para que la probabilidad de entrar en el área resultante sea igual a p.

A través del valor de 7 p, el intervalo de confianza se expresa como:

Tabla 14.3.1

Ejemplo 1. Se realizaron 20 experimentos sobre la cantidad X; los resultados se muestran en la tabla. 14.3.2.

Tabla 14.3.2

Se requiere encontrar una estimación de la expectativa matemática de la cantidad. X y construir un intervalo de confianza correspondiente a la probabilidad de confianza p = 0,8.

Solución. Tenemos:

Eligiendo l: = 10 como punto de referencia, usando la tercera fórmula (14.2.14) encontramos la estimación insesgada D :

Según la tabla 14.3.1 encontramos

Límites de confianza:

Intervalo de confianza:

Valores paramétricos T, que se encuentran en este intervalo son compatibles con los datos experimentales que figuran en la tabla. 14.3.2.

De manera similar se puede construir un intervalo de confianza para la varianza.

Que se produzca PAG experimentos independientes con una variable aleatoria X con parámetros desconocidos tanto para A como para la dispersión D Se obtuvo una estimación insesgada:

Se requiere construir aproximadamente un intervalo de confianza para la varianza.

De la fórmula (14.3.11) queda claro que la cantidad D representa

cantidad PAG variables aleatorias de la forma . Estos valores no son

independiente, ya que cualquiera de ellos incluye la cantidad T, dependiente de todos los demás. Sin embargo, se puede demostrar que a medida que aumenta PAG la ley de distribución de su suma también se acerca a la normal. Casi en PAG= 20...30 ya se puede considerar normal.

Supongamos que esto es así y encontremos las características de esta ley: expectativa matemática y dispersión. Desde la evaluación D- imparcial, entonces M[D] = D.

Cálculo de varianza D D está asociado con cálculos relativamente complejos, por lo que presentamos su expresión sin derivación:

donde q 4 es el cuarto punto central cantidades X.

Para usar esta expresión, debe sustituir los valores \u003d 4 y D(al menos los cercanos). En lugar de D puedes usar su evaluación D. En principio, el cuarto momento central también puede sustituirse por una estimación, por ejemplo, un valor de la forma:

pero tal reemplazo dará una precisión extremadamente baja, ya que en general, con un número limitado de experimentos, los momentos alto orden determinado a partir de grandes errores. Sin embargo, en la práctica sucede a menudo que el tipo de ley de distribución de cantidades X conocido de antemano: sólo se desconocen sus parámetros. Entonces puedes intentar expresar μ 4 mediante D.

Tomemos el caso más común, cuando el valor X distribuidos según la ley normal. Luego su cuarto momento central se expresa en términos de dispersión (ver Capítulo 6, subsección 6.2);

y la fórmula (14.3.12) da o

Reemplazo de lo desconocido en (14.3.14) D su evaluación D, obtenemos: de donde

El momento μ 4 se puede expresar mediante D también en algunos otros casos, cuando la distribución del valor X No es normal, pero se conoce su apariencia. Por ejemplo, para la ley densidad uniforme(ver capítulo 5) tenemos:

donde (a, P) es el intervalo en el que se especifica la ley.

Por eso,

Usando la fórmula (14.3.12) obtenemos: donde encontramos aproximadamente

En los casos en que se desconoce el tipo de ley de distribución para la cantidad 26, al realizar una estimación aproximada del valor a/) se recomienda utilizar la fórmula (14.3.16), a menos que existan razones especiales para creer que esta ley es muy diferente al normal (tiene una notable curtosis positiva o negativa).

Si el valor aproximado a/) se obtiene de una forma u otra, entonces podemos construir un intervalo de confianza para la varianza de la misma manera que lo construimos para la expectativa matemática:

donde el valor que depende de la probabilidad p dada se encuentra según la tabla. 14.3.1.

Ejemplo 2. Encuentre aproximadamente un intervalo de confianza del 80% para la varianza de una variable aleatoria X en las condiciones del ejemplo 1, si se sabe que el valor X distribuidos según una ley cercana a la normal.

Solución. El valor sigue siendo el mismo que en la tabla. 14.3.1:

Según la fórmula (14.3.16)

Usando la fórmula (14.3.18) encontramos el intervalo de confianza:

Intervalo correspondiente de valores medios. desviación cuadrada: (0,21; 0,29).

14.4. Métodos de construcción precisos intervalos de confianza para los parámetros de una variable aleatoria distribuida según la ley normal

En la subsección anterior, examinamos métodos aproximados para construir intervalos de confianza para la expectativa y la varianza matemáticas. Aquí daremos una idea de los métodos exactos para resolver el mismo problema. Destacamos que para encontrar con precisión los intervalos de confianza es absolutamente necesario conocer de antemano la forma de la ley de distribución de la cantidad. X, mientras que para la aplicación de métodos aproximados esto no es necesario.

Idea métodos precisos La construcción de intervalos de confianza se reduce a lo siguiente. Cualquier intervalo de confianza se encuentra a partir de una condición que expresa la probabilidad de cumplir ciertas desigualdades, que incluyen la estimación que nos interesa. A. Ley de distribución de valoración. A V caso general depende de parámetros de cantidad desconocidos X. Sin embargo, a veces es posible pasar desigualdades de una variable aleatoria A a alguna otra función de los valores observados X p X 2, ..., X pág. cuya ley de distribución no depende de parámetros desconocidos, sino que depende únicamente del número de experimentos y del tipo de ley de distribución de la cantidad X. Este tipo de variables aleatorias juegan un papel importante en la estadística matemática; han sido estudiados con mayor detalle para el caso de una distribución normal de la cantidad X.

Por ejemplo, se ha demostrado que con una distribución normal del valor X valor aleatorio

obedece a los llamados Ley de distribución de estudiantes Con PAG- 1 grado de libertad; la densidad de esta ley tiene la forma

donde G(x) es la función gamma conocida:

También se ha demostrado que la variable aleatoria

tiene una "distribución %2" con PAG- 1 grado de libertad (ver Capítulo 7), cuya densidad se expresa mediante la fórmula

Sin detenernos en las derivaciones de las distribuciones (14.4.2) y (14.4.4), mostraremos cómo se pueden aplicar al construir intervalos de confianza para parámetros. ty d.

Que se produzca PAG experimentos independientes con una variable aleatoria X, Distribución normal con parámetros desconocidos. A. Para estos parámetros se obtuvieron estimaciones

Se requiere construir intervalos de confianza para ambos parámetros correspondientes a la probabilidad de confianza p.

Primero construyamos un intervalo de confianza para la expectativa matemática. Es natural tomar este intervalo simétrico con respecto a t; Sea sp p la mitad de la longitud del intervalo. El valor s p debe elegirse de manera que se cumpla la condición.

Intentemos movernos hacia el lado izquierdo de la igualdad (14.4.5) desde la variable aleatoria. t a una variable aleatoria T, distribuido según la ley de Student. Para hacer esto, multiplica ambos lados de la desigualdad |m-w?|

por un valor positivo: o, usando la notación (14.4.1),

Encontremos un número /p tal que el valor /p se pueda encontrar a partir de la condición

De la fórmula (14.4.2) queda claro que (1) - incluso función, entonces (14.4.8) da

La igualdad (14.4.9) determina el valor / p en función de p. Si tienes a tu disposición una tabla de valores integrales

entonces el valor de /p se puede encontrar mediante interpolación inversa en la tabla. Sin embargo, es más conveniente elaborar una tabla de valores /p de antemano. Esta tabla figura en el Apéndice (Tabla 5). Esta tabla muestra los valores en función del nivel de confianza p y del número de grados de libertad. PAG- 1. Habiendo determinado / p de la tabla. 5 y suponiendo

encontraremos la mitad del ancho del intervalo de confianza /p y el intervalo mismo

Ejemplo 1. Se realizaron 5 experimentos independientes con una variable aleatoria. X, Distribución normal con parámetros desconocidos. t y sobre. Los resultados de los experimentos se dan en la tabla. 14.4.1.

Tabla 14.4.1

encontrar calificación t para la expectativa matemática y construya un intervalo de confianza del 90% / p para ella (es decir, el intervalo correspondiente a la probabilidad de confianza p = 0,9).

Solución. Tenemos:

Según el cuadro 5 de la solicitud de PAG - 1 = 4 y p = 0,9 encontramos dónde

El intervalo de confianza será

Ejemplo 2. Para las condiciones del ejemplo 1 del inciso 14.3, asumiendo el valor X distribuida normalmente, encuentre el intervalo de confianza exacto.

Solución. Según la tabla 5 del apéndice encontramos en PAG - 1 = 19 ir =

0,8/p = 1,328; de aquí

Comparando con la solución del ejemplo 1 del inciso 14.3 (e p = 0,072), estamos convencidos de que la discrepancia es muy insignificante. Si mantenemos la precisión hasta el segundo decimal, entonces los intervalos de confianza encontrados por los métodos exacto y aproximado coinciden:

Pasemos a construir un intervalo de confianza para la varianza. Considere el estimador de varianza insesgado

y expresar la variable aleatoria D a través de magnitud V(14.4.3), teniendo distribución x 2 (14.4.4):

Conociendo la ley de distribución de la cantidad. V, puedes encontrar el intervalo /(1) en el que cae con una probabilidad dada p.

Ley de distribución kn_x(v) La magnitud I 7 tiene la forma que se muestra en la Fig. 14.4.1.

Arroz. 14.4.1

Surge la pregunta: ¿cómo elegir el intervalo /p? Si la ley de distribución de magnitud. V fuera simétrico (como la ley normal o la distribución de Student), sería natural tomar el intervalo /p simétrico con respecto a la expectativa matemática. En este caso la ley k p_x (v) asimétrico. Acordemos elegir el intervalo /p de modo que la probabilidad de que el valor sea V más allá del intervalo a la derecha y a la izquierda (áreas sombreadas en la Fig. 14.4.1) eran iguales e iguales

Para construir un intervalo /p con esta propiedad, usamos la tabla. 4 aplicaciones: contiene números y) tal que

por el valor V, teniendo x 2 -distribución con r grados de libertad. En nuestro caso r = norte- 1. Arreglemos r = norte- 1 y buscar en la fila correspondiente de la tabla. 4 dos significados x2- uno correspondiente a la probabilidad el otro - probabilidad Denotemos estos

valores a las 2 Y ¿SG? El intervalo tiene y 2, con tu izquierda, y y~ extremo derecho.

Ahora encontremos a partir del intervalo / p el intervalo de confianza deseado /|, para la dispersión con límites D, y D2, que cubre el punto D con probabilidad p:

Construyamos un intervalo / (, = (?> ь А) que cubra el punto D si y sólo si el valor V cae en el intervalo /r. Demostremos que el intervalo

satisface esta condición. De hecho, las desigualdades son equivalentes a desigualdades

y estas desigualdades se satisfacen con probabilidad p. Por tanto, se ha encontrado el intervalo de confianza para la varianza y se expresa mediante la fórmula (14.4.13).

Ejemplo 3. Encuentre el intervalo de confianza para la varianza en las condiciones del ejemplo 2 de la subsección 14.3, si se sabe que el valor X Normalmente distribuido.

Solución. Tenemos . Según la tabla 4 del apéndice

encontramos en gramo = norte - 1 = 19

Usando la fórmula (14.4.13) encontramos el intervalo de confianza para la varianza

El intervalo correspondiente para la desviación estándar es (0,21; 0,32). Este intervalo supera sólo ligeramente el intervalo (0,21; 0,29) obtenido en el ejemplo 2 del apartado 14.3 utilizando el método aproximado.

  • La figura 14.3.1 considera un intervalo de confianza simétrico con respecto a a. En general, como veremos más adelante, esto no es necesario.

Estimación de intervalos de confianza

Objetivos de aprendizaje

Las estadísticas consideran lo siguiente dos tareas principales:

    Tenemos algunas estimaciones basadas en datos de muestra y queremos hacer alguna afirmación probabilística sobre dónde se encuentra el valor real del parámetro estimado.

    Tenemos una hipótesis específica que debe probarse utilizando datos de muestra.

En este tema consideramos la primera tarea. Introduzcamos también la definición de intervalo de confianza.

Un intervalo de confianza es un intervalo que se construye alrededor del valor estimado de un parámetro y muestra dónde se ubica el valor real del parámetro estimado con una probabilidad especificada a priori.

Después de estudiar el material sobre este tema, usted:

    aprender qué es un intervalo de confianza para una estimación;

    aprender a clasificar problemas estadísticos;

    dominar la técnica de construcción de intervalos de confianza, tanto mediante fórmulas estadísticas como mediante herramientas informáticas;

    aprender a determinar los tamaños de muestra necesarios para lograr ciertos parámetros de precisión de las estimaciones estadísticas.

Distribuciones de características de la muestra.

distribución T

Como se analizó anteriormente, la distribución de la variable aleatoria está cerca de la estandarizada. distribución normal con parámetros 0 y 1. Como no conocemos el valor de σ, lo reemplazamos con alguna estimación de s. La cantidad ya tiene una distribución diferente, es decir, o Distribución de estudiantes, que está determinado por el parámetro n -1 (el número de grados de libertad). Esta distribución está cerca de la distribución normal (cuanto mayor n, más cercanas son las distribuciones).

En la Fig. 95
Se presenta la distribución de Student con 30 grados de libertad. Como puede ver, está muy cerca de la distribución normal.

Similar a las funciones para trabajar con la distribución normal NORMIDIST y NORMINV, existen funciones para trabajar con la distribución t: STUDIST (TDIST) y ESTUDRASOBR (TINV). Un ejemplo del uso de estas funciones se puede ver en el archivo STUDRASP.XLS (plantilla y solución) y en la Fig. 96
.

Distribuciones de otras características.

Como ya sabemos, para determinar la precisión de la estimación de la expectativa matemática, necesitamos una distribución t. Para estimar otros parámetros, como la varianza, se requieren diferentes distribuciones. Dos de ellos son la distribución F y x 2 -distribución.

Intervalo de confianza para la media

Intervalo de confianza- este es un intervalo que se construye alrededor del valor estimado del parámetro y muestra dónde se ubica el valor real del parámetro estimado con una probabilidad especificada a priori.

Se produce la construcción de un intervalo de confianza para el valor medio. de la siguiente manera:

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para estimar la demanda, el gerente planea seleccionar al azar a 40 visitantes entre aquellos que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la demanda esperada. número de puntos que recibirá el nuevo producto y construya un intervalo de confianza del 95% para esta estimación. ¿Como hacer esto? (ver archivo SANDWICH1.XLS (plantilla y solución).

Solución

Para solucionar este problema puedes utilizar . Los resultados se presentan en la fig. 97
.

Intervalo de confianza para el valor total

A veces, utilizando datos de muestra, es necesario estimar no la expectativa matemática, sino cantidad total valores. Por ejemplo, en una situación con un auditor, el interés puede estar en estimar no el tamaño promedio de la cuenta, sino la suma de todas las cuentas.

Sea N - total elementos, n es el tamaño de la muestra, T 3 es la suma de los valores de la muestra, T" es la estimación de la suma para toda la población, entonces , y el intervalo de confianza se calcula mediante la fórmula , donde s es la estimación de la desviación estándar de la muestra y es la estimación de la media de la muestra.

Ejemplo

digamos algunos servicio de impuestos quiere estimar el importe total de las devoluciones de impuestos de 10.000 contribuyentes. El contribuyente recibe un reembolso o paga impuestos adicionales. Encuentre el intervalo de confianza del 95% para el monto del reembolso, suponiendo un tamaño de muestra de 500 personas (consulte el archivo CANTIDAD DE REEMBOLSO.XLS (plantilla y solución).

Solución

StatPro no tiene un procedimiento especial para este caso, sin embargo, se puede observar que los límites se pueden obtener a partir de los límites del promedio según las fórmulas anteriores (Fig. 98
).

Intervalo de confianza para la proporción

Sea p la expectativa matemática de la proporción de clientes y sea p b la estimación de esta proporción obtenida de una muestra de tamaño n. Se puede demostrar que para tamaños suficientemente grandes la distribución de la evaluación será cercana a la normal con expectativa matemática p y desviación estándar . El error estándar de estimación en este caso se expresa como , y el intervalo de confianza es como .

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para evaluar la demanda, el gerente seleccionó al azar a 40 visitantes entre aquellos que ya lo habían probado y les pidió que calificaran su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la proporción esperada de clientes que califican el nuevo producto con al menos 6 puntos (espera que estos clientes sean los consumidores del nuevo producto).

Solución

Inicialmente, creamos una nueva columna basada en el atributo 1 si la calificación del cliente fue superior a 6 puntos y 0 en caso contrario (ver archivo SANDWICH2.XLS (plantilla y solución).

Método 1

Al contar el número 1, estimamos la proporción y luego usamos las fórmulas.

El valor de zcr se toma de tablas especiales de distribución normal (por ejemplo, 1,96 para un intervalo de confianza del 95%).

Usando este enfoque y datos específicos para construir un intervalo del 95%, obtenemos los siguientes resultados (Fig. 99
). Valor crítico el parámetro z cr es igual a 1,96. El error estándar de la estimación es 0,077. El límite inferior del intervalo de confianza es 0,475. El límite superior del intervalo de confianza es 0,775. Por lo tanto, el gerente tiene derecho a creer con un 95% de confianza que el porcentaje de clientes que califican el nuevo producto con 6 puntos o más estará entre 47,5 y 77,5.

Método 2

Este problema se puede resolver utilizando herramientas estándar de StatPro. Para ello basta con tener en cuenta que la participación en este caso coincide con el valor medio de la columna Tipo. A continuación aplicamos StatPro/Inferencia estadística/Análisis de una muestra para construir un intervalo de confianza de la media (estimación de la expectativa matemática) para la columna Tipo. Los resultados obtenidos en este caso serán muy cercanos a los resultados del primer método (Fig. 99).

Intervalo de confianza para la desviación estándar

s se utiliza como estimación de la desviación estándar (la fórmula se proporciona en la Sección 1). La función de densidad de la estimación s es la función chi-cuadrado, que, al igual que la distribución t, tiene n-1 grados de libertad. Existen funciones especiales para trabajar con esta distribución CHIDIST y CHIINV.

El intervalo de confianza en este caso ya no será simétrico. En la figura 2 se muestra un diagrama de límites convencional. 100 .

Ejemplo

La máquina debe producir piezas con un diámetro de 10 cm. Sin embargo, por diversas circunstancias se producen errores. Al controlador de calidad le preocupan dos circunstancias: en primer lugar, el valor medio debe ser de 10 cm; en segundo lugar, incluso en este caso, si las desviaciones son grandes, se rechazarán muchas piezas. Cada día realiza una muestra de 50 piezas (ver archivo CONTROL DE CALIDAD.XLS (plantilla y solución). ¿Qué conclusiones puede arrojar una muestra así?

Solución

Construyamos intervalos de confianza del 95% para la media y la desviación estándar usando StatPro/Inferencia estadística/Análisis de una muestra(Figura 101
).

A continuación, partiendo del supuesto de una distribución normal de diámetros, calculamos la proporción de productos defectuosos, fijando una desviación máxima de 0,065. Utilizando las capacidades de la tabla de sustitución (el caso de dos parámetros), trazamos la dependencia de la proporción de defectos del valor promedio y la desviación estándar (Fig. 102).
).

Intervalo de confianza para la diferencia entre dos medias

Este es uno de los más aplicaciones importantes métodos de estadística. Ejemplos de situaciones.

    El gerente de una tienda de ropa quisiera saber cuánto más o menos gasta en la tienda la clienta promedio que el cliente masculino promedio.

    Las dos aerolíneas vuelan rutas similares. A una organización de consumidores le gustaría comparar la diferencia entre los tiempos promedio esperados de retraso en los vuelos de ambas aerolíneas.

    La empresa envía cupones para especies individuales mercancías en una ciudad y no se envía a otra. Los gerentes quieren comparar los volúmenes promedio de compra de estos productos durante los próximos dos meses.

    Un concesionario de automóviles suele tratar con parejas casadas en sus presentaciones. Para comprender sus reacciones personales ante la presentación, a menudo se entrevista a las parejas por separado. El gerente quiere evaluar la diferencia entre las calificaciones otorgadas por hombres y mujeres.

Caso de muestras independientes

La diferencia entre las medias tendrá una distribución t con n 1 + n 2 - 2 grados de libertad. El intervalo de confianza para μ 1 - μ 2 se expresa mediante la relación:

Este problema se puede resolver no sólo utilizando las fórmulas anteriores, sino también utilizando las herramientas estándar de StatPro. Para ello basta con utilizar

Intervalo de confianza para la diferencia entre proporciones

Sea la expectativa matemática de las acciones. Sean sus estimaciones muestrales, construidas a partir de muestras de tamaño n 1 y n 2, respectivamente. Entonces es una estimación de la diferencia. Por tanto, el intervalo de confianza de esta diferencia se expresa como:

Aquí z cr es un valor obtenido de una distribución normal utilizando tablas especiales (por ejemplo, 1,96 para un intervalo de confianza del 95%).

El error estándar de estimación se expresa en este caso mediante la relación:

.

Ejemplo

La tienda, preparándose para una gran venta, tomó los siguientes pasos: investigación de mercado. 300 fueron seleccionados mejores compradores, que a su vez fueron divididos aleatoriamente en dos grupos de 150 miembros cada uno. Todos los clientes seleccionados recibieron invitaciones para participar en la venta, pero sólo los miembros del primer grupo recibieron un cupón que les daba derecho a un descuento del 5%. Durante la venta se registraron las compras de los 300 compradores seleccionados. ¿Cómo puede un gerente interpretar los resultados y emitir un juicio sobre la efectividad de los cupones? (ver archivo CUPONES.XLS (plantilla y solución)).

Solución

Para nuestro caso concreto, de 150 clientes que recibieron un cupón de descuento, 55 realizaron una compra en oferta, y entre los 150 que no recibieron un cupón, solo 35 realizaron una compra (Fig. 103).
). Entonces los valores de las proporciones muestrales son 0,3667 y 0,2333, respectivamente. Y la diferencia muestral entre ellos es igual a 0,1333, respectivamente. Suponiendo un intervalo de confianza del 95%, encontramos en la tabla de distribución normal z cr = 1,96. El cálculo del error estándar de la diferencia muestral es 0,0524. Finalmente encontramos que el límite inferior del intervalo de confianza del 95% es 0.0307, ​​y limite superior 0,2359 respectivamente. Los resultados obtenidos se pueden interpretar de tal forma que por cada 100 clientes que recibieron un cupón de descuento, podemos esperar de 3 a 23 nuevos clientes. Sin embargo, debemos tener en cuenta que esta conclusión en sí misma no significa la efectividad del uso de cupones (ya que al ofrecer un descuento, ¡perdemos ganancias!). Demostremos esto con datos específicos. pretendamos que el tamaño promedio La compra es igual a 400 rublos, de los cuales 50 rublos. hay una ganancia para la tienda. Entonces, la ganancia esperada de 100 clientes que no recibieron un cupón es:

50 0,2333 100 = 1166,50 frotar.

Cálculos similares para 100 clientes que recibieron un cupón dan:

30 0,3667 100 = 1100,10 frotar.

La disminución del beneficio medio a 30 se explica por el hecho de que, utilizando el descuento, los clientes que recibieron un cupón realizarán una compra de 380 rublos en promedio.

Por tanto, la conclusión final indica la ineficacia del uso de dichos cupones en esta situación particular.

Comentario. Este problema se puede resolver utilizando herramientas estándar de StatPro. Para ello basta con reducir esta tarea al problema de estimar la diferencia entre dos promedios usando el método, y luego aplicar StatPro/Inferencia estadística/Análisis de dos muestras construir un intervalo de confianza para la diferencia entre dos valores promedio.

Controlar la duración del intervalo de confianza

La longitud del intervalo de confianza depende de siguientes condiciones :

    datos directamente (desviación estándar);

    nivel de significancia;

    tamaño de la muestra.

Tamaño de muestra para estimar la media

Primero, consideremos el problema en el caso general. Denotaremos el valor de la mitad de la longitud del intervalo de confianza que se nos dio como B (Fig. 104
). Sabemos que el intervalo de confianza para el valor medio de alguna variable aleatoria X se expresa como , Dónde . Creyendo:

y expresando n, obtenemos .

Desafortunadamente, valor exacto No conocemos la varianza de la variable aleatoria X. Además, no conocemos el valor de tcr, ya que depende de n mediante el número de grados de libertad. En esta situación, podemos hacer lo siguiente. En lugar de varianza s, utilizamos alguna estimación de la varianza basada en cualquier implementación disponible de la variable aleatoria bajo estudio. En lugar del valor tcr, utilizamos el valor zcr para la distribución normal. Esto es bastante aceptable, ya que las funciones de densidad de distribución para las distribuciones normal y t son muy cercanas (excepto en el caso de n pequeño). Por tanto, la fórmula requerida toma la forma:

.

Dado que la fórmula proporciona, en general, resultados no enteros, se toma como tamaño de muestra deseado el redondeo con un exceso del resultado.

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para evaluar la demanda, el gerente planea seleccionar al azar un número de visitantes entre aquellos que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar el número esperado de puntos que recibirá el nuevo producto y construya un intervalo de confianza del 95% para esta estimación. Al mismo tiempo, quiere que la mitad del ancho del intervalo de confianza no exceda 0,3. ¿A cuántos visitantes necesita entrevistar?

como sigue:

Aquí pudriciones es una estimación de la proporción p, y B es la mitad dada de la longitud del intervalo de confianza. Se puede obtener una sobreestimación de n utilizando el valor pudriciones= 0,5. En este caso, la longitud del intervalo de confianza no excederá el valor B especificado para cualquier valor verdadero de p.

Ejemplo

Dejemos que el gerente del ejemplo anterior planee estimar la proporción de clientes que prefirieron un nuevo tipo de producto. Quiere construir un intervalo de confianza del 90% cuya longitud media no exceda 0,05. ¿Cuántos clientes deben incluirse en la muestra aleatoria?

Solución

En nuestro caso, el valor de z cr = 1,645. Por lo tanto, la cantidad requerida se calcula como .

Si el gerente tuviera motivos para creer que el valor p deseado era, por ejemplo, aproximadamente 0,3, entonces, al sustituir este valor en la fórmula anterior, obtendríamos un valor de muestra aleatorio más pequeño, es decir, 228.

Fórmula para determinar tamaño de muestra aleatorio en caso de diferencia entre dos medias Escrito como:

.

Ejemplo

Alguna empresa de informática tiene un centro de atención al cliente. EN Últimamente Ha aumentado el número de quejas de los clientes sobre la mala calidad del servicio. EN centro de servicio Hay principalmente dos tipos de empleados: los que no tienen mucha experiencia, pero han completado cursos preparatorios especiales, y los que tienen una amplia experiencia práctica, pero no han completado cursos especiales. La empresa quiere analizar las quejas de los clientes durante los últimos seis meses y comparar el número promedio de quejas para cada uno de dos grupos de empleados. Se supone que los números en las muestras de ambos grupos serán los mismos. ¿Cuántos empleados deben incluirse en la muestra para obtener un intervalo del 95% con una longitud media no mayor a 2?

Solución

Aquí σ ots es una estimación de la desviación estándar de ambas variables aleatorias bajo el supuesto de que están cercanas. Por tanto, en nuestro problema necesitamos obtener de alguna manera esta estimación. Esto se puede hacer, por ejemplo, de la siguiente manera. Después de analizar los datos sobre las quejas de los clientes durante los últimos seis meses, un gerente puede notar que cada empleado generalmente recibe de 6 a 36 quejas. Saber que para una distribución normal casi todos los valores no están más de tres veces alejados de la media desviaciones estandar, puede creer razonablemente que:

, de donde σ ots = 5.

Sustituyendo este valor en la fórmula, obtenemos .

Fórmula para determinar tamaño de muestra aleatorio en caso de estimar la diferencia entre las proporciones tiene la forma:

Ejemplo

Alguna empresa tiene dos fábricas que producen productos similares. El gerente de una empresa quiere comparar el porcentaje de productos defectuosos en ambas fábricas. Según la información disponible, la tasa de defectos en ambas fábricas oscila entre el 3 y el 5%. Se pretende construir un intervalo de confianza del 99% con una longitud media no superior a 0,005 (o 0,5%). ¿Cuántos productos se deben seleccionar de cada fábrica?

Solución

Aquí p 1ots y p 2ots son estimaciones de dos proporciones desconocidas de defectos en la primera y segunda fábrica. Si ponemos p 1ots = p 2ots = 0,5, entonces obtenemos un valor sobreestimado para n. Pero como en nuestro caso tenemos información a priori sobre estas participaciones, tomamos la estimación superior de estas participaciones, es decir, 0,05. Obtenemos

Al estimar algunos parámetros poblacionales a partir de datos muestrales, es útil dar no sólo punto estimado parámetro, sino que también indican un intervalo de confianza que muestra dónde puede encontrarse el valor exacto del parámetro estimado.

En este capítulo, también nos familiarizamos con las relaciones cuantitativas que nos permiten construir dichos intervalos para varios parámetros; aprendieron formas de controlar la longitud del intervalo de confianza.

Tenga en cuenta también que el problema de estimar tamaños de muestra (el problema de planificar un experimento) se puede resolver utilizando herramientas estándar de StatPro, a saber StatPro/Inferencia estadística/Selección del tamaño de la muestra.

"Katren-Style" continúa la publicación del ciclo de Konstantin Kravchik sobre estadísticas medicas. En dos artículos anteriores, el autor se ocupó de la explicación de conceptos como y.

Konstantin Krávchik

Analista matemático. Especialista en el campo investigación estadística en medicina y humanidades

Moscú

Muy a menudo en artículos sobre investigación clínica puede encontrarse con una frase misteriosa: "intervalo de confianza" (IC del 95 % o IC del 95 % - intervalo de confianza). Por ejemplo, el artículo puede escribir: “Para evaluar la importancia de las diferencias, utilizamos prueba t de Student con cálculo del intervalo de confianza del 95 %”.

¿Cuál es el valor del “intervalo de confianza del 95 %” y por qué calcularlo?

¿Qué es un intervalo de confianza? - Este es el rango dentro del cual se encuentran las verdaderas medias poblacionales. ¿Existen promedios “falsos”? En cierto sentido, sí, lo hacen. En explicamos que es imposible medir el parámetro de interés en toda la población, por lo que los investigadores se contentan con una muestra limitada. En esta muestra (por ejemplo, basada en el peso corporal) hay un valor promedio (un peso determinado), por el cual juzgamos el valor promedio en toda la población. Sin embargo, es poco probable que el peso promedio de una muestra (especialmente una pequeña) coincida con el peso promedio de la población general. Por tanto, es más correcto calcular y utilizar el rango de valores medios de la población.

Por ejemplo, imagine que el intervalo de confianza del 95 % (IC del 95 %) para la hemoglobina es de 110 a 122 g/L. Esto significa que existe un 95% de posibilidades de que el verdadero valor medio de hemoglobina en la población esté entre 110 y 122 g/L. En otras palabras, no sabemos promedio hemoglobina en la población general, pero podemos indicar un rango de valores para esta característica con un 95 % de probabilidad.

Los intervalos de confianza son particularmente relevantes para las diferencias en las medias entre grupos, o tamaños del efecto, como se les llama.

Digamos que comparamos la eficacia de dos preparados de hierro: uno que lleva mucho tiempo en el mercado y otro que acaba de registrarse. Después del curso de la terapia, evaluamos la concentración de hemoglobina en los grupos de pacientes estudiados y el programa estadístico calculó que la diferencia entre los valores promedio de los dos grupos estaba, con una probabilidad del 95 %, en el rango de 1,72 a 14,36 g/l (Tabla 1).

Mesa 1. Prueba de muestras independientes
(los grupos se comparan por nivel de hemoglobina)

Esto debe interpretarse de la siguiente manera: en parte de los pacientes de la población general que toman nueva droga, la hemoglobina será mayor en promedio entre 1,72 y 14,36 g/l que en aquellos que tomaron un medicamento ya conocido.

Es decir, en la población general, la diferencia en los valores medios de hemoglobina entre grupos se encuentra dentro de estos límites con un 95% de probabilidad. Corresponderá al investigador juzgar si esto es mucho o poco. El punto de todo esto es que no estamos trabajando con un valor promedio, sino con un rango de valores, por lo tanto, estimamos de manera más confiable la diferencia en un parámetro entre grupos.

En los paquetes estadísticos, a discreción del investigador, puede reducir o ampliar de forma independiente los límites del intervalo de confianza. Al reducir las probabilidades del intervalo de confianza, estrechamos el rango de medias. Por ejemplo, con un IC del 90 %, el rango de medias (o diferencia de medias) será más estrecho que con un IC del 95 %.

Por el contrario, aumentar la probabilidad al 99 % amplía el rango de valores. Al comparar grupos, el límite inferior del IC puede cruzar la marca cero. Por ejemplo, si ampliamos los límites del intervalo de confianza al 99 %, entonces los límites del intervalo oscilaron entre –1 y 16 g/l. Esto significa que en la población general existen grupos cuya diferencia de medias para la característica en estudio es igual a 0 (M = 0).

Usando un intervalo de confianza, puedes comprobar hipótesis estadísticas. Si el intervalo de confianza cruza el valor cero, entonces la hipótesis nula, que supone que los grupos no difieren en el parámetro en estudio, es verdadera. El ejemplo se describe arriba donde ampliamos los límites al 99 %. En algún lugar de la población general encontramos grupos que no diferían en ningún aspecto.

Intervalo de confianza del 95% de la diferencia en hemoglobina, (g/l)


La figura muestra el intervalo de confianza del 95% para la diferencia en los valores medios de hemoglobina entre los dos grupos. La recta pasa por la marca cero, por lo tanto existe una diferencia entre las medias de cero, lo que confirma la hipótesis nula de que los grupos no difieren. El rango de diferencia entre grupos es de –2 a 5 g/L. Esto significa que la hemoglobina puede disminuir en 2 g/L o aumentar en 5 g/L.

El intervalo de confianza es muy indicador importante. Gracias a él se puede ver si las diferencias en los grupos se debieron realmente a la diferencia de medias o a una muestra grande, ya que con una muestra grande las posibilidades de encontrar diferencias son mayores que con una pequeña.

En la práctica podría verse así. Tomamos una muestra de 1.000 personas, medimos los niveles de hemoglobina y descubrimos que el intervalo de confianza para la diferencia de medias oscilaba entre 1,2 y 1,5 g/l. El nivel de significancia estadística en este caso p

Vemos que la concentración de hemoglobina ha aumentado, pero de forma casi imperceptible, por tanto, significancia estadística apareció precisamente debido al tamaño de la muestra.

Los intervalos de confianza se pueden calcular no sólo para las medias, sino también para las proporciones (y los índices de riesgo). Por ejemplo, nos interesa el intervalo de confianza de las proporciones de pacientes que lograron la remisión mientras tomaban un fármaco desarrollado. Supongamos que el IC del 95 % para las proporciones, es decir, para la proporción de estos pacientes, se encuentra en el rango de 0,60 a 0,80. Así, podemos decir que nuestra medicina tiene efecto terapéutico del 60 al 80 % de los casos.

Supongamos que tenemos una gran cantidad de artículos con una distribución normal de algunas características (por ejemplo, un almacén lleno de verduras del mismo tipo, cuyo tamaño y peso varía). Quiere conocer las características medias de todo el lote de productos, pero no tiene el tiempo ni las ganas de medir y pesar cada verdura. Entiendes que esto no es necesario. Pero, ¿cuántas piezas habría que llevar para un control aleatorio?

Antes de dar varias fórmulas útiles para esta situación, recordemos algunas notaciones.

En primer lugar, si midiéramos todo el almacén de hortalizas (este conjunto de elementos se llama población general), sabríamos con toda la precisión de que disponemos el peso medio de todo el lote. Llamemos a esto promedio X promedio .g es . - promedio general. Ya sabemos lo que está completamente determinado si se conocen su valor medio y su desviación. . Es cierto, aunque no somos de la generación X promedio ni. s No conocemos la población general. Solo podemos tomar una muestra determinada, medir los valores que necesitamos y calcular para esta muestra tanto el valor promedio X avg como la desviación estándar S select.

Se sabe que si nuestra muestra de verificación contiene una gran cantidad de elementos (generalmente n es mayor que 30) y se toman realmente aleatorio, entonces s la población general apenas se diferenciará de la selección S.

Además, para el caso de distribución normal podemos utilizar las siguientes fórmulas:

Con una probabilidad del 95%


Con una probabilidad del 99%



EN vista general con probabilidad P (t)


La relación entre el valor de t y el valor de probabilidad P(t), con el que queremos conocer el intervalo de confianza, se puede extraer de la siguiente tabla:


Por tanto, hemos determinado en qué rango se encuentra el valor medio de la población (con una probabilidad determinada).

A menos que tengamos una muestra lo suficientemente grande, no podemos decir que población tiene s = seleccionar Además, en este caso la cercanía de la muestra a la distribución normal es problemática. En este caso, también usamos S select en su lugar. s en la fórmula:




pero el valor de t para una probabilidad fija P(t) dependerá del número de elementos de la muestra n. Cuanto mayor sea n, más cercano estará el intervalo de confianza resultante al valor dado por la fórmula (1). Los valores t en este caso están tomados de otra tabla (prueba t de Student), que presentamos a continuación:

Valores de la prueba t de Student para probabilidad 0,95 y 0,99


Ejemplo 3. Se seleccionaron aleatoriamente 30 personas entre los empleados de la empresa. Según la muestra, resultó que el salario promedio (por mes) es de 30 mil rublos con una desviación estándar de 5 mil rublos. Determine el salario promedio en la empresa con una probabilidad de 0,99.

Solución: Por condición tenemos n = 30, X promedio. =30000, S=5000, P = 0,99. Para encontrar el intervalo de confianza utilizaremos la fórmula correspondiente a la prueba t de Student. De la tabla para n = 30 y P = 0,99 encontramos t = 2,756, por lo tanto,


aquellos. fideicomisario buscado intervalo 27484< Х ср.ген < 32516.

Entonces, con una probabilidad de 0,99 podemos decir que el intervalo (27484; 32516) contiene en sí mismo el salario medio de la empresa.

Esperamos que utilices este método y no es necesario que tengas una mesa contigo todo el tiempo. Los cálculos se pueden realizar automáticamente en Excel. Mientras esté en el archivo de Excel, haga clic en el botón fx en el menú superior. Luego, seleccione el tipo “estadístico” entre las funciones, y de la lista propuesta en la ventana - STUDAR DISCOVER. Luego, cuando se le solicite, colocando el cursor en el campo "probabilidad", ingrese el valor de la probabilidad inversa (es decir, en nuestro caso, en lugar de la probabilidad de 0,95, debe escribir la probabilidad de 0,05). Aparentemente hoja de cálculo se compila de tal manera que el resultado responde a la pregunta con qué probabilidad podemos cometer un error. De manera similar, en el campo Grado de libertad, ingrese un valor (n-1) para su muestra.



Nuevo en el sitio

>

Más popular