Hogar lengua cubierta La serie de variaciones consta de: Definición de serie de variación

La serie de variaciones consta de: Definición de serie de variación

Como resultado del dominio de este capítulo, el estudiante deberá: saber

  • indicadores de variación y su relación;
  • leyes básicas de distribución de características;
  • la esencia de los criterios de consentimiento; ser capaz de
  • calcular índices de variación y criterios de bondad de ajuste;
  • determinar las características de distribución;
  • evaluar las principales características numéricas de las series de distribución estadística;

propio

  • métodos de análisis estadístico de series de distribución;
  • lo esencial Análisis de variación;
  • Técnicas para verificar que las series de distribución estadística cumplan con las leyes básicas de distribución.

Indicadores de variación

En investigación estadística características de varios agregados estadísticos, el estudio de la variación en las características de los individuos unidades estadísticas población, así como la naturaleza de la distribución de unidades en esta característica. Variación - Estas son diferencias en los valores individuales de una característica entre unidades de la población que se estudia. El estudio de la variación es de gran importancia práctica. Por el grado de variación, se pueden juzgar los límites de variación de una característica, la homogeneidad de la población para una característica determinada, la tipicidad del promedio y la relación de factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y organizar poblaciones estadísticas.

Los resultados del resumen y agrupación de materiales de observación estadística, presentados en forma de series de distribución estadística, representan una distribución ordenada de las unidades de la población estudiada en grupos según criterios de agrupación (variantes). Si se toma una característica cualitativa como base para la agrupación, entonces dicha serie de distribución se llama atributivo(distribución por profesión, género, color, etc.). Si una serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional(distribución por altura, peso, salario, etc.). Construir una serie de variación significa organizar la distribución cuantitativa de unidades de población por valores característicos, contar el número de unidades de población con estos valores (frecuencia) y organizar los resultados en una tabla.

En lugar de la frecuencia de una variante, es posible utilizar su relación con el volumen total de observaciones, lo que se denomina frecuencia (frecuencia relativa).

Hay dos tipos serie de variación: discreto e intervalo. Serie discreta- Se trata de una serie de variación, cuya construcción se basa en características con cambio discontinuo (características discretas). Estos últimos incluyen el número de empleados de la empresa, la categoría arancelaria, el número de hijos de la familia, etc. Una serie de variación discreta representa una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda columna indica el número de unidades en la población con un valor específico del atributo. Si una característica cambia continuamente (cantidad de ingresos, antigüedad en el servicio, costo de los activos fijos de la empresa, etc., que dentro de ciertos límites puede tomar cualquier valor), entonces para esta característica es posible construir serie de variación de intervalo. Al construir una serie de variación de intervalo, la tabla también tiene dos columnas. El primero indica el valor del atributo en el intervalo “de - a” (opciones), el segundo indica el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (frecuencia de repetición): el número de repeticiones de una variante particular de los valores de los atributos. Los intervalos pueden ser cerrados o abiertos. Los intervalos cerrados están limitados en ambos lados, es decir tener un límite inferior (“desde”) y uno superior (“hacia”). Los intervalos abiertos tienen un límite: superior o inferior. Si las opciones están dispuestas en orden ascendente o descendente, entonces las filas se llaman clasificado.

Para las series de variación, existen dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulada. La frecuencia acumulada muestra cuántas observaciones el valor de la característica tomó valores menores que el valor especificado. La frecuencia acumulada se determina sumando los valores de frecuencia de una característica para un grupo determinado con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza Gravedad específica unidades de observación en las que los valores característicos no superan el límite superior del grupo de datos. Así, la frecuencia acumulada muestra la proporción de opciones en la totalidad que tienen un valor no mayor al dado. Frecuencia, frecuencia, densidades absolutas y relativas, frecuencia acumulada y frecuencia son características de la magnitud de la variante.

Las variaciones en las características de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel promedio de la serie, la desviación lineal promedio, la desviación estándar, la dispersión. , coeficientes de oscilación, variación, asimetría, curtosis, etc.

Se utilizan valores medios para caracterizar el centro de distribución. El promedio es una característica estadística generalizadora en la que se cuantifica el nivel típico de una característica que poseen los miembros de la población en estudio. Sin embargo, puede haber casos de coincidencia de medias aritméticas con diferentes patrones de distribución, por lo que las llamadas medias estructurales se calculan como características estadísticas de las series de variación: moda, mediana y cuantiles, que dividen la serie de distribución en iguales. partes (cuartiles, deciles, percentiles, etc.).

Moda - Este es el valor de una característica que ocurre en la serie de distribución con más frecuencia que sus otros valores. Para series discretas, esta es la opción con mayor frecuencia. En las series de variación de intervalos, para determinar la moda es necesario determinar primero el intervalo en el que se ubica, el llamado intervalo modal. En la serie de variación con a intervalos iguales el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero con la mayor densidad de distribución. Luego, la fórmula se utiliza para determinar la moda en series a intervalos iguales.

donde Mo es el valor de la moda; xMo - límite inferior del intervalo modal; h- ancho del intervalo modal; / Mo - frecuencia del intervalo modal; / Mo j es la frecuencia del intervalo premodal; / Mo+1 es la frecuencia del intervalo posmodal, y para una serie con intervalos desiguales en esta fórmula de cálculo, en lugar de las frecuencias / Mo, / Mo, / Mo, se deben utilizar densidades de distribución. Mente 0 _| , Mente 0> OMU+"

Si hay una moda única, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos, bimodal. Como regla general, la multimodalidad indica que la distribución en estudio no obedece a la ley. distribución normal. Las poblaciones homogéneas, por regla general, se caracterizan por distribuciones de un solo vértice. El multivértice también indica la heterogeneidad de la población en estudio. La aparición de dos o más vértices hace necesario reagrupar los datos para identificar grupos más homogéneos.

En una serie de variación de intervalo, la moda se puede determinar gráficamente mediante un histograma. Para hacer esto, dibuje dos líneas que se crucen desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular al eje de abscisas. El valor de la característica en el eje x correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar una población, se da preferencia a la moda en lugar de a la media aritmética como indicador generalizado.

Mediana - Este importancia central Característica, la posee el miembro central de la serie de distribución clasificada. En series discretas, para encontrar el valor de la mediana, primero determine su número de serie. Para hacer esto, si el número de unidades es impar, se suma uno a la suma de todas las frecuencias y el número se divide por dos. Si hay un número par de unidades seguidas, habrá dos unidades medianas, por lo que en este caso la mediana se define como el promedio de los valores de las dos unidades medianas. Así, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

En las series de intervalos, después de determinar el número de serie de la mediana, el intervalo medio se encuentra usando las frecuencias acumuladas (frecuencias), y luego usando la fórmula para calcular la mediana, se determina el valor de la mediana misma:

donde Me es el valor mediano; xyo- límite inferior del intervalo mediano; h- ancho del intervalo mediano; - la suma de las frecuencias de la serie de distribución; /D - frecuencia acumulada del intervalo premediano; / Yo - frecuencia del intervalo mediano.

La mediana se puede encontrar gráficamente usando un acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) del acumulado, desde el punto correspondiente al número ordinal de la mediana, se traza una línea recta paralela al eje de abscisas hasta que se cruza con el acumulado. A continuación, desde el punto de intersección de la línea indicada con el acumulado, se baja una perpendicular al eje de abscisas. El valor del atributo en el eje x correspondiente a la ordenada dibujada (perpendicular) es la mediana.

La mediana se caracteriza por las siguientes propiedades.

  • 1. No depende de los valores de los atributos que se encuentran a ambos lados del mismo.
  • 2. Tiene la propiedad de minimalidad, lo que significa que la suma de las desviaciones absolutas de los valores de los atributos de la mediana representa un valor mínimo en comparación con la desviación de los valores de los atributos de cualquier otro valor.
  • 3. Al combinar dos distribuciones con medianas conocidas, es imposible predecir de antemano el valor de la mediana de la nueva distribución.

Estas propiedades de la mediana se utilizan ampliamente en el diseño de ubicaciones de puntos. haciendo cola- escuelas, clínicas, gasolineras, puntos de agua, etc. Por ejemplo, si se planea construir una clínica en una determinada cuadra de la ciudad, entonces sería más conveniente ubicarla en un punto de la cuadra que no reduzca a la mitad la longitud de la cuadra, sino el número de residentes.

La relación entre la moda, la mediana y la media aritmética indica la naturaleza de la distribución de la característica en el agregado y nos permite evaluar la simetría de la distribución. Si x Yo entonces hay una asimetría por el lado derecho de la serie. Con distribución normal X - Yo - Mo.

Alineación basada en K. Pearson varios tipos Las curvas determinaron que para distribuciones moderadamente asimétricas son válidas las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda:

donde Me es el valor mediano; Mo - significado de moda; x aritmo: el valor de la media aritmética.

Si es necesario estudiar la estructura de la serie de variación con más detalle, calcule valores característicos similares a la mediana. Estos valores característicos dividen todas las unidades de distribución en números iguales; se denominan cuantiles o gradientes. Los cuantiles se dividen en cuartiles, deciles, percentiles, etc.

Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de forma similar a la mediana utilizando la fórmula para calcular el primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

donde Qi es el valor del primer cuartil; xq^- límite inferior del rango del primer cuartil; h- anchura del intervalo del primer cuarto; /, - frecuencias de la serie de intervalos;

Frecuencia acumulada en el intervalo anterior al primer intervalo cuartil; Jq ( - frecuencia del primer intervalo cuartil.

El primer cuartil muestra que el 25% de las unidades de población son menores que su valor y el 75% son mayores. El segundo cuartil es igual a la mediana, es decir Q 2 = A mí.

Por analogía, se calcula el tercer cuartil, habiendo encontrado primero el tercer intervalo trimestral:

¿Dónde está el límite inferior del rango del tercer cuartil? h- anchura del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; /X" - frecuencia acumulada en el intervalo anterior

GRAMO

intervalo del tercer cuartil; Jq es la frecuencia del intervalo del tercer cuartil.

El tercer cuartil muestra que el 75% de las unidades de población son menores que su valor y el 25% son más.

La diferencia entre el tercer y el primer cuartil es el rango intercuartil:

donde Aq es el valor del rango intercuartil; Pregunta 3 - valor del tercer cuartil; Q, es el valor del primer cuartil.

Los deciles dividen a la población en 10 partes iguales. Un decil es un valor de una característica en una serie de distribución que corresponde a décimas del tamaño de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor y el 90% son mayores, y el noveno decil revela que el 90% de las unidades de población son menores que su valor y el 10% son mayores. mayor que. La proporción entre el noveno y el primer decil, es decir El coeficiente decil se utiliza ampliamente en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% de la población más rica y el 10% de la menos rica. Los percentiles dividen la población clasificada en 100 partes iguales. El cálculo, significado y aplicación de los percentiles son similares a los deciles.

Cuartiles, deciles y otros Características estructurales se puede determinar gráficamente por analogía con la mediana utilizando acumulados.

Para medir el tamaño de la variación, se utilizan los siguientes indicadores: rango de variación, desviación lineal promedio, desviación estándar, dispersión. La magnitud del rango de variación depende enteramente de la aleatoriedad de la distribución de los miembros extremos de la serie. Este indicador es de interés en los casos en los que es importante saber cuál es la amplitud de las fluctuaciones en los valores de una característica:

Dónde R- el valor del rango de variación; x max - valor máximo del atributo; xtt- valor mínimo del atributo.

Al calcular el rango de variación, no se tiene en cuenta el valor de la gran mayoría de los miembros de la serie, mientras que la variación está asociada a cada valor del miembro de la serie. Los indicadores que son promedios obtenidos a partir de las desviaciones de los valores individuales de una característica de su valor promedio no tienen este inconveniente: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la variabilidad de un rasgo particular. Cuanto más fuerte es la fluctuación, más dimensiones absolutas desviaciones del promedio.

La desviación lineal promedio es la media aritmética de valores absolutos desviaciones de las opciones individuales de su valor medio.

Desviación lineal promedio para datos no agrupados

donde /pr es el valor de la desviación lineal promedio; x, - es el valor del atributo; X - PAG - número de unidades de la población.

Desviación lineal media de las series agrupadas

donde / vz - el valor de la desviación lineal promedio; x, es el valor del atributo; X - el valor promedio de la característica para la población en estudio; / - el número de unidades de población en un grupo separado.

Signos de desviaciones en en este caso se ignoran; de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal media, dependiendo de la agrupación de los datos analizados, se calcula mediante varias fórmulas: para datos agrupados y desagrupados. La desviación lineal promedio, debido a su condicionalidad, separada de otros indicadores de variación, se utiliza en la práctica relativamente raramente (en particular, para caracterizar el cumplimiento de las obligaciones contractuales para la uniformidad de la entrega; en el análisis del volumen de negocios comercio Exterior, composición de los trabajadores, ritmo de producción, calidad de los productos, teniendo en cuenta características tecnológicas producción, etcétera).

La desviación estándar caracteriza cuánto se desvían en promedio los valores individuales de la característica en estudio del valor promedio de la población y se expresa en unidades de medida de la característica en estudio. La desviación estándar, al ser una de las principales medidas de variación, se usa ampliamente para evaluar los límites de variación de una característica en una población homogénea, para determinar los valores de ordenadas de una curva de distribución normal, así como en cálculos relacionados con la organización de la observación de muestras y el establecimiento de la precisión de las características de las muestras. La desviación estándar de datos no agrupados se calcula utilizando el siguiente algoritmo: cada desviación de la media se eleva al cuadrado, se suman todos los cuadrados, después de lo cual la suma de los cuadrados se divide por el número de términos de la serie y se extrae la raíz cuadrada de la cociente:

donde a Iip es el valor de la desviación estándar; xj- valor de atributo; X- el valor medio de la característica de la población en estudio; PAG - número de unidades de la población.

Para datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

Dónde - valor de desviación estándar; xj- valor de atributo; X - el valor promedio de la característica para la población en estudio; fx- el número de unidades de población en un grupo particular.

La expresión bajo la raíz en ambos casos se llama varianza. Por tanto, la dispersión se calcula como el cuadrado medio de las desviaciones de los valores de los atributos de su valor medio. Para valores de atributos no ponderados (simples), la varianza se determina de la siguiente manera:

Para valores característicos ponderados

También existe un método especial simplificado para calcular la varianza: en general

para valores característicos no ponderados (simples) para valores característicos ponderados
utilizando el método de base cero

donde a 2 es el valor de dispersión; x, - es el valor del atributo; X - valor medio de la característica, h- valor del intervalo de grupo, t 1 - peso (A =

La dispersión tiene una expresión independiente en estadística y se refiere al número los indicadores más importantes variaciones. Se mide en unidades correspondientes al cuadrado de las unidades de medida de la característica en estudio.

La dispersión tiene las siguientes propiedades.

  • 1. La varianza de un valor constante es cero.
  • 2. Reducir todos los valores de una característica por el mismo valor A no cambia el valor de la dispersión. Esto significa que el cuadrado promedio de las desviaciones se puede calcular no a partir de valores dados de una característica, sino a partir de sus desviaciones de un número constante.
  • 3. Reducir cualquier valor característico en k veces reduce la varianza en k 2 veces y la desviación estándar está en k veces, es decir Todos los valores del atributo se pueden dividir por algún número constante (digamos, por el valor del intervalo de la serie), se puede calcular la desviación estándar y luego multiplicar por un número constante.
  • 4. Si calculamos el cuadrado promedio de las desviaciones de cualquier valor Y difiere en un grado u otro de la media aritmética, entonces siempre será mayor que el cuadrado promedio de las desviaciones calculadas a partir de la media aritmética. El cuadrado promedio de las desviaciones será mayor en una cantidad muy determinada: en el cuadrado de la diferencia entre el promedio y este valor tomado convencionalmente.

La variación de una característica alternativa consiste en la presencia o ausencia del inmueble estudiado en unidades de la población. Cuantitativamente, la variación de un atributo alternativo se expresa mediante dos valores: la presencia de una unidad del bien estudiado se denota con uno (1), y su ausencia se denota con cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad se denota por GRAMO. Por lo tanto, la varianza de un atributo alternativo es igual al producto de la proporción de unidades que poseen esta propiedad (P) por la proporción de unidades que no poseen esta propiedad. (GRAMO). La mayor variación de la población se logra en los casos en que una parte de la población, que constituye el 50% del volumen total de la población, tiene una característica, y otra parte de la población, también igual al 50%, no tiene esta característica. y la dispersión alcanza un valor máximo de 0,25, es decir. P = 0,5, GRAMO= 1 - P = 1 - 0,5 = 0,5 y o 2 = 0,5 0,5 = 0,25. El límite inferior de este indicador es cero, lo que corresponde a una situación en la que no hay variación en el agregado. La aplicación práctica de la varianza de una característica alternativa es construir intervalos de confianza al realizar la observación de muestras.

Cómo menos valor Cuanto mayor sea la varianza y la desviación estándar, más homogénea será la población y más típico será el promedio. En la práctica de la estadística, a menudo existe la necesidad de comparar variaciones varios signos. Por ejemplo, es interesante comparar las variaciones en la edad de los trabajadores y sus calificaciones, duración del servicio y salarios, costes y beneficios, duración del servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de variabilidad absoluta de características no son adecuados: es imposible comparar la variabilidad de la experiencia laboral, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, así como comparaciones de la variabilidad de una misma característica en varias poblaciones con diferentes promedios aritméticos, se utilizan indicadores de variación: el coeficiente de oscilación, coeficiente lineal variaciones y coeficiente de variación, que muestran en qué medida los valores extremos fluctúan alrededor del promedio.

Coeficiente de oscilación:

Dónde V R - valor del coeficiente de oscilación; R- valor del rango de variación; X -

Coeficiente de variación lineal".

Dónde Vj- el valor del coeficiente de variación lineal; I - el valor de la desviación lineal promedio; X - el valor promedio de la característica para la población en estudio.

El coeficiente de variación.:

Dónde va- coeficiente de valor de variación; a es el valor de la desviación estándar; X - el valor promedio de la característica para la población en estudio.

El coeficiente de oscilación es la relación porcentual del rango de variación con respecto al valor promedio de la característica que se está estudiando, y el coeficiente de variación lineal es la relación entre la desviación lineal promedio y el valor promedio de la característica que se está estudiando, expresada como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar con respecto al valor promedio de la característica que se está estudiando. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de diversas características. Utilizando el coeficiente de variación, se evalúa la homogeneidad de una población estadística. Si el coeficiente de variación es inferior al 33%, entonces la población objeto de estudio es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población en estudio es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede utilizarse como indicador general de esta población. Además, los coeficientes de variación se utilizan para comparar la variabilidad de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la duración del servicio de los trabajadores en dos empresas. Cuanto mayor sea el valor del coeficiente, más significativa será la variación de la característica.

A partir de los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral mediante la fórmula

donde Q 2 Y

El rango intercuartil está determinado por la fórmula

Se utiliza la desviación cuartil en lugar del rango de variación para evitar las desventajas asociadas con el uso de valores extremos:

Para series de variación de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de la frecuencia o frecuencia correspondiente dividido por el valor del intervalo. En series de intervalos desiguales, se utilizan densidades de distribución absolutas y relativas. La densidad de distribución absoluta es la frecuencia por unidad de longitud del intervalo. La densidad de distribución relativa es la frecuencia por unidad de longitud del intervalo.

Todo lo anterior es cierto para series de distribución cuya ley de distribución está bien descrita por la ley de distribución normal o se aproxima a ella.

El concepto de serie de variación. El primer paso para sistematizar los materiales de observación estadística es contar el número de unidades que tienen una característica particular. Disponiendo las unidades en orden ascendente o descendente de su característica cuantitativa y contando el número de unidades con un valor específico de la característica, obtenemos una serie de variación. Una serie de variación caracteriza la distribución de unidades de una determinada población estadística según alguna característica cuantitativa.

La serie de variación consta de dos columnas, la columna de la izquierda contiene los valores de la característica variable, denominadas variantes y denotadas (x), y la columna de la derecha contiene números absolutos que muestran cuántas veces ocurre cada variante. Los indicadores de esta columna se denominan frecuencias y se designan (f).

La serie de variaciones se puede presentar esquemáticamente en la forma de la Tabla 5.1:

Tabla 5.1

Tipo de serie de variación

Opciones (x)

Frecuencias (f)

En la columna de la derecha, también se pueden utilizar indicadores relativos que caracterizan la proporción de la frecuencia de las opciones individuales en la suma total de frecuencias. Estos indicadores relativos se denominan frecuencias y se denotan convencionalmente por , es decir . La suma de todas las frecuencias es igual a uno. Las frecuencias también se pueden expresar como porcentajes, y luego su suma será igual al 100%.

Pueden aparecer signos variables personaje diferente. Las variantes de algunas características se expresan en números enteros, por ejemplo, el número de habitaciones de un apartamento, el número de libros publicados, etc. Estos signos se llaman discontinuos o discretos. Las variantes de otras características pueden adoptar cualquier valor dentro de ciertos límites, como, por ejemplo, la implementación de tareas planificadas, salario etc. Estos signos se llaman continuos.

Series de variación discreta. Si las variantes de la serie de variación se expresan en la forma cantidades discretas, entonces dicha serie de variación se llama discreta, apariencia presentado en la tabla. 5.2:

Tabla 5.2

Distribución de estudiantes según notas de exámenes

Calificaciones (x)

Número de estudiantes (f)

En % del total ()

La naturaleza de la distribución en series discretas se representa gráficamente en forma de polígono de distribución, Fig. 5.1.

Arroz. 5.1. Distribución de estudiantes según calificaciones obtenidas en el examen.

Serie de variación de intervalos. Para características continuas, las series de variación se construyen como de intervalo, es decir, los valores de la característica en ellos se expresan en forma de intervalos “desde y hasta”. En este caso, el valor mínimo de la característica en dicho intervalo se denomina límite inferior del intervalo y el máximo se denomina limite superior intervalo.

Las series de variación de intervalos se construyen tanto para características discontinuas (discretas) como para aquellas que varían en un rango amplio. Las filas de intervalos pueden tener intervalos iguales o desiguales. En la práctica económica se utilizan intervalos más desiguales, que aumentan o disminuyen progresivamente. Esta necesidad surge especialmente en los casos en los que la fluctuación de una característica se produce de forma desigual y dentro de grandes límites.

Consideremos el tipo de serie de intervalos con intervalos iguales, tabla. 5.3:

Tabla 5.3

Distribución de trabajadores por producción

Salida, t.r. (X)

Número de trabajadores (f)

Frecuencia acumulada (f´)

La serie de distribución de intervalos se representa gráficamente en forma de histograma, Fig. 5.2.

Fig.5.2. Distribución de trabajadores por producción

Frecuencia acumulada (acumulada). En la práctica, es necesario transformar las series de distribución en serie acumulativa, construido según frecuencias acumuladas. Con su ayuda, puede determinar promedios estructurales que facilitan el análisis de datos de series de distribución.

Las frecuencias acumuladas se determinan sumando secuencialmente a las frecuencias (o frecuencias) del primer grupo estos indicadores de los grupos posteriores de la serie de distribución. Los acumulados y las ojivas se utilizan para ilustrar las series de distribución. Para construirlos, los valores de la característica discreta (o los extremos de los intervalos) se marcan en el eje de abscisas y los totales acumulados de frecuencias (acumulados) se marcan en el eje de ordenadas, Fig. 5.3.

Arroz. 5.3. Distribución acumulada de trabajadores por producción

Si se invierten las escalas de frecuencias y opciones, es decir el eje de abscisas refleja las frecuencias acumuladas y el eje de ordenadas muestra los valores de las variantes, luego la curva que caracteriza el cambio de frecuencias de un grupo a otro se llamará ojiva de distribución, Fig. 5.4.

Arroz. 5.4. Ogiva de distribución de trabajadores por producción.

Las series de variación con intervalos iguales proporcionan uno de los requisitos más importantes para serie estadística distribuciones, asegurando su comparabilidad en el tiempo y el espacio.

Densidad de distribución. Sin embargo, las frecuencias de intervalos desiguales individuales en la serie nombrada no son directamente comparables. En tales casos, para garantizar la comparabilidad necesaria, se calcula la densidad de distribución, es decir, determine cuántas unidades en cada grupo hay por unidad de valor de intervalo.

Al construir una gráfica de la distribución de una serie de variación con intervalos desiguales, la altura de los rectángulos se determina en proporción no a las frecuencias, sino a los indicadores de densidad de la distribución de los valores de la característica en estudio en el correspondiente. intervalos.

La elaboración de una serie de variaciones y su representación gráfica es el primer paso en el procesamiento de los datos iniciales y la primera etapa en el análisis de la población en estudio. Próximo paso En el análisis de variación de series se encuentra la determinación de los principales indicadores generales, denominados características de la serie. Estas características deberían dar una idea del valor medio de la característica entre unidades de población.

valor promedio. El valor promedio es una característica generalizada de la característica que se está estudiando en la población en estudio, reflejando su nivel típico por unidad de la población en condiciones específicas de lugar y tiempo.

El valor medio siempre tiene un nombre y tiene la misma dimensión que la característica de las unidades individuales de la población.

Antes de calcular los valores medios, es necesario agrupar las unidades de la población en estudio, identificando grupos cualitativamente homogéneos.

El promedio calculado para la población en su conjunto se denomina promedio general y para cada grupo, promedios grupales.

Hay dos tipos de promedios: de potencia (media aritmética, media armónica, media geométrica, media cuadrática); estructural (moda, mediana, cuartiles, deciles).

La elección del promedio para el cálculo depende del propósito.

Tipos de medias de potencia y métodos para su cálculo. En la práctica del procesamiento estadístico. material recolectado surgir varias tareas, que requieren diferentes promedios para resolverse.

La estadística matemática deriva varios promedios a partir de fórmulas de promedio de potencia:

¿Dónde está el valor promedio? x – opciones individuales (valores de características); z – exponente (con z = 1 – media aritmética, z = 0 media geométrica, z = - 1 – media armónica, z = 2 – media cuadrática).

Sin embargo, la cuestión de qué tipo de promedio debe aplicarse en cada caso individual se resuelve mediante análisis específico la población objeto de estudio.

El tipo de promedio más común en estadística es significado aritmetico. Se calcula en los casos en que el volumen de la característica promediada se forma como la suma de sus valores para unidades individuales de la población estadística en estudio.

Dependiendo de la naturaleza de los datos originales, la media aritmética se determina de varias maneras:

Si los datos están desagrupados, entonces el cálculo se realiza mediante la fórmula del promedio simple

Cálculo de la media aritmética en serie discreta ocurre de acuerdo con la fórmula 3.4.

Cálculo de la media aritmética en una serie de intervalos. En una serie de variación de intervalo, donde el valor de una característica en cada grupo se considera convencionalmente como la mitad del intervalo, la media aritmética puede diferir de la media calculada a partir de datos no agrupados. Además, cuanto mayor sea el intervalo en los grupos, mayores serán las posibles desviaciones del promedio calculado a partir de datos agrupados respecto del promedio calculado a partir de datos no agrupados.

Al calcular el promedio sobre una serie de variación de intervalo, para realizar los cálculos necesarios, se pasa de los intervalos a sus puntos medios. Y luego el promedio se calcula usando la fórmula del promedio aritmético ponderado.

Propiedades de la media aritmética. La media aritmética tiene algunas propiedades que permiten simplificar los cálculos;

1. La media aritmética de números constantes es igual a este número constante.

Si x = a. Entonces .

2. Si los pesos de todas las opciones se cambian proporcionalmente, es decir aumenta o disminuye el mismo número de veces, entonces la media aritmética de la nueva serie no cambiará.

Si todos los pesos f se reducen k veces, entonces .

3. La suma de las desviaciones positivas y negativas de las opciones individuales del promedio, multiplicada por las ponderaciones, es igual a cero, es decir

Si entonces. De aquí.

Si todas las opciones se reducen o aumentan en cualquier número, entonces la media aritmética de la nueva serie disminuirá o aumentará en la misma cantidad.

Reduzcamos todas las opciones. X en a, es decir. X´ = Xa.

Entonces

La media aritmética de la serie original se puede obtener sumando a la media reducida el número previamente restado de las opciones a, es decir. .

5. Si todas las opciones se reducen o aumentan en k veces, entonces la media aritmética de la nueva serie disminuirá o aumentará en la misma cantidad, es decir V k una vez.

Déjalo ser entonces .

Por lo tanto, es decir para obtener el promedio de la serie original, se debe incrementar en k una vez.

Significado armonico. La media armónica es el recíproco de la media aritmética. Se utiliza cuando la información estadística no contiene frecuencias para variantes individuales de la población, sino que se presenta como su producto (M = xf). La media armónica se calculará mediante la fórmula 3.5

La aplicación práctica de la media armónica es calcular algunos índices, en particular el índice de precios.

Significado geometrico. Cuando se utiliza la media geométrica, los valores individuales de una característica son, por regla general, valores relativos de la dinámica, construidos en forma de valores en cadena, como una relación con el nivel anterior de cada nivel en una serie de dinámicas. El promedio caracteriza así la tasa de crecimiento promedio.

Promedio cantidad geométrica También se utiliza para determinar el valor equidistante de los valores máximo y mínimo de una característica. Por ejemplo, Compañía de seguros Celebra contratos para la prestación de servicios de seguros de automóviles. Dependiendo del evento asegurado específico pago del seguro puede oscilar entre $ 10 000 y $ 100 000 por año. El monto promedio de los pagos del seguro será de USD.

La media geométrica es una cantidad utilizada como promedio de razones o en series de distribución, representada como progresión geométrica, cuando z = 0. Es conveniente utilizar este promedio cuando no se presta atención a las diferencias absolutas, sino a las proporciones de dos números.

Las fórmulas para el cálculo son las siguientes.

¿Dónde se promedian las variantes de la característica? – producto de opciones; F– frecuencia de opciones.

La media geométrica se utiliza en los cálculos de las tasas de crecimiento anual promedio.

Cuadrado medio. La fórmula de la media cuadrática se utiliza para medir el grado de fluctuación de los valores individuales de una característica alrededor de la media aritmética en la serie de distribución. Por lo tanto, al calcular los indicadores de variación, el promedio se calcula a partir de las desviaciones al cuadrado de los valores individuales de una característica de la media aritmética.

El valor cuadrático medio se calcula mediante la fórmula

En la investigación económica, el cuadrado medio modificado se utiliza ampliamente para calcular indicadores de variación de una característica, como la dispersión y la desviación estándar.

Regla de la mayoría. Existe la siguiente relación entre los promedios de potencia: cuanto mayor es el exponente, mayor es el valor del promedio, Tabla 5.4:

Tabla 5.4

Relación entre promedios

valor z

Relación entre promedios

Esta relación se llama regla de mayoría.

Promedios estructurales. Para caracterizar la estructura de la población se utilizan indicadores especiales, que pueden denominarse promedios estructurales. Estos indicadores incluyen moda, mediana, cuartiles y deciles.

Moda. La moda (Mo) es el valor que aparece con más frecuencia de una característica entre las unidades de población. La moda es el valor del atributo que corresponde al punto máximo de la curva de distribución teórica.

La moda se utiliza ampliamente en la práctica comercial al estudiar la demanda de los consumidores (al determinar las tallas de ropa y zapatos que tienen una gran demanda) y al registrar los precios. Puede haber varias modificaciones en total.

Cálculo de la moda en una serie discreta. En una serie discreta, la moda es la variante con mayor frecuencia. Consideremos encontrar una moda en una serie discreta.

Cálculo de la moda en una serie de intervalos. En una serie de variación de intervalo, la moda se considera aproximadamente la versión central del intervalo modal, es decir, el intervalo que tiene la frecuencia más alta (frecuencia). Dentro del intervalo, es necesario encontrar el valor del atributo que es la moda. Para una serie de intervalos, la moda estará determinada por la fórmula

¿Dónde está el límite inferior del intervalo modal? – el valor del intervalo modal; – frecuencia correspondiente al intervalo modal; – frecuencia que precede al intervalo modal; – frecuencia del intervalo siguiente al modal.

Mediana. La mediana () es el valor del atributo de la unidad intermedia de la serie clasificada. Una serie clasificada es una serie en la que los valores característicos se escriben en orden ascendente o descendente. O la mediana es un valor que divide el número de una serie de variación ordenada en dos partes iguales: una parte tiene un valor de la característica variable que es menor que la opción promedio y la otra tiene un valor que es mayor.

Para encontrar la mediana, primero determine su número ordinal. Para ello, si el número de unidades es impar, a la suma de todas las frecuencias se le suma una y se divide todo entre dos. Con un número par de unidades, la mediana se calcula como el valor del atributo de una unidad, cuyo número de serie está determinado por la suma total de frecuencias dividida por dos. Conociendo el número de serie de la mediana, es fácil encontrar su valor utilizando las frecuencias acumuladas.

Cálculo de la mediana en una serie discreta. Según la encuesta por muestreo se obtuvieron datos sobre la distribución de familias por número de hijos, tabla. 5.5. Para determinar la mediana, primero determinamos su número ordinal.

En estas familias el número de hijos es igual a 2, por tanto = 2. Así, en el 50% de las familias el número de hijos no supera los 2.

– frecuencia acumulada anterior al intervalo mediano;

Por un lado, esta es una propiedad muy positiva porque en este caso se tiene en cuenta el efecto de todas las causas que afectan a todas las unidades de la población objeto de estudio. Por otro lado, incluso una observación incluida accidentalmente en los datos originales puede distorsionar significativamente la idea del nivel de desarrollo del rasgo estudiado en la población considerada (especialmente en series cortas).

Cuartiles y deciles. Por analogía con la búsqueda de la mediana en una serie de variación, se puede encontrar el valor de una característica para cualquier unidad de la serie clasificada. Entonces, en particular, puedes encontrar el valor del atributo para unidades que dividen una serie en 4 partes iguales, en 10, etc.

Cuartiles. Las opciones que dividen la serie clasificada en cuatro partes iguales se denominan cuartiles.

En este caso, distinguen: el cuartil inferior (o primero) (Q1): el valor del atributo para una unidad de la serie clasificada, dividiendo la población en la proporción de ¼ a ¾ y el cuartil superior (o tercero) ( Q3) - el valor del atributo para la unidad de la serie clasificada, dividiendo la población en la proporción ¾ a ¼.

– frecuencias de intervalos cuartiles (inferior y superior)

Los intervalos que contienen Q1 y Q3 están determinados por las frecuencias (o frecuencias) acumuladas.

Deciles. Además de los cuartiles, se calculan los deciles, opciones que dividen la serie clasificada en 10 partes iguales.

Se designan con D, el primer decil D1 divide la serie en la proporción de 1/10 y 9/10, el segundo D2 - 2/10 y 8/10, etc. Se calculan según el mismo esquema que la mediana y los cuartiles.

Tanto la mediana, como los cuartiles y los deciles pertenecen a la denominada estadística ordinal, entendida como una opción que ocupa un determinado lugar ordinal en la serie clasificada.

​ Serie de variación: una serie en la que se comparan (por grado de aumento o disminución) opciones y correspondiente frecuencias

Las opciones son expresiones cuantitativas individuales de una característica. Indicado por una letra latina V . La comprensión clásica del término "variante" supone que cada valor único de una característica se denomina variante, sin tener en cuenta el número de repeticiones.

Por ejemplo, en la serie de variación de los indicadores de presión arterial sistólica medidos en diez pacientes:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Sólo hay 6 valores disponibles:

110, 120, 130, 140, 160, 170.

​La frecuencia es un número que indica cuántas veces se repite una opción. Denotado por una letra latina PAG . La suma de todas las frecuencias (que, por supuesto, es igual al número de todas las estudiadas) se denota como norte.

    En nuestro ejemplo, las frecuencias tomarán los siguientes valores:
  • para la opción 110 frecuencia P = 1 (el valor 110 ocurre en un paciente),
  • para la opción 120 frecuencia P = 2 (el valor 120 ocurre en dos pacientes),
  • para la opción 130 frecuencia P = 3 (el valor 130 ocurre en tres pacientes),
  • para la opción 140 frecuencia P = 2 (el valor 140 ocurre en dos pacientes),
  • para la opción 160 frecuencia P = 1 (el valor 160 ocurre en un paciente),
  • para la opción 170 frecuencia P = 1 (el valor 170 ocurre en un paciente),

Tipos de series de variación:

  1. simple- esta es una serie en la que cada opción ocurre solo una vez (todas las frecuencias son iguales a 1);
  2. suspendido- una serie en la que una o más opciones aparecen más de una vez.

La serie de variación se utiliza para describir grandes conjuntos de números; es de esta forma que se presentan inicialmente los datos recopilados de la mayoría de los estudios médicos. Para caracterizar las series de variación, se calculan indicadores especiales, incluidos valores promedio, indicadores de variabilidad (la llamada dispersión) e indicadores de representatividad de los datos muestrales.

Indicadores de series de variación.

1) La media aritmética es un indicador general que caracteriza el tamaño de la característica en estudio. La media aritmética se denota como METRO , es el tipo de promedio más común. La media aritmética se calcula como la relación entre la suma de los valores de los indicadores de todas las unidades de observación y el número de todos los sujetos estudiados. El método para calcular la media aritmética difiere para una serie de variación simple y ponderada.

Fórmula para el cálculo media aritmética simple:

Fórmula para el cálculo media aritmética ponderada:

METRO = Σ(V * P)/ norte

​ 2) La moda es otro valor promedio de la serie de variación, correspondiente a la opción que se repite con mayor frecuencia. O, dicho de otra manera, esta es la opción que corresponde a la frecuencia más alta. Denotado como Mes . La moda se calcula sólo para series ponderadas, ya que en filas simples ninguna de las opciones se repite y todas las frecuencias son iguales a uno.

Por ejemplo, en la serie de variación de valores de frecuencia cardíaca:

80, 84, 84, 86, 86, 86, 90, 94;

el valor de la moda es 86, ya que esta opción ocurre 3 veces, por lo tanto su frecuencia es la más alta.

3) Mediana: el valor de la opción que divide la serie de variación por la mitad: a ambos lados hay el mismo número de opciones. La mediana, al igual que la media aritmética y la moda, se refiere a valores medios. Denotado como A mí

4) Desviación estándar (sinónimos: Desviación Estándar, desviación sigma, sigma) - una medida de la variabilidad de la serie de variación. Es un indicador integral que combina todos los casos de desviación del promedio. De hecho, responde a la pregunta: ¿hasta qué punto y con qué frecuencia se propagan las variantes de la media aritmética? Denotado por una letra griega σ ("sigma").

Si el tamaño de la población es superior a 30 unidades, la desviación estándar se calcula mediante la siguiente fórmula:

Para poblaciones pequeñas (30 unidades de observación o menos), la desviación estándar se calcula utilizando una fórmula diferente:

Serie de variaciones: definición, tipos, características principales. Método de cálculo
moda, mediana, media aritmética en investigaciones médicas y estadísticas
(mostrar con un ejemplo condicional).

Una serie de variación es una serie de valores numéricos de la característica en estudio, que difieren entre sí en magnitud y están dispuestos en una secuencia determinada (en orden ascendente o descendente). Cada valor numérico de una serie se llama variante (V), y los números que muestran con qué frecuencia ocurre una variante particular en una serie determinada se llaman frecuencia (p).

El número total de casos de observación que componen la serie de variación se denota con la letra n. La diferencia en el significado de las características que se estudian se llama variación. Si una característica variable no tiene una medida cuantitativa, la variación se llama cualitativa y la serie de distribución se llama atributiva (por ejemplo, distribución por resultado de enfermedad, estado de salud, etc.).

Si una característica variable tiene una expresión cuantitativa, dicha variación se llama cuantitativa y la serie de distribución se llama variacional.

Las series de variaciones se dividen en discontinuas y continuas, según la naturaleza de la característica cuantitativa; simples y ponderadas, según la frecuencia de aparición de la variante.

En una serie de variación simple, cada opción ocurre solo una vez (p=1), en una serie ponderada, la misma opción ocurre varias veces (p>1). Se analizarán más ejemplos de tales series en el texto. Si la característica cuantitativa es continua, es decir Entre cantidades enteras existen cantidades fraccionarias intermedias; la serie de variación se llama continua.

Por ejemplo: 10,0 – 11,9

14,0 – 15,9, etc.

Si la característica cuantitativa es discontinua, es decir sus valores individuales (variantes) difieren entre sí en un número entero y no tienen valores fraccionarios intermedios, la serie de variaciones se llama discontinua o discreta;

Usando los datos de frecuencia cardíaca del ejemplo anterior

para 21 estudiantes construiremos una serie de variación (Tabla 1).

tabla 1

Distribución de estudiantes de medicina por frecuencia cardíaca (lpm)

Por lo tanto, construir una serie de variación significa que los disponibles valores numéricos(opciones) sistematizar, organizar, es decir organizar en una secuencia determinada (en orden ascendente o descendente) con sus frecuencias correspondientes. En el ejemplo considerado, las opciones están dispuestas en orden ascendente y se expresan como números enteros discontinuos (discretos), cada opción aparece varias veces, es decir Estamos ante una serie de variación ponderada, discontinua o discreta.

Como regla general, si el número de observaciones en la población estadística que estamos estudiando no supera las 30, entonces basta con organizar todos los valores de la característica en estudio en una serie de variación ascendente, como en la Tabla. 1, u orden descendente.

Con un gran número de observaciones (n>30), el número de variantes que aparecen puede ser muy grande, en este caso se compila un intervalo o una serie de variaciones agrupadas en las que, para simplificar el procesamiento posterior y aclarar la naturaleza de la distribución, las variantes se combinan en grupos.

Normalmente, el número de opciones de grupo oscila entre 8 y 15.

Debería haber al menos 5 de ellos, porque... de lo contrario, será una ampliación demasiado aproximada y excesiva, lo que distorsiona la imagen general de la variación y afecta en gran medida la precisión de los valores medios. Cuando el número de variantes del grupo es superior a 20-25, la precisión del cálculo de los valores promedio aumenta, pero las características de la variación de la característica se distorsionan significativamente y el procesamiento matemático se vuelve más complicado.

Al compilar una serie agrupada, es necesario tener en cuenta

− los grupos de opciones deben organizarse en un orden determinado (ascendente o descendente);

− los intervalos en los grupos de opciones deben ser los mismos;

− los valores de los límites del intervalo no deben coincidir, porque no quedará claro en qué grupos clasificar las variantes individuales;

− es necesario tener en cuenta las características cualitativas del material recolectado al establecer límites de intervalo (por ejemplo, al estudiar el peso de adultos, es aceptable un intervalo de 3 a 4 kg, y para niños en los primeros meses de vida no debe exceder los 100 g)

Construyamos una serie agrupada (intervalos) que caracterice los datos sobre la frecuencia del pulso (latidos por minuto) de 55 estudiantes de medicina antes del examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Para construir una serie agrupada necesitas:

1. Determinar el tamaño del intervalo;

2. Determine el medio, el principio y el final de los grupos de la serie de variaciones.

● El tamaño del intervalo (i) está determinado por el número de supuestos grupos (r), cuyo número se establece en función del número de observaciones (n) según una tabla especial.

Número de grupos en función del número de observaciones:

En nuestro caso, para 55 alumnos, puedes crear de 8 a 10 grupos.

El valor del intervalo (i) está determinado por la siguiente fórmula:

i = V máx-V mín/r

En nuestro ejemplo, el valor del intervalo es 82-58/8= 3.

Si el valor del intervalo es un número fraccionario, el resultado debe redondearse a un número entero.

Hay varios tipos de promedios:

● media aritmética,

● media geométrica,

● media armónica,

● media cuadrática,

● promedio progresivo,

● mediana

EN estadísticas medicas Los promedios aritméticos son los más utilizados.

La media aritmética (M) es un valor generalizador que determina lo que es típico para toda la población. Los principales métodos para calcular M son: el método de la media aritmética y el método de los momentos (desviaciones condicionales).

El método de la media aritmética se utiliza para calcular la media aritmética simple y la media aritmética ponderada. La elección del método para calcular la media aritmética depende del tipo de serie de variación. En el caso de una serie de variación simple, en la que cada opción ocurre sólo una vez, la media aritmética simple está determinada por la fórmula:

donde: M – valor medio aritmético;

V – valor de la característica variable (variantes);

Σ – indica la acción – sumatoria;

n – número total de observaciones.

Un ejemplo de cálculo de la media aritmética simple. Frecuencia respiratoria (número de movimientos respiratorios por minuto) en 9 hombres de 35 años: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Para determinar el nivel medio de frecuencia respiratoria en hombres de 35 años, es necesario:

1. Construya una serie de variaciones, ordenando todas las opciones en orden ascendente o descendente. Hemos obtenido una serie de variaciones simple, porque. Los valores de las opciones ocurren solo una vez.

M = ∑V/n = 171/9 = 19 respiraciones por minuto

Conclusión. La frecuencia respiratoria en hombres de 35 años es en promedio 19 movimientos respiratorios en un minuto.

Si se repiten los valores individuales de una variante, no es necesario anotar cada variante en una línea, basta con enumerar los tamaños que aparecen de la variante (V) y al lado indicar el número de sus repeticiones (p; ). Tal serie de variación, en la que las opciones se pesan, por así decirlo, por el número de frecuencias correspondientes a ellas, se denomina serie de variación ponderada, y el valor promedio calculado es la media aritmética ponderada.

La media aritmética ponderada está determinada por la fórmula: M= ∑Vp/n

donde n es el número de observaciones, igual a la suma frecuencias – Σр.

Un ejemplo de cálculo de la media aritmética ponderada.

La duración de la incapacidad (en días) en 35 pacientes con enfermedades respiratorias agudas (IRA) atendidos por un médico local durante el primer trimestre del año en curso fue: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 días .

El método para determinar la duración promedio de la discapacidad en pacientes con infecciones respiratorias agudas es el siguiente:

1. Construyamos una serie de variación ponderada, porque Los valores individuales de la opción se repiten varias veces. Para ello, puedes ordenar todas las opciones en orden ascendente o descendente con sus correspondientes frecuencias.

En nuestro caso, las opciones están ordenadas en orden ascendente.

2. Calcule el promedio ponderado aritmético usando la fórmula: M = ∑Vp/n = 233/35 = 6,7 días

Distribución de pacientes con infecciones respiratorias agudas por duración de la discapacidad:

Duración de la incapacidad (V) Número de pacientes (p) vicepresidente
∑p = norte = 35 ∑Vp = 233

Conclusión. La duración de la discapacidad en pacientes con enfermedades respiratorias agudas fue en promedio de 6,7 días.

El modo (Mo) es la opción más común en la serie de variaciones. Para la distribución presentada en la tabla, la moda corresponde a una opción igual a 10 y ocurre con más frecuencia que otras: 6 veces.

Distribución de pacientes por tiempo de estancia en una cama de hospital (en días)

V
pag

A veces es difícil determinar la magnitud exacta de una moda porque puede haber varias observaciones "más comunes" en los datos que se estudian.

La mediana (Me) es un indicador no paramétrico que divide una serie de variaciones en dos mitades iguales: el mismo número de variantes se ubica a ambos lados de la mediana.

Por ejemplo, para la distribución que se muestra en la tabla, la mediana es 10, porque a ambos lados de este valor está la opción 14, es decir el numero 10 ocupa posición central en esta serie es su mediana.

Dado que el número de observaciones en este ejemplo es par (n=34), la mediana se puede determinar de la siguiente manera:

Yo = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Esto significa que la mitad de la serie cae en la decimoséptima opción, que corresponde a una mediana igual a 10. Para la distribución presentada en la tabla, la media aritmética es igual a:

M = ∑Vp/n = 334/34 = 10,1

Entonces, para 34 observaciones de la tabla. 8, tenemos: Mo=10, Me=10, la media aritmética (M) es 10,1. En nuestro ejemplo, los tres indicadores resultaron ser iguales o cercanos entre sí, aunque son completamente diferentes.

La media aritmética es la suma efectiva de todas las influencias; en su formación participan todas las opciones, sin excepción, incluidas las extremas, a menudo atípicas de un determinado fenómeno o población.

La moda y la mediana, a diferencia de la media aritmética, no dependen del valor de todos los valores individuales de la característica variable (los valores de las variantes extremas y el grado de dispersión de la serie). La media aritmética caracteriza toda la masa de observaciones, la moda y la mediana caracterizan la mayor parte

Un lugar especial en el análisis estadístico pertenece a la determinación del nivel medio de la característica o fenómeno en estudio. El nivel medio de un rasgo se mide mediante valores medios.

El valor promedio caracteriza el nivel cuantitativo general de la característica en estudio y es una propiedad grupal de la población estadística. Nivela, debilita las desviaciones aleatorias de las observaciones individuales en una dirección u otra y resalta la propiedad principal y típica de la característica en estudio.

Los promedios se utilizan ampliamente:

1. Evaluar el estado de salud de la población: características del desarrollo físico (altura, peso, circunferencia pecho etc.), identificando la prevalencia y duración varias enfermedades, análisis indicadores demográficos(movimiento natural de la población, esperanza de vida media, reproducción de la población, tamaño medio de la población, etc.).

2. Estudiar las actividades de las instituciones médicas, personal médico y evaluar la calidad de su trabajo, planificar y determinar las necesidades de la población en materia de varios tipos atención médica(número medio de solicitudes o visitas por residente al año, duración promedio la estancia del paciente en el hospital, duración promedio examen del paciente, disponibilidad media de médicos, camas, etc.).

3. Caracterizar el estado sanitario y epidemiológico (contenido medio de polvo en el aire del taller, superficie media por persona, consumo medio de proteínas, grasas e hidratos de carbono, etc.).

4. Determinar indicadores médicos y fisiológicos en condiciones normales y patológicas, al procesar datos de laboratorio, para establecer la confiabilidad de los resultados. encuesta de muestra en estudios sociales e higiénicos, clínicos y experimentales.

El cálculo de los valores medios se realiza a partir de series de variación. Serie de variación es un conjunto estadístico cualitativamente homogéneo, cuyas unidades individuales caracterizan las diferencias cuantitativas de la característica o fenómeno que se está estudiando.

La variación cuantitativa puede ser de dos tipos: discontinua (discreta) y continua.

Un atributo discontinuo (discreto) se expresa solo como un número entero y no puede tener valores intermedios (por ejemplo, el número de visitas, la población del sitio, el número de niños en la familia, la gravedad de la enfermedad en puntos , etc.).

Una característica continua puede tomar cualquier valor dentro de ciertos límites, incluidos los fraccionarios, y se expresa solo aproximadamente (por ejemplo, peso; para adultos se puede limitar a kilogramos y para recién nacidos, gramos; altura, presion arterial, tiempo dedicado a ver al paciente, etc.).



El valor digital de cada característica o fenómeno individual incluido en la serie de variación se llama variante y se designa con la letra V . Otras notaciones también se encuentran en la literatura matemática, por ejemplo X o y.

Una serie de variaciones, donde cada opción se indica una vez, se llama simple. Estas series se utilizan en la mayoría de los problemas estadísticos en el caso del procesamiento de datos por computadora.

A medida que aumenta el número de observaciones, tienden a ocurrir valores variantes repetidos. En este caso se crea series de variaciones agrupadas, donde se indica el número de repeticiones (frecuencia, denotada por la letra “ R »).

Serie de variación clasificada consta de opciones dispuestas en orden ascendente o descendente. Mediante ranking se pueden compilar series tanto simples como agrupadas.

Serie de variación de intervalos compilado para simplificar los cálculos posteriores realizados sin el uso de una computadora, con un número muy grande de unidades de observación (más de 1000).

Serie de variación continua incluye valores de opciones, que pueden ser cualquier valor.

Si en una serie de variaciones los valores de una característica (variantes) se dan en forma de números específicos individuales, entonces dicha serie se llama discreto.

Características generales Los valores de la característica reflejados en la serie de variación son valores medios. Entre ellos, los más utilizados son: media aritmética METRO, moda Mes y mediana A mí. Cada una de estas características es única. No pueden reemplazarse entre sí y sólo juntos representan las características de la serie de variaciones de forma bastante completa y condensada.

Moda (Mes) nombrar el valor de las opciones que ocurren con más frecuencia.

Mediana (A mí) – este es el valor de la opción que divide la serie de variación clasificada por la mitad (a cada lado de la mediana hay la mitad de la opción). En casos raros, cuando hay una serie de variación simétrica, la moda y la mediana son iguales entre sí y coinciden con el valor de la media aritmética.

Mayoría característica típica la opción de valor es significado aritmetico valor( METRO ). En la literatura matemática se denota .

Significado aritmetico (METRO, ) es una característica cuantitativa general de una determinada característica de los fenómenos en estudio, constituyendo una población estadística cualitativamente homogénea. Existen medias aritméticas simples y ponderadas. La media aritmética simple se calcula para una serie de variación simple sumando todas las opciones y dividiendo esta suma por total Opción incluida en esta serie de variaciones. Los cálculos se realizan según la fórmula:

,

Dónde: METRO - media aritmética simple;

Σ V - opción de cantidad;

norte- número de observaciones.

En las series de variación agrupadas se determina la media aritmética ponderada. La fórmula para calcularlo:

,

Dónde: METRO - media aritmética ponderada;

Σ vicepresidente - la suma de los productos de la variante por sus frecuencias;

norte- número de observaciones.

Con un gran número de observaciones, en el caso de cálculos manuales, se puede utilizar el método de los momentos.

La media aritmética tiene las siguientes propiedades:

· suma de desviaciones del promedio ( Σ d ) es igual a cero (ver Tabla 15);

· al multiplicar (dividir) todas las opciones por el mismo factor (divisor), la media aritmética se multiplica (divide) por el mismo factor (divisor);

· si sumas (restas) el mismo número a todas las opciones, la media aritmética aumenta (disminuye) en el mismo número.

Los promedios aritméticos, tomados por sí solos, sin tener en cuenta la variabilidad de la serie a partir de la cual se calculan, pueden no reflejar completamente las propiedades de la serie de variación, especialmente cuando es necesaria la comparación con otros promedios. Se pueden obtener promedios cercanos en valor a partir de series con grados variables dispersión. Cuanto más cercanas estén las opciones individuales entre sí en términos de sus características cuantitativas, menos dispersión (oscilación, variabilidad) serie, más típica es su media.

Los principales parámetros que nos permiten valorar la variabilidad de un rasgo son:

· Alcance;

· Amplitud;

· Desviación Estándar;

· El coeficiente de variación.

La variabilidad de un rasgo se puede juzgar aproximadamente por el rango y la amplitud de la serie de variación. El rango indica las opciones máxima (V max) y mínima (V min) en la serie. La amplitud (A m) es la diferencia entre estas opciones: A m = V max - V min.

La principal medida generalmente aceptada de la variabilidad de una serie de variaciones es dispersión (D ). Pero el más utilizado es un parámetro más conveniente calculado sobre la base de la dispersión: la desviación estándar ( σ ). Tiene en cuenta la magnitud de la desviación ( d ) de cada serie de variación a partir de su media aritmética ( d=V-M ).

Dado que las desviaciones del promedio pueden ser positivas y negativas, cuando se suman dan el valor “0” (S re=0). Para evitar esto, los valores de desviación ( d) se elevan a la segunda potencia y se promedian. Así, la dispersión de una serie de variaciones es el cuadrado medio de las desviaciones de una variante de la media aritmética y se calcula mediante la fórmula:

.

ella resulta ser la característica más importante variabilidad y se utiliza para calcular muchas pruebas estadísticas.

Dado que la dispersión se expresa como el cuadrado de las desviaciones, su valor no se puede utilizar en comparación con la media aritmética. Para estos fines se utiliza Desviación Estándar, que se designa con el signo “Sigma” ( σ ). Caracteriza la desviación promedio de todas las variantes de una serie de variación del valor medio aritmético en las mismas unidades que el valor promedio en sí, por lo que pueden usarse juntos.

La desviación estándar está determinada por la fórmula:

La fórmula especificada se aplica cuando el número de observaciones ( norte ) más de 30. Con un número menor norte el valor de la desviación estándar tendrá un error asociado con el desplazamiento matemático ( norte - 1). En este sentido, se puede obtener un resultado más preciso teniendo en cuenta dicho sesgo en la fórmula para calcular la desviación estándar:

Desviación Estándar (s ) es una estimación de la desviación estándar de una variable aleatoria X con respecto a ella expectativa matemática basado en una estimación insesgada de su varianza.

Con valores norte > 30 desviación estándar ( σ ) y desviación estándar ( s ) será lo mismo ( σ=s ). Por lo tanto, en la mayoría de los manuales prácticos se considera que estos criterios tienen significados diferentes. EN programa excel El cálculo de la desviación estándar se puede realizar con la función =STDEV(rango). Y para calcular la desviación estándar, es necesario crear una fórmula adecuada.

La media cuadrática o desviación estándar le permite determinar cuánto pueden diferir los valores de una característica del valor promedio. Supongamos que hay dos ciudades con la misma temperatura diaria promedio en verano. Una de estas ciudades está ubicada en la costa y la otra en el continente. Se sabe que en las ciudades ubicadas en la costa las diferencias de temperatura diurna son menores que en las ciudades ubicadas en el interior. Por lo tanto, la desviación estándar de las temperaturas diurnas de la ciudad costera será menor que la de la segunda ciudad. En la práctica, esto significa que la temperatura media del aire de cada dia especifico en una ciudad situada en el continente diferirá más de la media que en una ciudad de la costa. Además, la desviación estándar le permite evaluar posibles desviaciones de temperatura del promedio con el nivel de probabilidad requerido.

Según la teoría de la probabilidad, en los fenómenos que obedecen a la ley de distribución normal, existe una relación estricta entre los valores de la media aritmética, la desviación estándar y las opciones ( regla tres sigma). Por ejemplo, el 68,3% de los valores de una característica variable están dentro de M ± 1 σ , 95,5% - dentro de M ± 2 σ y 99,7% - dentro de M ± 3 σ .

El valor de la desviación estándar nos permite juzgar la naturaleza de la homogeneidad de la serie de variación y del grupo de estudio. Si el valor de la desviación estándar es pequeño, esto indica una homogeneidad bastante alta del fenómeno en estudio. La media aritmética en este caso debe considerarse bastante característica de una serie de variaciones determinada. Sin embargo, un valor sigma demasiado pequeño hace pensar en una selección artificial de observaciones. Con una sigma muy grande, la media aritmética caracteriza en menor medida la serie de variación, lo que indica una variabilidad significativa de la característica o fenómeno en estudio o la heterogeneidad del grupo en estudio. Sin embargo, la comparación del valor de la desviación estándar sólo es posible para características de la misma dimensión. De hecho, si comparamos la diversidad de pesos de los recién nacidos y los adultos, siempre obtendremos valores de sigma más altos en los adultos.

La comparación de la variabilidad de características de diferentes dimensiones se puede realizar utilizando coeficiente de variación. Expresa la diversidad como porcentaje de la media, permitiendo comparaciones entre diferentes rasgos. El coeficiente de variación en la literatura médica se indica con el signo " CON ", y en matemática " v"y calculado por la fórmula:

.

Los valores del coeficiente de variación inferiores al 10% indican una pequeña dispersión, del 10 al 20% (aproximadamente el promedio, más del 20%) indican una fuerte dispersión alrededor de la media aritmética.

La media aritmética generalmente se calcula a partir de datos de una población de muestra. Con estudios repetidos, bajo la influencia de fenómenos aleatorios, la media aritmética puede cambiar. Esto se debe al hecho de que, por regla general, sólo se estudia una parte de las posibles unidades de observación, es decir, la población de muestra. Se puede obtener información sobre todas las unidades posibles que representan el fenómeno que se está estudiando estudiando todo el conjunto. población, lo cual no siempre es posible. Al mismo tiempo, a los efectos de generalizar los datos experimentales, es de interés el valor del promedio en la población general. Por tanto, para formular una conclusión general sobre el fenómeno en estudio, los resultados obtenidos a partir de la población muestral deben trasladarse a la población general mediante métodos estadísticos.

Para determinar el grado de concordancia entre un estudio de muestra y la población general, es necesario estimar la magnitud del error que inevitablemente surge durante la observación de la muestra. Este error se llama " El error de la representatividad"o "Error medio de la media aritmética". En realidad es la diferencia entre los promedios obtenidos de la muestra. observación estadística, y valores similares que se obtendrían durante un estudio continuo del mismo objeto, es decir al estudiar una población general. Dado que la media muestral es una variable aleatoria, dicho pronóstico se realiza con un nivel de probabilidad aceptable para el investigador. EN investigación médica es al menos el 95%.

El error de representatividad no puede confundirse con errores de registro o errores de atención (deslices, errores de cálculo, tipografías, etc.), los cuales deben minimizarse mediante los métodos y herramientas adecuados utilizados durante el experimento.

La magnitud del error de representatividad depende tanto del tamaño de la muestra como de la variabilidad del rasgo. Cómo numero mayor observaciones, cuanto más cerca esté la muestra de la población y menor será el error. Cuanto más variable sea el signo, mayor será el error estadístico.

En la práctica, para determinar el error de representatividad en series de variación se utiliza la siguiente fórmula:

,

Dónde: metro – error de representatividad;

σ - Desviación Estándar;

norte– número de observaciones en la muestra.

De la fórmula se desprende claramente que el tamaño error promedio es directamente proporcional a la desviación estándar, es decir, la variabilidad del rasgo que se estudia, e inversamente proporcional a la raíz cuadrada del número de observaciones.

Al realizar un análisis estadístico basado en el cálculo de valores relativos, no es necesario construir una serie de variaciones. En este caso, la determinación del error promedio de indicadores relativos se puede realizar mediante una fórmula simplificada:

,

Dónde: R– el valor del indicador relativo, expresado en porcentaje, ppm, etc.;

q– el recíproco de P y expresado como (1-P), (100-P), (1000-P), etc., dependiendo de la base sobre la cual se calcula el indicador;

norte– número de observaciones en la población de muestra.

Sin embargo, la fórmula especificada para calcular el error de representatividad para valores relativos sólo se puede aplicar cuando el valor del indicador es menor que su base. En varios casos de cálculo de indicadores intensivos, esta condición no se cumple y el indicador puede expresarse como un número superior al 100% o 1000%. En tal situación, se construye una serie de variaciones y se calcula el error de representatividad utilizando la fórmula para valores promedio basada en la desviación estándar.

La predicción del valor de la media aritmética en la población se realiza indicando dos valores: el mínimo y el máximo. Estos valores extremos posibles desviaciones, dentro de los cuales puede fluctuar el valor medio deseado de la población se denominan “ Límites de confianza».

Los postulados de la teoría de la probabilidad han demostrado que con una distribución normal de una característica con una probabilidad del 99,7%, los valores extremos de las desviaciones del promedio no serán mayores que el valor del triple del error de representatividad ( METRO ± 3 metro ); en 95,5% – no más del doble del error promedio del valor promedio ( METRO ± 2 metro ); en 68,3% – no más de un error promedio ( METRO ± 1 metro ) (Figura 9).

PAG%

Arroz. 9. Densidad de probabilidad de distribución normal.

Tenga en cuenta que la afirmación anterior sólo es cierta para una característica que obedece a la ley de distribución gaussiana normal.

Mayoría investigación experimental, incluso en el campo de la medicina, está asociado con mediciones cuyos resultados pueden tomar casi cualquier valor en un intervalo determinado, por lo que, por regla general, se describen mediante un modelo de variables aleatorias continuas. Por tanto, la mayoría de los métodos estadísticos consideran distribuciones continuas. Una de estas distribuciones, que tiene un papel fundamental en estadística matemática, es distribución normal o gaussiana.

Esto es debido a una serie de razones.

1. En primer lugar, muchas observaciones experimentales pueden describirse con éxito utilizando la distribución normal. Cabe señalar de inmediato que no existen distribuciones de datos empíricos que serían exactamente normales, ya que una distribución normal valor aleatorio está en el rango de a , lo que nunca ocurre en la práctica. Sin embargo, la distribución normal muy a menudo funciona bien como aproximación.

Ya sea que se realicen mediciones de peso, altura y otros parámetros fisiológicos del cuerpo humano, en todas partes los resultados están influenciados por una gran cantidad de factores aleatorios ( causas naturales y errores de medición). Además, por regla general, el efecto de cada uno de estos factores es insignificante. La experiencia demuestra que los resultados en tales casos se distribuirán aproximadamente normalmente.

2. Muchas distribuciones asociadas con el muestreo aleatorio se vuelven normales a medida que aumenta el volumen de este último.

3. La distribución normal es muy adecuada como aproximación de otras distribuciones continuas (por ejemplo, asimétricas).

4. La distribución normal tiene una serie de ventajas. propiedades matemáticas, que en gran medida le proporcionó aplicación amplia en estadística.

Al mismo tiempo, cabe señalar que en los datos médicos existen muchas distribuciones experimentales que no pueden describirse mediante un modelo de distribución normal. Para ello, la estadística ha desarrollado métodos que comúnmente se denominan “no paramétricos”.

La elección de un método estadístico que sea adecuado para procesar datos de un experimento en particular debe hacerse dependiendo de si los datos obtenidos pertenecen a la ley de distribución normal. La prueba de la hipótesis de la subordinación de un signo a la ley de distribución normal se lleva a cabo utilizando un histograma de distribución de frecuencia (gráfico), así como una serie de criterios estadísticos. Entre ellos:

Criterio de asimetría ( b );

Criterio de prueba de curtosis ( gramo );

Prueba de Shapiro-Wilks ( W. ) .

Para cada parámetro se lleva a cabo un análisis de la naturaleza de la distribución de los datos (también llamado prueba de normalidad de la distribución). Para juzgar con confianza si la distribución de un parámetro corresponde a la ley normal, se requiere un número suficientemente grande de unidades de observación (al menos 30 valores).

Para una distribución normal, los criterios de asimetría y curtosis toman el valor 0. Si la distribución se desplaza hacia la derecha b > 0 (asimetría positiva), con b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона gramo =0. En gramo > 0 la curva de distribución es más pronunciada si gramo < 0 пик более сглаженный, чем функция нормального распределения.

Para comprobar la normalidad mediante la prueba de Shapiro-Wilks, es necesario encontrar el valor de este criterio utilizando tablas estadísticas en nivel requerido importancia y dependiendo del número de unidades de observación (grados de libertad). Apéndice 1. La hipótesis de normalidad se rechaza para valores pequeños de este criterio, por regla general, en w <0,8.



Nuevo en el sitio

>

Más popular