9 PROBABILIDAD
CONDICIONAL
Si
preguntamos cuál es la probabilidad de un evento sin especificar el espacio
muestral, es fácil que obtengamos respuestas diferentes y todas pueden ser
correctas. Por ejemplo, si preguntamos cuál es la probabilidad de que un abogado
gane más de $ 170,000 en un año diez años después de haber pasado la barra,
podemos obtener una respuesta que se aplique a todos los litigantes de Estados
Unidos, otra que se aplique a los abogados corporativos, otra que se aplique a
los abogados empleados del gobierno federal, otra que se aplique a los abogados
que se especializan en casos de divorcios y así sucesivamente. Ya que la
selección del espacio muestral de ninguna manera es siempre evidente por sí
misma, es útil usar el símbolo P(A/S) para expresar la probabilidad condicional
del evento A en relación con el espacio muestral S o como la llamamos con
frecuencia "la probabilidad de A considerando S". El símbolo ^Al S)
hace que sea explícito que nos estamos refiriendo a un espacio muestral particular
S y por lo general es preferible que la notación abreviada ^A), a menos de que
se-entienda claramente la selección tácita de S. También es preferible cuando
debemos referirnos a espacios muestrales diferentes en el mismo problema.
Para
ampliar la idea de una probabilidad condicional, suponga que una organización
de investigación de consumo ha estudiado el servicio garantizado que ofrecen
200 llanteras en una ciudad grande y sus descubrimientos se resumen en la tabla
siguiente:

Si se
selecciona al azar a una de estas llanteras (es decir, cada una tiene la
probabilidad de 1/200 de ser seleccionada), encontramos que las probabilidades
de que se seleccione a una llantera de marcas reconocidas, una llantera que
ofrece buen servicio garantizado o una llantera de marcas reconocidas que
ofrece un buen servicio garantizado son

y
![]()
Todas
estas probabilidades se calcularon por medio de la fórmula s/n para
posibilidades igualmente probables.
Ya que la
segunda de estas posibilidades es en particular desconcertante (hay casi una
posibilidad de cincuenta-cincuenta de seleccionar una llantera que no ofrece
buen servicio garantizado) veamos lo que sucede si limitamos la selección a
llanteras de marcas reconocidas. Esto reduce el espacio muestra¡ a 80
selecciones correspondientes al primer renglón de la tabla y encontramos que la
probabilidad de seleccionar una llantera que ofrece buen servicio garantizado
es

Como se
puede haber esperado, este es un aumento importante sobre P(G) = 0.53. Nótese
que la probabilidad condicional que aquí hemos obtenido, P(G | N) = 0.80, se
puede expresar también como

específicamente,
como la razón de la probabilidad de selección de una llantera de marcas
reconocidas que ofrece buen servicio garantizado a la probabilidad de selección
de una llantera de marcas reconocidas.
Generalizando
a partir de este evento, presentemos ahora la siguiente definición de la
probabilidad condicional, que se aplica a dos eventos, A y B, cualesquiera que
sean, pertenecientes a un espacio muestra¡ determinado, S:
Definición
de probabilidad condicional
Si P(B) no equivale a cero,
la probabilidad de A en relación con B, específicamente, la probabilidad de A
considerando B, es

Cuando
P(B) es igual a cero, la probabilidad condicional de A en relación con B es
indefinida.
EJEMPLO En relación con el ejemplo anterior de las
llanteras, ¿cuál es la probabilidad de que una llantera ofrezca buen servicio
garantizado considerando que no comercie marcas reconocidas?
Solución
Como se
puede apreciar a partir de la tabla,
![]()
de manera
que la sustitución en la fórmula da como resultado
![]()
Es obvio
que expresando que 42/120 = 0.35, podríamos haber obtenido este resultado
directamente a partir del segundo renglón de la tabla de la página 137.
Aunque
presentamos la fórmula para P(A | B) por medio de un ejemplo en el que todas
las posibilidades eran igualmente probables, éste no es un requisito para su
uso.
EJEMPLO En cierta escuela primaria, la probabilidad
de que un estudiante seleccionado al azar venga de una familia de dos padres es
0.75 y la probabilidad de que venga de una familia de dos padres y obtenga
bajas calificaciones (en su mayor parte D's y F's) es 0. 18. ¿Cuál es la
probabilidad de que dicho estudiante seleccionado al azar tenga un bajo
rendimiento considerando que viene de una familia de dos padres?
Solución Usando L para representar a un
estudiante de bajo rendimiento y T para representar a un estudiante de una
familia de dos padres tenemos P(T) = 0.75 y P(L 1 T) = 0. 18 y obtenemos
![]()
Para
presentar otro concepto que es importante en el estudio de la probab
consideremos el ejemplo siguiente:
EJEMPLO Si C representa las caras y X las cruces,
los cuatro resultados igualmente pro para dos lanzamientos al aire de una
moneda balanceada son CC, CX, XC. Si A y B representan los eventos respectivos
en que se obtienen caras en el primer lanzamiento y el segundo, encuentre

Solución
Usando la fórmula s/n para eventos igualmente probables, obtenemos
![]()
y, por
tanto,
![]()
Lo que es
especial e interesante acerca de este resultado es que P(B | A) = P(B) = 0.50,
de manera que la probabilidad del evento B es la misma a pesar de que el evento
A haya ocurrido. En realidad, esto no debe ser sorprendente, ya que la moneda
no tiene memoria y lo que sucede en el segundo lanzamiento no se ve afectado de
ninguna manera por lo que sucedió en el primero.
Si P(B) no
es igual a cero y si P(A | B) = P(A), decimos que el evento A es independiente
del evento B; esto es
El evento A es independiente del
evento B si la probabilidad de A no se ve afectada por la ocurrencia o no
ocurrencia de B.
Puesto que
se puede demostrar que el evento B es independiente del evento A siempre que el
evento A es independiente del evento B, se acostumbra decir simplemente que A y
B son independientes siempre que uno es independiente del otro (véase el
ejercicio 6.97 de la página 145). Si dos eventos, A y B, no son independientes,
decimos que son dependientes.
Esta
noción de independencia es satisfecha por los eventos de probabilidad cero,
aunque ciertas probabilidades condicionales no son definidas. Algunas personas
usan la regla de multiplicación especial de la página 141 como la definición de
independencia.
EJEMPLO Las probabilidades de que un estudiante
obtenga calificaciones aprobatorias en matemáticas, en inglés o en ambas
materias son P(M) = 0.70, P(E) = 0.80 y P(M 1 E) = 0.56. Verifique si los eventos M y E son
independientes.
Solución
Sustituyendo
en la fórmula para una probabilidad condicional, obtenemos
![]()
Ya que P(M
| E) = 0.70 = P(M), encontramos que los eventos M y E son independientes.
EJEMPLO Las probabilidades de que llueva o nieve en
una ciudad determinada el día de Navidad, el día de Año Nuevo o en ambos días
son P(C) = 0.60, P(N) = 0.60 y P(C 1 N) = 0.42. Verifique si los eventos N y C son
independientes.
Solución
Sustituyendo en la fórmula para una probabilidad condicional, obtenemos
![]()
Ya que
P(N | C) = 0.70 no es igual que P(N) =
0.60, encontramos que los eventos N y C son dependientes.
En la
siguiente sección veremos que hay otra manera de trabajar con los dos ejemplos
anteriores.
Nótese que
al estudiar la independencia no usamos diagramas de Venn. No es fácil
representar gráficamente la independencia.
10 TEOREMA DE
BAYES
Aunque los
símbolos P(A | B) y P(B | A) pueden ser parecidos, hay una gran diferencia
entre las probabilidades que representan. Por ejemplo, en la página 137
calculamos la probabilidad P(GN) de que una llantera de marcas reconocidas
ofrezca buen servicio con garantía, ¿pero, a qué nos referimos cuando
escribimos P(N | G)? Esta es la probabilidad de que una llantera que ofrece un
buen servicio con garantía sea una llantera de marcas reconocidas. Para dar
otro ejemplo, suponga que B representa el evento de que una persona cometió un asalto
y G representa el evento de que se le encuentra culpable del crimen. Así, P(G |
B) es la probabilidad de que a la persona que cometió el asalto se le encuentre
culpable del crimen y P(B | G) es la probabilidad de que a la persona que se le
encuentra culpable del asalto en realidad lo haya cometido. Por tanto, en ambos
ejemplos hemos revertido las situaciones; por así decirlo, la causa se
convirtió en efecto y el efecto se convirtió en causa.
Ya que en
estadística hay muchos problemas que implican pares de probabilidades
condicionales similares, encontremos una fórmula que exprese P(B | A) en
términos de P(A | B) para dos eventos A y B, cualesquiera que sean. Con este
fin, balanceamos las expresiones para P(A 1 B) en las dos formas de la regla de multiplicación
general de la página 140 y obtenemos
![]()
y, por
tanto,
![]()
después de
dividir entre P(A).
EJEMPLO En un estado en el que se deben hacer
pruebas de emisión de contaminantes a los automóviles, 25% de todos los
automóviles emite cantidades excesivas de contaminantes. Cuando se prueban, 99%
de todos los automóviles que emiten cantidades excesivas de contaminantes no
pasará, pero 17% de los automóviles que no emiten cantidades excesivas de
contaminantes tampoco pasará. ¿Cuál es la probabilidad de que un automóvil que
no pasa la prueba en realidad emita cantidades excesivas de contaminantes?
Solución
Suponiendo
que A representa el evento de que un automóvil no pasa la prueba y B es el
evento de que emite cantidades excesivas de contaminantes, podemos convertir
los porcentajes de referencia en probabilidades y expresar que
![]()
Antes de
que podamos calcular P(B 1 A) por medio de la fórmula que presentamos en la
página anterior, primero debemos determinar P(A) y para hacer esto observemos
el diagrama de árbol de la figura 6.12. Aquí, se llega a A ya sea por la rama
que pasa por B o por la rama que pasa por B' y las probabilidades de que esto
suceda son
![]()
Ya que las
alternativas representadas por las dos ramas son mutuamente excluyentes,
encontramos que P(A) = 0.2475 + 0.1275 = 0.3750 y la sustitución en la fórmula
para P(B | A) da como resultado
![]()
Esta es la
probabilidad de que un automóvil que no pasa la prueba en realidad emita
cantidades excesivas de contaminantes.

FIGURA
6.12 Diagrama de árbol para el ejemplo de ¡aprueba de emisión de contaminantes.
En
relación con el diagrama de árbol de la figura 6.12, podemos decir que P(B | A)
es la probabilidad de que se llegue al evento A por la rama superior del árbol
y demostramos que este valor se determina mediante la razón de la probabilidad
asociada con la rama del árbol a la suma de probabilidades asociadas con ambas
ramas. Este argumento se puede generalizar para el caso en el que hay más de
dos "causas" posibles, específicamente, más de dos ramas que llevan a
un evento A. En relación con la figura 6.13, podemos decir que P(Bi
| A) es la probabilidad de que se llegue al evento A por la iesima rama
del árbol (para i = 1, 2,... o k) y se puede demostrar que este valor se
obtiene mediante la razón de la probabilidad asociada con la iesima rama
a la suma de las probabilidades asociadas con todas las ramas que llevan a A.
Formalmente, expresamos que
Teorema de Bayes
Si B1, B2,...
y Bk son eventos mutuamente excluyentes de los cuales debe ocurrir
uno, entonces
![]()
para i = 1, 2,--- o k.
Nótese que
la expresión del denominador en realidad equivale a P(A). Esta fórmula para
calcular P(A) cuando se llega a A por uno de varios pasos intermedios, se
conoce como la regla de eliminación o la regla de probabilidad total.

FIGURA 6.13 Diagrama de árbol para el teorema
de Bayes
EJEMPLO En una fábrica de conservas, las líneas de
ensamble I, II y III representan 50, 30 y 20% de la producción total. Si se
sella inadecuadamente 0.4% de las latas de la línea de ensamble I y los porcentajes
correspondientes de las líneas de ensamble II y III son 0.6 y 1.2%, ¿cuál es la
probabilidad de que
(a) una lata producida en esta fábrica de
conservas esté mal sellada;
(b) una lata mal sellada (descubierta en la inspección final de los productos de salida) provenga de la línea de ensamble I?
Solución
(a) Suponiendo que A representa el evento de
que una lata está mal sellada y B1, B2 y B3 representan los eventos de que
una lata proviene de las líneas de ensamble I, II o III, podemos convertir los porcentajes
en probabilidades y escribir que P(B1)
= 0.50, P(B2) = 0.30, P(B3) = 0.20, P(A | B1 =
0.004, P(A | B2) = 0.006 y P(A | B3) = 0.0 12. Así, las
probabilidades asociadas con las tres ramas del diagrama de árbol de la figura
6.14 son (0.50)(0.004) = 0.0020,(0.30)(0.006) = 0.0018 y (0.20)(0.012) = 0.0024
y la regla de eliminación general da como resultado
P(A)
= 0.0020 + 0.0018 + 0.0024 = 0.062
(b)
Sustituyendo
este resultado junto con la probabilidad asociada con la primera rama del
diagrama de árbol en la fórmula para el teorema de Bayes, obtenemos

FIGURAL
6.14 Diagrama del árbol para el ejemplo de la fábrica de conservas.
![]()
Redondeando
a dos decimales.
Se pueden
resolver problemas como éstos creando una producción ficticia. Suponga que
imaginamos una producción de, digamos, 10,000 latas. De estas latas, 5,000
provendrán de la línea 1, 3,000 de la línea 11 y 2,000 de la línea 111. De las
5,000 latas de la línea 1, habrá 0.004 - 5,000 = 20 latas mal selladas.
Aplicando una lógica similar a las otras dos líneas, completemos la tabla
siguiente:

La cadena
ficticia produce, en promedio, 62 latas mal selladas. De éstas, 20 provinieron
de la línea I, de manera que la probabilidad condicional P(B1 | A)
es 20/62 = 0.32, exactamente como antes. El método no permite la variación de
las posibilidades de las cantidades de latas producidas, de modo que es un
cuanto irreal. No obstante, puede llevar con facilidad a la solución.
Como se puede apreciar en los dos ejemplos de esta sección, la fórmula de Bayes es una regla matemática relativamente simple. No puede haber duda alguna en cuanto a su validez, pero se ha criticado frecuentemente su aplicación. Esto se debe a que implica un razonamiento "revertido" o "a la inversa", específicamente, el razonamiento del efecto a la causa. Por citar un caso, en el ejemplo de la página 146 nos preguntamos sí el hecho de que un automóvil no pase la prueba de emisión de contaminantes era resultado o consecuencia de su emisión excesiva de contaminantes. De modo similar, en el ejemplo anterior nos preguntamos si una lata mal sellada provenía o era consecuencia de la línea de ensamble I. Es precisamente este aspecto del teorema de Bayes el que desempeña una importante función en la inferencia estadística, donde nuestro razonamiento va de los datos muestrales que observamos a las poblaciones de las que provienen. Se pueden hallar análisis breves de tales inferencias, bien llamadas inferencias Bayesianas, en las secciones 11.3 y 13.2.
Resumen
y conclusiones
1 REPRESENTACIONES
ESTADÍSTICAS Y ANÁLISIS DE GRAFICAS.
En la siguiente
distribución de frecuencia se muestra un ejemplo de salarios semanales de 100
trabajadores no calificados.

1.2 INTERVALOS DE CLASE - Los
límites exactos de clase, o fronteras, son las divisiones o puntos específicos
que separan clases adyacentes en una escala de medición de variables
continuas, pueden determinarse
identificando los puntos intermedios entre los límites superior e inferior de
la clase. Cuando no es posible identificar límites exactos, el intervalo de
clase puede determinarse restando del límite inferior, del límite inferior de
la clase adyacente inferior, dicho en otras palabras del renglón inferior. En
ciertos casos es común que los valores de una clase sean el punto medio de
clase, el cual se determina sumando la mitad del intervalo de clase al límite
exacto inferior de la clase.
Es deseable que todos los intervalos de la clase
sean iguales, la siguiente formula determina el intervalo aproximado de dicha
clase.

En caso que los datos sean notoriamente no uniforme,
(Ej: Sueldos anuales de una planta), se utilizaran intervalos desiguales de
clase, los intervalos mayores se utilizan para los rangos de valores con
relativamente escasas observaciones.
1.3 HISTOGRAMASY POLÍGONOS DE FRECUENCIAS - Se conoce como histograma a lo que comúnmente se denomina una gráfica de barras como la que se muestra a continuación:

Se acostumbra colocar los límites de clase en el eje horizontal y los números de observaciones en el eje vertical. Sin embargo, también es posible utilizar puntos medios de clase en lugar de límites de clase.
Son similares a los histogramas las
graficas conocidas como polígonos de frecuencias, estos son una gráfica de
líneas, como se muestra en la siguiente figura:

Son similares los dos ejes de esta
grafica a los del histograma, salvo que en el eje horizontal identifica el
punto medio de cada clase, los valores representados de cada clase forman una
serie de segmentos lineales para formar un polígono o "figura de muchos
lados".
1.4 CURVAS DE FRECUENCIAS – Se conoce como curva de frecuencias a un
polígono de frecuencias suavizado, como la figura que se muestra a
continuación:

Juzgando su asimetría puede ser: 1)
asimétrica negativa: no simétrica con la cola a la izquierda; 2) asimétrica
positiva: no simétrica con la “cola" a la derecha, o 3) simétrica.

O bien, en términos de curtosis
puede ser: 1) platicúrtica: plana, distribuidas en forma relativamente pareja
entre las clases; 2) leptocúrtica: afilada, concentradas en un estrecho rango
de valores, o 3) mesocúrtica: ni plana ni afilada en términos de la
distribución de valores.

1.5 DISTRIBUCIONES DE FRECUENCIAS
ACUMULADAS - Identifica el número
acumulado de observaciones incluidas bajo el límite superior. Las frecuencias
acumuladas pueden determinarse sumando las observadas de esa clase a las de la
clase anterior, como se muestra en el siguiente ejemplo:

También se conoce como ojiva, en las
del tipo "y menor que", indica las frecuencias acumuladas bajo cada
límite de la distribución de frecuencias. Si esa gráfica de líneas se suaviza,
se obtiene la curva llamada ojiva como la siguiente:

1.6 DISTRIBUCIONES DE FRECUENCIAS
RELATIVAS – Son aquellas cuyo
número de observaciones se ha dividiendo entre el número total, de este modo es
una proporción, la que puede convertirse en un porcentaje si se le multiplica
por 100.
1.7 DISTRIBUCIÓN DE FRECUENCIAS DEL
TIPO "Y MENOR QUE" - Los
valores en cualquier clase son iguales a o mayores que el límite de inferior y
hasta el valor del límite superior, sin incluir a éste. Además de ser más fácil de aplicar en
software de cómputo, también suelen
representar un modo más "natural" de representación. Por ejemplo, la edad de las personas se
consideran de acuerdo con su aniversario anterior, no con el próximo, si se
tiene 24 años de edad, tiene 24 como mínimo, pero menos de 25.
1.8 DIAGRAMAS DETALLO Y HOJAS – Se utiliza principalmente en el análisis
exploratorio de datos, el cual es un conjunto de técnicas de análisis
preliminar de datos para la detección de patrones y relaciones. se diferencia
del histograma en que es más fácil de elaborar y en que muestra los valores
reales de los datos, los valores específicos no se pierden por efecto de su
agrupamiento en clases definidas. No obstante, esta técnica sólo es aplicable y
significativa si el primer dígito de la medición, o quizá los dos primeros,
sirve efectivamente de base para la separación de los datos en grupos. Cuando
únicamente se usa el primer dígito para agrupar las medidas, la denominación
“tallo y hojas" alude al hecho de que el primer dígito es el tallo,
mientras que cada una de las medidas con valor a partir de ese primer dígito
pasa a ser una hoja en el contexto de esta representación. En la siguiente
tabla se presenta el puntaje de 50 estudiantes en un examen de 100 puntos.

1.9 DIAGRAMAS DE PUNTOS – Es muy similar a un histograma, se
diferencia en que los valores se representan individualmente, en lugar de
agruparse en clases, generalmente son aplicados a pequeños conjuntos de datos,
son particularmente útiles en la comparación de dos conjuntos de datos
diferentes, o de dos subgrupos de un conjunto de datos.
1.10 DIAGRAMAS DE PARETO – A diferencia de un histograma, en esta
grafica los datos son cualitativos y no cuantitativos, pudiéndose representar también
porcentajes, se organizan en orden descendente de izquierda a derecha,
lográndose que la ubicación de las categorías más importantes estén en las
posiciones iniciales de la gráfica. Se usan en el control de procesos para
tabular las causas asociadas con variaciones de causas atribuibles en la
calidad del producto del proceso. A continuación se muestra una grafica de este
tipo:

1.11 DIAGRAMAS DE BARRAS Y GRÁFICAS
DE LINEAS - Para efectos de
representación gráfica, ambos tipo de grafica son de gran utilidad. En un
diagrama de barras, una serie de barras representa cantidades de una serie de
tiempo. Una gráfica de líneas contiene cantidades de series de tiempo unidas
entre sí por líneas.

.
1.12 GRÁFICAS DE CORRIDAS – Esta es una gráfica de valores de datos en
el orden secuencial en que fueron observados. Los valores trazados pueden ser
valores observados individuales o valores sumariados. Si a esta grafica se le
agregan los límites inferior y superior del muestreo de aceptación, se le llama
gráfica de control. A continuación se muestra una grafica de este tipo:

1.13 DIAGRAMAS CIRCULARES – Es una grafica en forma de pastel cuyas
piezas representan divisiones de una cantidad total. También es posible
representar su valor en términos de porcentajes, facilitando la interpretación
de las cifras, ejemplo:

2 DESCRIPCION DE DATOS ECONOIMICOS Y ADMINISTRATIVOS:
MEDIDAS DE POSICIÓN
2.1 MEDIDAS DE POSICIÓN EN CONJUNTOS
DE DATOS – Se conoce como medida de
posición al valor calculado de un grupo de datos. Lo que se busca es que este
valor sea representativo de todos los valores del grupo, motivo por el cual es
de desear cierto tipo de promedio. En sentido estadístico, un promedio es una
medida de la tendencia.
2.2 MEDIA ARITMÉTICA – Es la suma de los valores del grupo de
datos, dividido entre el numero de valores, a la media aritmética también se le
conoce con el nombre de promedio aritmético. En estadística, una medida
descriptiva de una población, se representa por lo general con alguna de las
letras del alfabeto griego Ej: m(Mu), mientras que una medida descriptiva de
una muestra, o estadística muestral, se representa con alguna de las letras del
alfabeto latino Ej: X (Equis).
2.3 MEDIA PONDERADA – También conocida como promedio ponderado,
es una media aritmética en donde cada uno de los valores se pondera de acuerdo
con su importancia en el grupo en general. Esto es, que a cada valor del grupo
(X) se multiplica por el factor de ponderación correspondiente (w), tras de lo
cual los productos se suman para posteriormente dividirse entre la suma de las
ponderaciones. A continuación se muestra un ejemplo:

2.4 MEDIANA - Es el valor del elemento intermedio en
términos de valor, un orden ascendente o descendente. En un grupo con un número
par de elementos, se supone que la mediana se halla a medio camino entre los
dos valores adyacentes al punto intermedio. Cuando el grupo contiene un gran
número de valores, se emplea la siguiente fórmula para determinar la posición
de la mediana en el grupo ordenado:
2.5 MODA – Es el valor que mas se repite en un conjunto de valores, a esto se le
conoce como unimodal, en un conjunto pequeño de datos en el que no se
repiten valores medidos carece de moda. Cuando dos valores no adyacentes son
casi iguales, la distribución se llama bimodal. Cuando se tienen varias
modas se llaman multimodales.
2.6 RELACIÓN ENTRE MEDIA Y MEDIANA – En una distribución simétrica, media,
mediana y moda coinciden en valor. En una distribución asimétrica positiva, la
media siempre es mayor que la mediana. En una distribución asimétrica negativa,
la media siempre es menor que la mediana. Una medida de asimetría en
estadística, basada en la diferencia entre los valores de la media y la mediana
de un grupo de valores, es el coeficiente de asimetría de Pearson.

2.7 CRITERIOS MATEMÁTICOS SATISFECHOS
POR LA MEDIANA Y LA MEDIA - La mediana y la media son medidas
representativas "aceptables", teniendo entre ellas ciertas
diferencias, la mediana reduce al mínimo la suma de los valores
absolutos de las diferencias entre cada valor del grupo y la mediana
reduce al mínimo la suma de las desviaciones absolutas respecto de los valores
individuales representados. En contraste con ello, la media aritmética reduce
al mínimo de la suma de las desviaciones al cuadrado respecto de los valores
individuales del grupo. El criterio cuyo objetivo es reducir al mínimo la suma
de las desviaciones al cuadrado asociada con un valor representativo se llama
criterio de mínimos cuadrados. Este criterio es uno de los más importantes en
la inferencia estadística basada en datos muestrales. A continuación se muestra
una grafica con los criterios matemáticos satisfechos por la mediana y la media
(Med = 11.0; Media = 10.5)

2.8 USO DE MEDIA, MEDIANA Y MODA - La moda indica la posición de la
mayoría de los valores observados, puede ser útil como medida descriptiva de un
grupo de la población, aunque sólo si existe una moda claramente perceptible.
La mediana es siempre una medida excelente para representar el nivel
"típico" de los valores observados, también la media aritmética
es excelente como valor representativo de una población, aunque sólo si la
población es claramente simétrica, en datos no simétricos, los valores extremos
distorsionarán el valor de la media como valor representativo, así, la mediana
es por lo general una mejor medida de posición de datos para la descripción de
datos de la población.
2.9 USO DE LA MEDIA EN EL CONTROL
ESTADÍSTICO DE PROCESOS -
Es preferible usar promedios que
valores individuales, porque por lo general cualquier promedio será más estable
de una muestra a otra, que las observaciones individuales. La media muestral es
más estable que la mediana o la moda, por esta razón, el propósito de las
gráficas de corridas referentes a promedios muestrales es trazar las medias
muestrales, a estas gráficas se les llama gráficas Y, y son la base para la
determinación de si un proceso es estable o existe en él una variación con una
causa atribuible por corregir.
2.10 CUARTILES, DECILES Y PERCENTILES – Estas medidas se asemejan a la mediana en
que también subdividen una distribución de medidas de acuerdo con la proporción
de las frecuencias observadas. La mediana divide una distribución en mitades,
los cuartiles la dividen en cuartos, los deciles en décimos y los puntos
percentiles en 100 partes.
3 Descripción de datos económicos y administrativos:
medidas de variabilidad
3.1 MEDIDAS DE VARIABIELIDAD EN
CONJUNTOS DE DATOS -
También conocidas como dispersión,
se ocupan de la descripción de la variabilidad entre los valores. Existen
varias formas de medir el grado de variabilidad en conjuntos de datos, tales
como: el rango, los rangos modificados, la desviación media, la varianza, la
desviación estándar y el coeficiente de variación.
3.2 RANGO - Es la diferencia entre los valores más alto y más bajo incluidos en un
conjunto de datos. Así, My representa al mayor valor del grupo y Mn al menor,
el rango de datos no agrupados es: R = My - Mn
3.3 RANGOS MODIFICADOS - Es un rango en el que se eliminan algunos
de los valores extremos de cada una de las porciones finales de la
distribución. El 50% central es el rango entre los valores en el 25o. y el 75o.
punto percentil. De este modo, también es el rango entre el primer y tercer
cuartiles de la distribución. Por este motivo, al rango del 50% central suele
llamársele rango intercuartil (RIC). Así, RIC = Q3 – Q1. Otros rangos modificados de uso común son el
80% central, el 90% central y el 95% central.
3.4 DIAGRAMAS DE CAJA - Es una gráfica que ilustra la un conjunto
de datos en referencia a los valores en los cuartiles como medidas de posición
y al valor del rango intercuartil como medida de referencia de variabilidad. Es
claro observar el grado de asimetría de la distribución. Es más fácil a la
construcción de un hístograma . También se le conoce corno diagrama de caja y
brazos. Debido a su relativa facilidad de uso, es una de las principales
técnicas del análisis exploratorio de datos.
A continuación se presenta el
diagrama de caja. Los límites inferior y superior de la caja rectangular de la
gráfica se llaman goznes y se ubican por lo general en Q1 y Q3 Así, con
base en los valores de los cuartiles. Las líneas horizontales punteadas a
izquierda y derecha de la caja se llaman brazos y se extienden hasta las
"barreras internas".

3.5 DESVIACIÓN MEDIA ABSOLUTA (DMA) – Toma como base el valor absoluto de la
diferencia entre cada valor del conjunto de datos y la media del grupo.
Determinándose el promedio de estos valores absolutos. Se usan los valores
absolutos de las diferencias porque la suma de todas las diferencias positivas
y negativas siempre es igual a cero. Así, las fórmulas respectivas de la DMA de
la población y de la muestra son:

3.6 VARIANZAY DESVIACIÓN ESTÁNDAR – Es similar a la desviación media absoluta
en que se basa en la diferencia entre cada valor del conjunto de datos y la
media del grupo, distinguiéndose de ella en un muy importante aspecto: cada
diferencia se eleva al cuadrado antes de sumarse. En el caso de una población,
la varianza se representa con V(X) o, más habitualmente, con la letra griega
minúscula o2 ("sigma cuadrada"). La fórmula es

Como es difícil interpretar el valor
de una varianza, porque son expresadas elevadas al cuadrado, es más frecuente
el uso de la raíz cuadrada de la varianza, representada por la letra griega a
(o por s en el caso de una muestra) y llamada desviación estándar. Las fórmulas
son:
Desviación estándar de la población: 
Desviación estándar de la muestra: 
3.7 CÁLCULOS
SIMPLIFICADOS DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR -
Las fórmulas anteriores se llaman
fórmulas de desviaciones, porque en cada caso deben determinarse las
desviaciones específicas, sin embargo, se han derivado ya otras fórmulas,
matemáticamente equivalentes pero que no requieren de la determinación de cada
desviación. Dado que por lo general estas fórmulas son más fáciles de utilizar
en la realización de cálculos, se llaman fórmulas de cálculo. Las fórmulas de
cálculo son:
Varianza de la población:
Desviación estándar de la
población: ![]()
Varianza de la muestra: ![]()
Desviación estándar de la
muestra: ![]()
3.8 CRITERIO
MATEMÁTICO ASOCIADO CON LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR - La suma de las desviaciones al cuadrado en
el numerador de la fórmula de la varianza es la suma que se reduce al mínimo al
usar la media aritmética como medida de posición. Por consiguiente, la varianza
y su raíz cuadrada, la desviación estándar, tienen una estrecha relación
matemática con la media, y ambas se emplean en inferencia estadística con datos
muestrales.
3.9 USO DE LA DESVIACIÓN ESTÁNDAR EN
LA DESCRIEPCIÓN DE DATOS - En un
conjunto de valores con distribución normal, siempre ocurre que aproximadamente
68% de los valores quedan incluidos dentro de un margen de una desviación
estándar respecto de la media y que aproximadamente 95% de los valores quedan
incluidos dentro de un margen de dos unidades de desviación estándar respecto
de la media, como se puede observarse en los siguientes diagramas.

3.10 USO
DEL RANGO Y LA DESVIACIÓN ESTÁNDAR EN EL CONTROL ESTADÍSTICO DE PROCESOS - Para vigilar y controlar la variabilidad
se determinan ya sea los rangos o las desviaciones estándar de los subgrupos
racionales que constituyen las muestras secuenciales, en ambos casos, los
valores se manejan en forma idéntica a la gráfica de corridas de la secuencia
de pesos medios muestrales. La gráfica de rangos muestrales se llama gráfica R,
mientras que la gráfica de desviaciones estándar muestrales se llama gráfica s.
A continuación se muestra un ejemplo de una grafica de corridas.

3.11 COEFICIENTE DE VARIACIÓN – Identificado como “CV”, indica la magnitud relativa de la desviación estándar comparada con la media de la distribución de las medidas expresada como porcentaje. Es útil cuando se desea comparar la variabilidad de dos conjuntos de datos en relación con el nivel general de los valores de cada conjunto, sus fórmulas son:
Población:
Muestra:
3.12 COEFICIENTE DE ASIMETRÍA DE
PEARSON - Mide la desviación
respecto de la simetría determinando la diferencia entre la media y la mediana
en relación con la desviación estándar del grupo de medidas. Las fórmulas son:
![]()
![]()
En una distribución simétrica, el
valor del coeficiente de asimetría será siempre de cero, porque la media y la
mediana son iguales entre sí en valor. En una distribución asimétrica positiva,
la media siempre es mayor que la mediana; en consecuencia, el valor del
coeficiente es positivo. En una distribución asimétrica negativa, la media
siempre es menor que la mediana; por lo tanto, el valor del coeficiente es
negativo.
4
POBLACIONES Y MUESTRAS – Es
conveniente precisar que llamamos población, al conjunto de datos que
cuenta con todas las observaciones posibles (hipotéticamente posible), y muestra
si sólo consta de una parte de dichas observaciones.
Originalmente la estadística
manejaba la descripción de poblaciones humanas, contabilidades de censo y
actividades similares, pero conforme su alcance se tomó más amplio, el término
"población" cobró la más vasta connotación de sus orígenes. Actualmente
nos referimos como poblaciones a las alturas de todos los árboles de un bosque
o las velocidades de todos los automóviles que pasan por un punto de revisión,
en estadística, "población" es un término técnico que cuenta con un
significado propio.
La palabra "muestra" tiene
en gran medida el mismo significado que en el lenguaje coloquial. Debemos usar
la palabra "muestra" sólo para referirnos a datos que pueden servir
razonablemente como la base para generalizar acerca de las poblaciones de su
origen; en este sentido más técnico, muchos conjuntos de datos que por lo
regular se conocen como muestras no lo son en absoluto.
5 MUESTREO ALEATORIO - Una población es finita si consta de un número finito o fijo de elementos,