(Carrera
de Psicología)
Septiembre
2003
Prefacio.
El presente
trabajo fue elaborado para la acreditación de la materia de Métodos
estadísticos, de la licenciatura en psicología, ante la Universidad Abierta de
San Luis Potosí.
Para la elaboración
del presente ensayo, seguí el temario conceptual de la materia que se encuentra
en la pagina de internet, sin embargo, con el objeto
de no ser tan especifico en los temas tratados, incluí algunos otros que
encontré afines o complementarios en los libros que consulte, por tal motivo,
el índice varia un poco del antes señalado.
También cabe
señalar que los temas tratados en este ensayo, solo son los elementales de esta
materia, sin embargo, considero que son muy interesantes y afines en el campo
de la investigación, tanto de la psicología, como de cualquier otro campo.
INDICE.
Estadística.
INTRODUCCION............................................................................................................ 1
1
REPRESENTACIONES ESTADÍSTICAS Y ANÁLISIS DE GRÁFICAS................................ 2
1.1
DISTRIBUCIONES DE FRECUENCIAS............................................................................ 2
1.2
INTERVALOS DE CLASE............................................................................................... 2
1.3
HISTOGRAMASY POLÍGONOS DE FRECUENCIAS......................................................... 4
1.4
CURVAS DE FRECUENCIAS......................................................................................... 5
1.5
DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS..................................................... 7
1.6
DISTRIBUCIONES DE FRECUENCIAS RELATIVAS......................................................... 8
1.7
DISTRIBUCIÓN DE FRECUENCIAS DEL TIPO "Y MENOR
QUE"...................................... 8
1.8
DIAGRAMAS DETALLO Y HOJAS.................................................................................. 8
1.9
DIAGRAMAS DE PUNTOS........................................................................................... 10
1.10
DIAGRAMAS DE PARETO........................................................................................... 10
1.11
DIAGRAMAS DE BARRAS Y GRÁFICAS DE LINEAS.................................................... 11
1.12
GRÁFICAS DE CORRIDAS........................................................................................... 13
1.13
DIAGRAMAS CIRCULARES.......................................................................................... 14
2
DESCRIPCION DE DATOS ECONÓMICOS Y ADMINISTRATICVOS:
MEDIDAS DE POSICIÓN...................................................................................... 15
2.1
MEDIDAS DE POSICIÓN EN CONJUNTOS DE DATOS.................................................. 15
2.2
MEDIA ARITMÉTICA.................................................................................................... 15
2.3
MEDIA PONDERADA................................................................................................... 16
2.4
MEDIANA ................................................................................................................. 17
2.5
MODA ................................................................................................................. 17
2.6
ELACIÓN ENTRE MEDIA Y MEDIANA........................................................................... 18
2.7
CRITERIOS MATEMÁTICOS SATISFECHOS POR LA MEDIANA Y LA
MEDIA................. 18
2.8
USO DE MEDIA, MEDIANA Y MODA............................................................................ 19
2.9
USO DE LA MEDIA EN EL CONTROL ESTADÍSTICO DE PROCESOS............................ 21
2.10
CUARTILES, DECILES Y PERCENTILES....................................................................... 21
2.11
RESULTADOS EN COMPUTADORA............................................................................. 22
3 DESCRIPCION DE ATOS ECONOMICOS Y ADMINISTRATICOS:
MEDIDAS DE VARIABILIDAD............................................................................ 23
3.1 MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS.......................................... 23
3.2 RANGO 23
3.3 RANGOS MODIFICADOS............................................................................................. 24
3.4 DIAGRAMAS DE CAJA................................................................................................ 24
3.5 DESVIACIÓN MEDIA ABSOLUTA (DMA)....................................................................... 25
3.6
VARIANZAY DESVIACIÓN ESTÁNDAR......................................................................... 26
3.7
CÁLCULOS SIMPLIFICADOS DE LA VARIANZA Y LA DESVIACIÓN
ESTÁNDAR............. 28
3.8
CRITERIO MATEMÁTICO ASOCIADO CON LA VARIANZA Y LA
DESVIACIÓN ESTÁNDAR................................................................................... 29
3.9
USO DE LA DESVIACIÓN ESTÁNDAR EN LA DESCRIEPCIÓN DE
DATOS..................... 30
3.10
USO DEL RANGO Y LA DESVIACIÓN ESTÁNDAR EN EL CONTROL
ESTADÍSTICO DE PROCESOS........................................................................ 31
3.11
COEFICIENTE DE VARIACIÓN..................................................................................... 32
3.12
COEFICIENTE DE ASIMETRÍA DE PEARSON............................................................... 33
3
POBLACIONES Y MUESTRAS..................................................................................... 34
4
MUESTREO ALEATORIO............................................................................................. 36
Probabilidad
INTRODUCCIÓN........................................................................................................... 41
6 ESPACIOS MUESTRALES Y EVENTOS....................................................................... 41
7 LOS POSTULADOS DE LA PROBABILIDAD.................................................................. 48
8
PROBABILIDADES Y POSIBILIDADES.......................................................................... 52
9 PROBABILIDAD CONDICIONAL.................................................................................... 57
10 TEOREMA DE BAYES................................................................................................. 62
Resumen y conclusiones ................................................................................................... 67
Bibliografía........................................................................................................................... 86
Introducción.
Antes
de entrar en materia, comenzaremos por dar una definición de estadística:
Estadística, rama de las
matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que
ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
Estadística n. f. ,
1. Ciencia cuyo objeto es
reunir una información cuantitativa concerniente a individuos, grupos, series
de hechos, etc., y deducir de ella, gracias al análisis de estos datos, unos
significados precisos o unas previsiones para el futuro.
2. Cuadro numérico de un hecho que se presta a
la estadística: estadística de natalidad.
Definición de estadística
aplicada a la administración y la economía:
La estadística es el
conjunto de técnicas que se emplean para la recolección, organización, análisis
e interpretación de datos. Los datos pueden ser cuantitativos, con valores
expresados numéricamente, o cualitativos, en cuyo caso se tabulan las
características de las observaciones. La estadística sirve en administración y
economía para tomar mejores decisiones a partir de la comprensión de las
fuentes de variación y de la detección de patrones y relaciones en datos
económicos y administrativos.
1 Representaciones
estadísticas y análisis de gráficas.
Una distribución
de frecuencias es una tabla en la cual se agrupan en clases valores posibles de
una variable y donde se registra el número de valores observados correspondientes
a cada clase. Los datos organizados en una distribución de frecuencias se
llaman datos agrupados. En contraste con ello, en el caso de datos no agrupados
enlistan todos los valores observados de la variable aleatoria.
EJEMPLO En la tabla
1.1 aparece una distribución de frecuencias de salarios semanales. Obsérvese
que las cantidades han sido consignadas de acuerdo con el dólar más cercano.
Cuando el residuo por redondear es de "exactamente 0.5" (exactamente
$0.50 en este caso), el procedimiento convencional es redondear al número par
más cercano. Así, un salario semanal de $259.50 se redondearía a $260 como
parte del proceso de agrupamiento de datos.
Tabla 1.1
Distribución de frecuencias de salarios semanales de 100 trabajadores no
calificados.

1.2
INTERVALOS DE CLASE
En cada una de las clases de una distribución de
frecuencias, los límites nominales de clase inferior y superior indican los
valores incluidos dentro de la clase. (Véase la primera columna de la tabla
1.1) A diferencia de ello, los límites exactos de clase, o fronteras de clase,
son los puntos específicos que sirven para separar clases adyacentes en una
escala de medición de variables continuas. Los límites exactos de clase pueden
determinarse identificando los puntos intermedios entre los límites nominales
de clase superior e inferior, respectivamente, de clases adyacentes. El
intervalo de clase identifica el rango de valores incluidos dentro de una clase
y puede determinarse restando del límite exacto de clase superior de la clase
el límite exacto de clase inferior. Cuando no es posible identificar límites
exactos, el intervalo de clase puede determinarse restando del límite nominal
inferior de la clase el límite nominal inferior de la clase adyacente inferior.
Finalmente, para ciertos propósitos es común que los valores de una clase sean
representados por el punto medio de clase, el cual puede determinarse sumando
la mitad del intervalo de clase al límite exacto inferior de la clase.
EJEMPLO En la tabla 1.2 se presentan los límites
exactos de clase y los puntos medios de clase de la distribución de frecuencias
de la tabla 1.1.
Tabla 1.2
Salarios semanales de 100 trabajadores no calificados

* En general, en los
límites exactos de clase sólo se expresa un dígito adicional significativo, en
comparación con los límites nominales de clase. Sin embargo, dado que en el
caso de las unidades monetarias la unidad de medida más precisa relativa al
"dólar más cercano" suele definirse como "el centavo más cercano",
conviene expresar dos dígitos adicionales.
EJEMPLO Calculado con los dos métodos, el intervalo
de clase de la primera clase de la tabla 1.2 es $259.50 $239.50 = $20 (resta
del límite exacto de clase inferior al límite exacto de clase superior de la clase)
$260 - $240 = $20 (resta del límite nominal de clase inferior de la clase al
límite nominal de clase inferior de la clase adyacente superior)
Para efectos de cálculo, por lo general es deseable
que todos los intervalos de clase de una distribución de frecuencias dada sean
iguales. La siguiente fórmula puede emplearse para determinar el intervalo de
clase aproximado por usar:

EJEMPLO En referencia
a los datos originales no agrupados que se agruparon en la tabla 1.1,
supongamos que el salario observado más alto fue de $358 y el salario observado
más bajo de $242. Dado que el objetivo es disponer de seis clases con iguales
intervalos de clase,
![]()
Así, el tamaño de clase conveniente más cercano al
valor calculado es $20.
En el caso de datos distribuidos en forma
notoriamente no uniforme, como los datos del sueldo anual para una amplia
variedad de ocupaciones, pueden ser requeridos intervalos desiguales de clase.
En este caso, los intervalos de clase mayores se utilizan para los rangos de
valores con relativamente escasas observaciones.
1.3 HISTOGRAMASY POLÍGONOS
DE FRECUENCIAS
Un histograma es
una gráfica de barras de una distribución de frecuencias. Tal como se indica en
la figura 1-1, se acostumbra colocar los límites exactos de clase en el eje
horizontal de la gráfica y los números de observaciones en el eje vertical. Sin
embargo, también se usan puntos medios de clase en lugar de límites de clase
para identificar las clases.

Fig. 1-1
EJEMPLO En la figura 1-1 se muestra un histograma de
la distribución de frecuencias de los salarios semanales de la tabla 1.2.
Un polígono de frecuencias es una
gráfica de líneas de una distribución de frecuencias. Tal como se indica en la
figura 1-2, los dos ejes de esta gráfica son similares a los del histograma,
salvo que en el eje horizontal suele identificarse el punto medio de cada
clase. El número de observaciones de cada clase se representa con un punto por
encima del punto medio de la clase, puntos que se unen después con una serie de
segmentos lineales para formar un polígono o "figura de muchos
lados".
EJEMPL0 En la figura 1-2 se muestra un polígono de
frecuencias de la distribución de salarios semanales de la tabla 1.2.

Fig. 1-2
1.4 CURVAS DE FRECUENCIAS
Una curva de frecuencias es un
polígono de frecuencias suavizado.
EJEMPLO La figura 1-3 es una curva de frecuencias de
la distribución de salarios semanales de la tabla 1.2.
En términos de asimetría, una curva
de frecuencias puede ser: 1) asimétrica negativa: no simétrica con la ..cola- a la izquierda; 2) asimétrica positiva: no simétrica
con la “cola" a la derecha, o 3) simétrica.

Fig. 1-3
EJEMPLO El concepto de asimetría de las curvas de
frecuencias se ilustra gráficamente en la figura 1-4.
En términos de curtosis,
una curva de frecuencias puede ser: 1) platicúrtica:
plana, con las observaciones distribuidas en forma relativamente pareja entre
las clases; 2) leptocúrtica: afilada, con las
observaciones concentradas en un estrecho rango de valores, o 3) mesocúrtica: ni plana ni afilada en términos de la
distribución de los valores observados.

Fig. 1-4
EJEMPLO En la figura 1-5 aparecen los diversos tipos
de curvas de frecuencias en términos de curtosis.

Fig. 1-5
1.5 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS
Una distribución de frecuencias
acumuladas identifica el número acumulado de observaciones incluidas bajo el
límite exacto superior de cada clase de la distribución. Las frecuencias
acumuladas de una clase pueden determinarse sumando las frecuencias observadas
de esa clase a las frecuencias acumuladas de la clase anterior.
EJEMPLO El cálculo de las frecuencias acumuladas se
ilustra en la tabla 1.3.
Tabla 1.3 Cálculo de las frecuencias acumuladas de los datos de salarlos
semanales de la tabla 1.2

La gráfica de una distribución de
frecuencias acumuladas se llama ojiva. En el caso de distribuciones acumuladas
del tipo "y menor que", esta gráfica indica las frecuencias
acumuladas bajo cada límite exacto de clase de la distribución de frecuencias.
Si esa gráfica de líneas se suaviza, se obtiene la curva llamada ojiva.
EJEMPLO En la figura 1-6 se observa una ojiva de la
distribución acumulada de la tabla 1.3.

Fig.1-6
1.6 DISTRIBUCIONES DE FRECUENCIAS RELATIVAS
Una distribución defrecuencias
relativas es aquella cuyo número de observaciones asociadas con cada clase se
ha convertido en una frecuencia relativa dividiendo entre el número total de
observaciones de toda la distribución. De este modo, cada frecuencia relativa
es una proporción, la cual puede convertirse en un porcentaje multiplicándola
por 100.
Una de las ventajas de la
elaboración de distribuciones de frecuencias relativas es que su distribución
acumulada y su ojiva indican la proporción acumulada (o porcentaje) de
observaciones hasta los diversos valores posibles de la variable. Un valor
percentil es el porcentaje acumulado de observaciones hasta un valor designado
de una variable.
1.7 DISTRIBUCIÓN DE FRECUENCIAS DEL TIPO "Y MENOR QUE"
Los límites de clase de las
distribuciones de frecuencias obtenidas por computadora suelen ser del tipo
"y menor que". En estos límites, los límites nominales de clase son
al mismo tiempo los límites exactos que definen la clase. Los valores agrupados
en cualquier clase son iguales a o mayores que el límite de clase inferior y
hasta el valor del límite de clase superior, sin incluir a éste. Un medio
descriptivo para la presentación de estos límites de clase es:
5 y
menor que 8
8 y
menor que 11
Además de ser más fácil de aplicar
en software de cómputo, este tipo de distribución también suele representar un
modo más "natural" de recolección de datos. Por ejemplo, la edad de
las personas se registra por lo general en correspondencia con su aniversario
anterior, no con el próximo. Así, un individuo de 24 años de edad tiene 24
corno mínimo, pero menos de 25.
1.8 DIAGRAMAS DETALLO Y HOJAS
Un diagrama de tallo y hojas es una
modalidad relativamente simple de organización y presentación de medidas en un
formato de gráfica de barras jerárquicamente ordenado. Se trata de una técnica
común en el análisis exploratorio de datos. Como su nombre lo indica, el
análisis exploratorio de datos es un conjunto de técnicas de análisis
preliminar de datos para la detección de patrones y relaciones. También las
distribuciones de frecuencias y técnicas gráficas asociadas expuestas en las
secciones anteriores de este capítulo suelen emplearse con este propósito. En
cambio, el análisis confirmatorio de datos incluye los principales métodos de
inferencia estadística. El análisis confirmatorio de datos persigue la
extracción de conclusiones estadísticas definitivas sobre patrones y relaciones
presentes en los datos.
Aunque muy semejante a un
histograma, un diagrama de tallo y hojas se diferencia de éste en que es más
fácil de elaborar y en que muestra los valores reales de los datos, pues los
valores específicos no se pierden por efecto de su agrupamiento en clases
definidas. No obstante, esta técnica sólo es aplicable y significativa si el
primer dígito de la medición, o quizá los dos primeros, sirve efectivamente de
base para la separación de los datos en grupos. En consecuencia, cada grupo es
análogo a una clase o categoría en una distribución de frecuencias. Cuando
únicamente se usa el primer dígito para agrupar las medidas, la denominación
“tallo y hojas" alude al hecho de que el primer dígito es el tallo,
mientras que cada una de las medidas con valor a partir de ese primer dígito
pasa a ser una hoja en el contexto de esta representación.
EJEMPLO En la tabla 1.4 se presenta el puntaje
obtenido por 50 estudiantes en un examen de contabilidad financiera de 100
puntos. La figura 1-7 es el diagrama de tallo y hojas de ese puntaje.
Adviértase que. además del patrón general del puntaje,
también es posible observar el puntaje individual. En la línea correspondiente
al tallo de 6, por ejemplo, los dos valores de 2 de las hojas representan a los
dos puntajes de 62 incluidos en la tabla 1.4.
Tabla 1.4 Puntajes obtenidos por 50 estudiantes en un examen de contabilidad
financiera

Fig. 1-7 Diagrama de tallo y hojas
1.9 DIAGRAMAS DE PUNTOS
Un diagrama de puntos se asemeja a
un histograma en el sentido de que consiste en una representación gráfica de
una distribución de los valores de los datos. Sin embargo, se diferencia de
éste en que los valores se representan individualmente, en lugar de agruparse
en clases. Los diagramas de puntos se aplican preferentemente a pequeños
conjuntos de datos, en cuyo caso no se garantiza el agrupamiento de valores en
clases de una distribución de frecuencias. Son particularmente útiles en la
comparación de dos conjuntos de datos diferentes, o de dos subgrupos de un
conjunto de datos.
1.10 DIAGRAMAS DE PARETO
Un diagrama de Pareto
se asemeja a un histograma, excepto que es una gráfica de barras de frecuencias
de una variable cualitativa, no de datos cuantitativos agrupados en clases. Las
barras de la gráfica, que pueden representar frecuencias o frecuencias
relativas (porcentajes) se organizan en orden descendente de izquierda a
derecha. Esta disposición da como resultado la ubicación de las categorías más
importantes de datos, según su frecuencia de ocurrencia, en las posiciones
iniciales de la gráfica. Los diagramas de Pareto se
usan en el control de procesos para tabular las causas asociadas con
variaciones de causas atribuibles en la calidad del producto del proceso. Es
común que solamente unas cuantas categorías de causas se asocien con la mayoría
de los problemas de calidad, de modo que los diagramas de Pareto
permiten que tanto equipos de trabajadores como gerentes se concentren en las
áreas más importantes en las que se necesitan acciones correctivas.
EJEMPLO Se encontró que los refrigeradores que no
fueron aprobados en la inspección final en una planta ensambladora de aparatos
eléctricos durante el último mes tenían defectos debidos a las siguientes
causas: ensamble, acabado de laca, fallas eléctricas, abolladuras u otras
causas. La figura 1-8, obtenida con Minitab, es el
diagrama de Pareto para la representación gráfica
tanto de las frecuencias como de las frecuencias relativas de cada causa de
falla en inspección. Como puede verse, la gran mayoría de fallas en inspección
se deben a defectos en el ensamble y el acabado de laca.
Diagrama de Pareto
de: Defectos

Fig. 1-8
1.11 DIAGRAMAS DE BARRAS Y GRÁFICAS DE LINEAS
Una serie de tiempo es un conjunto
de valores observados, tales como datos de producción o ventas, durante una
serie de periodos temporales secuencialmente
ordenados. Para efectos de representación gráfica, tanto los diagramas de
barras como las gráficas de líneas son de gran utilidad. En un diagrama de
barras, una serie de barras representa cantidades de una serie de tiempo.
EJEMPLO En el diagrama de barras de la figura 1-9 se
recoge la información de ganancias netas (en millones de dólares) de un
importante banco comercial durante una secuencia de años codificados.
En un diagrama de barras de
componentes se marcan subdivisiones en las barras del diagrama. Por ejemplo,
cada barra de la figura 1-9 podría subdividirse en distintas partes (tal vez
diferenciadas con colores) para indicar la contribución relativa de cada
segmento de la empresa a las ganancias netas de cada año.
Una gráfica de líneas contiene
cantidades de series de tiempo unidas entre sí por segmentos lineales.

Fig. 1-9 Diagrama de barras.
EJEMPLO Los datos de la figura 1-9 se presentan en
forma de gráfica de líneas en la figura 1-10.

Fig. 1-10 Gráfica de líneas.
1.12 GRÁFICAS DE CORRIDAS
Una gráfica de corridas es una
gráfica de valores de datos en el orden secuencial temporal en que fueron
observados. Los valores trazados pueden ser valores observados individuales o
valores compendiados, como en el caso de una serie de medias muestrales. Cuando a una gráfica de este tipo se le agregan
los límites inferior y superior del muestreo de aceptación, se le llama gráfica
de control. La determinación de esos límites.
EJEMPLO En la figura 1-11 se muestra una
gráfica de corridas de la secuencia de pesos medios de muestras de cuatro
paquetes de papas fritas tomadas en 15 momentos distintos con el método de
muestreo de subgrupos racionales. La secuencia de pesos medios de las muestras
fue la siguiente: 14.99, 15.08, 15.05, 14.95, 15.04, 14.91, 15.01, 14.84,
14.80, 14.98, 14.96, 15.00, 15.02, 15.07 y 15.02 onzas. La especificación de
peso neto promedio por empacar en el proceso es de 15.00 onzas. La
determinación de si considerar o no como una desviación significativa a
cualquiera de las desviaciones de estas medias muestrales.

Fig. 1-11 Gráfica de corridas.
1.13 DIAGRAMAS CIRCULARES
Un diagrama circular es una figura
en forma de pastel cuyas piezas representan divisiones de una cantidad total, como
podría serio la distribución de las ventas en dólares de una compañía.
Un diagrama circular de porcentajes
es aquel cuyos valores han sido convertidos a porcentajes para facilitar su
comparación.
EJEMPLO La figura 1-12 es un diagrama circular en el
que se describen los ingresos y el porcentaje de ingresos totales de Xerox Corporation durante un año
reciente de acuerdo con las categorías actividad principal (que Xerox denomina "zona de importancia decisiva”)
mercados en crecimiento, países en desarrollo y nichos de oportunidad.

Fig. 1-12 Diagrama circular.
2 Descripción de datos
económicos y administrativos: medidas de posición
2.1 MEDIDAS DE POSICIÓN EN CONJUNTOS DE DATOS
Una medida de posición es un valor
calculado de un grupo de datos que sirve para describir a éstos de alguna
manera. Lo común es que nos interese que este valor sea representativo de todos
los valores del grupo, motivo por el cual es de desear cierto tipo de promedio.
En sentido estadístico, un promedio es una medida de la tendencia - central de
una serie de valores. Este capítulo trata de los diversos procedimientos
estadísticos relativos a las medidas de posición.
2.2 MEDIA ARITMÉTICA
La media aritmética, o promedio
aritmético, es la suma de los valores del grupo de datos dividida entre el
número de valores.
En estadística, una medida
descriptiva de una población, o parámetro de la población, se representa por lo
general con alguna de las letras del alfabeto griego, mientras que una medida
descriptiva de una muestra, o estadística muestral,
se representa con alguna de las letras del alfabeto latino. Así, la media
aritmética de una población de valores se representa con el símbolo m (mu), en tanto que la media aritmética de una muestra de
valores se representa con el símbolo X (equis barra). Las fórmulas de la media
poblacional y la media muestral son
Operacionalmente, ambas fórmulas son
idénticas: en ambos casos se suman todos los valores (de X) y se les divide
después entre el número de valores. Sin embargo, la distinción entre los
denominadores es que en el análisis estadístico la N mayúscula indica
habitualmente el número de elementos de la población, mientras que la n
minúscula indica el número de elementos de la muestra.
EJEMPLO Durante uno de los meses del verano, los ocho
vendedores de una empresa de servicios de calefacción y 2 acondicionado
vendieron el siguiente número de unidades centrales de aire acondicionado: 8,
11, 5, 14, 8, 11, 16, 11. -Considerando ese mes como la población estadística
de interés, el número medio de unidades vendidas es

Nota: Para efectos de reporte, las
medidas de posición contienen por lo general un dígito adicional al nivel
original de medición.
2.3 MEDIA PONDERADA
La media ponderada o promedio ponderado
es una media aritmética en donde cada uno de los valores se pondera de acuerdo
con su importancia en el grupo en general. Las fórmulas de la media ponderada
poblacional y muestral son idénticas:
![]()
Operacionalmente, cada valor del
grupo (X) se multiplica por el factor de ponderación correspondiente (w), tras
de lo cual los productos se suman para posteriormente dividirse entre la suma
de las ponderaciones.
EJEMPLO El margen de utilidad en el último año fiscal
de las cuatro líneas de productos de una compañía fabricante de múltiples
bienes fue: línea A, 4.2%; línea B, 5.5%; línea C, 7.4%, y línea D, 10.1%. El
margen de utilidad medio no ponderado es
![]()
Pero como las ventas de los cuatro productos
no son iguales, este promedio no ponderado es incorrecto. Partiendo de los
totales de ventas de la tabla 2.1, la media ponderada describe correctamente el
promedio global.
Tabla 2.1 Margen de utilidad y
volumen de ventas de cuatro líneas de productos

2.4 MEDIANA
La mediana de un grupo de elementos
es el valor del elemento intermedio cuando todos los elementos del grupo
siguen, en términos de valor, un orden ascendente o descendente. En un grupo
con un número par de elementos, se supone que la mediana se halla a medio
camino entre los dos valores adyacentes al punto intermedio. Cuando el grupo
contiene un gran número de valores, se emplea la siguiente fórmula para
determinar la posición de la mediana en el grupo ordenado:
![]()
EJEMPLO Los ocho vendedores mencionados en el ejemplo
1 vendieron el siguiente número de unidades centrales de aire acondicionado, en
orden ascendente: 5, 8, 8, 11, 11, 11, 14, 16. El valor de la mediana es
![]()
El valor de la mediana se halla
entre el cuarto y quinto valores del grupo ordenado. Dado que en este caso
ambos valores son de " 11 ", la mediana es igual a 11.0.
2.5 MODA
La moda es el valor que ocurre más
frecuentemente en un conjunto de valores, A esta distribución se le conoce como
unimodal. Un conjunto pequeño de datos en el que no
se repiten valores medidos carece de moda. Cuando dos valores no adyacentes son
casi iguales en cuanto a frecuencias máximas asociadas con ellos, la
distribución se llama bimodal. Las distribuciones de
medidas con varias modas se llaman multimodales.
EJEMPLO Los ocho vendedores mencionados en el ejemplo
1 vendieron el siguiente número de unidades centrales de aire acondicionado: 8,
11, 5, 14, 8, 11, 16 y 11. La moda de este grupo de valores es el valor con
mayor frecuencia, o moda = 11.0.
2.6 RELACIÓN ENTRE MEDIA Y MEDIANA
En toda distribución simétrica,
media, mediana y moda coinciden en valor* [véase figura 2-1 a)]. En una
distribución asimétrica positiva, la media siempre es mayor que la mediana
[véase figura 2-1b)]. En una distribución asimétrica negativa, la media siempre
es menor que la mediana [véase figura 2-1c)]. Estas dos últimas relaciones son
siempre verdaderas, independientemente de que la distribución sea unimodal o no. Una medida de asimetría en estadística,
basada en la diferencia entre los valores de la media y la mediana de un grupo
de valores, es el coeficiente de asimetría de Pearson.

Fig. 2-1
EJEMPLO En los datos de ventas considerados en los
ejemplos 1, 3 y 4, la media es 10.5, mientras que la mediana es 11.0. Puesto
que la media es menor que la mediana, la distribución de valores observados
tiende a ser asimétrica negativa; es decir, sesgada a la izquierda.
2.7 CRITERIOS MATEMÁTICOS SATISFECHOS POR LA MEDIANA Y LA MEDIA
Uno de los propósitos de la
determinación de cualquier medida de tendencia central, como la mediana o la
media, es emplearla para representar el nivel general de los valores incluidos
en el grupo. Tanto la mediana como la media son medidas representativas
"aceptables", pero desde el punto de vista de criterios u objetivos
matemáticos diferentes. La mediana es el valor representativo que reduce al
mínimo la suma de los valores absolutos de las diferencias entre cada valor del
grupo y la mediana. Esto es, la mediana reduce al mínimo la suma de las desviaciones
absolutas respecto de los valores individuales representados. En contraste con
ello, la media aritmética se concentra en la reducción al mínimo de la suma de
las desviaciones al cuadrado respecto de los valores individuales del grupo. El
criterio cuyo objetivo es reducir al mínimo la suma de las desviaciones al
cuadrado asociada con un valor representativo se llama criterio de mínimos
cuadrados. Este criterio es uno de los más importantes en la inferencia
estadística basada en datos muestrales, como se
expondrá detalladamente en la siguiente sección.
EJEMPLO En los datos de ventas considerados en los
ejemplos anteriores, la mediana es 11.0 y la media 10.5. Los montos de venta
ordenados se presentan en la primera columna de la tabla 2.2. Las demás columnas
de esa tabla se dedican a la determinación de la suma de las desviaciones
absolutas y de las desviaciones al cuadrado de los valores individuales
respecto tanto de la mediana como de la media. Nótese que la suma de las
desviaciones absolutas respecto de la mediana, 20, es menor que la suma
correspondiente de 21.0 respecto de la media. Por otro lado, si se aplica el
criterio de mínimos cuadrados, la suma de las desviaciones al cuadrado respecto
de la media, 86.00, es menor que la suma correspondiente de 88 respecto de la
mediana. Ningún valor diferente a la media puede tener una suma de desviaciones
cuadradas menor a la de ésta.
Tabla 2.2 Criterios matemáticos satisfechos por la
mediana y la media
(Med
= 11.0; Media = 10.5)

2.8 USO DE MEDIA, MEDIANA Y MODA
Consideraremos primero el uso de
estas medidas de promedio para la representación de datos de la población. El
valor de la moda indica la posición de la mayoría de los valores observados,
como los índices salariales por hora en una compañía. Puede ser útil como
medida descriptiva de un grupo de la población, aunque sólo si existe una moda
claramente perceptible. Por su parte, la mediana es siempre una medida
excelente para representar el nivel "típico" de los valores
observados, como los índices salariales, de una población. Esto es así
independientemente de la existencia de más de una moda o de que la distribución
de la población sea asimétrica o simétrica. La falta de simetría no es en este
caso un problema especial, porque el índice salarial mediano, por ejemplo,
siempre es el índice salarial de la "persona intermedia" cuando los
índices salariales se enlistan en orden de magnitud. También la media
aritmética es excelente como valor representativo de una población, aunque sólo
si la población es claramente simétrica. En datos no simétricos, los valores
extremos (unos cuantos índices salariales muy elevados de especialistas
técnicos, por ejemplo) distorsionarán el valor de la media como valor
representativo. Así, la mediana es por lo general una mejor medida de posición
de datos para la descripción de datos de la población.
Consideremos ahora el uso de las
tres medidas de posición en relación con datos muestrales.
El propósito de la inferencia estadística con datos muestrales
es producir enunciados de probabilidad sobre la población de la que fue
seleccionada la muestra. La moda no es una medida aceptable de posición
respecto de datos muestrales, porque su valor puede
variar ampliamente de una muestra a otra. La mediana es mejor que la moda,
porque su valor es más estable entre muestra y muestra. No obstante, el valor
de la media es el más estable de estas tres medidas. La razón de la relativa
estabilidad de la media muestral de una muestra a
otra es que se trata de la medida de posición que satisface el criterio de
mínimos cuadrados. En consecuencia, la mejor medida de posición en el caso de
datos muestrales es generalmente la media aritmética.
EJEMPLO Se han recopilado los índices salariales de
los 650 empleados por horade una empresa manufacturera. La medida más
representativa del índice salarial típico es la mediana, porque en este caso
está implicada una población y la mediana no se ve relativamente afectada por
la posible falta de simetría de los índices salariales. Efectivamente, es
probable que datos como índices salariales y montos de sueldos sean de
asimetría positiva, con relativamente pocos montos salariales o de sueldos
excepcionalmente elevados y ubicados por lo tanto en la cola derecha de la
distribución.
EJEMPLO Una muestra aleatoria de n=
100 índices salariales se obtiene en una compañia con
varios miles de empleados por hora. El índice salarial más representativo de
estos varios miles de empleados es la media muestral.
Aunque es improbable que la media muestral sea
exactamente igual al índice salarial medio de toda la población, por lo general
se hallará mucho más cerca de la media poblacional que la mediana muestral como estimador del índice salarial mediano de la
población.
2.9 USO DE LA MEDIA EN EL CONTROL ESTADÍSTICO DE PROCESOS
En la sección anterior se señaló que
una gráfica de corridas es una gráfica de valores de datos en el orden
secuencial temporal en que fueron observados y que los valores representados
pueden ser valores individuales o promedios de muestras secuenciales.
Es preferible usar promedios que valores individuales, porque por lo general
cualquier promedio será más estable (menos variable) de una muestra a otra que
las observaciones individuales. Como se indicó en la sección anterior, la media
muestral es más estable que la mediana o la moda. Por
esta razón, el propósito de las gráficas de corridas referentes a promedios muestrales es trazar las medias muestrales.
A estas gráficas se les llama
gráficas Y, y son la base para la determinación de si un proceso es estable o
existe en él una variación con una causa atribuible por corregir.
EJEMPLO Remítase a la gráfica de corridas de la
figura 1-11 del capítulo anterior. Esta gráfica de corridas de la secuencia de
pesos medios de muestras de n = 4 paquetes de papas fritas es característica
del tipo de gráficas elaboradas para efectos del control estadístico de
procesos, como se explica e ilustra en el capítulo 20.
2.10 CUARTILES, DECILES Y PERCENTILES
Cuartiles, deciles y percentiles se asemejan a la mediana en que también subdividen
una distribución de medidas de acuerdo con la proporción de las frecuencias
observadas. Mientras que la mediana divide una distribución en mitades, los cuartiles la dividen en cuartos, los deciles
en décimos y los puntos percentiles en 100 partes. De
la mediana se modifica según el punto fraccionario de interés. Por ejemplo,

EJEMPLO Los ocho vendedores mencionados en el ejemplo
1 vendieron el siguiente número de unidades centrales de aire acondicionado, en
orden ascendente: 5, 8, 8, 11, 11, 11, 14, 16. Determine las posiciones del
primer cuartil y el tercer cuartil
de esta distribución.

La posición del primer cuartil se halla a medio camino entre el segundo y tercer
valores de la serie ordenada. Puesto que ambos valores son de 8, el valor del
primer cuartil es de 8.0. El valor del tercer cuartil se halla a medio camino entre el sexto y séptimo
valores de la serie, o a medio camino entre 11 y 14, lo que equivale a 12.5.
2.11 RESULTADOS EN COMPUTADORA
Se dispone de software de cómputo
para determinar varias medidas de promedio. El problema 2.17 ilustra su uso
para la determinación de los valores de la media y la mediana de una muestra de
tiempos de ensamble de un producto.
3 Descripción de datos económicos y administrativos:
medidas de variabilidad
3.1 MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS.
Las medidas de tendencia central
descritas en el capítulo anterior son útiles para la identificación del valor
"representativo" de un grupo de valores. Por su parte, las medidas de
variabilidad, o dispersión, se ocupan de la descripción de la variabilidad
entre los valores. Se dispone de diversas técnicas para medir el grado de
variabilidad en conjuntos d datos. Las que describiremos en este capítulo son
el rango, los rangos modificados, la desviación media, la varianza, la
desviación estándar y el coeficiente de variación.