Métodos estadísticos

(Carrera de Psicología)

 

 

 

 

 

 

Roberto Javier Velasco Carbajal

Septiembre 2003


Prefacio.

 

 

El presente trabajo fue elaborado para la acreditación de la materia de Métodos estadísticos, de la licenciatura en psicología, ante la Universidad Abierta de San Luis Potosí.

 

Para la elaboración del presente ensayo, seguí el temario conceptual de la materia que se encuentra en la pagina de internet, sin embargo, con el objeto de no ser tan especifico en los temas tratados, incluí algunos otros que encontré afines o complementarios en los libros que consulte, por tal motivo, el índice varia un poco del antes señalado. 

 

También cabe señalar que los temas tratados en este ensayo, solo son los elementales de esta materia, sin embargo, considero que son muy interesantes y afines en el campo de la investigación, tanto de la psicología, como de cualquier otro campo.

 

 

 


INDICE.

 

Estadística.

 

            INTRODUCCION............................................................................................................ 1

                                                                                                                                      

1          REPRESENTACIONES ESTADÍSTICAS Y ANÁLISIS DE GRÁFICAS................................ 2

1.1               DISTRIBUCIONES DE FRECUENCIAS............................................................................ 2

1.2               INTERVALOS DE CLASE............................................................................................... 2

1.3               HISTOGRAMASY POLÍGONOS DE FRECUENCIAS......................................................... 4

1.4               CURVAS DE FRECUENCIAS......................................................................................... 5

1.5               DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS..................................................... 7

1.6               DISTRIBUCIONES DE FRECUENCIAS RELATIVAS......................................................... 8

1.7               DISTRIBUCIÓN DE FRECUENCIAS DEL TIPO "Y MENOR QUE"...................................... 8

1.8               DIAGRAMAS DETALLO Y HOJAS.................................................................................. 8

1.9               DIAGRAMAS DE PUNTOS........................................................................................... 10

1.10            DIAGRAMAS DE PARETO........................................................................................... 10

1.11            DIAGRAMAS DE BARRAS Y GRÁFICAS DE LINEAS.................................................... 11

1.12            GRÁFICAS DE CORRIDAS........................................................................................... 13

1.13            DIAGRAMAS CIRCULARES.......................................................................................... 14

 

2                     DESCRIPCION DE DATOS ECONÓMICOS Y ADMINISTRATICVOS:

                    MEDIDAS DE POSICIÓN...................................................................................... 15

2.1               MEDIDAS DE POSICIÓN EN CONJUNTOS DE DATOS.................................................. 15

2.2               MEDIA ARITMÉTICA.................................................................................................... 15

2.3               MEDIA PONDERADA................................................................................................... 16

2.4               MEDIANA   ................................................................................................................. 17

2.5               MODA        ................................................................................................................. 17

2.6               ELACIÓN ENTRE MEDIA Y MEDIANA........................................................................... 18

2.7               CRITERIOS MATEMÁTICOS SATISFECHOS POR LA MEDIANA Y LA MEDIA................. 18

2.8               USO DE MEDIA, MEDIANA Y MODA............................................................................ 19

2.9               USO DE LA MEDIA EN EL CONTROL ESTADÍSTICO DE PROCESOS............................ 21

2.10            CUARTILES, DECILES Y PERCENTILES....................................................................... 21

2.11            RESULTADOS EN COMPUTADORA............................................................................. 22

 

3                     DESCRIPCION DE ATOS ECONOMICOS Y ADMINISTRATICOS:

 MEDIDAS DE  VARIABILIDAD............................................................................ 23

3.1        MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS.......................................... 23

3.2        RANGO                                                                                                                        23

3.3        RANGOS MODIFICADOS............................................................................................. 24

3.4        DIAGRAMAS DE CAJA................................................................................................ 24

3.5        DESVIACIÓN MEDIA ABSOLUTA (DMA)....................................................................... 25

3.6               VARIANZAY DESVIACIÓN ESTÁNDAR......................................................................... 26

3.7               CÁLCULOS SIMPLIFICADOS DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR............. 28

3.8               CRITERIO MATEMÁTICO ASOCIADO CON LA VARIANZA Y LA

                           DESVIACIÓN ESTÁNDAR................................................................................... 29

3.9               USO DE LA DESVIACIÓN ESTÁNDAR EN LA DESCRIEPCIÓN DE DATOS..................... 30

3.10            USO DEL RANGO Y LA DESVIACIÓN ESTÁNDAR EN EL CONTROL

                     ESTADÍSTICO DE     PROCESOS........................................................................ 31

3.11            COEFICIENTE DE VARIACIÓN..................................................................................... 32

3.12            COEFICIENTE DE ASIMETRÍA DE PEARSON............................................................... 33


 

 

3                     POBLACIONES Y MUESTRAS..................................................................................... 34

 

4                     MUESTREO ALEATORIO............................................................................................. 36

 

 

Probabilidad

            INTRODUCCIÓN........................................................................................................... 41

 

6          ESPACIOS MUESTRALES Y EVENTOS....................................................................... 41

 

7          LOS POSTULADOS DE LA PROBABILIDAD.................................................................. 48

 

8                     PROBABILIDADES Y POSIBILIDADES.......................................................................... 52

 

9          PROBABILIDAD CONDICIONAL.................................................................................... 57

 

10         TEOREMA DE BAYES................................................................................................. 62

 

 

Resumen y conclusiones ................................................................................................... 67

 

Bibliografía........................................................................................................................... 86

           


Introducción.

 

 

Antes de entrar en materia, comenzaremos por dar una definición de estadística:

 

 

Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.

 

 

Estadística  n. f. ,

1. Ciencia cuyo objeto es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc., y deducir de ella, gracias al análisis de estos datos, unos significados precisos o unas previsiones para el futuro.

 2. Cuadro numérico de un hecho que se presta a la estadística: estadística de natalidad.

 

 

Definición de estadística aplicada a la administración y la economía:

 

La estadística es el conjunto de técnicas que se emplean para la recolección, organización, análisis e interpretación de datos. Los datos pueden ser cuantitativos, con valores expresados numéricamente, o cualitativos, en cuyo caso se tabulan las características de las observaciones. La estadística sirve en administración y economía para tomar mejores decisiones a partir de la comprensión de las fuentes de variación y de la detección de patrones y relaciones en datos económicos y administrativos.


1 Representaciones estadísticas y análisis de gráficas.

 

1.1 DISTRIBUCIONES DE FRECUENCIAS

 

Una distribución de frecuencias es una tabla en la cual se agrupan en clases valores posibles de una variable y donde se registra el número de valores observados correspondientes a cada clase. Los datos organizados en una distribución de frecuencias se llaman datos agrupados. En contraste con ello, en el caso de datos no agrupados enlistan todos los valores observados de la variable aleatoria.

 

EJEMPLO  En la tabla 1.1 aparece una distribución de frecuencias de salarios semanales. Obsérvese que las cantidades han sido consignadas de acuerdo con el dólar más cercano. Cuando el residuo por redondear es de "exactamente 0.5" (exactamente $0.50 en este caso), el procedimiento convencional es redondear al número par más cercano. Así, un salario semanal de $259.50 se redondearía a $260 como parte del proceso de agrupamiento de datos.

 

 

Tabla 1.1  Distribución de frecuencias de salarios semanales de 100 trabajadores no calificados.

 

 

 

1.2 INTERVALOS DE CLASE

 

En cada una de las clases de una distribución de frecuencias, los límites nominales de clase inferior y superior indican los valores incluidos dentro de la clase. (Véase la primera columna de la tabla 1.1) A diferencia de ello, los límites exactos de clase, o fronteras de clase, son los puntos específicos que sirven para separar clases adyacentes en una escala de medición de variables continuas. Los límites exactos de clase pueden determinarse identificando los puntos intermedios entre los límites nominales de clase superior e inferior, respectivamente, de clases adyacentes. El intervalo de clase identifica el rango de valores incluidos dentro de una clase y puede determinarse restando del límite exacto de clase superior de la clase el límite exacto de clase inferior. Cuando no es posible identificar límites exactos, el intervalo de clase puede determinarse restando del límite nominal inferior de la clase el límite nominal inferior de la clase adyacente inferior. Finalmente, para ciertos propósitos es común que los valores de una clase sean representados por el punto medio de clase, el cual puede determinarse sumando la mitad del intervalo de clase al límite exacto inferior de la clase.

 

EJEMPLO  En la tabla 1.2 se presentan los límites exactos de clase y los puntos medios de clase de la distribución de frecuencias de la tabla 1.1.

 

 

Tabla 1.2   Salarios semanales de 100 trabajadores no calificados

 

 

* En general, en los límites exactos de clase sólo se expresa un dígito adicional significativo, en comparación con los límites nominales de clase. Sin embargo, dado que en el caso de las unidades monetarias la unidad de medida más precisa relativa al "dólar más cercano" suele definirse como "el centavo más cercano", conviene expresar dos dígitos adicionales.

 

 

EJEMPLO  Calculado con los dos métodos, el intervalo de clase de la primera clase de la tabla 1.2 es $259.50 $239.50 = $20 (resta del límite exacto de clase inferior al límite exacto de clase superior de la clase) $260 - $240 = $20 (resta del límite nominal de clase inferior de la clase al límite nominal de clase inferior de la clase adyacente superior)

 

Para efectos de cálculo, por lo general es deseable que todos los intervalos de clase de una distribución de frecuencias dada sean iguales. La siguiente fórmula puede emplearse para determinar el intervalo de clase aproximado por usar:

 

 

EJEMPLO  En referencia a los datos originales no agrupados que se agruparon en la tabla 1.1, supongamos que el salario observado más alto fue de $358 y el salario observado más bajo de $242. Dado que el objetivo es disponer de seis clases con iguales intervalos de clase,

 

 

Así, el tamaño de clase conveniente más cercano al valor calculado es $20.

 

En el caso de datos distribuidos en forma notoriamente no uniforme, como los datos del sueldo anual para una amplia variedad de ocupaciones, pueden ser requeridos intervalos desiguales de clase. En este caso, los intervalos de clase mayores se utilizan para los rangos de valores con relativamente escasas observaciones.

 

1.3 HISTOGRAMASY POLÍGONOS DE FRECUENCIAS

 

Un histograma es una gráfica de barras de una distribución de frecuencias. Tal como se indica en la figura 1-1, se acostumbra colocar los límites exactos de clase en el eje horizontal de la gráfica y los números de observaciones en el eje vertical. Sin embargo, también se usan puntos medios de clase en lugar de límites de clase para identificar las clases.

 

 

Fig. 1-1

 

 

 

EJEMPLO  En la figura 1-1 se muestra un histograma de la distribución de frecuencias de los salarios semanales de la tabla 1.2.

Un polígono de frecuencias es una gráfica de líneas de una distribución de frecuencias. Tal como se indica en la figura 1-2, los dos ejes de esta gráfica son similares a los del histograma, salvo que en el eje horizontal suele identificarse el punto medio de cada clase. El número de observaciones de cada clase se representa con un punto por encima del punto medio de la clase, puntos que se unen después con una serie de segmentos lineales para formar un polígono o "figura de muchos lados".

EJEMPL0  En la figura 1-2 se muestra un polígono de frecuencias de la distribución de salarios semanales de la tabla 1.2.

Fig. 1-2

 

1.4 CURVAS DE FRECUENCIAS

Una curva de frecuencias es un polígono de frecuencias suavizado.

EJEMPLO  La figura 1-3 es una curva de frecuencias de la distribución de salarios semanales de la tabla 1.2.

En términos de asimetría, una curva de frecuencias puede ser: 1) asimétrica negativa: no simétrica con la ..cola- a la izquierda; 2) asimétrica positiva: no simétrica con la “cola" a la derecha, o 3) simétrica.

 

 

 

 

 

 

Fig. 1-3

EJEMPLO  El concepto de asimetría de las curvas de frecuencias se ilustra gráficamente en la figura 1-4.

En términos de curtosis, una curva de frecuencias puede ser: 1) platicúrtica: plana, con las observaciones distribuidas en forma relativamente pareja entre las clases; 2) leptocúrtica: afilada, con las observaciones concentradas en un estrecho rango de valores, o 3) mesocúrtica: ni plana ni afilada en términos de la distribución de los valores observados.

Fig. 1-4

EJEMPLO   En la figura 1-5 aparecen los diversos tipos de curvas de frecuencias en términos de curtosis.

Fig. 1-5

 

1.5 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS

Una distribución de frecuencias acumuladas identifica el número acumulado de observaciones incluidas bajo el límite exacto superior de cada clase de la distribución. Las frecuencias acumuladas de una clase pueden determinarse sumando las frecuencias observadas de esa clase a las frecuencias acumuladas de la clase anterior.

EJEMPLO   El cálculo de las frecuencias acumuladas se ilustra en la tabla 1.3.

Tabla 1.3       Cálculo de las frecuencias acumuladas de los datos de salarlos semanales de la tabla 1.2

La gráfica de una distribución de frecuencias acumuladas se llama ojiva. En el caso de distribuciones acumuladas del tipo "y menor que", esta gráfica indica las frecuencias acumuladas bajo cada límite exacto de clase de la distribución de frecuencias. Si esa gráfica de líneas se suaviza, se obtiene la curva llamada ojiva.

EJEMPLO   En la figura 1-6 se observa una ojiva de la distribución acumulada de la tabla 1.3.

Fig.1-6

 

1.6 DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

Una distribución defrecuencias relativas es aquella cuyo número de observaciones asociadas con cada clase se ha convertido en una frecuencia relativa dividiendo entre el número total de observaciones de toda la distribución. De este modo, cada frecuencia relativa es una proporción, la cual puede convertirse en un porcentaje multiplicándola por 100.

Una de las ventajas de la elaboración de distribuciones de frecuencias relativas es que su distribución acumulada y su ojiva indican la proporción acumulada (o porcentaje) de observaciones hasta los diversos valores posibles de la variable. Un valor percentil es el porcentaje acumulado de observaciones hasta un valor designado de una variable.

1.7 DISTRIBUCIÓN DE FRECUENCIAS DEL TIPO "Y MENOR QUE"

Los límites de clase de las distribuciones de frecuencias obtenidas por computadora suelen ser del tipo "y menor que". En estos límites, los límites nominales de clase son al mismo tiempo los límites exactos que definen la clase. Los valores agrupados en cualquier clase son iguales a o mayores que el límite de clase inferior y hasta el valor del límite de clase superior, sin incluir a éste. Un medio descriptivo para la presentación de estos límites de clase es:

5 y menor que 8

8 y menor que 11

Además de ser más fácil de aplicar en software de cómputo, este tipo de distribución también suele representar un modo más "natural" de recolección de datos. Por ejemplo, la edad de las personas se registra por lo general en correspondencia con su aniversario anterior, no con el próximo. Así, un individuo de 24 años de edad tiene 24 corno mínimo, pero menos de 25.

1.8 DIAGRAMAS DETALLO Y HOJAS

Un diagrama de tallo y hojas es una modalidad relativamente simple de organización y presentación de medidas en un formato de gráfica de barras jerárquicamente ordenado. Se trata de una técnica común en el análisis exploratorio de datos. Como su nombre lo indica, el análisis exploratorio de datos es un conjunto de técnicas de análisis preliminar de datos para la detección de patrones y relaciones. También las distribuciones de frecuencias y técnicas gráficas asociadas expuestas en las secciones anteriores de este capítulo suelen emplearse con este propósito. En cambio, el análisis confirmatorio de datos incluye los principales métodos de inferencia estadística. El análisis confirmatorio de datos persigue la extracción de conclusiones estadísticas definitivas sobre patrones y relaciones presentes en los datos.

Aunque muy semejante a un histograma, un diagrama de tallo y hojas se diferencia de éste en que es más fácil de elaborar y en que muestra los valores reales de los datos, pues los valores específicos no se pierden por efecto de su agrupamiento en clases definidas. No obstante, esta técnica sólo es aplicable y significativa si el primer dígito de la medición, o quizá los dos primeros, sirve efectivamente de base para la separación de los datos en grupos. En consecuencia, cada grupo es análogo a una clase o categoría en una distribución de frecuencias. Cuando únicamente se usa el primer dígito para agrupar las medidas, la denominación “tallo y hojas" alude al hecho de que el primer dígito es el tallo, mientras que cada una de las medidas con valor a partir de ese primer dígito pasa a ser una hoja en el contexto de esta representación.

EJEMPLO   En la tabla 1.4 se presenta el puntaje obtenido por 50 estudiantes en un examen de contabilidad financiera de 100 puntos. La figura 1-7 es el diagrama de tallo y hojas de ese puntaje. Adviértase que. además del patrón general del puntaje, también es posible observar el puntaje individual. En la línea correspondiente al tallo de 6, por ejemplo, los dos valores de 2 de las hojas representan a los dos puntajes de 62 incluidos en la tabla 1.4.

Tabla 1.4       Puntajes obtenidos por 50 estudiantes en un examen de contabilidad financiera

Fig. 1-7 Diagrama de tallo y hojas


1.9 DIAGRAMAS DE PUNTOS

Un diagrama de puntos se asemeja a un histograma en el sentido de que consiste en una representación gráfica de una distribución de los valores de los datos. Sin embargo, se diferencia de éste en que los valores se representan individualmente, en lugar de agruparse en clases. Los diagramas de puntos se aplican preferentemente a pequeños conjuntos de datos, en cuyo caso no se garantiza el agrupamiento de valores en clases de una distribución de frecuencias. Son particularmente útiles en la comparación de dos conjuntos de datos diferentes, o de dos subgrupos de un conjunto de datos.

1.10 DIAGRAMAS DE PARETO 

Un diagrama de Pareto se asemeja a un histograma, excepto que es una gráfica de barras de frecuencias de una variable cualitativa, no de datos cuantitativos agrupados en clases. Las barras de la gráfica, que pueden representar frecuencias o frecuencias relativas (porcentajes) se organizan en orden descendente de izquierda a derecha. Esta disposición da como resultado la ubicación de las categorías más importantes de datos, según su frecuencia de ocurrencia, en las posiciones iniciales de la gráfica. Los diagramas de Pareto se usan en el control de procesos para tabular las causas asociadas con variaciones de causas atribuibles en la calidad del producto del proceso. Es común que solamente unas cuantas categorías de causas se asocien con la mayoría de los problemas de calidad, de modo que los diagramas de Pareto permiten que tanto equipos de trabajadores como gerentes se concentren en las áreas más importantes en las que se necesitan acciones correctivas.

EJEMPLO  Se encontró que los refrigeradores que no fueron aprobados en la inspección final en una planta ensambladora de aparatos eléctricos durante el último mes tenían defectos debidos a las siguientes causas: ensamble, acabado de laca, fallas eléctricas, abolladuras u otras causas. La figura 1-8, obtenida con Minitab, es el diagrama de Pareto para la representación gráfica tanto de las frecuencias como de las frecuencias relativas de cada causa de falla en inspección. Como puede verse, la gran mayoría de fallas en inspección se deben a defectos en el ensamble y el acabado de laca.

 

 

 

 

 

Diagrama de Pareto de: Defectos

Fig. 1-8

 

1.11 DIAGRAMAS DE BARRAS Y GRÁFICAS DE LINEAS

Una serie de tiempo es un conjunto de valores observados, tales como datos de producción o ventas, durante una serie de periodos temporales secuencialmente ordenados. Para efectos de representación gráfica, tanto los diagramas de barras como las gráficas de líneas son de gran utilidad. En un diagrama de barras, una serie de barras representa cantidades de una serie de tiempo.

EJEMPLO   En el diagrama de barras de la figura 1-9 se recoge la información de ganancias netas (en millones de dólares) de un importante banco comercial durante una secuencia de años codificados.

En un diagrama de barras de componentes se marcan subdivisiones en las barras del diagrama. Por ejemplo, cada barra de la figura 1-9 podría subdividirse en distintas partes (tal vez diferenciadas con colores) para indicar la contribución relativa de cada segmento de la empresa a las ganancias netas de cada año.

Una gráfica de líneas contiene cantidades de series de tiempo unidas entre sí por segmentos lineales.

Fig. 1-9  Diagrama de barras.

EJEMPLO  Los datos de la figura 1-9 se presentan en forma de gráfica de líneas en la figura 1-10.

Fig. 1-10 Gráfica de líneas.


1.12 GRÁFICAS DE CORRIDAS

Una gráfica de corridas es una gráfica de valores de datos en el orden secuencial temporal en que fueron observados. Los valores trazados pueden ser valores observados individuales o valores compendiados, como en el caso de una serie de medias muestrales. Cuando a una gráfica de este tipo se le agregan los límites inferior y superior del muestreo de aceptación, se le llama gráfica de control. La determinación de esos límites.

 EJEMPLO   En la figura 1-11 se muestra una gráfica de corridas de la secuencia de pesos medios de muestras de cuatro paquetes de papas fritas tomadas en 15 momentos distintos con el método de muestreo de subgrupos racionales. La secuencia de pesos medios de las muestras fue la siguiente: 14.99, 15.08, 15.05, 14.95, 15.04, 14.91, 15.01, 14.84, 14.80, 14.98, 14.96, 15.00, 15.02, 15.07 y 15.02 onzas. La especificación de peso neto promedio por empacar en el proceso es de 15.00 onzas. La determinación de si considerar o no como una desviación significativa a cualquiera de las desviaciones de estas medias muestrales.

 

Fig. 1-11 Gráfica de corridas.

 


1.13 DIAGRAMAS CIRCULARES

Un diagrama circular es una figura en forma de pastel cuyas piezas representan divisiones de una cantidad total, como podría serio la distribución de las ventas en dólares de una compañía.

Un diagrama circular de porcentajes es aquel cuyos valores han sido convertidos a porcentajes para facilitar su comparación.

EJEMPLO  La figura 1-12 es un diagrama circular en el que se describen los ingresos y el porcentaje de ingresos totales de Xerox Corporation durante un año reciente de acuerdo con las categorías actividad principal (que Xerox denomina "zona de importancia decisiva”) mercados en crecimiento, países en desarrollo y nichos de oportunidad.

 

Fig. 1-12 Diagrama circular.


2 Descripción de datos económicos y administrativos: medidas de posición

 

2.1 MEDIDAS DE POSICIÓN EN CONJUNTOS DE DATOS

Una medida de posición es un valor calculado de un grupo de datos que sirve para describir a éstos de alguna manera. Lo común es que nos interese que este valor sea representativo de todos los valores del grupo, motivo por el cual es de desear cierto tipo de promedio. En sentido estadístico, un promedio es una medida de la tendencia - central de una serie de valores. Este capítulo trata de los diversos procedimientos estadísticos relativos a las medidas de posición.

2.2 MEDIA ARITMÉTICA

La media aritmética, o promedio aritmético, es la suma de los valores del grupo de datos dividida entre el número de valores.

En estadística, una medida descriptiva de una población, o parámetro de la población, se representa por lo general con alguna de las letras del alfabeto griego, mientras que una medida descriptiva de una muestra, o estadística muestral, se representa con alguna de las letras del alfabeto latino. Así, la media aritmética de una población de valores se representa con el símbolo m (mu), en tanto que la media aritmética de una muestra de valores se representa con el símbolo X (equis barra). Las fórmulas de la media poblacional y la media muestral son

 

Operacionalmente, ambas fórmulas son idénticas: en ambos casos se suman todos los valores (de X) y se les divide después entre el número de valores. Sin embargo, la distinción entre los denominadores es que en el análisis estadístico la N mayúscula indica habitualmente el número de elementos de la población, mientras que la n minúscula indica el número de elementos de la muestra.

 

EJEMPLO  Durante uno de los meses del verano, los ocho vendedores de una empresa de servicios de calefacción y 2 acondicionado vendieron el siguiente número de unidades centrales de aire acondicionado: 8, 11, 5, 14, 8, 11, 16, 11. -Considerando ese mes como la población estadística de interés, el número medio de unidades vendidas es

Nota: Para efectos de reporte, las medidas de posición contienen por lo general un dígito adicional al nivel original de medición.

2.3  MEDIA PONDERADA

La media ponderada o promedio ponderado es una media aritmética en donde cada uno de los valores se pondera de acuerdo con su importancia en el grupo en general. Las fórmulas de la media ponderada poblacional y muestral son idénticas:

Operacionalmente, cada valor del grupo (X) se multiplica por el factor de ponderación correspondiente (w), tras de lo cual los productos se suman para posteriormente dividirse entre la suma de las ponderaciones.

EJEMPLO  El margen de utilidad en el último año fiscal de las cuatro líneas de productos de una compañía fabricante de múltiples bienes fue: línea A, 4.2%; línea B, 5.5%; línea C, 7.4%, y línea D, 10.1%. El margen de utilidad medio no ponderado es

Pero como las ventas de los cuatro productos no son iguales, este promedio no ponderado es incorrecto. Partiendo de los totales de ventas de la tabla 2.1, la media ponderada describe correctamente el promedio global.


Tabla 2.1 Margen de utilidad y volumen de ventas de cuatro líneas de productos

2.4 MEDIANA

La mediana de un grupo de elementos es el valor del elemento intermedio cuando todos los elementos del grupo siguen, en términos de valor, un orden ascendente o descendente. En un grupo con un número par de elementos, se supone que la mediana se halla a medio camino entre los dos valores adyacentes al punto intermedio. Cuando el grupo contiene un gran número de valores, se emplea la siguiente fórmula para determinar la posición de la mediana en el grupo ordenado:

EJEMPLO  Los ocho vendedores mencionados en el ejemplo 1 vendieron el siguiente número de unidades centrales de aire acondicionado, en orden ascendente: 5, 8, 8, 11, 11, 11, 14, 16. El valor de la mediana es

El valor de la mediana se halla entre el cuarto y quinto valores del grupo ordenado. Dado que en este caso ambos valores son de " 11 ", la mediana es igual a 11.0.

2.5 MODA

La moda es el valor que ocurre más frecuentemente en un conjunto de valores, A esta distribución se le conoce como unimodal. Un conjunto pequeño de datos en el que no se repiten valores medidos carece de moda. Cuando dos valores no adyacentes son casi iguales en cuanto a frecuencias máximas asociadas con ellos, la distribución se llama bimodal. Las distribuciones de medidas con varias modas se llaman multimodales.

EJEMPLO  Los ocho vendedores mencionados en el ejemplo 1 vendieron el siguiente número de unidades centrales de aire acondicionado: 8, 11, 5, 14, 8, 11, 16 y 11. La moda de este grupo de valores es el valor con mayor frecuencia, o moda = 11.0.

2.6 RELACIÓN ENTRE MEDIA Y MEDIANA

En toda distribución simétrica, media, mediana y moda coinciden en valor* [véase figura 2-1 a)]. En una distribución asimétrica positiva, la media siempre es mayor que la mediana [véase figura 2-1b)]. En una distribución asimétrica negativa, la media siempre es menor que la mediana [véase figura 2-1c)]. Estas dos últimas relaciones son siempre verdaderas, independientemente de que la distribución sea unimodal o no. Una medida de asimetría en estadística, basada en la diferencia entre los valores de la media y la mediana de un grupo de valores, es el coeficiente de asimetría de Pearson.

 

Fig. 2-1

EJEMPLO   En los datos de ventas considerados en los ejemplos 1, 3 y 4, la media es 10.5, mientras que la mediana es 11.0. Puesto que la media es menor que la mediana, la distribución de valores observados tiende a ser asimétrica negativa; es decir, sesgada a la izquierda.

2.7 CRITERIOS MATEMÁTICOS SATISFECHOS POR LA MEDIANA Y LA MEDIA

Uno de los propósitos de la determinación de cualquier medida de tendencia central, como la mediana o la media, es emplearla para representar el nivel general de los valores incluidos en el grupo. Tanto la mediana como la media son medidas representativas "aceptables", pero desde el punto de vista de criterios u objetivos matemáticos diferentes. La mediana es el valor representativo que reduce al mínimo la suma de los valores absolutos de las diferencias entre cada valor del grupo y la mediana. Esto es, la mediana reduce al mínimo la suma de las desviaciones absolutas respecto de los valores individuales representados. En contraste con ello, la media aritmética se concentra en la reducción al mínimo de la suma de las desviaciones al cuadrado respecto de los valores individuales del grupo. El criterio cuyo objetivo es reducir al mínimo la suma de las desviaciones al cuadrado asociada con un valor representativo se llama criterio de mínimos cuadrados. Este criterio es uno de los más importantes en la inferencia estadística basada en datos muestrales, como se expondrá detalladamente en la siguiente sección.

EJEMPLO  En los datos de ventas considerados en los ejemplos anteriores, la mediana es 11.0 y la media 10.5. Los montos de venta ordenados se presentan en la primera columna de la tabla 2.2. Las demás columnas de esa tabla se dedican a la determinación de la suma de las desviaciones absolutas y de las desviaciones al cuadrado de los valores individuales respecto tanto de la mediana como de la media. Nótese que la suma de las desviaciones absolutas respecto de la mediana, 20, es menor que la suma correspondiente de 21.0 respecto de la media. Por otro lado, si se aplica el criterio de mínimos cuadrados, la suma de las desviaciones al cuadrado respecto de la media, 86.00, es menor que la suma correspondiente de 88 respecto de la mediana. Ningún valor diferente a la media puede tener una suma de desviaciones cuadradas menor a la de ésta.

Tabla 2.2       Criterios matemáticos satisfechos por la mediana y la media

(Med = 11.0; Media = 10.5)

 

2.8 USO DE MEDIA, MEDIANA Y MODA

Consideraremos primero el uso de estas medidas de promedio para la representación de datos de la población. El valor de la moda indica la posición de la mayoría de los valores observados, como los índices salariales por hora en una compañía. Puede ser útil como medida descriptiva de un grupo de la población, aunque sólo si existe una moda claramente perceptible. Por su parte, la mediana es siempre una medida excelente para representar el nivel "típico" de los valores observados, como los índices salariales, de una población. Esto es así independientemente de la existencia de más de una moda o de que la distribución de la población sea asimétrica o simétrica. La falta de simetría no es en este caso un problema especial, porque el índice salarial mediano, por ejemplo, siempre es el índice salarial de la "persona intermedia" cuando los índices salariales se enlistan en orden de magnitud. También la media aritmética es excelente como valor representativo de una población, aunque sólo si la población es claramente simétrica. En datos no simétricos, los valores extremos (unos cuantos índices salariales muy elevados de especialistas técnicos, por ejemplo) distorsionarán el valor de la media como valor representativo. Así, la mediana es por lo general una mejor medida de posición de datos para la descripción de datos de la población.

Consideremos ahora el uso de las tres medidas de posición en relación con datos muestrales. El propósito de la inferencia estadística con datos muestrales es producir enunciados de probabilidad sobre la población de la que fue seleccionada la muestra. La moda no es una medida aceptable de posición respecto de datos muestrales, porque su valor puede variar ampliamente de una muestra a otra. La mediana es mejor que la moda, porque su valor es más estable entre muestra y muestra. No obstante, el valor de la media es el más estable de estas tres medidas. La razón de la relativa estabilidad de la media muestral de una muestra a otra es que se trata de la medida de posición que satisface el criterio de mínimos cuadrados. En consecuencia, la mejor medida de posición en el caso de datos muestrales es generalmente la media aritmética.

EJEMPLO  Se han recopilado los índices salariales de los 650 empleados por horade una empresa manufacturera. La medida más representativa del índice salarial típico es la mediana, porque en este caso está implicada una población y la mediana no se ve relativamente afectada por la posible falta de simetría de los índices salariales. Efectivamente, es probable que datos como índices salariales y montos de sueldos sean de asimetría positiva, con relativamente pocos montos salariales o de sueldos excepcionalmente elevados y ubicados por lo tanto en la cola derecha de la distribución.

EJEMPLO   Una muestra aleatoria de n= 100 índices salariales se obtiene en una compañia con varios miles de empleados por hora. El índice salarial más representativo de estos varios miles de empleados es la media muestral. Aunque es improbable que la media muestral sea exactamente igual al índice salarial medio de toda la población, por lo general se hallará mucho más cerca de la media poblacional que la mediana muestral como estimador del índice salarial mediano de la población.

 

 

2.9 USO DE LA MEDIA EN EL CONTROL ESTADÍSTICO DE PROCESOS

En la sección anterior se señaló que una gráfica de corridas es una gráfica de valores de datos en el orden secuencial temporal en que fueron observados y que los valores representados pueden ser valores individuales o promedios de muestras secuenciales. Es preferible usar promedios que valores individuales, porque por lo general cualquier promedio será más estable (menos variable) de una muestra a otra que las observaciones individuales. Como se indicó en la sección anterior, la media muestral es más estable que la mediana o la moda. Por esta razón, el propósito de las gráficas de corridas referentes a promedios muestrales es trazar las medias muestrales.

A estas gráficas se les llama gráficas Y, y son la base para la determinación de si un proceso es estable o existe en él una variación con una causa atribuible por corregir.

EJEMPLO  Remítase a la gráfica de corridas de la figura 1-11 del capítulo anterior. Esta gráfica de corridas de la secuencia de pesos medios de muestras de n = 4 paquetes de papas fritas es característica del tipo de gráficas elaboradas para efectos del control estadístico de procesos, como se explica e ilustra en el capítulo 20.

2.10 CUARTILES, DECILES Y PERCENTILES

Cuartiles, deciles y percentiles se asemejan a la mediana en que también subdividen una distribución de medidas de acuerdo con la proporción de las frecuencias observadas. Mientras que la mediana divide una distribución en mitades, los cuartiles la dividen en cuartos, los deciles en décimos y los puntos percentiles en 100 partes. De la mediana se modifica según el punto fraccionario de interés. Por ejemplo,

 

 

 

 

EJEMPLO  Los ocho vendedores mencionados en el ejemplo 1 vendieron el siguiente número de unidades centrales de aire acondicionado, en orden ascendente: 5, 8, 8, 11, 11, 11, 14, 16. Determine las posiciones del primer cuartil y el tercer cuartil de esta distribución.

La posición del primer cuartil se halla a medio camino entre el segundo y tercer valores de la serie ordenada. Puesto que ambos valores son de 8, el valor del primer cuartil es de 8.0. El valor del tercer cuartil se halla a medio camino entre el sexto y séptimo valores de la serie, o a medio camino entre 11 y 14, lo que equivale a 12.5.

 

2.11 RESULTADOS EN COMPUTADORA

Se dispone de software de cómputo para determinar varias medidas de promedio. El problema 2.17 ilustra su uso para la determinación de los valores de la media y la mediana de una muestra de tiempos de ensamble de un producto.


3 Descripción de datos económicos y administrativos: medidas de variabilidad

 

3.1 MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS.

Las medidas de tendencia central descritas en el capítulo anterior son útiles para la identificación del valor "representativo" de un grupo de valores. Por su parte, las medidas de variabilidad, o dispersión, se ocupan de la descripción de la variabilidad entre los valores. Se dispone de diversas técnicas para medir el grado de variabilidad en conjuntos d datos. Las que describiremos en este capítulo son el rango, los rangos modificados, la desviación media, la varianza, la desviación estándar y el coeficiente de variación.