Deberás:
- Reconocer variables estadísticas cualitativas y cuantitativas
- Conocer formas gráficas de representar los datos estadísticos.
- Calcular la media, la desviación típica y el coeficiente de variación.
- Calcular la mediana, los cuartiles y los percentiles.
- Realizar un diagrama de caja.
Conceptos básicos
Estamos interesados en conocer determinadas características de una población; peso, altura, sueldos, número de hijos, etc., para saber como debemos actuar o planificar determinadas acciones sobre ella.
Haremoa la siguiente clasificación de las variables estadísticas:
Tablas de frecuencias y su representación gráfica
Organizaremos los datos que tengamos en forma tabular. En uuna columna pondremos los resultados y en otra columna el recuento de cada resultado obtenido. Además, aprovecharemos esta tabla para añadir columnas que recogerán las operaciones realizadas con los datos obtenidos para poder calcular determinados parámetros estadísticos de la población.
Ejemplo. En un examen de matemáticas los alumnos de un centro educativo han obtenido las siguientes notas (x es la nota, n es el número de alumnos que han obtenido la nota x):
| xi (Puntos) | ni (Recuento) |
|---|---|
| 1 | 3 |
| 2 | 6 |
| 3 | 9 |
| 4 | 13 |
| 5 | 20 |
| 6 | 25 |
| 7 | 16 |
| 8 | 11 |
| 9 | 6 |
| 10 | 2 |
Observa que los resultados se escriben ordenados de menor a mayor valor.
Para representat los datos de la tabla de frecuencias usaremos principalmente el diagrama de barras (para variables cualitativas) y el polígono de frecuencias.
Realiza los ejercicios 1 y 2 de la página 195.
Parámetros estadísticos μ y σ
Cinco amigos se han presentado a un concurso y han conseguido 100 euros de premio, ¿cómo se reparten en dinero? Si has pensado que 20 euros para cada uno estás calculando la media aritmética μ.
Ese valor sería el que deberían tener todos los elementos de una población si todos ellos fueran iguales (que seguramente no lo serán).
El valor de la media aritmética μ se calcula sumando todos los valores y dividiendo entre el total de datos sumados. Como puede ser que haya muchos números que sumar, se utiliza la tabla de frecuencias anterior para ayudarnos de las operaciones. Observa la nueva tabla.
| xi (Puntos) | ni (Recuento) | xi · ni |
|---|---|---|
| 1 | 3 | 3 |
| 2 | 6 | 12 |
| 3 | 9 | 27 |
| 4 | 13 | 52 |
| 5 | 20 | 100 |
| 6 | 25 | 150 |
| 7 | 16 | 112 |
| 8 | 11 | 88 |
| 9 | 6 | 54 |
| 10 | 2 | 20 |
| SUMAS | N = 111 | 618 |
Ahora, calculamos μ = 618 : 111 = 5,57 puntos. ¿Crees que sería «justo» asignar a todos los alumnos esa puntuación de 5,57 puntos? ¿Habrá muchos alumnos beneficiados y perjudicados por esa nota final de 5,57 puntos? Eso dependerá de si hay muchos o pocos alumnos con puntuaciones cercanas a la media obtenida. Si todos hubieran obtenido entre 5 y 6 puntos no habría muchos problemas, pero no es el caso, ¿verdad?
Para saber si son muchos o pocos los alumnos que tienen notas cercanas a la media, existe en Estadística un parámetro que ayuda a valorar si están los datos muy conncentrados junto a la media aritmética, o están muy dispersos: es la varianza, σ2. Se calcula así (durante este curso):
- Se resta al valor del dato la media aritmética obtenida.
- Se eleva al cuadrado el resultado de la resta obtenida.
- Se multiplica por la frecuencia absoluta de cada dato y se escribe el resultado en la tabla de frecuencias.
- Se suman todos los valores y se escribe en la fila de las sumas.
- La suma obtenida se divide entre el total de datos que hay.
Observa la nueva tabla de frecuencias:
| xi (Puntos) | ni (Recuento) | xi · ni | (xi - μ )2 · ni |
|---|---|---|---|
| 1 | 3 | 3 | 62,65 |
| 2 | 6 | 12 | 76,47 |
| 3 | 9 | 27 | 59,44 |
| 4 | 13 | 52 | 32,04 |
| 5 | 20 | 100 | 6,50 |
| 6 | 25 | 150 | 4,62 |
| 7 | 16 | 112 | 32,72 |
| 8 | 11 | 88 | 64,95 |
| 9 | 6 | 54 | 70,59 |
| 10 | 2 | 20 | 39,25 |
| SUMAS | N = 111 | 618 | 449,24 |
Obtenemos un valor de σ2 = 449,24 : 111 = 4,047.
Otro parámetro muy utilizado en Estadítica es la desviación típica, σ, que se define como la raíz cuadrada de la varianza (observa que no lleva el 2 de superíndica).
En nuestro ejemplo, haciendo la raíz cuadrada obtenemos un valor de σ = 2,01.
Realiza los ejercicios 1 y 2 de la página 197.
Otros parámetros importantes
- Moda:
- Es el valor de los datos más veces obtenido; el de mayor frecuencia absoluta.
- Recorrido o rango
- La diferencia entre el mayor dato y el menor dato obtenidos.
- Mediana
- Es un número que deja al menos la mitad de los datos por debajo o igual a esa valor.
- Primer cuartil Q1
- El valor que deja al menos a la cuarta parte de los datos por debajo o igual a ese valor
- Tercer cuartil Q3
- El valor que deja al menos a las tres cuartas partes de los datos por debajo o igual a ese valor
- Rango intercuartílico RIC.
- Es la diferencia entre el tercer cuartil y el primer cuartil; es decir, RIC = Q3 - Q1.
Realiza el ejercicio 1 de la página 198. Ejercicio 2 de la página 199.
Diagramas de caja
Es una representación de los datos basado en los valores de los cuartiles y de la mediana que nor permite detectar valores anómalos de la población. Se construye de la siguiente forma:
- Obtener el máximo y el mínimo valor de los datos.
- Hallar Q1, Q3 y la mediana.
- Hallar el RIC.
- Hallar la longitud de los bigotes y los límites inferior y superior
- Bigote inferior: Li = Q1 - 1,5 · RIC.
- Bigote superior: Ls = Q3 + 1,5 · RIC.
- Se consideran atípicos los valores que sean inferiores a Li o superiores a Ls.
- Si no hay valores atípicos, se considera como nueva longitud del bigote la de aquel valor de los datos que no exceda el intervalo correspondiente (Li , Ls).
Ejemplo. A partir de los datos siguientes:
1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9, 9, 10, 17.
Se obtiene el diagrama de caja y bigotes representado. El rectángulo central se corresponde con los valores de los cuartiles. La barra central es el correspondiente al valor de la mediana. La cruz marca el valor atípico de 17.
Realiza los ejercicios 1 y 2 de la página 203.