Diagrama de Caja

El diagrama de caja es un instrumento gráfico comúnmente empleado en el área de estadísticas, porque permite calcular cualquier variable que encaje en varios grupos a la vez.

Se trata de una herramienta a la que, gracias a su singular diseño, también se le conoce comoesquema de caja y bigote”, “caja y brazos”, o simplemente por el nombre de “boxplot”, el cual proviene de su denominación en inglés.

Ahora bien, analicemos a profundidad qué es en realidad un diagrama de esta clase, cuáles son sus elementos, y aprendamos cómo hacer uno de forma correcta.

Diagrama de caja
Diagrama de caja

¿Qué es un diagrama de caja?

Un diagrama de caja se puede definir como la representación gráfica de aquellos datos numéricos ocuantitativospertenecientes a varios conjuntos, separándolos en cuatro subgrupos iguales mediante tres líneas divisorias denominadas “cuartiles”, con la finalidad de obtener porcentajes para calcular estadísticas.

En términos sencillos, el boxplot ayuda a resumir grandes cantidades de datos, mostrando la variabilidad de los valores que se encuentren por encima o debajo de algún cuartil.

Este método también permite la posibilidad de deducir resultados a partir de variables cualitativas, pero solo mientras se les asigne un valor mayor que 0, para efectuar los cálculos correspondientes y graficarlos.

Así, el diagrama de caja y bigotes se suele utilizar, por ejemplo, en el área de estadísticas descriptivas, proporcionando información sobre datos simétricos, valores claves o aquellos que incluso sean atípicos.

De hecho, sus usos guardan cierta relación con los histogramas, pues estos últimos también sirven para identificar dónde se concentran la mayor cantidad de valores, o cuáles se distribuyen de forma inusual alcanzando los puntos extremos del esquema.

Sin embargo, desde la perspectiva visual, el diagrama de caja se dibuja como si se observara desde arriba, mientras que el diseño del histograma se muestra desde un lado, es decir, se distingue a partir de un ángulo lateral.

Elementos del diagrama de caja y bigote

El boxplot es una técnica creada durante el año 1977 por el estadístico estadounidense, John Tukey, quien la elaboró basándose en 5 medidas específicas para calcular los datos, considerando el valor mínimo de la gráfica, el primer cuartil, el segundo o la mediana, el tercer cuartil y, por último, el valor más alto.

Todos ellos conforman los característicos elementos del diagrama de caja y bigotes, los cuales, a su vez, explican el porqué de su nombre. Ahora profundicemos un poco más, para entender mejor cómo funcionan dichos componentes:

  • Cuartiles: son tres valores identificados como Q1, Q2 y Q3, que separan el conjunto de datos objeto de estudios, en 4 subgrupos iguales ordenados desde el número menor, hasta el mayor, y se identifican con una línea. En este sentido, bajo el cuartil Q1 se señala el 25% del todo, mientras que debajo del Q2 se encuentra el 50% y el Q3 agrupa el 75%.
  • Mediana: básicamente es el cuartil Q2. Está ubicado en el centro del diagrama como una línea que divide el conjunto a la mitad, cuando los datos son simétricos, de lo contrario, puede estar más cerca de la parte inferior o superior de la caja.
  • Rango intercuartílico (RIC): es la longitud que posee la caja. Corresponde a la separación existente entre el cuartil Q1 y el Q3, e indica el 50% de los datos centrales evidenciados en el gráfico.
  • Caja: es el cuadro o rectángulo donde se ubican los cuartiles Q1, Q2 y Q3.
  • Bigotes o brazos: son las líneas verticales que sobresalen de la caja, una desde el Q1 hasta el extremo inferior y la otra del Q3 al límite superior. Estas rayas ayudan a medir tanto el valor máximo, como el mínimo del esquema, además de delimitar el espacio para calcular los valores atípicos, en otras palabras, aquellos que están por fuera del rango del diagrama.
  • Rango: es la longitud completa del esquema, es decir, desde el valor mínimo (extremo inferior), hasta el valor máximo (extremo superior), pero sin incluir ninguno de los valores atípicos.

¿Cómo hacer un diagrama de caja?

Para realizar un diagrama de caja y bigotes, debemos seguir una serie de pasos al pie de la letra, tal como indicamos a continuación:

  1. Ordena los valores: cada uno de los datos tiene su propio valor numérico, los cuales deben organizarse desde el mínimo hasta el máximo.
  2. Calcula los cuartiles: cuenta cada uno de los valores por unidad y divide el total entre 4, para obtener una media aritmética.
  3. Diseña la caja: trázala entre el Q1 y el Q3.
  4. Ubica la media y el RIC: recuerda que la primera está situada en el Q2, mientras el rango intercuartilíco va desde el Q1 hasta el Q3.
  5. Coloca los límites: el límite inferior (Li), se calcula restándole a Q1 la cantidad equivalente a 1,5 veces el valor del rango intercuartilíco, mientras el límite superior se obtiene sumándole esa misma cifra al Q3.
  6. Dibuja los brazos o bigotes: haz una línea desde el Q1 hasta el valor mínimo, y otra del Q3 al máximo.
  7. Escribe los valores atípicos: también se les conoce como “extremos” y van por fuera de cualquiera de los límites. Se distinguen con un punto, un “0” o un “*”.

Ejemplo de uso del Diagrama de Caja

Para finalizar, observemos un ejemplo donde se siguen los pasos necesarios para intentar calcular la altura de 20 árboles que tienen 20 años de vida, considerando las medidas actuales de cada uno, las cuales son:

1-Altura de los Arboles
1-Altura de los Arboles

Si ordenamos las medidas de menor a mayor, quedarían dispuestos de la siguiente manera:

2- Altura de los Arboles ordenadas
2- Altura de los Arboles ordenadas

Después de organizar los datos, debemos calcular los tres cuartiles y la mediana, así que las formulas serían las siguientes:

Fórmula para calcular Q1 - Diagrama de caja
Fórmula para calcular Q1 – Diagrama de caja
Fórmula para calcular Q2 - Diagrama de caja
Fórmula para calcular Q2 – Diagrama de caja
Fórmula para calcular Q3 - Diagrama de caja
Fórmula para calcular Q3 – Diagrama de caja

Calculamos el rango intercuartílico así:

Formula para calcular el rango intercuartílico
Formula para calcular el rango intercuartílico

Calculamos los dos límites:

limite LI
limite LI
Limite LS
Limite LS

Dibujamos los dos brazos o bigotes: desde el Q1 hasta el LI y del Q3 al LS.

De tal manera, la información del diagrama debería ser esta:

  • Árboles con valores extremos: uno en el LI con una altura de 0,94 metros y otro en el LS que mide 10,14 metros. Ambos identificados con puntos, 0, o * en el diagrama.
  • Altura mínima: 2,98 metros.
  • Altura máxima: 7,13 metros.

En conclusión, nuestro diagrama de cajas debería quedar así:

Ejemplo de diagrama de caja
Ejemplo de diagrama de caja

¿Cuánto te gustó este artículo?

Votos: 4

Otros artículos interesantes

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *