Box-plot Definição e Aplicação

 Introdução

A estatística tem diversas ferramentas gráficas para visualização rápida do comportamento do conjunto de dados. Nesse post vamos falar sobre o box-plot, também conhecido como caixa de bigode, pela semelhança que alguns softwares desenhavam esse gráfico.


Estatísticas de ordem

O primeiro passo para entender o box-plot é entender as estatísticas de ordem. Por óbvio, obtemos essas métricas ordenando as observações de interesse.

Esquema de 5 números

O esquema de cinco números é obtido reunindo os valores mínimo, máximo, primeiro, segundo e terceiros quartis do conjunto de dados. $$x_{min}, Q_1, Q_2,Q_3,x_{max}$$
Partindo do esquema de 5 números obtemos algumas métricas simples de calcular e que já nos trazem algumas informações acerca do conjunto de dados.

  • Amplitude total ($R$ do inglês range): é a diferença entre os valores máximo e mínimo dos dados. $$R=x_{max}-x_{min}$$
  • Intervalo interquartil ou amplitude interquartil (interquartile range): $$\mathrm{IQR} =Q_3-Q_1$$ 
  • Amplitude semi-interquartílica ou desvio quartílico (semi interquartile range): $$\frac{\mathrm{IQR}}{2}=\frac{Q_3-Q_1}{2}$$

Essas medidas são usadas em diversos contextos dentro da estatística.

Boxplot: Construção

Para construir uma visualização gráfica rápida o boxplot resume rapidamente o comportamento do conjunto de dados.

Ele é composto do esquema de cinco números tal como visualizamos na figura acima. Há uma caixa que representa a amplitude ou intervalo interquartil, que compreende 50% do conjunto de dados. A faixa no interior da caixa mostra a posição da mediana no conjunto de dados.

Tomando por base o primeiro quartil do conjunto de dados traçamos uma linha até o limite inferior do conjunto de dados. Na parte superior essa linha vai até o máximo do conjunto de dados.

Interpretação

Em um contexto em que supomos um comportamento aproximadamente normal ou simétrico para o conjunto de dados, esperamos que os dados não fogem muito ao padrão delimitado pelo box-plot
Há um consenso de que dados estão bem distribuídos no intervalo de $$\left[Q_1-1,5\times \mathrm{IQR};Q_3+1,5\times \mathrm{IQR}\right].$$ 
Os valores que fujam a esse intervalo seriam considerados aberrantes ou valores atípicos ou outliers.

Conclusão

O boxplot essencialmente serve para uma visualização rápida do conjunto de dados em relação às medidas de posição ou estatísticas de ordem mais conhecidas: mínimo, máximo, primeiro, segundo e terceiro quartis.
Além disso é possível ter uma ideia da forma do conjunto de dados em relação à simetria. Também podemos ter uma ideia acerca da dispersão do conjunto de dados.
Finalmente, podemos determinar uma regra empírica para determinar valores atípicos dos dados.

Para saber mais sobre estatística siga o instagram do Concurseiro Estatístico



Comentários

Postagens mais visitadas deste blog

Assimetria

Desvio Padrão: O que é e como calcular