Box-plot Definição e Aplicação
Introdução
A estatística tem diversas ferramentas gráficas para visualização rápida do comportamento do conjunto de dados. Nesse post vamos falar sobre o box-plot, também conhecido como caixa de bigode, pela semelhança que alguns softwares desenhavam esse gráfico.
Estatísticas de ordem
O primeiro passo para entender o box-plot é entender as estatísticas de ordem. Por óbvio, obtemos essas métricas ordenando as observações de interesse.
Esquema de 5 números
O esquema de cinco números é obtido reunindo os valores mínimo, máximo, primeiro, segundo e terceiros quartis do conjunto de dados. $$x_{min}, Q_1, Q_2,Q_3,x_{max}$$
Partindo do esquema de 5 números obtemos algumas métricas simples de calcular e que já nos trazem algumas informações acerca do conjunto de dados.
- Amplitude total ($R$ do inglês range): é a diferença entre os valores máximo e mínimo dos dados. $$R=x_{max}-x_{min}$$
- Intervalo interquartil ou amplitude interquartil (interquartile range): $$\mathrm{IQR} =Q_3-Q_1$$
- Amplitude semi-interquartílica ou desvio quartílico (semi interquartile range): $$\frac{\mathrm{IQR}}{2}=\frac{Q_3-Q_1}{2}$$
Essas medidas são usadas em diversos contextos dentro da estatística.
Boxplot: Construção
Para construir uma visualização gráfica rápida o boxplot resume rapidamente o comportamento do conjunto de dados.
Ele é composto do esquema de cinco números tal como visualizamos na figura acima. Há uma caixa que representa a amplitude ou intervalo interquartil, que compreende 50% do conjunto de dados. A faixa no interior da caixa mostra a posição da mediana no conjunto de dados.
Tomando por base o primeiro quartil do conjunto de dados traçamos uma linha até o limite inferior do conjunto de dados. Na parte superior essa linha vai até o máximo do conjunto de dados.
Comentários
Postar um comentário