Plots de diagnóstico de modelos lineares

Mas como saber se análise foi adequada já que tenho uma tabela com os resultados? Uma das formas mais simples é através do comando plot aplicado ao modelo, ou seja, ao resultado da sua análise Este comando permite um diagnóstico da qualidade do nosso modelo, neste caso uma regressão, mas esse pode ser feito em qualquer modelo linear, como a análise de variância, por exemplo:

Regressão

Para entendermos melhor como interpretar, vamos analisar duas regressões, uma que segue as premissas (ver em um livro de estatística mas, já adiantando algumas: homogeneidade das variâncias do resíduo, normalidade, etc.) e uma outra cujos dados não são adequados para este tipo de modelo. Para facilitar vou usar dados similares aos que usamos para fazer a regressão entre FL e RW.

library(MASS)
attach(crabs)
RW2<-2^RW
minha.regressao1<-lm(FL~RW, data=crabs)
minha.regressao2<-lm(FL~RW2, data=crabs)

Você entendeu o que foi feito na segunda regressão de diferente?

Mas vamos continuar. Agora vamos fazer uma inspeção dos resíduos da análise para ver quanto elas fogem das premissas da regressão, mas também poderia ser da análise de variância.

A primeira linha de comando par(mfrow=c(2,2), vai dividir a sua janela de figuras (os plots) em quatro partes (duas linhas duas colunas, por isso o c(2,2))

A seguir é dado o comando plot no objeto minha.regressao1 e minha.regressao2 - note que é a função plot é aplicada a um objeto que é o resultado de um modelo (no caso a regressão), e não a variáveis como visto antes.

par(mfrow=c(2,2))
plot(minha.regressao1)

plot(minha.regressao2)

  • No primeiro plot, Residuals vs Fitted, os resíduos são comparados com os valores ajustados. Se os resíduos estiverem distribuídos de forma homogênea e simétrica em torno da reta, indica que o modelo está adequado. Note como os dados estão distribuidos mais homogeneamente em torno do modelo (linha vermelha), que não foge muito de uma reta, já no caso de Reg2 a situção é bem diferente e pior.
  • No segundo plot, Q-Q plot, o modelo é adequado quanto mais próximos os pontos estiverem da diagonal, o que indicaria uma distribuição normal dos resíduos. É esperado que haja desvios, especialmente nos extremos como ocorre aqui. Portanto, quanto a normalidade dos resíduos podemos dizer que, novamente, Reg1 é um modelo adequado, pouco melhor que Reg2. Os pontos que aparecem numerados indicam aqueles casos que merecem atenção pois são os que mais fogem das premissas. Em Reg1 se destacam os caranguejos de números 150, 146 e 141. Já em Reg2 se destacam 150, 51 e, principalmente 200, sendo este último muito fora do padrão.
  • O terceiro plot, Scale Location indica se a variância é constante conforme o incremento da média. Para a regressão, se observa um tendência de aumento da variância (representada pela raiz quadrada dos resíduos padronizados no eixo y) em relação aos valores ajustados pelo modelo (eixo x), novamente se destacam o dados 150, 146 e 141. Entretanto, este padrão não é considerado uma violação grave da premissa de que a variância é constante, já no caso de Reg2, a variância dá um salto devido ao caranguejo de número 200, neste caso, uma violação séria.
  • O úlitmo plot, Residuals vs Leverage indica as observações, ou seja os valores de CW, que mais afetam o modelo. A linha vermelha deve passar próximo do valor 0 no eixo y, isto é coincidir com os a linha tracejada preta. Os valores acima e abaixo indicam o desvio padrão destes dados (oscilação entre -3 a +3 são típicos de uma distribuição normal). Além disso aparecem linhas pontilhadas que indicam a distância de Cook, que é uma medida de quanto a regressão mudaria caso um dos dados fosse retirado da análise. Distâncias menores que 0.5 são consideradas adequadas. Note que, em Reg1 novamente o dado 150 se destaca, no entanto a reta vermelha é próxima da linha tracejada. Já em Reg2, o ponto 200 está muito além da distancia de 0.5 e a reta forma praticamente uma diagonal.

Em síntese, o modelo Reg1 é adequado para os dados, a análise de regressão pode ser interpretada, já para Reg2, o modelo de regressão linear utilizado não é adequado para descrever os dados.

ANOVA

Como dito, os mesmos diagnósticos podem ser efetuados apra a Análise de Variância, a diferença é que, ao invés dos dados serem distribuídos ao longo do eixo y (exceto no Q-Q plot), estes estão agrupados nos diferentes níveis das variáveis categóricas. Abaixo veja o mesmo diagnóstico mas com o modelo de anova, a interpretação é a mesma.

minha.anova2<-lm(CW~sp*sex, data=crabs)
par(mfrow=c(2,2))
plot(minha.anova2)

Estes diagnósticos, obtidos através da plotagem dos resíduos dos modelos são inspeções visuais que indicam quão adequada é a análise para os dados fornecidos. Não existe um valor mágico mas sim um gradiente de qualidade. Nos casos onde a análise é inadequada há outras soluções como: (1) transformar os dados antes de realizar a análise, (2) fazer análises que trabalham com outros tipos de distribuição diferentes da normal ou que permitam variâncias muito distintas. Mas isso é assunto para outra aula.