Dados do Trabalho
Título do Minicurso
MODELOS EM REGRESSAO QUANTILICA: TEORIA E APLICAÇOES
Resumo Geral
Nos modelos de regressão, estamos interessados em descrever a relação entre uma variável específica (resposta) e outras características. Essa relação é comumente caracterizada por medidas de tendência central, geralmente, pela popular média. Por que não a mediana? Por exemplo, dados assimétricos para muitas aplicações, como na geoquímica, são melhor aproximados pela distribuição log normal. No entanto, não faz sentido considerar a média numa escala logarítmica, pois a propriedade de aditividade não vale mais, lembrando que a média do logaritmo não é o logaritmo da média. Em análise de sobrevivência, raramente se fala de ``sobrevivência média''. A mediana e os quantis reinam nesta área.
Ao ampliar a idéia para os quantiles, a regressão quantílica permite ajustar qualquer quantil da variável resposta em função de uma série de covariáveis, aproveitando as propriedades dos quantis como robustez, invariância, entre outras. Como conseqüência, esses modelos são mais robustos à presença de outliers, não precisam de pressupostos sobre a distribuição do erro e oferecem uma melhor descrição gráfica dos dados.
O minicurso será particionado em duas partes: na primeira exploraremos a teoria que envolve os modelos de regressão quantílica assim como o caso univariado, onde estudaremos um modelo robusto considerando erros com distribuições de caudas pesadas e também o caso para respostas intervales. Modelos de regressão quantílica de efeitos mistos lineares e não-lineares serão abordados na segunda parte do minicurso. Aplicações para os modelos propostos serão apresentados usando os pacotes \texttt{lqr}, \texttt{qrLMM} e \texttt{qrNLMM} disponíveis no \texttt{R}.
Palestrante 1
Christian E. Galarza
Coordenador
Christian E. Galarza
Palavras-Chave
Regressão, Quantílica, Robustez, Respostas intervalares, Modelos de Efeitos Mistos
Público alvo
Graduação e Mestrado
Justificativa
Os modelos de regressão quantílica (RQ) tornaram-se cada vez mais populares desde o trabalho seminal de Koenker & G Bassett (1978). Em contraste com o modelo de regressão na média, a RQ pertence a uma família de modelos robusta, a qual fornece uma avaliação global dos efeitos das covariáveis em diferentes quantis da variável resposta (Koenker, 2005). Em particular, podemos modelar quantis inferiores ou superiores da resposta para fornecer uma avaliação natural dos efeitos das covariáveis nesses específicos quantis. Ao contrário dos modelos convencionais, que apenas abordam a média condicional ou os efeitos centrais das covariáveis, os modelos de RQ quantificam toda a distribuição condicional da variável resposta. Além disso, a RQ não impõe pressupostos sobre a distribuição do erro, exceto o requisito de ter seu p-ésimo quantil igual a zero. Os fundamentos dos métodos para dados independentes estão consolidados e alguns métodos estatísticos para estimar e extrair inferências sobre quantis condicionais são fornecidos pela maioria dos programas estatísticos disponíveis (e.g., R, SAS, Matlab e Stata).
Por exemplo, apenas para citar alguns deles, no bem conhecido pacote quantreg() do R é implementado como uma variante do simplex em Barrodale & Roberts (1977) (BR) para problemas de programação linear descritos em Koenker & d'Orey (1987), onde os erros padrões são calculados pelo método de inversão de posto (Koenker, 2005). Outro método implementado neste pacote é o popular ?Regressão Quantílica Lasso Penalizada?, introduzido por Tibshirani (1996), onde um parâmetro de penalidade é especificado no processo de estimativa. Do ponto de vista clássico, Benites et al. (2013), Zhou et al. (2014) e Tian et al. (2014) ajustaram um modelo linear de RQ baseado no algoritmo EM (Dempster et al., 1977) para máxima verossimilhança (MV) assumindo erros pertencentes numa distribuição Laplace assimétrica (LA).
Particularmente, Benites et al. (2013) mostrou que sua abordagem teve uma performance superior a outros métodos não paramétricos comuns como aqueles obtidos através de algoritmos BR e LPQR. Enquanto a distribuição LA tem a propriedade quantil zero e uma representação estocástica útil, não é diferenciável em zero, o que pode levar a problemas de instabilidade numérica. Assim, a densidade da Laplace é uma suposição bastante forte, a fim de estabelecer um modelo de regressão quantílica seja sob uma abordagem clássica ou bayesiana. Há pouco tempo, Galarza Morales et al. (2017) propus um modelo de regressão quantílica baseado numa família de distribuições assimétricas de caudas pesadas que inclui as versões assimétricas da distribuição Normal, t de Student, Laplace, Slash e Normal Contaminada, assim generalizando o trabalho em Benites et al. (2013). O modelo é construido sob uma nova representação estocástica, que permite o estudo de muitas das suas propriedades, estudar a bondade de ajuste dos dados para cada um dos modelos e também a implementação de um algoritmo EM eficiente para a avaliação dos parâmetros relacionados ao p-ésimo quantil, com expressões fechadas nas etapas E- e M- do algoritmo. O modelo acima encontra-se implementado e disponível no pacote lqr do software R.
Por outro lado, muitas vezes a variável de resposta é uma variável que apenas toma valores num intervalo contínuo limitado, de modo que os métodos tradicionais de estimação podem ser inadequados. Desconsiderar esta caraterística da resposta na maioria dos casos conduz a estimações fora dos possíveis valores que podem ser observados. A regressão quantílica (RQ) logística constitui um método eficaz para preencher esta lacuna. Dada à propriedade de invariancia dos quantis, é possível usar uma função simples de ligação para transformar a resposta e obter estimadores para os parámetros fáceis de interpretar, i.e., de forma análoga que na
regressão logística tradicional.
O pacote lqr a ser usado, fornece métodos robustos para extrair inferências sobre quantis condicionais em modelos de regressão lineares, gráficos para verificação da bondade de ajuste dos dados, ajuste e comparação via critérios baseados em verossimilhança de todos os modelos propostos, assim como uma função para ajustar regressão quantílica logistica própria para ajustar respostas intervalares. Existem mais de 15 pacotes de regressão quantílica para diferentes modelos no R, sendo evidencia da importância que tem tomado nos últimos anos. Como pode ser visto, os modelos de RQ podem ser implementados em uma ampla gama de diferentes metodologias e existe toda uma teoria inferencial estabelecida (Koenker & Machado, 1999) e implementada na maioria dos casos.
Recursos
Os recursos necessários serão fornecidos pela FAPESP.
Área
Geral
Autores
CHRISTIAN EDUARDO GALARZA MORALES, VICTOR HUGO LACHOS