Dados do Trabalho
Título do Minicurso
ESTATISTICA PARA DADOS EM ALTA DIMENSAO
Resumo Geral
Com o avanço de novas tecnologias na obtenção de dados em diferentes áreas de conhecimento é cada vez mais frequente a análise de dados em alta dimensão, isto é quando o número de parâmetros a serem estimados é muito maior que o número de observações.
De modo geral, métodos estatísticos clássicos não são adequados para a inferência neste tipo de situação e novas abordagens tem sido desenvolvidas. Nos últimos anos há havido um grande desenvolvimento metodológico, matemático e computacional que tem possibilitado a inferência estatística em altas dimensões com base em certas noções de esparsidade. Estas técnicas são suficientemente gerais como para cobrir uma grande gama de modelos, como regressão linear e não linear, modelos auto-regressivos e modelos gráficos, entre outros. O objetivo do minicurso será apresentar técnicas atuais de inferência estatística para dados em alta dimensão, fornecendo fundamentos teóricos e exemplos práticos de aplicação.
Conteúdo preliminar:
1- Variáveis aleatórias sub-gaussianas e sub-exponenciais.
2- Modelo de regressão linear e estimadores de mínimos quadrados.
3- Regressão linear em alta dimensão e o estimador “LASSO”.
4- Aproximações lineares e desigualdades de tipo "oráculo".
5- Seleção de variáveis.
6- Modelos gráficos.
Bibliografia:
1- P. Bühlmann & S. Van de Geer. Statistics for High-dimensional Data. Springer, 2011.
2- T. Hastie, R. Tibshirani & J. Friedman. The Elements of Statistical Learning. 2nd edition. Springer, 2009.
3- C. Giraud. Introduction to High-dimensional Statistics. CRC Press, 2014.
4- I. Rish & G. Grabarnik. Sparse Modeling: Theory, Algorithms and Applications. CRC Press, 2014.
Palestrante 1
Florencia Leonardi
Coordenador
Florencia Leonardi
Palavras-Chave
esparsidade, regressão linear, LASSO, desigualdades oráculo, modelos gráficos
Público alvo
Estudantes de Graduação e Pós-graduação e pesquisadores interessados na temática do curso
Justificativa
A área de inferência estatística para dados em alta dimensão surgiu bastante recentemente com o estudo de problemas onde o número de parâmetros a serem estimados é maior que o número de observações. Esta nova linha de pesquisa está na fronteira do conhecimento atual em técnicas estatísticas para grandes conjuntos de dados, com pesquisadores de renome internacional das melhores universidades do mundo atuando nesta área. No Brasil ainda não existem muitos pesquisadores ou grupos de pesquisa atuando neste tipo de problema, e portanto um minicurso introdutório pode ser uma forma de promover a área entre os participantes do SINAPE. Além disso, a noção de esparsidade subjacente neste tipo de modelo e as técnicas de seleção de variáveis com estimadores do tipo LASSO podem ser estendidas a outros modelos mais gerais, e o mini-curso pode ser de interesse para pesquisadores de diversas áreas.
Recursos
A participação no evento será financiada principalmente pela FAPESP, com recursos do Auxílio à Pesquisa Regular "Seleção de estrutura para processos estocásticos em altas dimensões", processo 2016/17394-0,
Área
Geral
Autores
FLORENCIA GRACIELA LEONARDI