Tutoriais
Tutorial
Tutorial 1: INTEGRANDO SPARK EM R PARA ANALISE DE BIG DATA
Ministrante: Abel Pereira de Macêdo Borges Júnior (Instituto Federal de Pernambuco / IFPE)
RESUMO: É desafiador trabalhar com grandes bancos de dados em R. Dependendo da análise realizada, o tempo de processamento é inviável e, em muitos casos, apenas ler o arquivo já se torna um problema. O sparklyr é um pacote que integra o R com o Spark, uma das ferramentas de Big Data mais utilizadas hoje em dia. Com este pacote, é possível reduzir o tempo de processamento, pois os dados são tratados de maneira distribuída localmente em seu PC ou em um cluster EMR da Amazon, via RStudio Server. Dessa forma, aprender a trabalhar com Big Data torna-se mais acessível, mesmo quando não se tem grande infraestrutura à disposição para lidar com quantidades massivas de dados.
Tutorial 2: FORMAS INOVADORAS DE VISUALIZAÇAO DE DADOS COM R
Ministrante: Alexandre Sousa Silva (UNIRIO)
Ministrante: Steven Dutt-Ross (UNIRIO)
RESUMO: A Estatística, assim como toda a ciência é dinâmica e precisa ser atualizada constantemente. Dentre as várias propostas de atualização devemos repensar as velhas formas de apresentação de resultados. Um exemplo deste processo é o desuso de gráficos como ramos e folhas e o sucesso das formas de visualização de dados propostas por Hans Rosling em sua excelente apresentação do TED, onde apresenta 200 anos e 200 países em 4 minutos por meio de gráficos em movimento. Sendo assim, neste tutorial iremos apresentar formas inovadores de visualização de dados utilizando o programa R e suas interfaces (Rcmdr e Rstudio), por meio de ferramentas como Rmarkdown e a interface com a Application Programming Interface do Google-Google API. O R é um poderoso ambiente de desenvolvimento, livre e de código aberto. Possui uma comunidade de usuários extremamente ativa e colaborativa. Dentre suas interfaces destaca-se o Rcmdr por ser bastante intuitivo e o Rstudio por ser muito versátil e multifuncional. O R possui uma série de ferramentas de visualização e análise de dados tradicionalmente utilizadas pela comunidade estatística e, mais recentemente vem disponibilizando ferramentas como o Rmarkdown que permite construir documentos do tipo HTML, PDF, DOC (word) e apresentações. Neste encontro serão apresentadas rotinas do programa R e suas interfaces com outras ferramentas. Mais especificamente construiremos relatório e apresentação utilizando o Rmarkdown, exploraremos interação do R com GoogleAPI, construiremos gráficos em movimento, mapas interativos e outras formas inovadoras de visualização de dados. Sem dúvida alguma, formas diferenciadas de apresentação de resultados agregam valor ao trabalho final, em alguns casos automatiza o trabalho e muitas vezes permite melhor compreensão dos dados. Por fim, devemos dar adeus aos gráficos estáticos e sem graça e dar boas-vindas aos gráficos interativos e dinâmicos.
Tutorial 3: ANALISANDO MICRODADOS DA PESQUISA NACIONAL POR AMOSTRA DE DOMICILIOS CONTINUA DO IBGE
Ministrante: Natalia Raquel Souza Pires (ENCE)
Ministrante: Pedro Luis Nascimento Silva (ENCE)
RESUMO: Vamos apresentar diversos exemplos práticos mostrando como analisar dados da Pesquisa Nacional de Amostra por Domicílios Contínua (PNADc) - realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Serão apresentadas diversas ferramentas disponíveis no sistema R para análise de dados de pesquisas usando planos amostrais complexos. O uso destas ferramentas será ilustrado considerando os dados da PNADc para estimar indicadores de condições de vida dos brasileiros. Serão também demonstrados recursos para modelagem estatística considerando dados dessa importante pesquisa do IBGE.
Durante a explanação do conteúdo será reforçada a importância de conhecer:
• os metadados que acompanham e descrevem os dados das pesquisas amostrais;
• os métodos empregados para obtenção e ponderação das amostras; e também
• os detalhes dos métodos requeridos para realizar análises que incorporem adequadamente os efeitos da amostragem complexa.