23º SINAPE - Simpósio Nacional de Probabilidade e Estatística

Dados do Trabalho


Título

INTEGRANDO SPARK EM R PARA ANALISE DE BIG DATA

Resumo Geral

É desafiador trabalhar com grandes bancos de dados em R. Dependendo da análise realizada, o tempo de processamento é inviável e, em muitos casos, apenas ler o arquivo já se torna um problema. O sparklyr é um pacote que integra o R com o Spark, uma das ferramentas de Big Data mais utilizadas hoje em dia.

Com este pacote, é possível reduzir o tempo de processamento, pois os dados são tratados de maneira distribuída localmente em seu PC ou em um cluster EMR da Amazon, via RStudio Server. Dessa forma, aprender a trabalhar com Big Data torna-se mais acessível, mesmo quando não se tem grande infraestrutura à disposição para lidar com quantidades massivas de dados.

Objetivos

O objetivo deste tutorial é compartilhar o conhecimento através de vários exemplos práticos de aplicação utilizando o pacote sparklyr. Também será mostrado o passo a passo de como montar um cluster local e na EMR, baseado na experiência pessoal de trabalho como estatístico numa startup de tecnologia e Big Data

Palestrante / Instituição / Currículo

Samuel Victor Medeiros Macêdo
Instituto Federal de Pernambuco / IFPE

Currículo:
http://lattes.cnpq.br/0753964115099661
https://www.linkedin.com/in/samuel-mac%C3%AAdo-755a8763/

Coordenador

Samuel Victor Medeiros Macêdo

Palavras-Chave

Rstudio, Spark, sparklyr, Big Data e dplyr,

Público-alvo

Alunos e professores que possuam conhecimento básico em R.

Justificativa

Com o avanço da capacidade de armazenamento, os bancos de dados são cada vez maiores, na ordem de gigabytes ou até terabytes.
Cada vez mais empresas de grande porte como Google, Amazon e Facebook procuram profissionais e pesquisadores que possuam conhecimentos específicos para tratar essa enorme quantidade informação e, neste contexto, o Spark é uma das ferramentas mais utilizadas.

O sparklyr se mostra, neste cenário, uma excelente ferramenta de apoio ao estatístico, pois permite utilizar as funções do Spark sem sair do ambiente em R. Contudo, por se tratar de uma biblioteca em desenvolvimento, a maioria das funções não possuem exemplos na documentação do R, sendo necessário recorrer a diversos fóruns, e perder muito tempo garimpando informações específicas em plataformas diversas.

Este tutorial concentra vários exemplos de aplicação em bancos de dados reais, além de todo o fluxo de informações necessário reunido num único lugar. Por este motivo, acredito ser de interesse da comunidade estatística compartilhar esse tipo de conhecimento com os alunos e promover o debate sobre o tema entre os demais docentes.

Recursos

O valor da inscrição do evento será pago com recursos próprios. É possível conseguir financiamento, junto ao IFPE, para passagem e estadia.

Outras informações

Área

Geral

Autores

Samuel Victor Medeiros Macêdo