sexta-feira, 6 de outubro de 2017

Jupyter Notebook na Nuvem para Analises com muitos Dados

Olá pessoal, tudo bem?

Hoje vou mostrar como configurar o ambiente Jupyter Notebook em um servidor remoto, de forma fácil e que nos permita aproveitar a flexibilidade da nuvem para fazer nossas analises de dados.

Mas o que é Jupyter Notebook e por que instala-lo em um servidor?


O Jupyter é, segundo o site do projeto, uma aplicação web de código aberto que permite criar e compartilhar documentos que contenham código vivo, equações, visualizações e texto explicativo. Ele é um dos principais ambientes para a análise de dados, onde você pode usar não apenas Python mas várias outras linguagens como você pode ver aqui.

Normalmente, o Jupyter é instalado localmente e fica disponível na porta 8888 em localhost quando iniciado. Instala-lo em um servidor se torna útil quando o volume de dados a ser analisado é maior que a memória RAM disponível. Existem outras opções nestes casos, como processar os dados em lotes, usar processamento distribuído e etc, mas nenhuma delas é tão simples quanto ter todos os dados em memória. Pretendo abordar algumas dessas opções aqui no blog, mas farei isso quando surgir a necessidade!