Olá pessoal, tudo bem?
Hoje vou compartilhar os resultados de uma pesquisa feita pelo Kaggle sobre o status da área de data science no mundo e também de uma análise que estou criando com os dados da pesquisa, especificamente sobre o Brasil!
quinta-feira, 7 de dezembro de 2017
sexta-feira, 6 de outubro de 2017
Jupyter Notebook na Nuvem para Analises com muitos Dados
Olá pessoal, tudo bem?
Hoje vou mostrar como configurar o ambiente Jupyter Notebook em um servidor remoto, de forma fácil e que nos permita aproveitar a flexibilidade da nuvem para fazer nossas analises de dados.
O Jupyter é, segundo o site do projeto, uma aplicação web de código aberto que permite criar e compartilhar documentos que contenham código vivo, equações, visualizações e texto explicativo. Ele é um dos principais ambientes para a análise de dados, onde você pode usar não apenas Python mas várias outras linguagens como você pode ver aqui.
Normalmente, o Jupyter é instalado localmente e fica disponível na porta 8888 em localhost quando iniciado. Instala-lo em um servidor se torna útil quando o volume de dados a ser analisado é maior que a memória RAM disponível. Existem outras opções nestes casos, como processar os dados em lotes, usar processamento distribuído e etc, mas nenhuma delas é tão simples quanto ter todos os dados em memória. Pretendo abordar algumas dessas opções aqui no blog, mas farei isso quando surgir a necessidade!
Hoje vou mostrar como configurar o ambiente Jupyter Notebook em um servidor remoto, de forma fácil e que nos permita aproveitar a flexibilidade da nuvem para fazer nossas analises de dados.
Mas o que é Jupyter Notebook e por que instala-lo em um servidor?
O Jupyter é, segundo o site do projeto, uma aplicação web de código aberto que permite criar e compartilhar documentos que contenham código vivo, equações, visualizações e texto explicativo. Ele é um dos principais ambientes para a análise de dados, onde você pode usar não apenas Python mas várias outras linguagens como você pode ver aqui.
Normalmente, o Jupyter é instalado localmente e fica disponível na porta 8888 em localhost quando iniciado. Instala-lo em um servidor se torna útil quando o volume de dados a ser analisado é maior que a memória RAM disponível. Existem outras opções nestes casos, como processar os dados em lotes, usar processamento distribuído e etc, mas nenhuma delas é tão simples quanto ter todos os dados em memória. Pretendo abordar algumas dessas opções aqui no blog, mas farei isso quando surgir a necessidade!
terça-feira, 22 de agosto de 2017
Brincando de Big Data e Data Mining
Olá pessoal, tudo bem?
Hoje quero compartilhar uma brincadeira experimento que fiz relacionado ao que podemos chamar de big data e data mining. Vamos ver quão rápido conseguimos processar alguns gigabytes de dados!
Hoje quero compartilhar um
terça-feira, 14 de março de 2017
DataViz - Ferramentas para visualização de dados em Python!
Olá pessoal! Tudo bem?
Hoje quero mostrar algumas ferramentas muito interessantes para visualização de dados. Pretendo retomar o assunto do post anterior, onde usamos um pouco de machine learning para categorizar reportagens em português, mas a pausa é bem justificada!
Hoje quero mostrar algumas ferramentas muito interessantes para visualização de dados. Pretendo retomar o assunto do post anterior, onde usamos um pouco de machine learning para categorizar reportagens em português, mas a pausa é bem justificada!
quarta-feira, 25 de janeiro de 2017
Um Pouco de Machine Learning com Python
E ai pessoal, tudo bem?
É quase um milagre este post sair com tão pouco tempo desde o último, mas o fato é que estou muito empolgado com meus estudos e o curso da Udemy que comentei no ultimo post, tanto que comecei a aplicar algumas coisas na prática!
Hoje quero mostrar um pequeno programa que criei para testar e praticar as técnicas de Machine Learning na categorização de textos. É apenas um protótipo que usa matérias jornalisticas, mas você pode baixa-lo para testar e estudar!
É quase um milagre este post sair com tão pouco tempo desde o último, mas o fato é que estou muito empolgado com meus estudos e o curso da Udemy que comentei no ultimo post, tanto que comecei a aplicar algumas coisas na prática!
Hoje quero mostrar um pequeno programa que criei para testar e praticar as técnicas de Machine Learning na categorização de textos. É apenas um protótipo que usa matérias jornalisticas, mas você pode baixa-lo para testar e estudar!
Assinar:
Postagens (Atom)