Últimos posts

Linear regression

Linear regression é um método estatístico para encontrar relacionamentos entre variáveis. Neste exemplo usaremos alguns conceitos básicos, como feature selection utilizando correlação, colinearidade e variação para prever o valor de uma casa. Utilizaremos também o conceito de ordinary least squares estimation (OLS). Porém ele é executado de forma automática quando …

Read More »

Pandas get_dummies x Sklearn DictVectorizer

Em machine learning, uma das partes mais importantes é a feature engineering. Este post tratará da conversão de categorias com classes string para numérico (colunas texto para números inteiros), já que os algoritmos de ML trabalham com números. Para cada classe da feature (ou a cada categoria de uma coluna), …

Read More »

Normalizando dados com sklearn

Quando trabalhamos com algoritmos de machine learning, existe sempre a recomendação de que todos os dados a serem trabalhados sejam numéricos. Porém no mundo real isto raramente acontece, pois nossos dados muitas vezes possuem categorias descritivas (string).  Neste exemplo vemos que o atributo neighborhood é um texto, logo precisamos converte-lo …

Read More »

Usando Anaconda com Github

Abra o Anaconda Navigator e vá até a sessão Environments. Em seguida crie um virtual environment. Acesse http://www.github.com e faça seu cadastro. Após logar-se, clique no botão verde para criar um novo repositório De o nome que preferir e clique em create repository Voltando ao Anaconda Navigator, vamos iniciar o …

Read More »

Hadoop: copiando dados de um banco relacional MySQL para o HDFS utilizando Sqoop e consultando dados utilizando Hive

Neste post utilizaremos um banco de dados Mysql aonde copiaremos dados de tabelas e salvaremos no HDFS do Hadoop. Em seguida listaremos estas informações utilizando o Hive. Utilizarei a VM da Cloudera aonde contém tudo oque precisaremos para este exemplo.  A base de dados será a Employees Sample Database, encontrada …

Read More »

Avro

O Avro é um sistema de serialização de dados de software livre que ajuda na troca de dados entre sistemas, linguagens de programação e estruturas de processamento. O Avro ajuda a definir um formato binário para seus dados, bem como mapeá-lo para a linguagem de programação de sua escolha. Um …

Read More »

Drops: nested json e pandas

Com o pandas é possível trabalhar de forma muito facilitada com as mais diversas formas de dados e formatos. Uma delas é carregar dados de um json para um dataframe: [crayon-5e4bc77e2296b639790978/] Porém quando estamos trabalhando com json aninhados / nested json, não fica mais tão simples (mas ainda sim, simples) …

Read More »