Pandas get_dummies x Sklearn DictVectorizer

Marcel Pinheiro 04/12/2019 BIG DATA Leave a comment 2,333 Views

Em machine learning, uma das partes mais importantes é a feature engineering. Este post tratará da conversão de categorias com classes string para numérico (colunas texto para números inteiros), já que os algoritmos de ML trabalham com números.

Para cada classe da feature (ou a cada categoria de uma coluna), será criado uma nova coluna.

Mas você deve estar se perguntando: por que simplesmente não atribui um número a cada categoria? Exemplo:

Coluna car type com as opções : sedan, suv, hatch

Poderíamos simplesmente converter em: 1 – sedan, 2 – suv, 3 – hatch

Esta não é uma boa abordagem porque como algoritmos realizam equações matemáticas, não faria sentido por exemplo 1 (sedan) + 2 (suv) = 3 (hatch)

Veja mais em https://malum.com.br/wp/2019/11/24/normalizando-dados-com-sklearn/

Primeiro vamos carregar nossos dados em nosso pandas dataframe.

Pandas get_dummies

A vantagem desta funcionalidade é que é possível usá-la diretamente no dataframe, identificando as features e categorizando. Cria-se colunas novas para cada classe da categoria. A opção drop_first está como true para evitar problemas de multicolinearidade.

Sklearn DictVectorizer

Esta abordagem é recomendada quando há centenas ou milhares de categorias e features. Apesar de ser mais complexa, ela suporta sparse matrix outputs. Como ela trabalha apenas com dicts, deve-se converter o dataframe para poder utilizá-la. O resultado é um numpy array.

No exemplo abaixo nós convertemos em dict, realizamos a conversão de dados e em seguida colocamos novamente em um dataframe:

Faça o download do código clicando aqui

Malum Big Data Big Data & Data Science Stuff!

Pandas get_dummies x Sklearn DictVectorizer

Related Articles

Check Also

Criando o requirements.txt de forma automática

Leave a Reply Cancel reply

Criando o requirements.txt de forma automática

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Pandas profiling

Instalando cx_Oracle no Python com Ubuntu

Linear regression

Criando o requirements.txt de forma automática

Python feedparser (rss)

Anaconda

Data Streaming com Kafka (AWS MSK)

Data Streaming com Kafka (AWS MSK) – parte 2

Criando o requirements.txt de forma automática

Python feedparser (rss)

Anaconda

Data Streaming com Kafka (AWS MSK)

Data Streaming com Kafka (AWS MSK) – parte 2

Data Streaming com Kafka (AWS MSK) – parte 2

Drops: VirtualBox erro E_FAIL (0x80004005) com IBM Rapport instalado

Anaconda

Drops: Apagando dados no Hadoop HDFS

Usando Kafka com Ubuntu

Criando o requirements.txt de forma automática

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Pandas profiling

Instalando cx_Oracle no Python com Ubuntu

Linear regression