BIG DATA Archives - Malum Big Data

Criando o requirements.txt de forma automática

Marcel Pinheiro 29/09/2020 BIG DATA 0

Uma boa prática em todo projeto é criar o arquivo “requirements.txt”. Nele consta todas as dependências que o projeto possui juntamente com suas versões. A biblioteca pipreqs tem a capacidade de criar automaticamente este arquivo de forma fácil: Instalação: [crayon-698c1d4995fe7536911183/] Em seguida basta informar o path do seu projeto: [crayon-698c1d4995ff4697479506/]

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Marcel Pinheiro 11/07/2020 BIG DATA 0

Well actually these can give you different insights into your models errors. If yy is your target, pp your prediction and e=p−ye=p−y the errors: Mean Error: ME=mean(e)ME=mean(e) In (-∞,∞), the closer to 0 the better. Measures additive bias in the error. Unbiased estimates should have the same mean as your target thus ME should be close to …

Pandas profiling

Marcel Pinheiro 13/05/2020 BIG DATA 0

conda install -c conda-forge pandas-profiling conda install matplotlib=2 !jupyter nbextension enable –py widgetsnbextension from pandas_profiling import ProfileReportprofile = ProfileReport(dataframe)# profileprofile.to_file(‘data – profiling.html’)

Instalando cx_Oracle no Python com Ubuntu

Marcel Pinheiro 01/04/2020 BIG DATA 0

wget https://download.oracle.com/otn_software/linux/instantclient/19600/instantclient-basic-linux.x64-19.6.0.0.0dbru.zip sudo apt install unzip unzip instantclient-basic-linux.x64-19.6.0.0.0dbru.zip sudo apt-get install libaio1 libaio-dev conda install cx_Oracle export LD_LIBRARY_PATH=/home/ubuntu/instantclient_19_6:$LD_LIBRARY_PATH

Pandas get_dummies x Sklearn DictVectorizer

Marcel Pinheiro 04/12/2019 BIG DATA 0

Em machine learning, uma das partes mais importantes é a feature engineering. Este post tratará da conversão de categorias com classes string para numérico (colunas texto para números inteiros), já que os algoritmos de ML trabalham com números. Para cada classe da feature (ou a cada categoria de uma coluna), …

Usando Anaconda com Github

Marcel Pinheiro 07/11/2019 BIG DATA 0

Abra o Anaconda Navigator e vá até a sessão Environments. Em seguida crie um virtual environment. Acesse http://www.github.com e faça seu cadastro. Após logar-se, clique no botão verde para criar um novo repositório De o nome que preferir e clique em create repository Voltando ao Anaconda Navigator, vamos iniciar o …

Importando dados do MySQL para o Hbase e realizando consultas com o hive

Marcel Pinheiro 24/07/2019 BIG DATA, Linux 0

O Apache HBase é um banco de dados não relacional (NoSQL) de código aberto, distribuído, baseado no paper do Google Bigtable: A Distributed Storage System for Structured Data / sistema de armazenamento distribuído para dados estruturados Google O objetivo do projeto é conseguir realizar o armazenamento de tabelas realmente grandes …

Drops: Drop Table Hbase

Marcel Pinheiro 13/07/2019 BIG DATA, Linux 0

Para apagar uma tabela no hbase, primeiro deve-se desativar a tabela e ai sim apagá-la: [crayon-698c1d49987fe430256985/]

Drops: VirtualBox erro E_FAIL (0x80004005) com IBM Rapport instalado

Marcel Pinheiro 13/07/2019 BIG DATA 0

Algumas vezes quando temos VMs com o VirtualBox com o IBM Rapport (aplicativo de proteção geralmente instalado com os sistemas de proteção de internet banking), ocorre um erro. Para contorná-lo: Reinicie o seu PC para entrar no modo de segurança automaticamente. Faça logon no seu computador com uma conta de …

Hadoop: copiando dados de um banco relacional MySQL para o HDFS utilizando Sqoop e consultando dados utilizando Hive

Marcel Pinheiro 11/07/2019 BIG DATA, Linux 0

Neste post utilizaremos um banco de dados Mysql aonde copiaremos dados de tabelas e salvaremos no HDFS do Hadoop. Em seguida listaremos estas informações utilizando o Hive. Utilizarei a VM da Cloudera aonde contém tudo oque precisaremos para este exemplo. A base de dados será a Employees Sample Database, encontrada …

Malum Big Data Big Data & Data Science Stuff!

BIG DATA

Criando o requirements.txt de forma automática

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Pandas profiling

Instalando cx_Oracle no Python com Ubuntu

Pandas get_dummies x Sklearn DictVectorizer

Usando Anaconda com Github

Importando dados do MySQL para o Hbase e realizando consultas com o hive

Drops: Drop Table Hbase

Drops: VirtualBox erro E_FAIL (0x80004005) com IBM Rapport instalado

Hadoop: copiando dados de um banco relacional MySQL para o HDFS utilizando Sqoop e consultando dados utilizando Hive

Criando o requirements.txt de forma automática

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Pandas profiling

Instalando cx_Oracle no Python com Ubuntu

Linear regression

Criando o requirements.txt de forma automática

Python feedparser (rss)

Anaconda

Data Streaming com Kafka (AWS MSK)

Data Streaming com Kafka (AWS MSK) – parte 2

Criando o requirements.txt de forma automática

Python feedparser (rss)

Anaconda

Data Streaming com Kafka (AWS MSK)

Data Streaming com Kafka (AWS MSK) – parte 2

Importando dados do MySQL para o Hbase e realizando consultas com o hive

Drops: Drop Table Hbase

Pandas get_dummies x Sklearn DictVectorizer

Normalizando dados com sklearn

Hadoop: copiando dados de um banco relacional MySQL para o HDFS utilizando Sqoop e consultando dados utilizando Hive

Criando o requirements.txt de forma automática

MAD vs RMSE vs MAE vs MSLE vs R²: When to use which?

Pandas profiling

Instalando cx_Oracle no Python com Ubuntu

Linear regression