Marcel Pinheiro 29/09/2020 BIG DATA 826
Uma boa prática em todo projeto é criar o arquivo “requirements.txt”. Nele consta todas as dependências que o projeto possui juntamente com suas versões. A biblioteca pipreqs tem a capacidade de criar automaticamente este arquivo de forma fácil: Instalação: [crayon-62f78664d06f6121622780/] Em seguida basta informar o path do seu projeto: [crayon-62f78664d0708401568881/]
Read More » Marcel Pinheiro 11/07/2020 BIG DATA 2,944
Well actually these can give you different insights into your models errors. If yy is your target, pp your prediction and e=p−ye=p−y the errors: Mean Error: ME=mean(e)ME=mean(e) In (-∞,∞), the closer to 0 the better. Measures additive bias in the error. Unbiased estimates should have the same mean as your target thus ME should be close to …
Read More » Marcel Pinheiro 13/05/2020 BIG DATA 1,391
conda install -c conda-forge pandas-profiling conda install matplotlib=2 !jupyter nbextension enable –py widgetsnbextension from pandas_profiling import ProfileReportprofile = ProfileReport(dataframe)# profileprofile.to_file(‘data – profiling.html’)
Read More » Marcel Pinheiro 01/04/2020 BIG DATA 1,460
wget https://download.oracle.com/otn_software/linux/instantclient/19600/instantclient-basic-linux.x64-19.6.0.0.0dbru.zip sudo apt install unzip unzip instantclient-basic-linux.x64-19.6.0.0.0dbru.zip sudo apt-get install libaio1 libaio-dev conda install cx_Oracle export LD_LIBRARY_PATH=/home/ubuntu/instantclient_19_6:$LD_LIBRARY_PATH
Read More » Marcel Pinheiro 12/12/2019 Data Science, machine learning 619
Linear regression é um método estatístico para encontrar relacionamentos entre variáveis. Neste exemplo usaremos alguns conceitos básicos, como feature selection utilizando correlação, colinearidade e variação para prever o valor de uma casa. Utilizaremos também o conceito de ordinary least squares estimation (OLS). Porém ele é executado de forma automática quando …
Read More » Marcel Pinheiro 04/12/2019 BIG DATA 2,242
Em machine learning, uma das partes mais importantes é a feature engineering. Este post tratará da conversão de categorias com classes string para numérico (colunas texto para números inteiros), já que os algoritmos de ML trabalham com números. Para cada classe da feature (ou a cada categoria de uma coluna), …
Read More » Marcel Pinheiro 24/11/2019 Data Science 1,782
Quando trabalhamos com algoritmos de machine learning, existe sempre a recomendação de que todos os dados a serem trabalhados sejam numéricos. Porém no mundo real isto raramente acontece, pois nossos dados muitas vezes possuem categorias descritivas (string). Neste exemplo vemos que o atributo neighborhood é um texto, logo precisamos converte-lo …
Read More » Marcel Pinheiro 07/11/2019 BIG DATA 1,973
Abra o Anaconda Navigator e vá até a sessão Environments. Em seguida crie um virtual environment. Acesse http://www.github.com e faça seu cadastro. Após logar-se, clique no botão verde para criar um novo repositório De o nome que preferir e clique em create repository Voltando ao Anaconda Navigator, vamos iniciar o …
Read More » Marcel Pinheiro 24/07/2019 BIG DATA, Linux 2,019
O Apache HBase é um banco de dados não relacional (NoSQL) de código aberto, distribuído, baseado no paper do Google Bigtable: A Distributed Storage System for Structured Data / sistema de armazenamento distribuído para dados estruturados Google O objetivo do projeto é conseguir realizar o armazenamento de tabelas realmente grandes …
Read More » Marcel Pinheiro 13/07/2019 BIG DATA, Linux 1,567
Para apagar uma tabela no hbase, primeiro deve-se desativar a tabela e ai sim apagá-la: [crayon-62f78664d7c4c477312224/]
Read More »