Últimos posts

Hadoop: copiando dados de um banco relacional MySQL para o HDFS utilizando Sqoop e consultando dados utilizando Hive

Neste post utilizaremos um banco de dados Mysql aonde copiaremos dados de tabelas e salvaremos no HDFS do Hadoop. Em seguida listaremos estas informações utilizando o Hive. Utilizarei a VM da Cloudera aonde contém tudo oque precisaremos para este exemplo.  A base de dados será a Employees Sample Database, encontrada …

Read More »

Avro

O Avro é um sistema de serialização de dados de software livre que ajuda na troca de dados entre sistemas, linguagens de programação e estruturas de processamento. O Avro ajuda a definir um formato binário para seus dados, bem como mapeá-lo para a linguagem de programação de sua escolha. Um …

Read More »

Drops: nested json e pandas

Com o pandas é possível trabalhar de forma muito facilitada com as mais diversas formas de dados e formatos. Uma delas é carregar dados de um json para um dataframe: [crayon-6625f1708e286208184805/] Porém quando estamos trabalhando com json aninhados / nested json, não fica mais tão simples (mas ainda sim, simples) …

Read More »

Usando Kafka com Ubuntu

Neste post usaremos o Ubuntu como sistema operacional para rodar nossas aplicações. Em um post anterior, vimos como criar um cluster Kafka utilizando os serviços da AWS.  Desta vez faremos tudo em um ambiente local Linux. Vamos la! Instalando o Kafka Realize o download do Kafka – https://kafka.apache.org/downloads Procure pelos …

Read More »

Utilizando a VM Cloudera

A Cloudera, Inc. é uma empresa de software com sede nos EUA que fornece uma plataforma de software para engenharia de dados, data warehousing, aprendizado de máquina e análise que é executada na nuvem ou nas instalações. A Cloudera foi fundada em 2008 por três engenheiros do Google, Yahoo! e …

Read More »

Data Streaming com Kafka (AWS MSK)

Neste post, nós consumiremos dados streaming  utilizando Kafka através do serviço da AWS chamado MSK – Managed Streaming for Kafka Para isto utilizaremos:   https://aws.amazon.com Amazon Web Services , também conhecido como AWS, é uma plataforma de serviços de computação em nuvem, que formam uma plataforma de computação na nuvem …

Read More »

Anaconda

Anaconda (https://www.anaconda.com/distribution/) é uma plataforma em python (e também em R) para Data Science. Possui diversas aplicações para o desenvolvimento de soluções em biga data, aonde tudo fica reunido em seu Anaconda Navigator. Dentre  as aplicações  podemos citar: Jupyter Notebook Aplicativo da Web de código aberto que permite criar e …

Read More »

Python feedparser (rss)

Feedparser (https://pypi.org/project/feedparser/) é um pacote para python aonde é possível ler RSS (Rich Site Summary) feeds. O pacote trabalha com RSS 0.9x, RSS 1.0, RSS 2.0, CDF, Atom 0.3, e Atom 1.0 feeds O código abaixo realiza a instalação do pacote e busca os últimos feeds do blog Cloudflare, utilizando …

Read More »
PortugueseEnglishFrenchSpanishGerman
Open chat
Precisa de ajuda?