Repositório destinado a adição de dados no datalake mantido pelo canal Téo Me Why.
Todos os códigos necessários e informações básicas sobre os dados serão disponibilizados nestes repositório.
Estes dados são disponíveis em um datalake construido utilizando o Databricks com AWS. Todos os inscritos no canal Téo Me Why tem acesso ao Datalake.
Nome | Contexto | Fonte |
---|---|---|
DataSUS | Dados do Sistema de Informação Hospitalar (SIH) e de Nascidos Vivos (SINASC) | datasus.saude.gov.br |
Dota2 | Dados de partidas profissionais de Dota2 desde 2012 | opendota.com |
Gamers Club | Dados de partidas, jogadores e medalhes da Gamers Club | kaggle.com/datasets/gamersclub/brazilian-csgo-plataform-dataset-by-gamers-club/data |
IGDB | Dados de jogos digitais, franquias, empresas desenvolvedoras e publicadoras | igdb.com |
Olist | Dados de transações realizadas em um ecommerce | kaggle.com/datasets/olistbr/brazilian-ecommerce |
Tabnews | Dados de posts realizados no TabNews | tabnews.com.br |
TSE | Dados de candidatura, bens de candidatos e votações do Brasil | dadosabertos.tse.jus.br |
Para consultar os dados seguimos o padrão: `{catálogo}.{database}.{tabela}´.
Assim, temos 3 catálogos diferentes:
- Bronze: Dados brutos a partir das fontes em formato Delta
- Silver: Dados padronizados de forma mais fácil de leitura e utilização
- Gold: Dados agregados em formato de relatórios para serem utilizados em ferramentas de visualização
Você pode consumir os dados da seguinte maneira com SQL:
SELECT *
FROM silver.olist.pedido
Abra uma issue neste projeto com o seguinte template:
Título: Nome da fonte de dados
- Descrição da fonte de dados:
- Do que diz respeito?
- Qual o contexto deste dado?
- Quantos anos de histórico?
- Qual o volume?
- Link para acesso aos dados.
- Por que este dado é relevante e deveria estar no datalake?