Guia do Cientista de Dados das Galáxias
--
DISCLAIMER: Este repositório foi feito pela e para a comunidade. Existem opiniões divergentes sobre o que é básico e o que é avançado entre outros temas. Caso discorde de alguma coisa que está escrita aqui, fique à vontade para fazer um pull request melhorando as descrições feitas.
O intuito é agregar o conhecimento que se espalha em diversos grupos e iniciativas. Muitas vezes esse conhecimento fica espalhado em drives, pockets e outros meios... Dessa forma, esse repositório visa ajudar os iniciantes e servir como referência para os experientes.
Se possuir material interessante, por favor compartilhe com a comunidade. Estamos aqui para crescermos juntos.
Dessa iniciativa também nasceu o Pizza de Dados, um podcast brasileiro focado em ciência de dados. Se tiver um tempinho, prestigie esse trabalho 100% brasileiro.
Se você gosta desse repositório e quer ajudar, considere apoiar o Pizza de Dados com qualquer quantia :)
No mais, é isso. Bem vinda(o), pequena(o) padawan :)
Sumário
Algumas dicas sobre o que estudar para ser um cientista de dados hoje:
- Recomendações
- Vídeos
- Datasets
- Dicionário de termos em português
- Empresas no Brasil que trabalham com DS
- Grupos
- Metodologias Ágeis
- Dados em Imagens
- Tópicos específicos:
- Aprendizado de Máquina/Machine Learning
- Banco de dados
- Big Data
- Blogs e Jornais
- Carreira
- Cursos
- Deep Learning
- Estatística e Matemática
- Geociências
- Inteligência Artificial
- Linguagens
- Livros
- Meetups e Eventos
- Neurociência
- Notícias Legais
- Podcasts
- Processamento de Linguagem Natural
- Raspagem de Dados
- Reportagens relevantes
- Visualização de dados
Recomendações
Iniciante
- Python (lib Pandas) ou R | R Studio. Qual aprender? Dicas Udacity
- SQL
- Jupyter Notebook
- Estatística Descritiva
- Ferramentas básicas de desenvolvimento | [pt-br]
Intermediário
- Cálculo
- Álgebra Linear
- Machine Learning
- Deep Learning
- Visualização de Dados
- Processamento de Linguagem Natural
Grandes projetos (big data)
- NoSQL
- Scala
- Spark
- Estatística Bayesiana
- Hive
- Hadoop
- Julia
- Computação distribuída com AWS e Google Cloud
O que estudar em cada linguagem - dicas e tutoriais
Ver este link
Vídeos
Estudos
- Lista de cursos online by KDnuggets
- Playlist de Treinamento by Edureka!
- Curso de análise de dados em Python para iniciantes by LabHacker Câmara dos Deputados [pt-br]
Webcasts & Webinars
- Lista dos próximos by KDnuggets
Datasets
- Datasets for Machine Learning
- Datasets for Data Mining and Data Science
- Datasets - Kaggle
- UCI Machine Learning Repository
- data.world
- Registry of Open Data on AWS
- brasil.io
- Microsoft Research Open Data
- Datasets for Recommender Systems
- Google Dataset Search
- Information is beautiful
- Dados do Governo Brasileiro
- Instituto de Pesquisa Econômica Aplicada
- Banco Central do Brasil
- Dados do Governo dos Estados Unidos
- Dados sobre as cidades dos EUA
- Dados do Governo do Canadá (em inglês e francês)
- Dados do Governo do Reino Unido
- Dados da União Europeia
- Dados do Censo dos EUA (dados da população americana e mundial)
- Banco de Dados da NASA
- Dados do Banco Mundial
- Dados sobre a saúde
- Dados sobre diversos países (incluindo o Brasil)
- Dados sobre diversas áreas de negócio e finanças
- Google Trends
- Google Finance
- Gapminder
- Dados com milhões de músicas
- Dados sobre os mais diversos assuntos
- DBpedia
- Open Data Monitor
- Open Data Network
- R Datasets
- Stasci
- Portal de Estatística
- Data 360
- Reconhecimento de Faces
- Stanford Large Network Dataset Collection
- Datahub
- TeraData
- Oracle Exadata
- Food And Agriculture Organization of the United Nations
Metodologias ágeis
- CRISP-DM [pt-br]