• Stars
    star
    1,102
  • Rank 42,105 (Top 0.9 %)
  • Language
    Python
  • License
    MIT License
  • Created over 6 years ago
  • Updated 22 days ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.

Português (BR) | English (US)

Querido Diário

Querido Diário

Dentro do ecossistema do Querido Diário, este repositório é o responsável pela tarefa de raspagem dos sites publicadores de diários oficiais.

Conheça mais sobre as tecnologias e a história do projeto no site do Querido Diário

Sumário

Como contribuir

catarse

Agradecemos por considerar contribuir com o Querido Diário! 🎉

Você encontra como fazê-lo no CONTRIBUTING.md!

Além disso, consulte a documentação do Querido Diário para te ajudar.

Ambiente de desenvolvimento

Você precisa ter Python (+3.0) e o framework Scrapy instalados.

Os comandos abaixo preparam o ambiente em sistema operacional Linux. Eles consistem em criar um ambiente virtual de Python, instalar os requisitos listados em requirements-dev e a ferramenta para padronização de código pre-commit.

python3 -m venv .venv
source .venv/bin/activate
pip install -r data_collection/requirements-dev.txt
pre-commit install

A configuração em outros sistemas operacionais está disponível em "como configurar o ambiente de desenvolvimento", incluindo mais detalhes para quem deseja contribuir com o desenvolvimento do repositório.

Como executar

Para experimentar a execução de um raspador já integrado ao projeto ou testar o que esteja desenvolvendo, siga os comandos:

  1. Se ainda não o fez, ative o ambiente virtual no diretório /querido-diario:
source .venv/bin/activate
  1. Vá para o diretório data_collection:
cd data_collection
  1. Verifique a lista de raspadores disponíveis:
scrapy list
  1. Execute um raspador da lista:
scrapy crawl <nome_do_raspador>       //exemplo: scrapy crawl ba_acajutiba
  1. Os diários coletados na raspagem serão salvos no diretório data_collection/data

Dicas de execução

Além dos comandos acima, o Scrapy oferece outros recursos para configurar o comando de raspagem. Os recursos a seguir podem ser usados sozinhos ou combinados.

  • Limite de data
    Ao executar o item 4, o raspador coletará todos os diários oficiais do site publicador daquele município. Para execuções menores, utilize a flag de atributo -a seguida de:

start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários.

scrapy crawl <nome_do_raspador> -a start_date=<AAAA-MM-DD>

end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.

scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>
  • Arquivo de log
    É possível enviar o log da raspagem para um arquivo ao invés de deixá-lo no terminal. Isto é particularmente útil quando se desenvolve um raspador que apresenta problemas e você quer enviar o arquivo de log no seu PR para obter ajuda. Para isso, use a flag de configuração -s seguida de: LOG_FILE=log_<nome_do_municipio>.txt: definirá o arquivo para armazenar as mensagens de log.
scrapy crawl <nome_do_raspador> -s LOG_FILE=log_<nome_do_municipio>.txt
  • Tabela de raspagem
    Também é possível construir uma tabela que lista todos os diários e metadados coletados pela raspagem, ficando mais fácil de ver como o raspador está se comportando. Para isso, use a flag de saída -o seguida de um nome para o arquivo.
scrapy crawl <nome_do_raspador> -o <nome_do_municipio>.csv

Solução de problemas

Confira o arquivo de solução de problemas para resolver os problemas mais frequentes com a configuração do ambiente do projeto.

Suporte

Discord Invite

Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.

Agradecimentos

Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às Embaixadoras de Inovação Cívica, às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.

Conheça quem apoia o Querido Diário.

Open Knowledge Brasil

Twitter Follow Instagram Follow LinkedIn Follow

A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.

Todo o trabalho produzido pela OKBR está disponível livremente.

Licença

Código licenciado sob a Licença MIT.

More Repositories

1

serenata-de-amor

🕵 Artificial Intelligence for social control of public administration | **This repository does not receive frequent updates. Check out the README**
Python
4,513
star
2

rosie

🤖 Python application responsible for Serenata de Amor's intelligence
410
star
3

jarbas

🎩 API for information and suspicions about reimbursements by Brazilian congresspeople
296
star
4

perfil-politico

A platform for profiling public figures in Brazilian politics
Jupyter Notebook
162
star
5

serenata-toolbox

📦 pip module containing code shared across Serenata de Amor's projects | ** Este repositório não recebe atualizações frequentes **
Python
154
star
6

vitimas-da-intolerancia

Conheça as vítimas de ódio político
Python
101
star
7

serenata-website

**Este repositório não recebe atualizações frequentes**
SCSS
67
star
8

serenata-notebooks

Notebooks from Operação Serenata de Amor | ** Este repositório não recebe atualizações frequentes **
HTML
53
star
9

querido-diario-api

This is Querido Diário's API. It provides everything the frontend does and even more!
Python
49
star
10

embaixadoras

Site da rede de pessoas embaixadoras de inovação cívica da Open Knowledge Brasil e outros materiais de referência
HTML
46
star
11

whistleblower

🚨A Twitter bot for publicly reporting suspicions found by Rosie, Serenata de Amor's AI
46
star
12

censo-querido-diario

Este repositório não recebe atualizações | Queremos descobrir onde os diários oficiais das prefeituras de todo o Brasil estão sendo publicados. Nos ajude nesse trabalho!
HTML
43
star
13

querido-diario-frontend

Repositório com a implementação do frontend da Plataforma de Busca do Querido Diário
HTML
41
star
14

pedidosanonimos

Python
39
star
15

perfil-politico-frontend

Front-end that consumes Perfil Político's API
Vue
31
star
16

querido-diario-toolbox

Este projeto empodera quem deseja processar dados no contexto do Querido Diário e realizar suas próprias análises.
Python
31
star
17

querido-diario-comunidade

Querido Diário - Comunidade e Documentação
25
star
18

querido-diario-data-processing

Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.
Python
20
star
19

transparenciacovid19

TRANSPARÊNCIA COVID-19
HTML
19
star
20

cicero

Quosque tandem abutere patientia nostra?
Python
16
star
21

busca-querido-diario

Project to enable search of key words in text files extracted by the Querido Diário.
Python
14
star
22

identidade-digital

Manifesto para identificação digital no Brasil
12
star
23

orcamento.inesc.org.br

Visualização dos dados do orçamento federal feita para a INESC
HTML
11
star
24

querido-diario-api-wrapper

Wrapper for Querido Diário API
Python
10
star
25

gastos_abertos

Código principal do projeto Gastos Abertos.
Python
9
star
26

schemaOrg-Wikidata-Map

Ontology alignment between Schema.Org, Wikidata, and DBpedia
9
star
27

open-jus

Justa is a project that aims to facilitate the understanding of financing data and the management the Justice System in an accessible and innovative way.
Python
9
star
28

lexml-dou

Subsídios para a cooperação iniciada entre Imprensa Nacional e LexML
HTML
8
star
29

receita

Rotinas de atualização das bases públicas de dados de CNPJs e sócios da Receita Federal do Brasil.
Python
7
star
30

serenata-relatorio-catarse

Relatório da Rosie sobre candidatos nas Eleições 2018
Elm
7
star
31

reactive_scraper

JavaScript
6
star
32

cuidando2

Cuidando do Meu Bairro 2.0 é uma reescrita do projeto Cuidando do Meu Bairro ( cuidando.org.br ) que busca mapear a execução do orçamento municipal de São Paulo.
HTML
6
star
33

filiados-a-partidos

Dump com a lista do TSE de filiados a partidos no Brasil
Python
5
star
34

datasets-br-cbo

Dataset for CBO - Classificação Brasileira de Ocupações
5
star
35

mosaico

Visualization on the brazilian budget for FGV
CSS
5
star
36

BusaoSP

WhereIsMyBus aka real-time bus updates via Twitter, for São Paulo.
JavaScript
5
star
37

swagger-ui-html

Pure-HTML swagger-ui page, for OpenAPI descriptors of the Open Knowledge Brasil's projects
HTML
5
star
38

querido-diario-backend

Repositório com a implementação do backend da Plataforma de Busca do Querido Diário
Python
5
star
39

opendataday2020

Repositório das atividades realizadas no Open Data Day 2020 - São Paulo
4
star
40

getlex

Ver também http://okfn-brasil.github.io/getlex
PHP
3
star
41

querido-diario-infra

Querido diário deploy scripts
HCL
3
star
42

embaixadoras-dados-covid19

Repositório para reunir as análises de dados da Covid-19 feitas pela rede de pessoas Embaixadoras de Inovação Cívica
R
3
star
43

ISSN-L-Resolver

Converts any ISSN to the correspondent ISSN-L
PLpgSQL
3
star
44

gastos_abertos_dados

Repositório dos dados em estado bruto utilizados no projeto Gastos Abertos
Jupyter Notebook
3
star
45

querido-diario-site

*PROJETO ARQUIVADO* Official landing page of the Querido Diário project
CSS
3
star
46

piloto-educacao

Projeto piloto para monitorar as aquisições de tecnologia para educação básica.
Python
3
star
47

GetMyGist

Read, and write from gists ...
JavaScript
2
star
48

oficial-backups

backup de arquivos comuns da produção da OKBR
Perl
2
star
49

sprints-inovacao-civica

2
star
50

hackatona.vaimudar.org

Hackatona #VaiMudarNaCopa
CSS
2
star
51

gastos_abertos_website

CSS
2
star
52

dialogando

JavaScript
2
star
53

indice-dados-abertos

Vue
2
star
54

gastos_abertos_notebooks

Notebooks of data exploration for the project Gastos Abertos
HTML
1
star
55

perfil-politico-notebooks

** Este repositório não recebe atualizações frequentes **
1
star
56

country-geoinfo

Spatial relations between countries and between another geographical standards
1
star
57

esic

Cliente ruby para o e-SIC do governo federal brasileiro
Ruby
1
star
58

salarios-usp

1
star
59

gastos-abertos-documentos

1
star
60

mapeamento-de-sites

Repositório auxiliar para encontrar sites de prefeituras ou sites publicadores de diários oficiais
Python
1
star
61

observatorio-materiais

Organização de materiais referentes ao Observatório de Tecnologias na Educação
1
star
62

serenata-de-amor-inbox

1
star
63

oficial-backupsbig

backup de big-files da produção da OKBR
1
star
64

diario-do-clima

Repositório para o frontend (interface web) do Diário do Clima.
JavaScript
1
star
65

GetMyGist-Server

GetMyGist-Server - Github Get token access
JavaScript
1
star
66

vaimudar_wp

PHP
1
star
67

diarios-do-clima-frontend

Repositório para o frontend (interface web) do Diários do Clima.
TypeScript
1
star
68

queremossaber-docker

Shell
1
star
69

copa2014_grupos_economicos

JavaScript
1
star
70

gastos_abertos_dev

Gastos Abertos Development Environment with Vagrant
Shell
1
star
71

regimento-interno

Código-fonte das versões desenvolvidas para Regimento Interno da OKBr e demais Termos de Uso e responsabilidade
1
star
72

orcamento-federal-dados

Dados para o orcamento.inesc.org.br
Shell
1
star
73

lexml-vocabulary

RDF vocabulary of LexML, revision and ontology-alignment with Wikidata and others
SQLPL
1
star