Sobre o dadosbrasil

Origem, cadência, metodologia e limitações.

O dadosbrasil publica em três formatos (HTML, Markdown, API JSON) os dados abertos do Cadastro Nacional da Pessoa Jurídica (CNPJ) mantido pela Receita Federal do Brasil. Não coletamos dado algum por conta própria: toda linha vem direto dos arquivos públicos do portal de dados abertos do governo federal.

Fontes

Cadência de atualização

A RFB publica uma nova versão do conjunto de arquivos CNPJ aproximadamente uma vez por mês. O dadosbrasil é reimportado por completo a cada liberação — não fazemos diff incremental, porque a garantia oficial de consistência é por snapshot. Isto significa que a data dos seus dados é a data do último snapshot da RFB, não o dia de hoje; empresas com mudanças recentíssimas podem demorar até ~6 semanas para aparecer.

Metodologia

As páginas são geradas diretamente dos arquivos da RFB, sem enriquecimento manual. As únicas computações adicionais são:

Privacidade e CPF

A própria Receita Federal já publica o CPF de sócios pessoa física na forma descaracterizada ***XXXXXX** — os três primeiros e os dois últimos dígitos são mascarados. O dadosbrasil apenas reproduz essa forma. Nunca tentamos reconstruir o CPF completo, nem combinar o CPF mascarado com outras bases para des-anonimizar ninguém.

Se você aparece como sócio em uma empresa e quer que sua página (/pt/cpf/***XXXXXX**) seja removida, o primeiro passo é falar com a Receita Federal — a fonte. Como nossa base é espelho do dado público, qualquer correção sobe automaticamente no próximo ciclo mensal. Se o caso for urgente, entre em contato via GitHub Issues.

Limitações conhecidas

Licença e atribuição

Os dados originais são públicos e de uso livre, conforme os termos da Receita Federal. Recomendamos que trabalhos derivados citem a fonte (Receita Federal) e, opcionalmente, o dadosbrasil como intermediário/reformatador.

Código

O código do dadosbrasil é aberto em github.com/brazildata/api.

Em inglês