Sobre o dadosbrasil
O dadosbrasil publica em três formatos (HTML, Markdown, API JSON) os dados abertos do Cadastro Nacional da Pessoa Jurídica (CNPJ) mantido pela Receita Federal do Brasil. Não coletamos dado algum por conta própria: toda linha vem direto dos arquivos públicos do portal de dados abertos do governo federal.
Fontes
- Receita Federal — CNPJ: dados cadastrais de empresas, estabelecimentos, sócios, simples nacional, tabelas auxiliares (CNAE, natureza jurídica, municípios, países, qualificações de sócio).
- IBGE: nomes e códigos de municípios.
Cadência de atualização
A RFB publica uma nova versão do conjunto de arquivos CNPJ aproximadamente uma vez por mês. O dadosbrasil é reimportado por completo a cada liberação — não fazemos diff incremental, porque a garantia oficial de consistência é por snapshot. Isto significa que a data dos seus dados é a data do último snapshot da RFB, não o dia de hoje; empresas com mudanças recentíssimas podem demorar até ~6 semanas para aparecer.
Metodologia
As páginas são geradas diretamente dos arquivos da RFB, sem enriquecimento manual. As únicas computações adicionais são:
- Rede de empresas conectadas (
/cnpj/.../rede): agrupa empresas com pelo menos um sócio pessoa física em comum (pelo CPF mascarado), com o mesmo CEP, ou com o mesmo representante legal. Conta-se apenas o 1º grau. - Rede do sócio (
/cpf/.../rede): parte do CPF, lista as empresas onde ele é sócio direto mais a rede de 1º grau de cada uma. - Endereços em formato "linha única": concatenação server-side dos campos tipo_logradouro + logradouro + número + complemento + bairro.
Privacidade e CPF
A própria Receita Federal já publica o CPF de sócios pessoa física na forma descaracterizada ***XXXXXX** — os três primeiros e os dois últimos dígitos são mascarados. O dadosbrasil apenas reproduz essa forma. Nunca tentamos reconstruir o CPF completo, nem combinar o CPF mascarado com outras bases para des-anonimizar ninguém.
Se você aparece como sócio em uma empresa e quer que sua página (/pt/cpf/***XXXXXX**) seja removida, o primeiro passo é falar com a Receita Federal — a fonte. Como nossa base é espelho do dado público, qualquer correção sobe automaticamente no próximo ciclo mensal. Se o caso for urgente, entre em contato via GitHub Issues.
Limitações conhecidas
- Empresas com situação "Baixada" continuam na base — são registros históricos da RFB e não implicam atividade presente.
- O campo "Capital Social" é o valor declarado, sem atualização automática.
- Nomes de sócios pessoa jurídica às vezes aparecem vazios quando a fonte não preenche o campo.
- Tradução para inglês aplica-se apenas à "casca" (rótulos, descrições). Os dados em si (razão social, endereços) estão sempre em português, como publicados.
Licença e atribuição
Os dados originais são públicos e de uso livre, conforme os termos da Receita Federal. Recomendamos que trabalhos derivados citem a fonte (Receita Federal) e, opcionalmente, o dadosbrasil como intermediário/reformatador.
Código
O código do dadosbrasil é aberto em github.com/brazildata/api.