Visão Geral
Cronologia de Adesão dos Órgãos (proxy: 1ª entrega pactuada conhecida)
Cada órgão entra uma única vez, no mês da sua primeira entrega com data_pactuada parseável. Propagação por grupo ministerial: como o dedup MD5 atribui o PDF compartilhado a um único owner alfabético, a 1ª data desse owner é propagada para todos os membros do grupo (MEC/MF/MD/MMA/MT/MIDR/MDA). Não é a data de assinatura do PTD (não scraped do portal gov.br nem extraída do texto do PDF). Datas pré-decreto (antes de set/2024) vêm de entregas legadas retroativamente incluídas: na maioria "PPSI Ciclo 1", programa de privacidade que antecede o PTD. ~57 de 91 órgãos aparecem aqui; os ~34 ausentes não têm nenhuma data_pactuada parseável nos PDFs (coluna vazia ou formato não reconhecido — limitação de extração).
Distribuição Mensal de Entregas Pactuadas (carga por mês)
Cada barra é o número de entregas com data_pactuada naquele mês — cada entrega conta uma vez, independente de órgão. Reflete a carga prometida ao longo do tempo.
Entregas por Eixo Estratégico
Cobertura de Extração
Órgãos sem Dados — Motivos
Top 10 Produtos
Explorar o Corpus
Cada card leva a uma análise interativa. Os números refletem o corpus processado.
Entregas Pactuadas
Ações e serviços digitais pactuados entre cada órgão e a SGD/MGI, classificados por produto e eixo da EFGD 2024-2027. Explore por múltiplas dimensões: os gráficos e a tabela respondem aos filtros simultaneamente.
Entregas por Eixo
Entregas por Produto
Gestão de Riscos
Riscos identificados pelos órgãos em seus Documentos Diretivos, classificados por probabilidade (raro a praticamente certo), impacto (muito baixo a muito alto) e opção de tratamento (mitigar, eliminar, transferir, aceitar). A matriz abaixo mostra a concentração de riscos — clique em uma célula para ver os riscos daquela combinação.
Matriz de Riscos — Probabilidade × Impacto (clique para filtrar)
Distribuição de Tratamento
Riscos Mais Frequentes
Ações de Mitigação — Referencial SGD (clique para expandir)
Ações padronizadas pela SGD. Cada risco referencia um subconjunto (ex: "1, 2, 9"). A barra indica frequência relativa.
Órgãos Signatários
Cada card representa um dos 91 órgãos signatários de PTD. A borda verde indica dados completos, amarela parcial e vermelha sem dados extraídos. Clique em um órgão para ver seus detalhes, entregas e riscos.
Similaridade entre Órgãos
Mapa de similaridade baseado no coeficiente de Jaccard dos perfis de produtos pactuados. Cada célula indica o grau de sobreposição entre os catálogos de entregas de dois órgãos (0% = nenhum produto em comum, 100% = catálogos idênticos). Órgãos de um mesmo grupo ministerial (ex: MEC, MD) tendem a ter similaridade máxima por compartilharem o mesmo PTD.
Similaridade por Perfil de Produtos (Jaccard)
Pares Mais Similares
Órgãos Mais Distintos
Comparação Direta
Insights
Achados analíticos derivados do corpus de 91 órgãos. Os números são calculados dinamicamente a partir dos dados extraídos.
O que é o Plano de Transformação Digital
1. Marco Legal e Institucional
O Plano de Transformação Digital (PTD) é um instrumento de planejamento e pactuação instituído pelo Decreto nº 12.198, de 24 de setembro de 2024, que estabelece a Estratégia Federal de Governo Digital (EFGD) 2024-2027. A regulamentação operacional é dada pela Portaria SGD/MGI nº 6.618/2024.
Referências: EFGD 2024-2027 · Portal PTDs
2. Os 6 Princípios da EFGD (Decreto 12.198/2024)
A EFGD é estruturada em 6 princípios fundamentais, com 16 objetivos estratégicos e 100 iniciativas:
| # | Princípio | Descrição (Art. 1º) |
|---|---|---|
| I | Centrado no Cidadão e Inclusivo | Experiência agradável, simples e ágil; acesso universal aos serviços independente de situação socioeconômica |
| II | Integrado e Colaborativo | Atuação coordenada, interoperabilidade de dados, integração de plataformas e serviços entre União, estados e municípios |
| III | Inteligente e Inovador | Tecnologia e dados como ferramentas de otimização; postura proativa e aberta a novas ideias |
| IV | Confiável e Seguro | Confiança pública, interação segura, proteção de direitos, dados e informações |
| V | Transparente, Aberto e Participativo | Participação social, transparência, acompanhamento de políticas públicas e serviços |
| VI | Eficiente e Sustentável | Plataformas compartilhadas, otimização de processos, sustentabilidade ambiental e social |
3. Os 5 Eixos Operacionais do Template PTD
A SGD traduziu os princípios da EFGD em 5 eixos operacionais no template de pactuação (xlsx v4.0), com 44 produtos canônicos. Note que são camadas diferentes: o Decreto define princípios estratégicos, o template define eixos de execução.
Clique em um eixo para ver seus produtos canônicos:
4. Cruzamento: 6 Princípios × 5 Eixos
A tabela abaixo mostra como os eixos operacionais do template cobrem (ou não) os princípios do Decreto. Células marcadas indicam alinhamento direto; células vazias indicam lacunas.
| Eixo ↓ / Princípio → | I. Cidadão | II. Integrado | III. Inteligente | IV. Seguro | V. Transparente | VI. Eficiente |
|---|---|---|---|---|---|---|
| Serviços Digitais | ✓ | |||||
| Unificação de Canais | ✓ | ✓ | ✓ | |||
| Governança de Dados | ✓ | ✓ | ✓ | |||
| Segurança e Privacidade | ✓ | |||||
| Projetos Especiais | ✓ | ✓ | ||||
| Cobertura do princípio | 2 eixos | 2 eixos | 2 eixos | 1 eixo | 1 eixo* | 2 eixos* |
* Os princípios V (Transparente/Participativo) e VI (Eficiente/Sustentável) têm cobertura teórica mas zero entregas pactuadas nos produtos correspondentes (Dados Abertos, Participação Social, Plataformas Compartilhadas). Na prática, esses princípios não se materializam nos PTDs.
2. Metodologia de Elaboração — Guia 10 Passos
A SGD disponibiliza o Kit de Elaboração do PTD, que inclui templates e um guia referencial. O processo segue aproximadamente 10 etapas:
- Contextualização estratégica — alinhamento com a EFGD e planejamento institucional
- Definição de escopo e vigência — período de 2 a 3 anos, tipicamente alinhado à EFGD
- Mapeamento de serviços — levantamento dos serviços públicos do órgão
- Priorização de ações — seleção de quais serviços serão digitalizados/evoluídos
- Planejamento de entregas — definição de produtos, eixos, prazos e responsáveis
- Alinhamento com a EFGD — mapeamento para os 5 eixos e 44 produtos canônicos
- Identificação de riscos — tabela com probabilidade, impacto, tratamento e ações (conforme Orientações de Gestão de Riscos)
- Definição de governança — comitê, ponto focal, gerente de projeto
- Pactuação formal — assinatura entre dirigente do órgão e SGD/MGI
- Monitoramento — acompanhamento periódico com a CGREP/SGD
3. Estrutura dos Documentos
Cada PTD é composto por dois documentos principais:
Contexto do órgão, escopo, vigência, signatários, estratégia de monitoramento e a tabela de gestão de riscos com 5 colunas: risco, probabilidade de ocorrer, impacto, opção de tratamento, ações de tratamento. Template atual: DocDiretivo_Minuta_v2.2
Três tabelas: entregas pactuadas (serviço/ação, produto, eixo, área, data), entregas concluídas e serviços cancelados (com justificativa). Template atual: Anexo_de_Entregas_v4.0
4. Evolução dos Templates e Vocabulários
Os templates de PTD passaram por diversas versões, refletindo a evolução da política de governo digital:
| Era | Período | Eixos | Template Entregas | Características |
|---|---|---|---|---|
| EGD 2020-2022 | 2020-2023 | Diferentes (ex: "Transformação Digital de Serviços Públicos", "Governo como Plataforma", "Identidade Digital do Cidadão") | Sem versão padronizada | Documento único (sem separação Diretivo/Entregas), formato narrativo, seções numeradas. Ex: FIOCRUZ |
| Transição | 2024-2026 | 5 eixos atuais (parcial) | v2.1 | Tabela padronizada introduzida, mas alguns produtos ainda não consolidados. Surge PPSI. Ex: ANCINE, FCP |
| EFGD 2024-2027 | 2025-2027 | 5 eixos canônicos | v2.2 / v4.0 | 44 produtos canônicos, 3 tabelas de entregas, template de riscos padronizado. Maioria dos PTDs vigentes |
Impacto na base de dados: Para garantir coerência, o pipeline de extração inclui:
- 10 produtos legados mapeados aos eixos atuais (ex: "Implementação do PPSI" → Segurança e Privacidade)
- 19 aliases de produto para variações de texto (ex: "Integração ao Login Unico" → "Integração ao Login Único")
- 10 aliases de eixo para nomenclaturas da EGD 2020 (ex: "Governo como Plataforma" → "Unificação de Canais Digitais")
- Detecção automática de formato legado para PDFs no estilo pré-EFGD
- Campos original + normalizado preservados em todas as classificações
5. Apreciação Crítica do Portal Gov.br
Após a coleta e análise dos 177 PDFs de 91 órgãos, algumas observações sobre o ecossistema:
Pontos Positivos
Transparência: todos os PTDs assinados estão publicados abertamente no portal, com links diretos para os PDFs — um bom exemplo de dados governamentais acessíveis.
Padronização crescente: a evolução dos templates (v2.1 → v4.0) mostra esforço real de uniformização do vocabulário e das categorias.
Cobertura ampla: 91 órgãos signatários abrangem praticamente toda a administração federal direta, autarquias e fundações.
Oportunidades de Melhoria
Formato dos PDFs: ~15% dos documentos são PDFs escaneados (imagem), impossibilitando extração automática de texto. Publicar como PDF nativo (text-based) ou em formato aberto (ODF, CSV) melhoraria drasticamente a acessibilidade dos dados.
Estrutura HTML do portal: a lista de órgãos usa formatação visual (<strong> dentro de <td>) sem marcação semântica. Uma API REST ou um JSON/CSV público da lista de órgãos e URLs simplificaria o reuso.
Versionamento de dados: quando um PTD é repactuado, a versão anterior desaparece. Um histórico versionado permitiria análise longitudinal.
Metadados estruturados: os PDFs não contêm metadados padronizados (sigla do órgão, vigência, versão do template). Incluir esses dados como propriedades do PDF facilitaria catálogos automáticos.
Desafios para Análise Automatizada
Variabilidade de formato: mesmo dentro da mesma versão de template, cada órgão formata tabelas de forma ligeiramente diferente — colunas partidas em linhas, headers com quebras, acentuação inconsistente.
Tabelas multi-página: a tabela de riscos frequentemente tem o header na página N e os dados na página N+1, exigindo lógica de merge.
Referências numéricas: a coluna "ações de tratamento" frequentemente contém referências numéricas ("1, 2, 9") a uma lista que aparece DEPOIS da tabela — não é autocontida.
Órgãos agrupados: 7 grupos ministeriais compartilham PDFs entre múltiplos órgãos, nem sempre com separação clara de qual entrega pertence a qual entidade.
Outras Visualizações
Análises estatísticas exploratórias do corpus. Todos os gráficos são calculados dinamicamente a partir dos dados extraídos.
Scatter: Entregas × Riscos por Órgão
Cada ponto é um órgão. Revela perfis: alta ambição/alto risco (canto superior direito), baixa ambição/poucos riscos (canto inferior esquerdo).
Curva de Lorenz — Concentração de Entregas
Mede a desigualdade na distribuição de entregas entre órgãos. A linha diagonal representa igualdade perfeita; quanto mais a curva se afasta, maior a concentração.
Distribuição de Entregas por Órgão
Histograma: quantos órgãos têm 0-50 entregas, 50-100, etc.
Diversidade de Produtos por Órgão
Quantos produtos distintos cada órgão pactuou. Barra ordenada.
Heatmap: Órgão × Eixo
Concentração de entregas por eixo para os 30 maiores órgãos. Células mais escuras = mais entregas.
Perfil de Risco por Grupo Ministerial
Média de riscos e distribuição de probabilidade por grupo.
Bigramas Mais Frequentes nos Riscos
Pares de palavras mais comuns nos textos de risco.
Concentração Temporal: Assinaturas × Entregas
Linhas: % acumulado de assinaturas (data do PDF) e de entregas pactuadas. Barras: volume mensal de entregas. Período: dez/24–dez/26 (vigência EFGD).
Tecnologia e Inovação nos PTDs
Presença de termos relacionados a tecnologias emergentes nos textos livres das entregas. Revela o grau de adoção de IA, automação e plataformas.
Dependência de Fornecedores — Análise de Risco
O risco mais recorrente do corpus. Quantos órgãos o identificam, qual a severidade e como tratam.
Nota Técnica
1. Fonte dos Dados
Os dados foram coletados do portal gov.br/governodigital — Planos de Transformação Digital, mantido pela Secretaria de Governo Digital (SGD) do Ministério da Gestão e da Inovação em Serviços Públicos (MGI).
Os PTDs são instrumentos de planejamento instituídos pelo Decreto nº 12.198, de 24 de setembro de 2024, que estabelece a Estratégia Federal de Governo Digital (EFGD) para 2024-2027, e regulamentados pela Portaria SGD/MGI nº 6.618/2024.
2. Estrutura do Corpus
Cada órgão signatário publica até 2 documentos PDF:
- Documento Diretivo: contém contexto institucional, escopo, cronograma e a tabela de gestão de riscos (5 colunas: risco, probabilidade, impacto, opção de tratamento, ações de tratamento)
- Anexo de Entregas: contém as tabelas de entregas pactuadas, concluídas e canceladas (colunas: serviço/ação, produto, eixo, área responsável, data)
Foram identificados 91 órgãos com PTD vigente, totalizando 177 PDFs (86 diretivos + 91 entregas).
3. Pipeline de Coleta e Extração
- Scraping: BeautifulSoup4 para parsing do HTML do gov.br e extração de URLs dos PDFs
- Download: requests com rate-limiting (1.5s entre requests), verificação de integridade (%PDF magic bytes)
- Extração de tabelas: PyMuPDF
find_tables()para extração estruturada de tabelas, com merge de tabelas multi-página (header na pág N, dados na pág N+1) - Resolução de referências: ações de tratamento numéricas ("1, 2, 9") resolvidas para texto completo via lista "Referencial para ações de tratamento do risco"
- Padronização: matching em 4 camadas (alias determinístico → exato accent-insensitive → fuzzy SequenceMatcher ≥0.85 → UNMATCHED)
4. Taxonomia e Vocabulário
A EFGD define 6 princípios (Decreto 12.198/2024) que a SGD operacionaliza em 5 eixos e 44 produtos canônicos no template PTD. Foram adicionados 10 produtos legados (templates v1.x/v2.x), 19 aliases de produto e 10 aliases de eixo para compatibilidade com PTDs de diferentes períodos.
Escalas de risco: Probabilidade (raro, pouco provável, provável, muito provável, praticamente certo) e Impacto (muito baixo, baixo, médio, alto, muito alto), conforme orientação SGD.
5. Cobertura e Limitações
- Entregas: extração híbrida (find_tables + fallback texto), deduplicação por hash de arquivo. Órgãos que compartilham mesmo PTD ministerial contados uma vez. 12 órgãos com PDFs escaneados não processados
- Riscos: extração multi-página com merge de headers + recuperação de header-as-data + resolução de ações numéricas. Desduplicados por hash. 15 PDFs escaneados não processados
- OCR pendente: a extração via Docling (IBM) com OCR habilitado no Google Colab pode recuperar os órgãos com PDFs escaneados
- Texto original preservado: todas as classificações mantêm o campo original do PDF ao lado da versão normalizada
6. Reprodutibilidade e Ciência Aberta
- Código-fonte: github.com/freirelucas/PTD (licença aberta)
- Notebook Colab: ptd_scraper.ipynb — pipeline completo executável em um clique
- Dados abertos: todos os CSVs e JSONs disponíveis no diretório
output/do repositório - Build do dashboard:
data.jsgerado automaticamente a partir dos CSVs exportados - Versionamento: cada etapa commitada com mensagem descritiva no Git
O pipeline inteiro — do scraping à visualização — pode ser reproduzido executando o notebook Colab. Os dados brutos (PDFs) são baixados diretamente do portal gov.br, garantindo que qualquer pesquisador possa replicar o corpus.
7. Justificativas Metodológicas
7.1 Por que PyMuPDF e não Docling/Tabula/Camelot?
A extração de tabelas de PDFs governamentais é um problema não trivial. Foram consideradas quatro alternativas:
| Ferramenta | Vantagem | Limitação | Decisão |
|---|---|---|---|
| Tabula / Camelot | Amplamente usados | Não lidam com tabelas multi-página; exigem Java (Tabula) | Descartados |
| Docling (IBM) | OCR integrado, detecção de layout por deep learning | ~2 GB de modelos, lento (~1 min/PDF), instável em ambientes sem GPU | Mantido como alternativa para OCR no Colab |
| pdfplumber | API simples | Sem detecção automática de tabelas que cruzam páginas | Descartado |
PyMuPDF find_tables() | Rápido (~1s/PDF), detecta estrutura tabelar nativamente, disponível em v1.23+ | Não faz OCR; interpreta 1ª linha de continuação como header | Adotado com fixes para multi-página e header-as-data |
A escolha de PyMuPDF se justifica pela combinação de velocidade (177 PDFs em ~3 minutos), robustez na detecção de tabelas nativas, e independência de modelos pesados. Os dois bugs identificados — tabelas de continuação multi-página e primeira linha interpretada como header — foram corrigidos com heurísticas específicas (_is_risk_data() e _cols_are_data()).
7.2 Por que matching fuzzy em camadas?
Os PDFs apresentam variabilidade significativa na grafia dos produtos e eixos:
- Truncamentos: "Migração de Serviço para Plataforma" (sem "Unificada")
- Acentuação inconsistente: "Integração ao Login Unico" vs "Único"
- Variações de caixa: "Disponibilização em acesso digital" vs "Acesso Digital"
- Vocabulário legado: "Implementação do PPSI" (template v2.x, ausente no catálogo v4.0)
O matching em 4 camadas resolve cada tipo: aliases determinísticos para variações conhecidas (19 mapeamentos), match exato accent-insensitive para problemas de acentuação, fuzzy (SequenceMatcher ≥0.85) para truncamentos, e classificação UNMATCHED com flag de revisão para termos não reconhecidos. A taxa de acerto é de 90,7% exato e 9,3% fuzzy, sem perdas não identificadas.
7.3 Por que desduplicar órgãos agrupados?
Sete grupos ministeriais (MD, MEC, MF, MMA, MT, MIDR, MDA) publicam um único PTD para múltiplos órgãos — por exemplo, o PTD do MEC serve a CAPES, EBSERH, FNDE, FUNDAJ, IBC, INEP e INES. Replicar as mesmas entregas para cada membro inflaria o corpus artificialmente. A decisão foi:
- Dados desduplicados: cada entrega e risco conta uma vez, atribuído ao órgão-cabeça
- Cobertura contabiliza membros: os membros compartilhados são contados como "cobertos" na estatística de cobertura (79/91)
- Dashboard indica compartilhamento: membros mostram status "compartilhado" e herdam o perfil do cabeça para visualização
Exceção: MF/PGFN — a PGFN tem seção própria no PDF do MF com entregas distintas, portanto conta como órgão independente.
7.4 Por que preservar texto original e normalizado?
Toda classificação preserva dois campos: produto_original (texto exato extraído do PDF) e produto_normalizado (categoria canônica mapeada). Essa decisão permite:
- Auditoria de qualidade: qualquer mapeamento pode ser verificado
- Análise textual: bigramas, termos frequentes, busca por IA/chatbot operam sobre o texto original
- Reprodutibilidade: o pesquisador pode contestar ou refinar a normalização
7.5 Por que a resolução de ações numéricas?
A coluna "Ações de tratamento" dos documentos diretivos frequentemente contém referências numéricas ("1, 2, 9") a uma lista padronizada pela SGD ("Referencial para ações de tratamento do risco") que aparece após a tabela no mesmo PDF. Sem resolução, a coluna seria ininteligível. O pipeline extrai a lista automaticamente e substitui os números pelo texto completo, mantendo o campo original para verificação. A resolução funciona em 35 dos 50 órgãos com dados próprios — os demais usam texto livre ou formatos não-numéricos.
7.6 Limitações conhecidas e não resolvidas
- 12 órgãos com PDFs escaneados (AGU, CODEVASF, FUNAI, FUNDACENTRO, INCRA, ITI, MCOM, MIDR, SG-PR, SUDAM, SUDECO, SUDENE) não foram processados. Requer OCR — viável com Docling no Colab mas não executado na versão atual do corpus.
- Tabelas com formatação irregular: alguns PDFs (especialmente MMULHERES, com 86+ linhas) podem ter perdas parciais em tabelas muito longas que cruzam 3+ páginas.
- Classificação autodeclarada de riscos: probabilidade e impacto são definidos pelo próprio órgão, sem validação externa. Possíveis vieses de sub ou superestimação.
- Snapshot temporal: o corpus reflete os PTDs vigentes na data de coleta (abril/2026). Repactuações subsequentes não são capturadas automaticamente.
8. Citação Sugerida
DIREITO, Denise; SILVA, Lucas; QUEIROZ, Sérgio. Corpus dos Planos de Transformação Digital: extração, padronização e análise dos PTDs de 91 órgãos federais brasileiros. Brasília: Ipea, 2026. (Nota Técnica). Disponível em: https://github.com/freirelucas/PTD.
Fila de Revisão Humana
Casos onde a canonização automática não resolveu (ou resolveu com baixa confiança). Cada linha agrupa um valor original único; expanda para ver os contextos, copiar o snippet de alias ou marcar como bug de extração. Estado por sessão: marcações como "bug" ficam no localStorage do navegador.
| Campo | Original | Sugestão canônica | Score | Método | Casos | Órgãos |
|---|
Como usar
- Sugestão fechada (score ≥ 0.70): o snippet pronto vira a linha do alias. Copie e cole no map correto em
notebook_cells/02_config.py. - Score muito baixo: provavelmente bug de extração (column-shift, header capturado pela primeira linha de dados, OCR fragmentado). Marque É bug e priorize fix em
06b_docling_setup.py/07b_extract_risks.py. - Multi-tratamento: o campo tratamento pode vir multi-valor ("evitar; mitigar"); o snippet usa a string original integral — geralmente os bugs aqui são alias-shaped.
- Ordene por impacto: o top-10 normalmente absorve a maior parte dos ganhos.
Após editar 02_config.py: python build_notebook.py + commit + Colab run. O output/validation_report.json da próxima execução baixa non_canonical_top20 conforme você converter casos. Os 5 buckets de method não crescem — só sua proporção muda.
▸ Sugestões de curadoria opcional
Casos com method = fuzzy_high: já canonizaram com score ≥ 0.85 mas via fuzzy match. Não precisam de ação — listados aqui caso você queira convertê-los em alias determinístico (mais robusto a futuras mudanças). Muitos são bugs de extração travestidos (prefixo de char, truncamento de coluna) e não são alias-shaped.
| Campo | Original | Canônico atribuído | Score | Casos | Órgãos |
|---|