PTD Dashboard — Planos de Transformação Digital

Visão Geral

O corpus: Extração automatizada dos Planos de Transformação Digital (PTDs) de 91 órgãos da administração pública federal, conforme publicados no portal gov.br. De cada PTD foram extraídos o Anexo de Entregas (ações pactuadas com a SGD/MGI, classificadas por produto e eixo da EFGD 2024-2027) e o Documento Diretivo (tabela de gestão de riscos com probabilidade, impacto e ações de tratamento). O corpus totaliza entregas e riscos, cobrindo dos órgãos signatários (órgãos que compartilham um mesmo PTD ministerial são contados uma única vez).

Cronologia de Adesão dos Órgãos (proxy: 1ª entrega pactuada conhecida)

Cada órgão entra uma única vez, no mês da sua primeira entrega com data_pactuada parseável. Propagação por grupo ministerial: como o dedup MD5 atribui o PDF compartilhado a um único owner alfabético, a 1ª data desse owner é propagada para todos os membros do grupo (MEC/MF/MD/MMA/MT/MIDR/MDA). Não é a data de assinatura do PTD (não scraped do portal gov.br nem extraída do texto do PDF). Datas pré-decreto (antes de set/2024) vêm de entregas legadas retroativamente incluídas: na maioria "PPSI Ciclo 1", programa de privacidade que antecede o PTD. ~57 de 91 órgãos aparecem aqui; os ~34 ausentes não têm nenhuma data_pactuada parseável nos PDFs (coluna vazia ou formato não reconhecido — limitação de extração).

Distribuição Mensal de Entregas Pactuadas (carga por mês)

Cada barra é o número de entregas com data_pactuada naquele mês — cada entrega conta uma vez, independente de órgão. Reflete a carga prometida ao longo do tempo.

Entregas por Eixo Estratégico

Cobertura de Extração

Órgãos sem Dados — Motivos

Top 10 Produtos

Explorar o Corpus

Cada card leva a uma análise interativa. Os números refletem o corpus processado.

Entregas Pactuadas

Ações e serviços digitais pactuados entre cada órgão e a SGD/MGI, classificados por produto e eixo da EFGD 2024-2027. Explore por múltiplas dimensões: os gráficos e a tabela respondem aos filtros simultaneamente.

Entregas por Eixo

Entregas por Produto

Gestão de Riscos

Riscos identificados pelos órgãos em seus Documentos Diretivos, classificados por probabilidade (raro a praticamente certo), impacto (muito baixo a muito alto) e opção de tratamento (mitigar, eliminar, transferir, aceitar). A matriz abaixo mostra a concentração de riscos — clique em uma célula para ver os riscos daquela combinação.

Matriz de Riscos — Probabilidade × Impacto (clique para filtrar)

Distribuição de Tratamento

Riscos Mais Frequentes

Ações de Mitigação — Referencial SGD (clique para expandir)

Ações padronizadas pela SGD. Cada risco referencia um subconjunto (ex: "1, 2, 9"). A barra indica frequência relativa.

Órgãos Signatários

Cada card representa um dos 91 órgãos signatários de PTD. A borda verde indica dados completos, amarela parcial e vermelha sem dados extraídos. Clique em um órgão para ver seus detalhes, entregas e riscos.

Similaridade entre Órgãos

Mapa de similaridade baseado no coeficiente de Jaccard dos perfis de produtos pactuados. Cada célula indica o grau de sobreposição entre os catálogos de entregas de dois órgãos (0% = nenhum produto em comum, 100% = catálogos idênticos). Órgãos de um mesmo grupo ministerial (ex: MEC, MD) tendem a ter similaridade máxima por compartilharem o mesmo PTD.

Similaridade por Perfil de Produtos (Jaccard)

Pares Mais Similares

Órgãos Mais Distintos

Comparação Direta

Insights

Achados analíticos derivados do corpus de 91 órgãos. Os números são calculados dinamicamente a partir dos dados extraídos.

O que é o Plano de Transformação Digital

1. Marco Legal e Institucional

O Plano de Transformação Digital (PTD) é um instrumento de planejamento e pactuação instituído pelo Decreto nº 12.198, de 24 de setembro de 2024, que estabelece a Estratégia Federal de Governo Digital (EFGD) 2024-2027. A regulamentação operacional é dada pela Portaria SGD/MGI nº 6.618/2024.

Referências: EFGD 2024-2027 · Portal PTDs

2. Os 6 Princípios da EFGD (Decreto 12.198/2024)

A EFGD é estruturada em 6 princípios fundamentais, com 16 objetivos estratégicos e 100 iniciativas:

#	Princípio	Descrição (Art. 1º)
I	Centrado no Cidadão e Inclusivo	Experiência agradável, simples e ágil; acesso universal aos serviços independente de situação socioeconômica
II	Integrado e Colaborativo	Atuação coordenada, interoperabilidade de dados, integração de plataformas e serviços entre União, estados e municípios
III	Inteligente e Inovador	Tecnologia e dados como ferramentas de otimização; postura proativa e aberta a novas ideias
IV	Confiável e Seguro	Confiança pública, interação segura, proteção de direitos, dados e informações
V	Transparente, Aberto e Participativo	Participação social, transparência, acompanhamento de políticas públicas e serviços
VI	Eficiente e Sustentável	Plataformas compartilhadas, otimização de processos, sustentabilidade ambiental e social

3. Os 5 Eixos Operacionais do Template PTD

A SGD traduziu os princípios da EFGD em 5 eixos operacionais no template de pactuação (xlsx v4.0), com 44 produtos canônicos. Note que são camadas diferentes: o Decreto define princípios estratégicos, o template define eixos de execução.

Clique em um eixo para ver seus produtos canônicos:

4. Cruzamento: 6 Princípios × 5 Eixos

A tabela abaixo mostra como os eixos operacionais do template cobrem (ou não) os princípios do Decreto. Células marcadas indicam alinhamento direto; células vazias indicam lacunas.

Eixo ↓ / Princípio →	I. Cidadão	II. Integrado	III. Inteligente	IV. Seguro	V. Transparente	VI. Eficiente
Serviços Digitais	✓
Unificação de Canais	✓	✓				✓
Governança de Dados		✓	✓		✓
Segurança e Privacidade				✓
Projetos Especiais			✓			✓
Cobertura do princípio	2 eixos	2 eixos	2 eixos	1 eixo	1 eixo*	2 eixos*

* Os princípios V (Transparente/Participativo) e VI (Eficiente/Sustentável) têm cobertura teórica mas zero entregas pactuadas nos produtos correspondentes (Dados Abertos, Participação Social, Plataformas Compartilhadas). Na prática, esses princípios não se materializam nos PTDs.

2. Metodologia de Elaboração — Guia 10 Passos

A SGD disponibiliza o Kit de Elaboração do PTD, que inclui templates e um guia referencial. O processo segue aproximadamente 10 etapas:

Contextualização estratégica — alinhamento com a EFGD e planejamento institucional
Definição de escopo e vigência — período de 2 a 3 anos, tipicamente alinhado à EFGD
Mapeamento de serviços — levantamento dos serviços públicos do órgão
Priorização de ações — seleção de quais serviços serão digitalizados/evoluídos
Planejamento de entregas — definição de produtos, eixos, prazos e responsáveis
Alinhamento com a EFGD — mapeamento para os 5 eixos e 44 produtos canônicos
Identificação de riscos — tabela com probabilidade, impacto, tratamento e ações (conforme Orientações de Gestão de Riscos)
Definição de governança — comitê, ponto focal, gerente de projeto
Pactuação formal — assinatura entre dirigente do órgão e SGD/MGI
Monitoramento — acompanhamento periódico com a CGREP/SGD

3. Estrutura dos Documentos

Cada PTD é composto por dois documentos principais:

Documento Diretivo

Contexto do órgão, escopo, vigência, signatários, estratégia de monitoramento e a tabela de gestão de riscos com 5 colunas: risco, probabilidade de ocorrer, impacto, opção de tratamento, ações de tratamento. Template atual: DocDiretivo_Minuta_v2.2

Anexo de Entregas

Três tabelas: entregas pactuadas (serviço/ação, produto, eixo, área, data), entregas concluídas e serviços cancelados (com justificativa). Template atual: Anexo_de_Entregas_v4.0

4. Evolução dos Templates e Vocabulários

Os templates de PTD passaram por diversas versões, refletindo a evolução da política de governo digital:

Era	Período	Eixos	Template Entregas	Características
EGD 2020-2022	2020-2023	Diferentes (ex: "Transformação Digital de Serviços Públicos", "Governo como Plataforma", "Identidade Digital do Cidadão")	Sem versão padronizada	Documento único (sem separação Diretivo/Entregas), formato narrativo, seções numeradas. Ex: FIOCRUZ
Transição	2024-2026	5 eixos atuais (parcial)	v2.1	Tabela padronizada introduzida, mas alguns produtos ainda não consolidados. Surge PPSI. Ex: ANCINE, FCP
EFGD 2024-2027	2025-2027	5 eixos canônicos	v2.2 / v4.0	44 produtos canônicos, 3 tabelas de entregas, template de riscos padronizado. Maioria dos PTDs vigentes

Impacto na base de dados: Para garantir coerência, o pipeline de extração inclui:

10 produtos legados mapeados aos eixos atuais (ex: "Implementação do PPSI" → Segurança e Privacidade)
19 aliases de produto para variações de texto (ex: "Integração ao Login Unico" → "Integração ao Login Único")
10 aliases de eixo para nomenclaturas da EGD 2020 (ex: "Governo como Plataforma" → "Unificação de Canais Digitais")
Detecção automática de formato legado para PDFs no estilo pré-EFGD
Campos original + normalizado preservados em todas as classificações

5. Apreciação Crítica do Portal Gov.br

Após a coleta e análise dos 177 PDFs de 91 órgãos, algumas observações sobre o ecossistema:

Pontos Positivos

Transparência: todos os PTDs assinados estão publicados abertamente no portal, com links diretos para os PDFs — um bom exemplo de dados governamentais acessíveis.
Padronização crescente: a evolução dos templates (v2.1 → v4.0) mostra esforço real de uniformização do vocabulário e das categorias.
Cobertura ampla: 91 órgãos signatários abrangem praticamente toda a administração federal direta, autarquias e fundações.

Oportunidades de Melhoria

Formato dos PDFs: ~15% dos documentos são PDFs escaneados (imagem), impossibilitando extração automática de texto. Publicar como PDF nativo (text-based) ou em formato aberto (ODF, CSV) melhoraria drasticamente a acessibilidade dos dados.
Estrutura HTML do portal: a lista de órgãos usa formatação visual (<strong> dentro de <td>) sem marcação semântica. Uma API REST ou um JSON/CSV público da lista de órgãos e URLs simplificaria o reuso.
Versionamento de dados: quando um PTD é repactuado, a versão anterior desaparece. Um histórico versionado permitiria análise longitudinal.
Metadados estruturados: os PDFs não contêm metadados padronizados (sigla do órgão, vigência, versão do template). Incluir esses dados como propriedades do PDF facilitaria catálogos automáticos.

Desafios para Análise Automatizada

Variabilidade de formato: mesmo dentro da mesma versão de template, cada órgão formata tabelas de forma ligeiramente diferente — colunas partidas em linhas, headers com quebras, acentuação inconsistente.
Tabelas multi-página: a tabela de riscos frequentemente tem o header na página N e os dados na página N+1, exigindo lógica de merge.
Referências numéricas: a coluna "ações de tratamento" frequentemente contém referências numéricas ("1, 2, 9") a uma lista que aparece DEPOIS da tabela — não é autocontida.
Órgãos agrupados: 7 grupos ministeriais compartilham PDFs entre múltiplos órgãos, nem sempre com separação clara de qual entrega pertence a qual entidade.

Outras Visualizações

Análises estatísticas exploratórias do corpus. Todos os gráficos são calculados dinamicamente a partir dos dados extraídos.

Scatter: Entregas × Riscos por Órgão

Cada ponto é um órgão. Revela perfis: alta ambição/alto risco (canto superior direito), baixa ambição/poucos riscos (canto inferior esquerdo).

Curva de Lorenz — Concentração de Entregas

Mede a desigualdade na distribuição de entregas entre órgãos. A linha diagonal representa igualdade perfeita; quanto mais a curva se afasta, maior a concentração.

Distribuição de Entregas por Órgão

Histograma: quantos órgãos têm 0-50 entregas, 50-100, etc.

Diversidade de Produtos por Órgão

Quantos produtos distintos cada órgão pactuou. Barra ordenada.

Heatmap: Órgão × Eixo

Concentração de entregas por eixo para os 30 maiores órgãos. Células mais escuras = mais entregas.

Perfil de Risco por Grupo Ministerial

Média de riscos e distribuição de probabilidade por grupo.

Bigramas Mais Frequentes nos Riscos

Pares de palavras mais comuns nos textos de risco.

Concentração Temporal: Assinaturas × Entregas

Linhas: % acumulado de assinaturas (data do PDF) e de entregas pactuadas. Barras: volume mensal de entregas. Período: dez/24–dez/26 (vigência EFGD).

Tecnologia e Inovação nos PTDs

Presença de termos relacionados a tecnologias emergentes nos textos livres das entregas. Revela o grau de adoção de IA, automação e plataformas.

Dependência de Fornecedores — Análise de Risco

O risco mais recorrente do corpus. Quantos órgãos o identificam, qual a severidade e como tratam.

Nota Técnica

Nota técnica completa disponível em NOTA_TECNICA.md (versionável, citável, paper-style). Cobre frame amostral, operacionalização das variáveis, pipeline em 13 etapas, canonização em camadas, limitações declaradas (6 seções) e reprodutibilidade. Esta tab mantém o resumo abaixo.

1. Fonte dos Dados

Os dados foram coletados do portal gov.br/governodigital — Planos de Transformação Digital, mantido pela Secretaria de Governo Digital (SGD) do Ministério da Gestão e da Inovação em Serviços Públicos (MGI).

Os PTDs são instrumentos de planejamento instituídos pelo Decreto nº 12.198, de 24 de setembro de 2024, que estabelece a Estratégia Federal de Governo Digital (EFGD) para 2024-2027, e regulamentados pela Portaria SGD/MGI nº 6.618/2024.

2. Estrutura do Corpus

Cada órgão signatário publica até 2 documentos PDF:

Documento Diretivo: contém contexto institucional, escopo, cronograma e a tabela de gestão de riscos (5 colunas: risco, probabilidade, impacto, opção de tratamento, ações de tratamento)
Anexo de Entregas: contém as tabelas de entregas pactuadas, concluídas e canceladas (colunas: serviço/ação, produto, eixo, área responsável, data)

Foram identificados 91 órgãos com PTD vigente, totalizando 177 PDFs (86 diretivos + 91 entregas).

3. Pipeline de Coleta e Extração

Scraping: BeautifulSoup4 para parsing do HTML do gov.br e extração de URLs dos PDFs
Download: requests com rate-limiting (1.5s entre requests), verificação de integridade (%PDF magic bytes)
Extração de tabelas: PyMuPDF find_tables() para extração estruturada de tabelas, com merge de tabelas multi-página (header na pág N, dados na pág N+1)
Resolução de referências: ações de tratamento numéricas ("1, 2, 9") resolvidas para texto completo via lista "Referencial para ações de tratamento do risco"
Padronização: matching em 4 camadas (alias determinístico → exato accent-insensitive → fuzzy SequenceMatcher ≥0.85 → UNMATCHED)

4. Taxonomia e Vocabulário

A EFGD define 6 princípios (Decreto 12.198/2024) que a SGD operacionaliza em 5 eixos e 44 produtos canônicos no template PTD. Foram adicionados 10 produtos legados (templates v1.x/v2.x), 19 aliases de produto e 10 aliases de eixo para compatibilidade com PTDs de diferentes períodos.

Escalas de risco: Probabilidade (raro, pouco provável, provável, muito provável, praticamente certo) e Impacto (muito baixo, baixo, médio, alto, muito alto), conforme orientação SGD.

5. Cobertura e Limitações

Entregas: extração híbrida (find_tables + fallback texto), deduplicação por hash de arquivo. Órgãos que compartilham mesmo PTD ministerial contados uma vez. 12 órgãos com PDFs escaneados não processados
Riscos: extração multi-página com merge de headers + recuperação de header-as-data + resolução de ações numéricas. Desduplicados por hash. 15 PDFs escaneados não processados
OCR pendente: a extração via Docling (IBM) com OCR habilitado no Google Colab pode recuperar os órgãos com PDFs escaneados
Texto original preservado: todas as classificações mantêm o campo original do PDF ao lado da versão normalizada

6. Reprodutibilidade e Ciência Aberta

Código-fonte: github.com/freirelucas/PTD (licença aberta)
Notebook Colab: ptd_scraper.ipynb — pipeline completo executável em um clique
Dados abertos: todos os CSVs e JSONs disponíveis no diretório output/ do repositório
Build do dashboard: data.js gerado automaticamente a partir dos CSVs exportados
Versionamento: cada etapa commitada com mensagem descritiva no Git

O pipeline inteiro — do scraping à visualização — pode ser reproduzido executando o notebook Colab. Os dados brutos (PDFs) são baixados diretamente do portal gov.br, garantindo que qualquer pesquisador possa replicar o corpus.

7. Justificativas Metodológicas

7.1 Por que PyMuPDF e não Docling/Tabula/Camelot?

A extração de tabelas de PDFs governamentais é um problema não trivial. Foram consideradas quatro alternativas:

Ferramenta	Vantagem	Limitação	Decisão
Tabula / Camelot	Amplamente usados	Não lidam com tabelas multi-página; exigem Java (Tabula)	Descartados
Docling (IBM)	OCR integrado, detecção de layout por deep learning	~2 GB de modelos, lento (~1 min/PDF), instável em ambientes sem GPU	Mantido como alternativa para OCR no Colab
pdfplumber	API simples	Sem detecção automática de tabelas que cruzam páginas	Descartado
PyMuPDF `find_tables()`	Rápido (~1s/PDF), detecta estrutura tabelar nativamente, disponível em v1.23+	Não faz OCR; interpreta 1ª linha de continuação como header	Adotado com fixes para multi-página e header-as-data

A escolha de PyMuPDF se justifica pela combinação de velocidade (177 PDFs em ~3 minutos), robustez na detecção de tabelas nativas, e independência de modelos pesados. Os dois bugs identificados — tabelas de continuação multi-página e primeira linha interpretada como header — foram corrigidos com heurísticas específicas (_is_risk_data() e _cols_are_data()).

7.2 Por que matching fuzzy em camadas?

Os PDFs apresentam variabilidade significativa na grafia dos produtos e eixos:

Truncamentos: "Migração de Serviço para Plataforma" (sem "Unificada")
Acentuação inconsistente: "Integração ao Login Unico" vs "Único"
Variações de caixa: "Disponibilização em acesso digital" vs "Acesso Digital"
Vocabulário legado: "Implementação do PPSI" (template v2.x, ausente no catálogo v4.0)

O matching em 4 camadas resolve cada tipo: aliases determinísticos para variações conhecidas (19 mapeamentos), match exato accent-insensitive para problemas de acentuação, fuzzy (SequenceMatcher ≥0.85) para truncamentos, e classificação UNMATCHED com flag de revisão para termos não reconhecidos. A taxa de acerto é de 90,7% exato e 9,3% fuzzy, sem perdas não identificadas.

7.3 Por que desduplicar órgãos agrupados?

Sete grupos ministeriais (MD, MEC, MF, MMA, MT, MIDR, MDA) publicam um único PTD para múltiplos órgãos — por exemplo, o PTD do MEC serve a CAPES, EBSERH, FNDE, FUNDAJ, IBC, INEP e INES. Replicar as mesmas entregas para cada membro inflaria o corpus artificialmente. A decisão foi:

Dados desduplicados: cada entrega e risco conta uma vez, atribuído ao órgão-cabeça
Cobertura contabiliza membros: os membros compartilhados são contados como "cobertos" na estatística de cobertura (79/91)
Dashboard indica compartilhamento: membros mostram status "compartilhado" e herdam o perfil do cabeça para visualização

Exceção: MF/PGFN — a PGFN tem seção própria no PDF do MF com entregas distintas, portanto conta como órgão independente.

7.4 Por que preservar texto original e normalizado?

Toda classificação preserva dois campos: produto_original (texto exato extraído do PDF) e produto_normalizado (categoria canônica mapeada). Essa decisão permite:

Auditoria de qualidade: qualquer mapeamento pode ser verificado
Análise textual: bigramas, termos frequentes, busca por IA/chatbot operam sobre o texto original
Reprodutibilidade: o pesquisador pode contestar ou refinar a normalização

7.5 Por que a resolução de ações numéricas?

A coluna "Ações de tratamento" dos documentos diretivos frequentemente contém referências numéricas ("1, 2, 9") a uma lista padronizada pela SGD ("Referencial para ações de tratamento do risco") que aparece após a tabela no mesmo PDF. Sem resolução, a coluna seria ininteligível. O pipeline extrai a lista automaticamente e substitui os números pelo texto completo, mantendo o campo original para verificação. A resolução funciona em 35 dos 50 órgãos com dados próprios — os demais usam texto livre ou formatos não-numéricos.

7.6 Limitações conhecidas e não resolvidas

12 órgãos com PDFs escaneados (AGU, CODEVASF, FUNAI, FUNDACENTRO, INCRA, ITI, MCOM, MIDR, SG-PR, SUDAM, SUDECO, SUDENE) não foram processados. Requer OCR — viável com Docling no Colab mas não executado na versão atual do corpus.
Tabelas com formatação irregular: alguns PDFs (especialmente MMULHERES, com 86+ linhas) podem ter perdas parciais em tabelas muito longas que cruzam 3+ páginas.
Classificação autodeclarada de riscos: probabilidade e impacto são definidos pelo próprio órgão, sem validação externa. Possíveis vieses de sub ou superestimação.
Snapshot temporal: o corpus reflete os PTDs vigentes na data de coleta (abril/2026). Repactuações subsequentes não são capturadas automaticamente.

8. Citação Sugerida

DIREITO, Denise; SILVA, Lucas; QUEIROZ, Sérgio. Corpus dos Planos de Transformação Digital: extração, padronização e análise dos PTDs de 91 órgãos federais brasileiros. Brasília: Ipea, 2026. (Nota Técnica). Disponível em: https://github.com/freirelucas/PTD.

Fila de Revisão Humana

Casos onde a canonização automática não resolveu (ou resolveu com baixa confiança). Cada linha agrupa um valor original único; expanda para ver os contextos, copiar o snippet de alias ou marcar como bug de extração. Estado por sessão: marcações como "bug" ficam no localStorage do navegador.

Campo

Método

mostrar marcados como bug

☆

Nada para revisar com esses filtros.

Campo	Original	Sugestão canônica	Score	Método	Casos	Órgãos

Como usar

Sugestão fechada (score ≥ 0.70): o snippet pronto vira a linha do alias. Copie e cole no map correto em notebook_cells/02_config.py.
Score muito baixo: provavelmente bug de extração (column-shift, header capturado pela primeira linha de dados, OCR fragmentado). Marque É bug e priorize fix em 06b_docling_setup.py / 07b_extract_risks.py.
Multi-tratamento: o campo tratamento pode vir multi-valor ("evitar; mitigar"); o snippet usa a string original integral — geralmente os bugs aqui são alias-shaped.
Ordene por impacto: o top-10 normalmente absorve a maior parte dos ganhos.

Após editar 02_config.py: python build_notebook.py + commit + Colab run. O output/validation_report.json da próxima execução baixa non_canonical_top20 conforme você converter casos. Os 5 buckets de method não crescem — só sua proporção muda.

▸ Sugestões de curadoria opcional

Casos com method = fuzzy_high: já canonizaram com score ≥ 0.85 mas via fuzzy match. Não precisam de ação — listados aqui caso você queira convertê-los em alias determinístico (mais robusto a futuras mudanças). Muitos são bugs de extração travestidos (prefixo de char, truncamento de coluna) e não são alias-shaped.

☆

Sem candidatos de curadoria.

Campo	Original	Canônico atribuído	Score	Casos	Órgãos