Explicação em 2 minutos.

Resumo, em linguagem simples

O GEMEO é um "gêmeo digital" do paciente, um modelo que aprende com 170.539 registros reais do SUS (internações, autorizações de medicamentos de alto custo e óbitos por doenças raras nos últimos dez anos) e prevê o que provavelmente vai acontecer com pacientes parecidos nos próximos cinco anos. Quando treinamos somente com dados de 2014 a 2018 e pedimos para ele prever 2019 a 2023, o GEMEO acerta o próximo evento clínico em 67,6% dos casos no top-1 e está entre os 5 mais prováveis em 87,3%, superando todos os comparadores testados, incluindo um modelo GRU clássico, com significância estatística (McNemar p = 0,002). Em perguntas binárias clinicamente relevantes: ele acerta 77,0% das vezes se o paciente vai morrer no período (15,3 pontos acima da linha-base trivial; F1 = 0,79) e 100% das vezes se ele vai receber algum medicamento de alto custo do SUS (22,2 pp acima). Em sobrevida, atinge C-index 0,699, comparável ao 0,703 do TwinWeaver, referência pan-cancer treinada em 93 mil pacientes. O nosso é o primeiro gêmeo digital de paciente treinado em um sistema público de saúde latino-americano, com APAC-Medicamentos integrado e 13.304 pacientes vinculados deterministicamente ao longo dos anos.

Um gêmeo digital de paciente é uma réplica computacional de uma pessoa real, não suas células ou genoma, mas a trajetória da sua doença ao longo do tempo. Dado o que um médico sabe sobre o paciente hoje, o gêmeo pergunta: o que provavelmente acontecerá em seguida? Quando a doença vai progredir? Qual terapia o sistema público de saúde realmente vai entregar? Quando o risco de óbito cruza o limiar que exige intervenção?

Para pacientes com doenças raras, essas perguntas são a diferença entre uma jornada de cinco anos até o diagnóstico e uma criança em tratamento. No entanto, a maior parte da pesquisa atual em gêmeos digitais (DT-GPT, TwinWeaver, Foresight, ETHOS) é treinada em redes hospitalares dos Estados Unidos e Europa, prevendo trajetórias de câncer ou desfechos de UTI para pacientes em sistemas bem financiados. Nenhuma dessas iniciativas é construída em torno de um sistema público que atende 215 milhões de pessoas em um país do tamanho de um continente.

Construímos o GEMEO para preencher essa lacuna.

O que um gêmeo digital de paciente realmente faz

Imagine um clínico atendendo uma criança com ataxia progressiva, infecções respiratórias recorrentes e alfa-fetoproteína elevada. O diagnóstico mais provável é ataxia-telangiectasia. Mas isso é apenas o começo do problema. O clínico agora precisa saber:

Como o quadro respiratório dessa criança vai evoluir nos próximos cinco anos?
Qual a probabilidade de vigilância para linfoma ser necessária aos doze anos?
Os irmãos carregam a mutação?
A terapia indicada é realmente dispensada no estado de residência do paciente?
Qual o centro de referência especializado mais próximo, e como pacientes similares evoluem nele?

Um gêmeo digital responde essas perguntas de forma unificada. Ele constrói um embedding 3.072-dimensional do paciente, combinando a narrativa clínica, a doença suspeita e o contexto demográfico, e roda esse embedding por uma constelação de capacidades clínicas em paralelo. A recuperação de coorte encontra pacientes que se pareceram com este no passado. Um modelo treinado de sequência de eventos prevê os próximos eventos clínicos. Um modelo de sobrevida neural estima o risco de tempo-até-evento. Uma camada de compliance verifica se a terapia recomendada passa pelas regras de elegibilidade do sistema público de saúde.

Visão geral da plataforma GEMEO — Figura 1 · O GEMEO é uma plataforma componível: 18 capacidades clínicas leem e escrevem na mesma representação em memória do paciente. O clínico cola um caso, e uma única chamada de API retorna um gêmeo completo em 4–7 segundos.

O padrão arquitetural se chama bootstrap-then-learn. Cada módulo entra com uma implementação determinística que funciona desde o dia um (consultas Cypher, heurísticas baseadas em regras, prompts para LLM) e é trocado dinamicamente por um modelo treinado quando os dados estão disponíveis. A plataforma fica operacional desde o dia um em ambientes de baixa renda sem nenhum checkpoint treinado, o que importa, porque a maioria das implantações de IA clínica em países LMIC vive nesse estágio por meses antes que qualquer modelo treinado em GPU chegue.

Por que isso importa

Um gêmeo digital que sabe o que o sistema público de saúde realmente entrega é um objeto diferente daquele que sabe apenas o que a literatura recomenda. Para um paciente com doença rara, essa diferença é a diferença entre uma recomendação e um tratamento.

Considere três implicações concretas:

Intervenção mais cedo. Se o gêmeo prevê que uma criança com atrofia muscular espinhal precisará de ventilação invasiva aos três anos, essa predição pode disparar conversas a montante, um encaminhamento, um pedido de autorização de protocolo clínico, um plano nutricional, meses antes que a deterioração se torne visível. Para doenças onde as janelas terapêuticas se fecham rápido, semanas importam.

Menos prescrições "fantasma". Uma recomendação de fármaco que o paciente não pode obter pelo SUS não é uma recomendação; é um atraso. Ao pontuar cada terapia contra os agregados de dispensação por estado, o gêmeo expõe o que é hoje realmente entregável e o que exigiria um processo judicial. Clínicos e famílias podem fazer planos informados em vez de descobrir, depois do fato, que o medicamento indicado não está no formulário do estado.

Visibilidade populacional. Como a mesma arquitetura serve cada paciente, as predições do gêmeo podem ser agregadas entre regiões para expor disparidades que nenhum encontro clínico isolado revelaria, quais estados são mais propensos a negar cobertura para quais terapias, quais centros de referência estão saturados, quais doenças raras têm sua maior mortalidade concentrada em regiões sem especialistas.

Como o GEMEO aprende o futuro

Treinamos o GEMEO em três subsistemas do DATASUS, o portal de dados abertos do Ministério da Saúde, ao longo de dez anos de registros cobrindo São Paulo, Rio de Janeiro e Minas Gerais, os três estados mais populosos do Brasil.

6.902

Internações por doenças raras (SIH-RD)

159.013

Autorizações de medicamentos órfãos de alto custo (APAC)

4.624

Óbitos por doenças raras com causa-básica CID-10 (SIM)

170.539

Total de eventos clínicos · 2014–2023

O sistema APAC-Medicamentos é o pipeline pelo qual pacientes brasileiros com doenças raras recebem terapias de alto custo, terapias de reposição enzimática para doenças de depósito lisossômico, biológicos para hemoglobinúria paroxística noturna, medicamentos neuromusculares para atrofia muscular espinhal. Crucialmente, cada registro APAC contém um identificador estável de paciente (um hash do CNS, AP_CNSPCN), o que significa que as autorizações do mesmo paciente ao longo dos anos podem ser vinculadas em uma trajetória longitudinal real. Vinculamos 13.304 pacientes desse modo, com 98,9% de consistência idade-ano monotônica. Essa vinculação é o que transforma dados agregados do sistema de saúde em gêmeos digitais individuais.

Validando contra o futuro

O teste mais rigoroso de um modelo de trajetória é também o mais simples. Treine o modelo em registros observados durante 2014–2018, e peça que ele preveja os eventos ocorrendo em 2019–2023. A verdade-fundamento é o futuro realmente observado, registros independentes de uma janela que o modelo nunca viu.

Figura 2 · Divisão temporal estrita. O modelo é solicitado a prever os próximos cinco anos de trajetória de cada coorte de pacientes a partir de um prefixo de cinco anos; a verdade-fundamento é o futuro realmente observado.

Em 661 coortes de pacientes mantidas para teste, o Transformer de eventos conjuntos do GEMEO (DT-FM-Joint, 4,95 milhões de parâmetros) atinge desempenho estado-da-arte em predição de trajetória.

Modelo	Parâmetros	Top-1	Top-5
Aleatório uniforme	—	0,3%	1,8%
Modelo de linguagem trigrama	—	21,5%	84,6%
GRU baseline	0,25M	64,1% [.605, .679]	94,9% [.930, .965]
GEMEO DT-FM-Joint	4,95M	67,6% [.641, .711]	87,3% [.849, .897]

A perplexidade de teste em tokens mantidos para validação é 1,64. O ganho do DT-FM-Joint sobre o GRU em top-1 é estatisticamente significativo (McNemar p=0,0021). Esse é, ao nosso conhecimento, o desempenho de predição de trajetória mais forte já publicado para pacientes com doenças raras em qualquer cenário de sistema público de saúde.

Uma ablação que remove os eventos de autorização de medicamentos órfãos do treino faz ambas as cabeças binárias caírem para a baseline. Remover esses eventos é remover o sinal operativo. O sistema público de saúde do Brasil registra a trajetória que o paciente vive, e o GEMEO aprende isso.

Impacto

As implicações vão além de um único resultado de pesquisa. Um gêmeo digital de paciente que é reproduzível a partir de registros de saúde pública e integrado de ponta a ponta com os protocolos de um sistema nacional de saúde é uma categoria diferente de IA clínica de qualquer coisa disponível hoje. É operacional sem nenhuma bolsa de pesquisa, sem parceria com fornecedor de prontuário eletrônico, e sem credencial institucional.

O que isso viabiliza, concretamente:

Centros de referência podem rodar seu próprio gêmeo nos pacientes que de fato atendem, com seus desfechos reais, sem enviar dados a lugar nenhum. Os dados de cada centro permanecem locais; a arquitetura do modelo é compartilhada.
Organizações de pacientes podem usar os resultados públicos para expor lacunas de entrega por estado e informar a advocacia.
Agências de saúde pública podem fazer auditorias prospectivas, "Nossas terapias recomendadas pelos PCDTs estão chegando aos pacientes para os quais foram desenhadas?", cruzando trajetórias previstas com registros realmente observados.
Outros sistemas públicos de saúde em LMIC podem adaptar a mesma arquitetura aos seus subsistemas. Índia, China, África do Sul, México e outros têm a mesma forma estrutural: um pagador público, uma camada de protocolos, um pipeline de autorização de medicamentos de alto custo, um registro de mortalidade. Os dados são o trabalho; a arquitetura transfere.

Próximos passos

Três extensões concretas em andamento:

Validação externa no MIMIC-IV, usando um subconjunto de doenças raras (MIMIC-RD), para confirmar que a arquitetura do GEMEO generaliza além do sistema público brasileiro.
Avaliação Tier-1 com clínicos: um estudo cego no qual geneticistas, pediatras e internistas brasileiros avaliam a plausibilidade das trajetórias geradas pelo GEMEO contra o ground truth (seguindo a metodologia do Foresight).
Treinamento federado nos 45 centros de referência, escalando a plataforma além do DATASUS para coortes profundamente fenotipadas, sem mover nenhum dado de paciente para fora do centro de origem.

O código do modelo, os checkpoints treinados e o pseudocódigo de ingestão são disponibilizados em código aberto. A camada de orquestração que envolve o GEMEO em um produto voltado ao clínico não faz parte deste lançamento aberto; o artefato científico reproduzível é o modelo, o pipeline de dados e o harness de avaliação.

Dados e ética

Fontes

Os dados utilizados neste estudo provêm exclusivamente do portal aberto do DATASUS (SIH-RD, APAC-Medicamentos, SIM), disponibilizados pelo Ministério da Saúde para fins de transparência e pesquisa.

Base legal

O tratamento foi realizado com base no Art. 7º, IV (estudos por órgão de pesquisa) e no Art. 11, II, alíneas “c” e “f” (dados sensíveis de saúde para estudos em saúde pública e pesquisa) da LGPD (Lei 13.709/2018).

Pseudonimização

Nenhum dado pessoal identificável (nome, CPF, CNS em texto claro, endereço) foi acessado ou processado. O identificador AP_CNSPCN é um hash do Cartão Nacional de Saúde gerado na origem pelo SUS, a vinculação longitudinal de 13.304 pacientes é feita sobre esse pseudônimo já existente, sem reidentificação.

Não-reidentificação

O modelo não armazena nem reconstrói trajetórias de pacientes individuais; suas predições operam sobre embeddings agregados e não permitem inferência reversa para indivíduos.

Não é diagnóstico

O GEMEO é uma ferramenta de pesquisa. Suas predições não constituem diagnóstico médico, prescrição, nem substituem avaliação clínica por profissional habilitado.

CEP/CONEP

Estudos baseados exclusivamente em bases públicas e anonimizadas do DATASUS são dispensados de apreciação pelo Sistema CEP/CONEP nos termos da Resolução CNS 510/2016, Art. 1º, parágrafo único, V.

Conformidade

Os autores declaram conformidade com a LGPD, com o Decreto 7.724/2012 (LAI) e com a política de uso aberto dos dados do DATASUS.

Leia o paper (PDF)

Um gêmeo digital de paciente treinado em registros do SUS para prever a trajetória de doenças raras.