Um modelo de mundo de paciente é um modelo generativo da dinâmica do paciente, um simulador aprendido que pode rolar uma trajetória sob ações escolhidas e, portanto, raciocinar sobre contrafactuais. Para doenças raras, onde a odisseia diagnóstica mediana ultrapassa seis anos e a pergunta clínica de alto valor é "se eu mudar o tratamento, o que muda em dez anos?", um modelo de mundo é o objeto certo, e até agora, ninguém tinha construído um.
Modelos de mundo transformaram vídeo (Sora), ambientes interativos (Genie) e agentes corpóreos (Dreamer V3), construídos sobre a família de backbones que culmina em Diffusion Forcing. Na medicina, modelos de mundo clínicos gerais começaram a aparecer, EHRWorld, CLARITY, mas nenhum mira doenças raras, se ancora em um grafo de conhecimento biomédico ou se condiciona no genoma, o próprio sinal que, em doenças raras, é a causa raiz.
Introduzimos o GEMEO: o primeiro modelo de mundo de paciente para doenças raras.
Os três pilares
O GEMEO é um pipeline Propor → Simular → Verificar, instanciado contra qualquer prontuário expressável no Medical Event Data Standard (MEDS), o fluxo de tuplas (subject_id, time, code, value). O modelo principal, gemeo-sus, é treinado no SUS brasileiro.
Pilar A · Propor: primeira ocorrência ancorada no genoma e no grafo
Dado o estado manifesto do paciente, o Pilar A propõe os eventos clínicos que ele ainda não teve, os candidatos de primeira ocorrência que uma baseline de repetição não consegue fabricar. Ele se apoia em duas fontes ancoradas.
Grafo de conhecimento. Random-Walk-with-Restart (RWR) sobre um grafo biomédico heterogêneo derivado do PrimeKG, semeado nas doenças manifestas do paciente, fenótipos e genes portadores de variante. A distribuição estacionária ranqueia genes, fenótipos e doenças não vistos por proximidade de rede; nós já manifestos são excluídos e cada candidato carrega seu caminho de evidência mais curto de volta à semente.
Genoma. As variantes do paciente são pontuadas por um ensemble de modelos genômicos de fundação, cada um em seu domínio: AlphaMissense para missense, Evo 2 (delta de log-verossimilhança zero-shot) para codificante e não-codificante e AlphaGenome para efeitos de splice e regulatórios. A patogenicidade da variante repondera o vetor de restart do RWR, assim o genoma direciona a proposta para a lesão molecular real do paciente.
Pilar B · Simular: um modelo de mundo Causal Diffusion Forcing com objetivo recurrence-aware
O núcleo dinâmico é um transformer Causal Diffusion Forcing: cada token recebe um nível de ruído independente σ ∼ 𝒰(0,1), unificando predição autorregressiva, difusão em sequência completa e rollout de horizonte variável em um único modelo. O backbone é um transformer SwiGLU + RMSNorm + RoPE com 20M parâmetros e cross-attention com porta sobre um ego-subgrafo do PrimeKG (porta tanh(α), α inicializado em zero, na linha do Flamingo e do Genie).
A escolha crítica de design é o objetivo de treino. Nos dados de medicamentos órfãos do SUS, apenas 17,8% dos eventos são primeiras ocorrências; os outros 82,2% são repetições (um paciente em medicamento órfão mensal recebe o mesmo código de dispensação todo mês). Um loss next-event ingênuo, portanto, recompensa copiar. Seguindo o princípio recurrence-aware do RAVEN, ponderamos a cross-entropy de cada token por w = max(λ^count, w_min), com λ = 0,25, primeiras ocorrências carregam peso total, repetições decaem para zero. Essa é a alavanca decisiva.
Pilar C · Verificar: um painel agêntico ancorado em evidência
Candidatos do Pilar A, pontuados pelo Pilar B, são adjudicados por um painel multi-agente caso-adaptativo na linhagem do CAMP, DAVP, ClinicalAgents, LA-MARRVEL e DeepRare. Agentes especialistas (genética, fenótipo, rede/RWR, genômico, modelo de mundo) emitem um voto de três valores (KEEP / REFUSE / NEUTRAL) derivado de arestas reais do grafo, proximidade no RWR, patogenicidade da variante ou hazard do modelo, nunca de texto livre. Os votos são agregados por log-odds ponderado em uma decisão calibrada; cada veredicto carrega seu caminho de evidência.
Onde o GEMEO está na rubrica de modelos de mundo
Posicionamos o GEMEO precisamente na rubrica de capacidade de modelos de mundo clínicos de Qazi et al. (NeurIPS 2025), que gradua modelos de mundo do Nível 1 (predição temporal condicionada em estado) ao Nível 4 (planejamento/controle).
O substrato de dados
42.265 pacientes com ≥4 eventos e ≥2 códigos distintos, extraídos de subsistemas do SUS vinculados pelo hash do CNS, ambulatorial de alta complexidade APAC-SIA, internações SIH, mortalidade SIM, exportados para MEDS v0.4.1 com namespaces de código canônicos (ICD10//, SIGTAP//, APAC//, ORPHA, MEDS_*). De-identificação: idades em faixas, residência em granularidade UF, CNS em hash, k-anonimato ≥ 5. Divisão a nível de paciente 70/15/15 treino/val/teste.
Resultado 1, o modelo de mundo prevê eventos genuinamente novos
A métrica decisiva é a predição de primeira ocorrência: pontuar apenas posições em que o token verdadeiro é uma primeira ocorrência (repetições excluídas). O GEMEO recurrence-aware atinge Top-1 de 53,7% (IC 95% 51,4–56,1) contra 38,2% da linha-base de frequência (+15,5 pp, IC sem sobreposição). Uma ablação sem o objetivo recurrence-aware cai abaixo da linha-base, confirmando que é o objetivo, e não autocorrelação, que produz o resultado.
| Modelo | Top-1 (novo evento) | vs frequência (38,2%) |
|---|---|---|
| Linha-base de frequência | 38,2% | referência |
| GEMEO (loss plano, ablação) | 14,6% [13,5, 15,8] | abaixo da linha-base |
| GEMEO (recurrence-aware) | 53,7% [51,4, 56,1] | +15,5 pp |
Uma grade de ablação (n = 3.405 posições de primeira ocorrência, linha-base de frequência 37,5%) isola o que dirige a predição de novo evento: remover o loss recurrence-aware colapsa a primeira ocorrência para 8–15%, abaixo da linha-base de frequência (o modelo reverte para copiar repetições); adicioná-lo eleva o desempenho para 55–59%, uma oscilação superior a 40 pontos percentuais. Features posicionais são aproximadamente neutras em novidade.
| Recurrence-aware | Features posicionais | Top-1 (novo evento) |
|---|---|---|
| ✓ | ✓ | 55,1% [53,5, 56,7] |
| ✓ | ✗ | 58,8% [57,1, 60,4] |
| ✗ | ✓ | 14,6% [13,5, 15,8] |
| ✗ | ✗ | 7,6% [6,8, 8,5] |
Resultado 2, o modelo de mundo vence cada tarefa de longo contexto
No RareBench-BR Trajectory, sob sondas lineares estilo EHRSHOT em representação congelada com linhas-base baseadas em contagem mandatórias no mesmo espaço de candidatos, a representação aprendida do GEMEO lidera em toda tarefa de novidade e longo contexto. O destaque é descontinuação de tratamento (prever dropout > 6 meses, um desfecho clinicamente crítico em doenças raras), em que o GEMEO supera a sonda baseada em contagem em +0,142 AUROC.
| Tarefa | n | GEMEO | Linha-base forte | Margem | p |
|---|---|---|---|---|---|
| Novo evento (Top-1) | 1.730 | 53,7% | 38,2% (frequência) | +15,5 pp | <0,001 |
| Will-change (AUROC) | 6.405 | 0,906 | 0,889 (contagem) | +0,017 | 0,003 |
| Transição em 12 meses (AUROC) | 6.405 | 0,827 | 0,790 (contagem) | +0,037 | <0,001 |
| Descontinuação de tratamento (AUROC) | 6.591 | 0,838 | 0,696 (contagem) | +0,142 | <0,001 |
| Próximo procedimento na transição (R@1) | 5.718 | 15,5% | 63,5% (bigrama) | −48,1 | <0,001 |
A divisão é exatamente a que a literatura de EHR de 2026 prevê: para transições Markov de passo único, a história imediata domina e um bigrama baseado em contagem é quase ótimo; a vantagem do modelo de mundo emerge em desfechos de novidade e longo contexto, que é precisamente onde o GEMEO vence.
Resultado 3, raciocinando a partir do genoma
Doença rara é em grande parte monogênica, então o GEMEO ancora o proponente no genoma via o ensemble genômico, validado em variantes reais do ClinVar com coordenadas verificadas contra a referência. Cada modelo é avaliado em seu domínio.
| Modelo | Domínio | Conjunto de variantes | AUROC |
|---|---|---|---|
| AlphaMissense | missense | 451 variantes, 20 genes de doenças raras | 0,928 |
| Evo 2 7b (zero-shot) | codificante / global | mesmas 451 variantes | 0,816 |
| AlphaGenome | splice / regulatório | 40 variantes de splice ClinVar | 0,734 |
Conectar o scorer de variante ao Pilar A fecha a cadeia causal variante → gene → doença → trajetória: uma variante patogênica real recupera a doença rara correta em Top-1 = 7/7 nos genes causais da coorte (uma variante patogênica em FBN1 → síndrome de Marfan, com caminho de evidência gene → doença rastreável), enquanto um controle benigno é corretamente não sinalizado. O modelo de mundo totalmente condicionado em genoma, embeddings de variante por paciente entrando no Pilar B na entrada, requer dados de exoma completo por paciente; a arquitetura e os scorers estão construídos e validados para recebê-los.
Resultado 4, o modelo usa a ação (Nível 2)
Um modelo de mundo precisa se condicionar em ações, não só no estado. Testamos isso diretamente em uma variante com vocabulário de tratamento: cada dispensação comum de medicamento órfão com 10 dígitos vira um token de ação distinto (65 ações). Para 12.380 pacientes mantidos para teste que iniciam um tratamento na posição k, comparamos a verossimilhança do modelo para o futuro observado do paciente sob um prefixo que contém o token de tratamento real versus um em que ele está mascarado.
RareBench-BR Trajectory, um benchmark imune à autocorrelação
A predição de trajetória de paciente é dominada pela autocorrelação de eventos: um modelo que copia o último código do paciente pontua quase perfeito em tarefas next-event ingênuas, a armadilha documentada da modelagem recurrence-aware. Nenhum benchmark público de trajetória de doenças raras existia. Liberamos o RareBench-BR Trajectory v2: 44.051 trajetórias de doença rara do SUS vinculadas por CNS, cinco tarefas, splits balanceados/estratificados, um teste externo geográfico e linhas-base baseadas em contagem mandatórias (frequência, bigrama, repeat-last). O benchmark é construído de modo que um oráculo repeat-last pontue apenas 12,4% (e não os ~99% que pontuaria em uma trilha next-event ingênua), a prova quantitativa de imunidade à autocorrelação.
Rumo ao Nível 3, um programa de validação concreto
Nível 1 e Nível 2 estão empiricamente validados; a fronteira que resta é o Nível 3, rollout contrafactual para apoio à decisão. Atingi-lo exige dois experimentos adicionais, em custo crescente:
- Contrafactual sintético (Nível 3 com ground truth conhecido). Treinar o GEMEO em trajetórias geradas por um modelo causal estrutural de uma doença bem caracterizada (por exemplo, FBN1 → dilatação aórtica, com intervenção conhecida) e testar se o modelo recupera o efeito de tratamento simulado.
- Replicação de ECR (Nível 3, ground truth clínico). Estimar, por rollout contrafactual sobre uma coorte pareada do SUS, o tamanho de efeito de um ensaio clínico publicado em doença rara (por exemplo, nusinersena em atrofia muscular espinhal, eculizumab em síndrome hemolítico-urêmica atípica) e comparar à razão de hazard do ensaio.
Junto com um modelo de mundo condicionado em genoma, treinado em uma coorte sequenciada, esses experimentos definem o caminho para capacidade contrafactual em nível de apoio à decisão.
Escopo honesto e limitações
(i) O modelo principal é treinado apenas em eventos estruturados do SUS; o modelo de mundo condicionado em genoma e a validação intervencional dependem de um substrato sequenciado e multimodal (All of Us, UK Biobank). (ii) Para transições Markov de passo único, linhas-base baseadas em contagem permanecem competitivas; a vantagem do modelo de mundo é em longo contexto. (iii) O pilar genômico é validado em centenas de variantes do ClinVar por modelo; validação em escala populacional é trabalho futuro. (iv) A codificação de mortalidade do SUS é grosseira, o que limita a cabeça de sobrevida (C-index 0,70). (v) Concordância de sinal contrafactual com um painel clínico ainda não é um estudo com poder estatístico.
Liberação aberta, a receita, mantida honesta
Apache-2.0, arquitetura, implementação de referência, suíte de conformidade, reprodutores: github.com/rarasAI/gemeo e huggingface.co/Raras-AI/gemeo-arch. CC-BY-NC 4.0, pesos do modelo (huggingface.co/Raras-AI/gemeo-sus) e o benchmark rarebench-br-trajectory. Retidos: o pipeline proprietário de extração do DATASUS. Cada resultado tem um JSON commitado e um reprodutor de uma única GPU; uma suíte de conformidade pré-voo verifica, a cada lançamento, que todo número público rastreia a um arquivo de resultado commitado.
Fontes
Os dados utilizados neste estudo provêm exclusivamente do portal aberto do DATASUS (SIH-RD, APAC-Medicamentos, SIM), disponibilizados pelo Ministério da Saúde para fins de transparência e pesquisa.
Base legal
O tratamento foi realizado com base no Art. 7º, IV (estudos por órgão de pesquisa) e no Art. 11, II, alíneas “c” e “f” (dados sensíveis de saúde para estudos em saúde pública e pesquisa) da LGPD (Lei 13.709/2018).
Pseudonimização e k-anonimato
Nenhum dado pessoal identificável (nome, CPF, CNS em texto claro, endereço) foi acessado ou processado. O identificador AP_CNSPCN é um hash do Cartão Nacional de Saúde gerado na origem pelo SUS — a vinculação longitudinal de 42.265 pacientes é feita sobre esse pseudônimo já existente, sem reidentificação. Idades em faixas, residência em granularidade UF, piso de k-anonimato ≥ 5 em todo artefato liberado.
Não-reidentificação
O modelo não armazena nem reconstrói trajetórias de pacientes individuais; suas predições operam sobre embeddings agregados e não permitem inferência reversa para indivíduos.
Não é diagnóstico
O GEMEO é uma ferramenta de pesquisa. Suas predições não constituem diagnóstico médico, prescrição, nem substituem avaliação clínica por profissional habilitado.
CEP/CONEP
Estudos baseados exclusivamente em bases públicas e anonimizadas do DATASUS são dispensados de apreciação pelo Sistema CEP/CONEP nos termos da Resolução CNS 510/2016, Art. 1º, parágrafo único, V.
Conformidade
Os autores declaram conformidade com a LGPD, com o Decreto 7.724/2012 (LAI) e com a política de uso aberto dos dados do DATASUS.