Raras
Buscar doenças, sintomas, genes...
Research
ENPT
Pesquisa · Modelos de Mundo · Doenças Raras

O primeiro modelo de mundo de paciente para doenças raras, ancorado no genoma e em um grafo de conhecimento biomédico, treinado em um sistema único de saúde.

Uma arquitetura Propor → Simular → Verificar. 42.265 trajetórias reais do SUS. 20M parâmetros. Cinco minutos em uma H100. Capacidades de Nível 1 e Nível 2 validadas empiricamente; Nível 3 por projeto.
Autores · Dimas Timmers · Alexandre Melo Kawassaki · João Bosco Oliveira
Data · Maio 2026
Explicação em vídeo.
Resumo, em linguagem simples
Doenças raras atingem ~300 milhões de pessoas e a pergunta que importa na clínica raramente é "o que é?", é "o que vem em seguida, e o que muda se eu intervir?". Essa é a pergunta que modelos de mundo foram feitos para responder. O GEMEO é, ao nosso conhecimento, o primeiro modelo de mundo de paciente construído para doenças raras, e o primeiro treinado em registros reais de um sistema único de saúde (o SUS brasileiro). Tem uma arquitetura de três pilares, Propor (ancora eventos candidatos de primeira ocorrência em um grafo de conhecimento biomédico e no genoma do paciente), Simular (um transformer Causal Diffusion Forcing com objetivo recurrence-aware, que prevê eventos genuinamente novos em vez de ecoar o passado), Verificar (um painel agêntico que adjudica cada predição com um caminho de evidência rastreável). Em um novo benchmark público, imune à autocorrelação, RareBench-BR Trajectory, o GEMEO atinge 53,7% Top-1 de novo evento contra 38,2% da linha-base de frequência, e supera métodos baseados em contagem em toda tarefa de longo contexto (AUROC will-change 0,906, time-to-transition 0,827, descontinuação de tratamento 0,838). Seu pilar genômico, validado em variantes reais do ClinVar, pontua patogenicidade com AUROC 0,93 (AlphaMissense, missense), 0,82 (Evo 2, zero-shot) e 0,73 (AlphaGenome, splice). O modelo principal tem 20M parâmetros e treina em cinco minutos em uma H100. Validamos as capacidades de Nível 1 (condicionado em estado) e Nível 2 (condicionado em ação) na rubrica de modelos de mundo clínicos (NeurIPS 2025), com a arquitetura projetada para o rollout contrafactual do Nível 3. Arquitetura, pesos e benchmark são liberados abertamente.

Um modelo de mundo de paciente é um modelo generativo da dinâmica do paciente, um simulador aprendido que pode rolar uma trajetória sob ações escolhidas e, portanto, raciocinar sobre contrafactuais. Para doenças raras, onde a odisseia diagnóstica mediana ultrapassa seis anos e a pergunta clínica de alto valor é "se eu mudar o tratamento, o que muda em dez anos?", um modelo de mundo é o objeto certo, e até agora, ninguém tinha construído um.

Modelos de mundo transformaram vídeo (Sora), ambientes interativos (Genie) e agentes corpóreos (Dreamer V3), construídos sobre a família de backbones que culmina em Diffusion Forcing. Na medicina, modelos de mundo clínicos gerais começaram a aparecer, EHRWorld, CLARITY, mas nenhum mira doenças raras, se ancora em um grafo de conhecimento biomédico ou se condiciona no genoma, o próprio sinal que, em doenças raras, é a causa raiz.

Introduzimos o GEMEO: o primeiro modelo de mundo de paciente para doenças raras.

Os três pilares

O GEMEO é um pipeline Propor → Simular → Verificar, instanciado contra qualquer prontuário expressável no Medical Event Data Standard (MEDS), o fluxo de tuplas (subject_id, time, code, value). O modelo principal, gemeo-sus, é treinado no SUS brasileiro.

A arquitetura do GEMEO: três pilares
Figura 1 · A arquitetura do GEMEO. Grounding pelo genoma e grafo de conhecimento alimenta o pilar de Propor (A); o modelo de mundo Causal Diffusion Forcing com objetivo recurrence-aware simula trajetórias (B); o painel agêntico Verifica e re-ranqueia cada predição com um caminho de evidência rastreável (C); tudo instanciado sobre um substrato MEDS plugável.

Pilar A · Propor: primeira ocorrência ancorada no genoma e no grafo

Dado o estado manifesto do paciente, o Pilar A propõe os eventos clínicos que ele ainda não teve, os candidatos de primeira ocorrência que uma baseline de repetição não consegue fabricar. Ele se apoia em duas fontes ancoradas.

Grafo de conhecimento. Random-Walk-with-Restart (RWR) sobre um grafo biomédico heterogêneo derivado do PrimeKG, semeado nas doenças manifestas do paciente, fenótipos e genes portadores de variante. A distribuição estacionária ranqueia genes, fenótipos e doenças não vistos por proximidade de rede; nós já manifestos são excluídos e cada candidato carrega seu caminho de evidência mais curto de volta à semente.

Genoma. As variantes do paciente são pontuadas por um ensemble de modelos genômicos de fundação, cada um em seu domínio: AlphaMissense para missense, Evo 2 (delta de log-verossimilhança zero-shot) para codificante e não-codificante e AlphaGenome para efeitos de splice e regulatórios. A patogenicidade da variante repondera o vetor de restart do RWR, assim o genoma direciona a proposta para a lesão molecular real do paciente.

Pilar B · Simular: um modelo de mundo Causal Diffusion Forcing com objetivo recurrence-aware

O núcleo dinâmico é um transformer Causal Diffusion Forcing: cada token recebe um nível de ruído independente σ ∼ 𝒰(0,1), unificando predição autorregressiva, difusão em sequência completa e rollout de horizonte variável em um único modelo. O backbone é um transformer SwiGLU + RMSNorm + RoPE com 20M parâmetros e cross-attention com porta sobre um ego-subgrafo do PrimeKG (porta tanh(α), α inicializado em zero, na linha do Flamingo e do Genie).

A escolha crítica de design é o objetivo de treino. Nos dados de medicamentos órfãos do SUS, apenas 17,8% dos eventos são primeiras ocorrências; os outros 82,2% são repetições (um paciente em medicamento órfão mensal recebe o mesmo código de dispensação todo mês). Um loss next-event ingênuo, portanto, recompensa copiar. Seguindo o princípio recurrence-aware do RAVEN, ponderamos a cross-entropy de cada token por w = max(λ^count, w_min), com λ = 0,25, primeiras ocorrências carregam peso total, repetições decaem para zero. Essa é a alavanca decisiva.

Pilar C · Verificar: um painel agêntico ancorado em evidência

Candidatos do Pilar A, pontuados pelo Pilar B, são adjudicados por um painel multi-agente caso-adaptativo na linhagem do CAMP, DAVP, ClinicalAgents, LA-MARRVEL e DeepRare. Agentes especialistas (genética, fenótipo, rede/RWR, genômico, modelo de mundo) emitem um voto de três valores (KEEP / REFUSE / NEUTRAL) derivado de arestas reais do grafo, proximidade no RWR, patogenicidade da variante ou hazard do modelo, nunca de texto livre. Os votos são agregados por log-odds ponderado em uma decisão calibrada; cada veredicto carrega seu caminho de evidência.

Onde o GEMEO está na rubrica de modelos de mundo

Posicionamos o GEMEO precisamente na rubrica de capacidade de modelos de mundo clínicos de Qazi et al. (NeurIPS 2025), que gradua modelos de mundo do Nível 1 (predição temporal condicionada em estado) ao Nível 4 (planejamento/controle).

1
Predição condicionada em estadoPredição de evento novo e de longo contexto condicionada no estado do paciente, §4.1, §4.2, §4.3
Validado
2
Rollout condicionado em açãoUma variante com vocabulário de tratamento prevê o futuro do paciente significativamente melhor quando condicionada na ação que ele realmente recebeu, §4.4
Validado
3
Rollout contrafactual para apoio à decisãoO Diffusion Forcing suporta geração de horizonte variável condicionada em ação por construção; atingir o Nível 3 empiricamente requer uma coorte intervencional, §6
Por projeto
4
Planejamento / controleFora do escopo deste artigo
Trabalho futuro

O substrato de dados

42.265 pacientes com ≥4 eventos e ≥2 códigos distintos, extraídos de subsistemas do SUS vinculados pelo hash do CNS, ambulatorial de alta complexidade APAC-SIA, internações SIH, mortalidade SIM, exportados para MEDS v0.4.1 com namespaces de código canônicos (ICD10//, SIGTAP//, APAC//, ORPHA, MEDS_*). De-identificação: idades em faixas, residência em granularidade UF, CNS em hash, k-anonimato ≥ 5. Divisão a nível de paciente 70/15/15 treino/val/teste.

42.265
Pacientes · ≥4 eventos, ≥2 códigos distintos
2,4M
Eventos MEDS · SIH-RD · APAC-SIA · SIM
20M
Parâmetros · treina em ~5 min em uma H100
k ≥ 5
Piso de k-anonimato em todo artefato liberado

Resultado 1, o modelo de mundo prevê eventos genuinamente novos

A métrica decisiva é a predição de primeira ocorrência: pontuar apenas posições em que o token verdadeiro é uma primeira ocorrência (repetições excluídas). O GEMEO recurrence-aware atinge Top-1 de 53,7% (IC 95% 51,4–56,1) contra 38,2% da linha-base de frequência (+15,5 pp, IC sem sobreposição). Uma ablação sem o objetivo recurrence-aware cai abaixo da linha-base, confirmando que é o objetivo, e não autocorrelação, que produz o resultado.

ModeloTop-1 (novo evento)vs frequência (38,2%)
Linha-base de frequência38,2%referência
GEMEO (loss plano, ablação)14,6% [13,5, 15,8]abaixo da linha-base
GEMEO (recurrence-aware)53,7% [51,4, 56,1]+15,5 pp

Uma grade de ablação (n = 3.405 posições de primeira ocorrência, linha-base de frequência 37,5%) isola o que dirige a predição de novo evento: remover o loss recurrence-aware colapsa a primeira ocorrência para 8–15%, abaixo da linha-base de frequência (o modelo reverte para copiar repetições); adicioná-lo eleva o desempenho para 55–59%, uma oscilação superior a 40 pontos percentuais. Features posicionais são aproximadamente neutras em novidade.

Recurrence-awareFeatures posicionaisTop-1 (novo evento)
55,1% [53,5, 56,7]
58,8% [57,1, 60,4]
14,6% [13,5, 15,8]
7,6% [6,8, 8,5]

Resultado 2, o modelo de mundo vence cada tarefa de longo contexto

No RareBench-BR Trajectory, sob sondas lineares estilo EHRSHOT em representação congelada com linhas-base baseadas em contagem mandatórias no mesmo espaço de candidatos, a representação aprendida do GEMEO lidera em toda tarefa de novidade e longo contexto. O destaque é descontinuação de tratamento (prever dropout > 6 meses, um desfecho clinicamente crítico em doenças raras), em que o GEMEO supera a sonda baseada em contagem em +0,142 AUROC.

TarefanGEMEOLinha-base forteMargemp
Novo evento (Top-1)1.73053,7%38,2% (frequência)+15,5 pp<0,001
Will-change (AUROC)6.4050,9060,889 (contagem)+0,0170,003
Transição em 12 meses (AUROC)6.4050,8270,790 (contagem)+0,037<0,001
Descontinuação de tratamento (AUROC)6.5910,8380,696 (contagem)+0,142<0,001
Próximo procedimento na transição (R@1)5.71815,5%63,5% (bigrama)−48,1<0,001

A divisão é exatamente a que a literatura de EHR de 2026 prevê: para transições Markov de passo único, a história imediata domina e um bigrama baseado em contagem é quase ótimo; a vantagem do modelo de mundo emerge em desfechos de novidade e longo contexto, que é precisamente onde o GEMEO vence.

Resultado 3, raciocinando a partir do genoma

Doença rara é em grande parte monogênica, então o GEMEO ancora o proponente no genoma via o ensemble genômico, validado em variantes reais do ClinVar com coordenadas verificadas contra a referência. Cada modelo é avaliado em seu domínio.

ModeloDomínioConjunto de variantesAUROC
AlphaMissensemissense451 variantes, 20 genes de doenças raras0,928
Evo 2 7b (zero-shot)codificante / globalmesmas 451 variantes0,816
AlphaGenomesplice / regulatório40 variantes de splice ClinVar0,734

Conectar o scorer de variante ao Pilar A fecha a cadeia causal variante → gene → doença → trajetória: uma variante patogênica real recupera a doença rara correta em Top-1 = 7/7 nos genes causais da coorte (uma variante patogênica em FBN1 → síndrome de Marfan, com caminho de evidência gene → doença rastreável), enquanto um controle benigno é corretamente não sinalizado. O modelo de mundo totalmente condicionado em genoma, embeddings de variante por paciente entrando no Pilar B na entrada, requer dados de exoma completo por paciente; a arquitetura e os scorers estão construídos e validados para recebê-los.

Resultado 4, o modelo usa a ação (Nível 2)

Um modelo de mundo precisa se condicionar em ações, não só no estado. Testamos isso diretamente em uma variante com vocabulário de tratamento: cada dispensação comum de medicamento órfão com 10 dígitos vira um token de ação distinto (65 ações). Para 12.380 pacientes mantidos para teste que iniciam um tratamento na posição k, comparamos a verossimilhança do modelo para o futuro observado do paciente sob um prefixo que contém o token de tratamento real versus um em que ele está mascarado.

Saber a ação aumenta a verossimilhança do futuro observado em Δ logP = +2,28 (IC 95% 2,19 a 2,36; o intervalo exclui zero), e a distribuição prevista do futuro muda de forma mensurável quando a ação é removida (KL de sensibilidade à ação = 0,10). O rollout, portanto, é genuinamente condicionado em ação, capacidade empírica de Nível 2 validada contra ground truth observacional.

RareBench-BR Trajectory, um benchmark imune à autocorrelação

A predição de trajetória de paciente é dominada pela autocorrelação de eventos: um modelo que copia o último código do paciente pontua quase perfeito em tarefas next-event ingênuas, a armadilha documentada da modelagem recurrence-aware. Nenhum benchmark público de trajetória de doenças raras existia. Liberamos o RareBench-BR Trajectory v2: 44.051 trajetórias de doença rara do SUS vinculadas por CNS, cinco tarefas, splits balanceados/estratificados, um teste externo geográfico e linhas-base baseadas em contagem mandatórias (frequência, bigrama, repeat-last). O benchmark é construído de modo que um oráculo repeat-last pontue apenas 12,4% (e não os ~99% que pontuaria em uma trilha next-event ingênua), a prova quantitativa de imunidade à autocorrelação.

Números principais
Um modelo de mundo que prevê eventos clínicos novos, vence cada linha-base de longo contexto e raciocina a partir do genoma.
53,7%
Top-1 de novo evento · +15,5 pp sobre a linha-base de frequência · IC exclui zero
+0,142
Margem AUROC em descontinuação de tratamento sobre a sonda baseada em contagem
0,93
AUROC do AlphaMissense em variantes reais do ClinVar (genes de doenças raras)
+2,28
Δ logP · o modelo realmente usa a ação (Nível 2)

Rumo ao Nível 3, um programa de validação concreto

Nível 1 e Nível 2 estão empiricamente validados; a fronteira que resta é o Nível 3, rollout contrafactual para apoio à decisão. Atingi-lo exige dois experimentos adicionais, em custo crescente:

  1. Contrafactual sintético (Nível 3 com ground truth conhecido). Treinar o GEMEO em trajetórias geradas por um modelo causal estrutural de uma doença bem caracterizada (por exemplo, FBN1 → dilatação aórtica, com intervenção conhecida) e testar se o modelo recupera o efeito de tratamento simulado.
  2. Replicação de ECR (Nível 3, ground truth clínico). Estimar, por rollout contrafactual sobre uma coorte pareada do SUS, o tamanho de efeito de um ensaio clínico publicado em doença rara (por exemplo, nusinersena em atrofia muscular espinhal, eculizumab em síndrome hemolítico-urêmica atípica) e comparar à razão de hazard do ensaio.

Junto com um modelo de mundo condicionado em genoma, treinado em uma coorte sequenciada, esses experimentos definem o caminho para capacidade contrafactual em nível de apoio à decisão.

Escopo honesto e limitações

(i) O modelo principal é treinado apenas em eventos estruturados do SUS; o modelo de mundo condicionado em genoma e a validação intervencional dependem de um substrato sequenciado e multimodal (All of Us, UK Biobank). (ii) Para transições Markov de passo único, linhas-base baseadas em contagem permanecem competitivas; a vantagem do modelo de mundo é em longo contexto. (iii) O pilar genômico é validado em centenas de variantes do ClinVar por modelo; validação em escala populacional é trabalho futuro. (iv) A codificação de mortalidade do SUS é grosseira, o que limita a cabeça de sobrevida (C-index 0,70). (v) Concordância de sinal contrafactual com um painel clínico ainda não é um estudo com poder estatístico.

Liberação aberta, a receita, mantida honesta

Apache-2.0, arquitetura, implementação de referência, suíte de conformidade, reprodutores: github.com/rarasAI/gemeo e huggingface.co/Raras-AI/gemeo-arch. CC-BY-NC 4.0, pesos do modelo (huggingface.co/Raras-AI/gemeo-sus) e o benchmark rarebench-br-trajectory. Retidos: o pipeline proprietário de extração do DATASUS. Cada resultado tem um JSON commitado e um reprodutor de uma única GPU; uma suíte de conformidade pré-voo verifica, a cada lançamento, que todo número público rastreia a um arquivo de resultado commitado.

Dados e ética

Fontes

Os dados utilizados neste estudo provêm exclusivamente do portal aberto do DATASUS (SIH-RD, APAC-Medicamentos, SIM), disponibilizados pelo Ministério da Saúde para fins de transparência e pesquisa.

Base legal

O tratamento foi realizado com base no Art. 7º, IV (estudos por órgão de pesquisa) e no Art. 11, II, alíneas “c” e “f” (dados sensíveis de saúde para estudos em saúde pública e pesquisa) da LGPD (Lei 13.709/2018).

Pseudonimização e k-anonimato

Nenhum dado pessoal identificável (nome, CPF, CNS em texto claro, endereço) foi acessado ou processado. O identificador AP_CNSPCN é um hash do Cartão Nacional de Saúde gerado na origem pelo SUS — a vinculação longitudinal de 42.265 pacientes é feita sobre esse pseudônimo já existente, sem reidentificação. Idades em faixas, residência em granularidade UF, piso de k-anonimato ≥ 5 em todo artefato liberado.

Não-reidentificação

O modelo não armazena nem reconstrói trajetórias de pacientes individuais; suas predições operam sobre embeddings agregados e não permitem inferência reversa para indivíduos.

Não é diagnóstico

O GEMEO é uma ferramenta de pesquisa. Suas predições não constituem diagnóstico médico, prescrição, nem substituem avaliação clínica por profissional habilitado.

CEP/CONEP

Estudos baseados exclusivamente em bases públicas e anonimizadas do DATASUS são dispensados de apreciação pelo Sistema CEP/CONEP nos termos da Resolução CNS 510/2016, Art. 1º, parágrafo único, V.

Conformidade

Os autores declaram conformidade com a LGPD, com o Decreto 7.724/2012 (LAI) e com a política de uso aberto dos dados do DATASUS.

GEMEO · Raras Health, Pesquisa em Doenças Raras · São Paulo, Brasil · 2026