O que ele faz

14 exemplos reais. Em milissegundos, fala de paciente vira termo HPO.

"pereba"

→ HPO

Eczematoid dermatitis · HP:0000964

"água na cabeça"

→ HPO

Hydrocephalus · HP:0000238

"esparro"

→ HPO

Seizure · HP:0001250

"corcunda"

→ HPO

Kyphosis · HP:0002808

"não vinga"

→ HPO

Failure to thrive · HP:0001508

"dança dos olhos"

→ HPO

Nystagmus · HP:0000639

"fígado inchado"

→ HPO

Hepatomegaly · HP:0002240

"molinho"

→ HPO

Muscular hypotonia · HP:0001252

"amarelão"

→ HPO

Jaundice · HP:0000952

"cabeção"

→ HPO

Macrocephaly · HP:0000256

"chiado no peito"

→ HPO

Wheezing · HP:0030828

"apagão"

→ HPO

Syncope · HP:0001279

"tremedeira"

→ HPO

Tremor · HP:0001337

"falta de ar"

→ HPO

Dyspnea · HP:0002094

huggingface.co/spaces/Raras-AI/araras-hpo-brasil-demo

demo

Hydrocephalus HP:0000238 · cosine 0.94

similarity 0.94

O demo é interativo: experimente seus próprios termos, incluindo gírias regionais. Abrir demo ao vivo no Hugging Face ↗

A jornada diagnóstica de uma doença rara no Brasil começa com palavras. A criança "não vinga". O bebê "tem água na cabeça". O paciente "esparra" à noite. Essas palavras são reais, mas a pesquisa biomédica fala outra língua: a linguagem padronizada do Human Phenotype Ontology, com 17 mil termos em latim médico. Entre essas duas línguas existe um abismo que custa anos de diagnóstico.

O abismo entre a fala e a ciência

Imagine um agente comunitário de saúde do interior do Ceará registrando, no prontuário, a queixa de uma mãe sobre seu filho de dois anos:

"Doutora, ele tem uns esparros à noite, fica todo molinho depois, e o cabeção dele tá crescendo demais."

Para essa frase virar ciência rastreável, ela precisa ser convertida em três termos HPO específicos: HP:0001250 (Seizure), HP:0001252 (Muscular hypotonia) e HP:0000256 (Macrocephaly). Cada um desses códigos abre acesso a um continente inteiro de literatura médica, conexões com genes, ensaios clínicos, centros de referência. Mas o agente não fala HPO. A mãe não fala HPO. E modelos de IA treinados em inglês médico, incluindo os melhores hoje disponíveis, também não.

O resultado: a observação clínica mais valiosa fica trancada na própria frase que a expressou.

O que é HPO, em uma figura

O Human Phenotype Ontology é, em essência, o dicionário comum da medicina genômica: cerca de 17 mil termos organizados em uma árvore hierárquica que vai de conceitos amplos ("anormalidade do sistema nervoso") até descrições muito específicas ("tremor postural de baixa frequência das mãos"). Quando um geneticista descreve um paciente em HPO, ele está falando uma língua que qualquer pesquisador do mundo entende, e que algoritmos de busca diagnóstica conseguem processar.

Visualização hierárquica de termos do HPO — Figura · A ontologia HPO é uma árvore. Cada termo é filho de termos mais gerais e pai de termos mais específicos. "Macrocefalia" vive sob "Anormalidade da cabeça"; "Convulsão tônico-clônica" sob "Convulsão". Essa estrutura permite que um sistema diagnóstico use parentesco e profundidade hierárquica para inferência, se o paciente tem o termo X, ele provavelmente também tem ancestrais Y e Z.

O HPO é mantido pelo Jackson Laboratory e atualizado continuamente pela comunidade internacional. Em 2024, ganhou tradução oficial para o português através do projeto Babelon HPO-PT. Mas tradução formal não é fala real. "Hidrocefalia" está no Babelon. "Água na cabeça" não.

Como o Araras aprendeu a ouvir

Partimos do BioLORD-2023, o melhor encoder biomédico publicado em 2024, e o submetemos a um treinamento contrastivo multifásico em quatro tipos de dados:

35.000

Pares canônicos do HPO (nome, sinônimos, definições)

23.885

Traduções oficiais para o português (Babelon HPO-PT)

800+

Pares coloquiais brasileiros, curados manualmente, cobrindo NE, SE, S, CO, N

46.000

Relações IS_A da hierarquia HPO, usadas para regularização hierárquica

O treino também minera automaticamente ~44.000 negativos difíceis, termos HPO que se parecem com a entrada mas estão errados, e usa uma função de perda Multiple Negatives Ranking com similaridade de cosseno. O resultado é um encoder de 110M de parâmetros que projeta qualquer frase em um espaço de 768 dimensões onde sintomas semanticamente equivalentes, em qualquer registro, formal ou coloquial, em PT ou EN, ficam próximos.

O que mudou, em números

Avaliamos o Araras em cinco cenários, comparando contra o BioLORD-2023 (estado-da-arte anterior). O salto mais dramático aparece justamente onde sempre falhou: o português coloquial.

Cenário	BioLORD-2023	Araras	Δ
RareBench (EN, n=13.763), Top1	95,01%	97,81%	+2,80
BR-PT formal (Babelon, n=7.142), Top1	17,22%	62,00%	+44,78
BR-PT coloquial (n=24, eval), Top1	4,17%	79,17%	+75,00
BR-PT coloquial, Top5	4,17%	100,00%	+95,83
Narrativas clínicas BR (n=22, 5 casos), Acc@1	—	95,5%	—

O ponto não é só que o Araras é o estado-da-arte: é que o português coloquial passou de indistinguível do acaso (4,17% Top-1) para quase resolvido (79,17% Top-1, 100% Top-5). Em narrativas clínicas reais brasileiras, ele acerta o termo HPO certo no primeiro chute em 95,5% dos casos.

Pra que serve, na prática

Cinco usos concretos que já estão em construção ou em produção dentro do ecossistema Raras:

Carteirinha digital do paciente. Quando uma família registra "tem água na cabeça" no app Raras, o backend converte automaticamente para HP:0000238, e a partir daí o sistema pode sugerir conexões com diagnósticos diferenciais, comunidades de pacientes com a mesma condição, e centros de referência relevantes.
Notas de Agentes Comunitários de Saúde (ACS). Mais de 280 mil ACS escrevem notas de visita domiciliar todo mês no SUS, em português coloquial regional. Hoje essas notas são informação morta. Com o Araras, viram dados estruturados, sem que o ACS precise mudar como escreve.
Pipelines de diagnóstico de doenças raras. O Araras é a primeira etapa (encoder) em pipelines como o nosso RarasNet Swarm, alimentando retrievers sobre o grafo HPO e rankers bayesianos como LIRICAL ou textuais como PubCaseFinder.
Busca semântica multilíngue. Pesquisadores brasileiros agora podem buscar literatura em inglês usando termos em português coloquial, e ainda recuperar o paper certo.
Anotação de literatura biomédica em português. Para o ecossistema crescente de papers clínicos publicados em PT (especialmente teses de mestrado e doutorado em saúde pública), o Araras serve como anotador automático de fenótipos.

Open source, do dia zero

O Araras HPO Brasil está disponível agora em huggingface.co/Raras-AI/araras-hpo-brasil sob licença Apache 2.0. O modelo herda a licença do BioLORD-2023 e pode ser usado em produção comercial e acadêmica sem restrições. Pesos, código de treinamento e benchmarks são públicos.

Três extensões já estão em desenvolvimento:

Versão multilíngue completa, espanhol coloquial (México, Argentina, Colômbia), francês coloquial (Magreb, Quebec), começando pelos países com sistemas de saúde pública similares ao SUS.
Versão "instruct" com retorno de explicação ("acho que é hidrocefalia, baseado na descrição da pressão intracraniana").
Treinamento federado nos 45 centros de referência da RARAS-BRDN, refinando o modelo com narrativas clínicas reais sem mover dados de paciente.

Dados e ética

Fontes

Os dados de treinamento provêm exclusivamente de fontes públicas: a ontologia HPO (Jackson Laboratory, CC-BY 4.0), suas traduções oficiais Babelon HPO-PT (CC-BY 4.0), e termos coloquiais coletados por curadoria interna sem qualquer dado de paciente real.

Pseudonimização

Nenhum dado pessoal identificável foi usado em qualquer fase do treinamento. Os exemplos clínicos brasileiros usados na validação (n=22 HPOs, 5 casos reais) foram fornecidos por colaboradores médicos com consentimento explícito e completamente desidentificados antes do uso.

Não é diagnóstico

O Araras é um codificador de termos, não um sistema diagnóstico. Ele responde a pergunta “qual o termo HPO mais próximo desta frase?”, não “qual a doença deste paciente?”. Sua saída deve sempre ser revisada por profissional de saúde habilitado antes de qualquer decisão clínica.

Vieses conhecidos

O modelo herda vieses do BioLORD-2023 (treinado predominantemente em literatura anglófona) e do próprio HPO (catalogado predominantemente em populações europeias). A cobertura coloquial brasileira foi enviesada conscientemente em direção a regiões sub-representadas (Nordeste, Norte), mas ainda há lacunas. Reportes de termos não-cobertos são bem-vindos via issues no repositório.

Licença e atribuição

Apache 2.0, herdada do BioLORD-2023. Citação recomendada disponível na model card.

Modelo no Hugging Face ↗ Testar o demo ao vivo ↗