14 exemplos reais. Em milissegundos, fala de paciente vira termo HPO.
A jornada diagnóstica de uma doença rara no Brasil começa com palavras. A criança "não vinga". O bebê "tem água na cabeça". O paciente "esparra" à noite. Essas palavras são reais, mas a pesquisa biomédica fala outra língua: a linguagem padronizada do Human Phenotype Ontology, com 17 mil termos em latim médico. Entre essas duas línguas existe um abismo que custa anos de diagnóstico.
O abismo entre a fala e a ciência
Imagine um agente comunitário de saúde do interior do Ceará registrando, no prontuário, a queixa de uma mãe sobre seu filho de dois anos:
Para essa frase virar ciência rastreável, ela precisa ser convertida em três termos HPO específicos: HP:0001250 (Seizure), HP:0001252 (Muscular hypotonia) e HP:0000256 (Macrocephaly). Cada um desses códigos abre acesso a um continente inteiro de literatura médica, conexões com genes, ensaios clínicos, centros de referência. Mas o agente não fala HPO. A mãe não fala HPO. E modelos de IA treinados em inglês médico, incluindo os melhores hoje disponíveis, também não.
O resultado: a observação clínica mais valiosa fica trancada na própria frase que a expressou.
O que é HPO, em uma figura
O Human Phenotype Ontology é, em essência, o dicionário comum da medicina genômica: cerca de 17 mil termos organizados em uma árvore hierárquica que vai de conceitos amplos ("anormalidade do sistema nervoso") até descrições muito específicas ("tremor postural de baixa frequência das mãos"). Quando um geneticista descreve um paciente em HPO, ele está falando uma língua que qualquer pesquisador do mundo entende, e que algoritmos de busca diagnóstica conseguem processar.
O HPO é mantido pelo Jackson Laboratory e atualizado continuamente pela comunidade internacional. Em 2024, ganhou tradução oficial para o português através do projeto Babelon HPO-PT. Mas tradução formal não é fala real. "Hidrocefalia" está no Babelon. "Água na cabeça" não.
Como o Araras aprendeu a ouvir
Partimos do BioLORD-2023, o melhor encoder biomédico publicado em 2024, e o submetemos a um treinamento contrastivo multifásico em quatro tipos de dados:
O treino também minera automaticamente ~44.000 negativos difíceis, termos HPO que se parecem com a entrada mas estão errados, e usa uma função de perda Multiple Negatives Ranking com similaridade de cosseno. O resultado é um encoder de 110M de parâmetros que projeta qualquer frase em um espaço de 768 dimensões onde sintomas semanticamente equivalentes, em qualquer registro, formal ou coloquial, em PT ou EN, ficam próximos.
O que mudou, em números
Avaliamos o Araras em cinco cenários, comparando contra o BioLORD-2023 (estado-da-arte anterior). O salto mais dramático aparece justamente onde sempre falhou: o português coloquial.
| Cenário | BioLORD-2023 | Araras | Δ |
|---|---|---|---|
| RareBench (EN, n=13.763), Top1 | 95,01% | 97,81% | +2,80 |
| BR-PT formal (Babelon, n=7.142), Top1 | 17,22% | 62,00% | +44,78 |
| BR-PT coloquial (n=24, eval), Top1 | 4,17% | 79,17% | +75,00 |
| BR-PT coloquial, Top5 | 4,17% | 100,00% | +95,83 |
| Narrativas clínicas BR (n=22, 5 casos), Acc@1 | — | 95,5% | — |
O ponto não é só que o Araras é o estado-da-arte: é que o português coloquial passou de indistinguível do acaso (4,17% Top-1) para quase resolvido (79,17% Top-1, 100% Top-5). Em narrativas clínicas reais brasileiras, ele acerta o termo HPO certo no primeiro chute em 95,5% dos casos.
Pra que serve, na prática
Cinco usos concretos que já estão em construção ou em produção dentro do ecossistema Raras:
- Carteirinha digital do paciente. Quando uma família registra "tem água na cabeça" no app Raras, o backend converte automaticamente para
HP:0000238, e a partir daí o sistema pode sugerir conexões com diagnósticos diferenciais, comunidades de pacientes com a mesma condição, e centros de referência relevantes. - Notas de Agentes Comunitários de Saúde (ACS). Mais de 280 mil ACS escrevem notas de visita domiciliar todo mês no SUS, em português coloquial regional. Hoje essas notas são informação morta. Com o Araras, viram dados estruturados, sem que o ACS precise mudar como escreve.
- Pipelines de diagnóstico de doenças raras. O Araras é a primeira etapa (encoder) em pipelines como o nosso RarasNet Swarm, alimentando retrievers sobre o grafo HPO e rankers bayesianos como LIRICAL ou textuais como PubCaseFinder.
- Busca semântica multilíngue. Pesquisadores brasileiros agora podem buscar literatura em inglês usando termos em português coloquial, e ainda recuperar o paper certo.
- Anotação de literatura biomédica em português. Para o ecossistema crescente de papers clínicos publicados em PT (especialmente teses de mestrado e doutorado em saúde pública), o Araras serve como anotador automático de fenótipos.
Open source, do dia zero
O Araras HPO Brasil está disponível agora em huggingface.co/Raras-AI/araras-hpo-brasil sob licença Apache 2.0. O modelo herda a licença do BioLORD-2023 e pode ser usado em produção comercial e acadêmica sem restrições. Pesos, código de treinamento e benchmarks são públicos.
Três extensões já estão em desenvolvimento:
- Versão multilíngue completa, espanhol coloquial (México, Argentina, Colômbia), francês coloquial (Magreb, Quebec), começando pelos países com sistemas de saúde pública similares ao SUS.
- Versão "instruct" com retorno de explicação ("acho que é hidrocefalia, baseado na descrição da pressão intracraniana").
- Treinamento federado nos 45 centros de referência da RARAS-BRDN, refinando o modelo com narrativas clínicas reais sem mover dados de paciente.
Fontes
Os dados de treinamento provêm exclusivamente de fontes públicas: a ontologia HPO (Jackson Laboratory, CC-BY 4.0), suas traduções oficiais Babelon HPO-PT (CC-BY 4.0), e termos coloquiais coletados por curadoria interna sem qualquer dado de paciente real.
Pseudonimização
Nenhum dado pessoal identificável foi usado em qualquer fase do treinamento. Os exemplos clínicos brasileiros usados na validação (n=22 HPOs, 5 casos reais) foram fornecidos por colaboradores médicos com consentimento explícito e completamente desidentificados antes do uso.
Não é diagnóstico
O Araras é um codificador de termos, não um sistema diagnóstico. Ele responde a pergunta “qual o termo HPO mais próximo desta frase?”, não “qual a doença deste paciente?”. Sua saída deve sempre ser revisada por profissional de saúde habilitado antes de qualquer decisão clínica.
Vieses conhecidos
O modelo herda vieses do BioLORD-2023 (treinado predominantemente em literatura anglófona) e do próprio HPO (catalogado predominantemente em populações europeias). A cobertura coloquial brasileira foi enviesada conscientemente em direção a regiões sub-representadas (Nordeste, Norte), mas ainda há lacunas. Reportes de termos não-cobertos são bem-vindos via issues no repositório.
Licença e atribuição
Apache 2.0, herdada do BioLORD-2023. Citação recomendada disponível na model card.