Ficha do Modelo#

O AMALIA é um modelo de linguagem aberto e criado especificamente para o português de Portugal e para a cultura portuguesa.

Descrição do Modelo#

O AMALIA é desenvolvido por um consórcio de universidades e centros de investigação portugueses, incluindo a Universidade NOVA de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho e pela Fundação para a Ciência e Tecnologia. O desenvolvimento inclui colaborações com a Universidade da Beira Interior, Universidade de Évora, e Instituto Superior de Engenharia de Lisboa.

Esta colaboração é financiada pelos Programas de Desenvolvimento e Inovação do Governo de Portugal, com o objetivo de criar um assistente de IA avançado capaz de comunicar eficazmente em português europeu.

O AMALIA utiliza dados de fonte aberta no seu treino, como os dados provenientes do Arquivo.pt, por exemplo, e outros dados curados especificamente em português europeu. O treino foi realizado em duas fases: pré-treino e pós-treino. O pós-treino aplicou técnicas de Supervised Fine-Tuning (SFT) e Preference Tuning (usando Direct Preference Optimization, DPO).

O modelo está disponível no HuggingFace.

Detalhes de Treino#

Dados de Treino#

Os seguintes dados foram incluídos na fase de pré-treino do AMALIA:

Dados do Arquivo.pt, obtidos após processamento de coleções de páginas Web públicas e livros gratuitos;
Dados de pré-treino do modelo EuroLLM;
Amostras de dados de contexto longo Stack-v2;
Dados sintéticos para melhorar a retenção em contexto longo filtrados a partir de datasets públicos (needle-llama3-16x8k, needle_32k_finetuning_dataset).

A componente de SFT de pós-treino incluiu uma mistura de dados criados manualmente, gerados sinteticamente e obtidos de datasets públicos. Estes dados focaram-se em quatro categorias de treino:

Instruction Following (Seguimento de Instruções):
- Dados sintéticos criados utilizando personas do PersonaHub e Nemotron;
- Dataset de instruções linguísticas portuguesas criado manualmente.
Conversational Reasoning (Raciocínio Conversacional):
- Dados sintéticos criados utilizando personas do PersonaHub e Nemotron;
- Dataset AMALIA-Hardcoded com conhecimento autorreferencial;
- Dados conversacionais gerados da Wikipedia;
- Splits Chat e STEM do Nemotron Post-Training v1 e v2;
- Subsets do smoltalk: smol-magpie-ultra (de qualidade excelente) e smol-summarize (traduzido);
- Subsets do smoltalk2: everyday-conversations (traduzido) e Table-GPT;
- Um split customizado de SFT do Hermes3;
- Mistura de SFT do OLMo v2;
- PTradutor para traduções PT\(\leftrightarrow\)EN;
- WMT24++ para traduções multilingues\(\rightarrow\)PT.
Matemática:
- Dados sintéticos criados utilizando personas do PersonaHub e Nemotron;
- Splits Math e Code do Nemotron Post-Training v1 e v2;
- Dataset de problemas de matemática de escola primária Orca-Math.
Segurança:
- Amostras de segurança do EuroBlocks;
- Dados de segurança gerados pelo DeepSeek-V3.2-Exp.

Para a componente de DPO foi usada uma amostra de dados com respostas geradas em parte pelo próprio AMALIA-SFT. Foram ainda usados os dados:

UltraFeedback;
Abbey4799/Complex-Instructions-DPO;
kira/math-dpo;
Egida-DPO-Meta-LLaMa-3.1-70B-Instruct;
HarmfulQA;
Um dataset de segurança especifico para o contexto cultural português.

Processo de Treino#

No pré-treino, foram maioritariamente seguidos os hiperparâmetros do EuroLLM, com a nova mistura de dados, aumentando o comprimento máximo de sequência para 32k tokens e melhorando o seu conhecimento de português europeu.

A fase de SFT visa melhorar as capacidades conversacionais e de seguimento de instruções do AMALIA, com um foco especial no português europeu, utilizando os conjuntos de dados descritos em Dados de Treino. O treino decorreu durante 76 horas, recorrendo a 64 GPUs NVIDIA H100, totalizando em 14k steps.

A fase de DPO visa alinhar o comportamento do AMALIA com as preferências humanas, refinando as respostas do modelo através da aprendizagem baseada em comparações de pares. Nesta fase, o modelo aprende a distinguir entre respostas de maior e menor qualidade para a mesma instrução, otimizando-se para gerar outputs mais úteis, seguros e alinhados com os valores desejados, minimizando simultaneamente comportamentos indesejados, como alucinações, toxicidade ou desvios das instruções fornecidas. O treino decorreu durante 12 horas, recorrendo a 64 GPUs NVIDIA H100.

Todas as fases de treino foram executadas no supercomputador MareNostrum5, alojado no Barcelona Supercomputing Center, e no supercomputador DEUCALION, alojado no Centro Avançado de Computação do Minho.

Avaliação#

No âmbito do AMALIA, foram desenvolvidos novos benchmarks com o objetivo de avaliar a performance do modelo em Português Europeu:

ALBA (Automated Linguistics Benchmark for Baseline Assessment): Avalia o desempenho em tarefas linguísticas em português europeu (pt-PT). A avaliação divide-se em oito dimensões: Fonética e Fonologia, Sintaxe, Morfologia, Lexicologia, Semântica Cultural, Jogos de Palavras, Análise do Discurso e Variedade Linguística.
P3B3 (pt-PT/pt-BR Bias Benchmark): Avalia o viés (bias) dos modelos para as variantes de Português pt-PT e pt-BR.
PHEB (Portuguese High School Exams Benchmark): Baseado nos Exames Nacionais do Ensino Secundário de Portugal, avalia a capacidade de resolver tarefas alinhadas com o currículo educacional Português.
CulturaVivaPT: Foca-se na compreensão cultural e no conhecimento específico de Portugal, avaliando para responder a questões sobre temas diversos como festivais, gastronomia, história e desporto.
SAUDADE: Mede a compreensão de eventos históricos e culturais de Portugal sob uma perspetiva temporal.

Adicionalmente, vários benchmarks de referência foram traduzidos de inglês para português europeu recorrendo a um modelo de tradução dedicado.

Para garantir avaliações reproduzíveis, o processo de avaliação utiliza a framework LLM Evaluation Harness com código e tarefas customizadas disponível no GitHub.

Os resultados demonstram que, no ecossistema de modelos totalmente abertos (fully open-source), o AMALIA posiciona-se entre os modelos de referência para o português europeu, apresentando um desempenho ao nível do estado da arte. Em termos de segurança, o AMALIA encontra-se alinhado com os padrões e práticas de segurança observados nos modelos de referência atuais.

Ficha do Modelo

Contents