Ficha do Modelo Multimodal#

O AMALIA-VL é um modelo de multimodal (visão e linguagem) aberto e criado especificamente para o português de Portugal e para a cultura portuguesa.

Descrição do Modelo#

O AMALIA-VL é desenvolvido no âmbito do projeto AMALIA.

O projeto AMALIA é desenvolvido por um consórcio de universidades e centros de investigação portugueses, incluindo a Universidade NOVA de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho e pela Fundação para a Ciência e Tecnologia. O desenvolvimento inclui colaborações com a Universidade da Beira Interior, Universidade de Évora, e Instituto Superior de Engenharia de Lisboa.

Esta colaboração é financiada pelos Programas de Desenvolvimento e Inovação do Governo de Portugal, com o objetivo de criar um assistente de IA avançado capaz de comunicar de forma eficaz em português europeu.

O AMALIA-VL utiliza dados de fonte aberta no seu treino, e outros dados curados especificamente em português europeu. O AMALIA-VL é treinado com pós treino a partir do AMALIA. O treino foi feito em três fases: Modality Alignment, Visual Instruction Following e Preference Tuning. As primeiras duas fases são realizadas através de Supervised Fine-Tuning (SFT), e a última fase é realizada usando Direct Preference Optimization (DPO).

O modelo está disponível no HuggingFace.

Detalhes de Treino Multimodal#

Dados de Treino#

Para a primeira fase, Modality Alignment, foram usados 500.000 pares de imagem e texto do dataset PD12M. Estes foram parcialmente traduzidos para português europeu através do Gemma 3.

Para a seguinte fase, Visual Instruction Following, foi adotada uma mistura de dados sintéticos e dados públicos, que se dividem nas seguintes categorias:

Image Grounding (Ancoragem de respostas a imagens):
- Splits de extração de bounding boxes (caixas de coordenadas visuais) do Nemotron VLM Dataset v2.
General VQA (Perguntas e Respostas Visuais Gerais):
- Dados sintéticos criados para perguntas e respostas visuais com foco em português europeu, usando coleções de imagens abertas como o PD12M e o Open Images;
- Dataset AMALIA-Hardcoded com conhecimento autorreferencial;
- Dados conversacionais gerados a partir da Wikipedia;
- Splits de VQA do Nemotron VLM Dataset v1;
- Vários outros conjuntos de dados públicos de VQA obtidos através da coleção FineVision, incluindo:
  - VQAv2;
  - VisDialog;
  - MMEvol;
  - LLaVA-150k.
OCR (Extração Óptica de Caracteres):
- Dados sintéticos criados para reconhecimento visual de código;
- Splits de OCR do Nemotron VLM Dataset v1;
- IIIT-5k.
OCR QA (Perguntas e Respostas sobre texto em imagens):
- Dados sintéticos em português europeu para reconhecimento e compreensão visual de texto;
- TextVQA;
- OCR-VQA.
Chart & Table Understanding (Compreensão de Gráficos e Tabelas):
- Dados sintéticos para compreensão de gráficos e tabelas em português europeu e contextos multilingues;
- Conjuntos de dados de compreensão de gráficos e tabelas do Nemotron VLM Dataset v1 e v2.
Outros:
- Dados sintéticos para descrição de imagens e compreensão de cenas, em português europeu e inglês;
- Dados sintéticos para conhecimento e reconhecimento de cultura portuguesa;
- Dados sintéticos para compreensão e interpretação de código em imagens;
- Dados públicos de compreensão matemática visual:
  - CLEVR-Math;
  - Geomverse;
  - CoSyn-Math;
- Dados sintéticos e públicos para compreensão de documentos visuais, incluindo DocVQA;
- Reutilização de dados de instrução textual do AMALIA-LLM para preservar o alinhamento entre as capacidades de linguagem e visão do modelo.

Para a fase final, de otimização de preferências, foram utilizados os dados sintéticos de otimização de preferências multimodal. Estes dados foram criados com base nos conjuntos de dados de treino da fase anterior, com o objetivo de melhorar a capacidade do modelo distinguir respostas de maior e menor qualidade para a mesma instrução.

Processo de Treino#

A fase inicial de Modality Alignment tem como objetivo alinhar as representações de visão e linguagem do modelo, permitindo que o AMALIA-VL compreenda e integre informações visuais e textuais de forma eficaz. Para isto, apenas é treinado o conetor de modalidades, mantendo ambos os modelos de visão e linguagem congelados. Esta fase demorou 4 horas em 8 GPUs NVIDIA H100, totalizando 2k steps.

A segunda fase, de Visual Instruction Following, tem como objetivo ensinar o modelo a seguir instruções visuais e executar variadas tarefas com base em inputs visuais, incluindo perguntas e respostas visuais, ancoragem de respostas a imagens, compreensão de gráficos e tabelas, reconhecimento de texto em imagens e compreensão de cenas. Nesta fase, o modelo é treinado em regime de Supervised Fine-Tuning (SFT) e todos os parâmetros do modelo são treinados. Aqui, o modelo tem um contexto máximo de 16384 tokens, e uma capacidade de até 7800 tokens visuais por imagem. O treino decorreu durante 96 horas, recorrendo a 128 GPUs NVIDIA H100, totalizando 49k steps.

A fase final de treino, de DPO, visa refinar as respostas do modelo através da aprendizagem baseada em comparações de pares. Nesta fase, para a mesma instrução, o modelo aprende a maximizar a probabilidade de gerar respostas de maior qualidade e minimizar a probabilidade de gerar respostas de menor, otimizando-se para gerar outputs mais úteis, seguros e alinhados com os valores desejados, minimizando simultaneamente comportamentos indesejados, como alucinações, toxicidade ou desvios das instruções fornecidas. O treino decorreu durante 12 horas, recorrendo a 128 GPUs NVIDIA H100.

Todas as fases de treino foram executadas no supercomputador MareNostrum5, alojado no Barcelona Supercomputing Center, e no supercomputador DEUCALION, alojado no Centro Avançado de Computação do Minho.

Avaliação#

Para avaliar o desempenho do AMALIA-VL, foram traduzidas 18 benchmarks multimodais para português europeu, utilizando modelos de estado da arte. Para garantir a qualidade das traduções, foi realizada uma revisão humana em subsets dos dados para validar a precisão e a fluidez das traduções.

Adicionalmente, foram criados dois benchmarks para avaliar o AMALIA-VL em capacidades específicas do português europeu e da cultura portuguesa:

PorTEXTO (European Portuguese Benchmark for Visual Text Extraction): desenvolvido para avaliar o desempenho dos modelos abertos na extração de texto pt-PT a partir de imagens, incluindo: documentos com texto escrito manualmente, texto em ambientes reais e típicos na cultura portuguesa, e documentos com texto sinteticamente gerado sobre imagens de fundo;
CARAVELA (Cultural Awareness and Recognition Assessment for Visual Entity Literacy and Analysis): desenvolvido para avaliar o conhecimento dos modelos sobre a cultura e a história portuguesas, abrangendo cinco categorias distintas: Arte, Gastronomia, Localidades, Monumentos e Personalidades.

A avaliação mostra que, dentro dos modelos abertos, o AMALIA-VL é altamente competitivo em português europeu, com excelente desempenho em tarefas de compreensão de texto em imagens e em tarefas de ancoragem de respostas a imagens.

Ficha do Modelo Multimodal