El BSC-CNS (Barcelona Supercomputing Center – Centro Nacional de Supercomputación) y la Biblioteca Nacional de España han desarrollado un modelo masivo de lenguaje español usando tecnología Deep Learning cuyo acceso está abierto en el siguiente repositorio. El proyecto ha sido financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center, una iniciativa del BSC-CNS e IBM.
MarIA es un conjunto de modelos masivos de lenguaje (LLM – Large Language Model) basados en tecnología Transformer y muy similar a GPT-2. Estas redes neuronales profundas han sido entrenadas utilizando 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la Biblioteca Nacional, que una vez depurados generaron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades (accesibles en este dataset).
La generación de este corpus es el primero de los hitos del proyecto de MarIA. El segundo es la creación y entrenamiento de los modelos que constituyen MarIA. Para el entrenamiento de estos modelos han sido necesarias 184.000 horas de procesador y más de 18.000 horas de GPU. Los modelos liberados hasta ahora tienen 125 millones y 355 millones de parámetros respectivamente.
Los siguientes pasos serán la ampliación del corpus añadiendo las publicaciones científicas del CSIC y el entrenamiento de modelos en portugués, gallego, catalán o euskera.
A pesar de que actualmente existen modelos como GPT-3 (OpenAI), Megatron-Turing NGL 530B (Microsoft/NVIDIA) o M6 (Alibaba Damo Academy) con un mayor número de parámetros, éstos manejan inglés o mandarín. La importancia de MarIA radica en ser el primer gran modelo en español, lo que abre una puerta a los hispanohablantes en el campo del PLN (Procesamiento del Lenguaje Natural).
Puedes probar el funcionamiento de MarIA en el siguiente link.