[:es]Acaba de ser publicado un artículo realizado por nuestro equipo de investigadores, formado por Eva Martínez García, Alberto Nogales y Álvaro García Tejedor, en colaboración con Javier Morales, profesor de la UFV y representante de Avanade. El artículo trata de la generación de nuevos corpus a partir de textos ya existentes. Estos métodos de aumento de datos son importantes debido a la gran dependencia de datos de las técnicas de Procesamiento del Lenguaje Natural (PNL) actuales basadas en redes neuronales. En particular se presenta un método híbrido que combina cadenas de Markov y Word Embeddings para generar nuevas frases de alta calidad similares a un conjunto de textos inicial, de manera que se aumente así los datos de entrenamiento. El método se ha validado construyendo varios Modelos de Lenguaje (LM) basados en Transformer utilizando datos de tres dominios diferentes y evaluando la capacidad de cada LM en modelar el lenguaje de cada dominio.
La publicación puede encontrarse en el siguente enlace.[:en]A new research paper has just been published by our researchers’ team, formed by Eva Martínez García, Alberto Nogales and Álvaro García Tejedor, in collaboration with Javier Morales, a UFV lecturer, and Avanade representative. The paper presents a method to generate new corpus from existing texts. These data augmentation methods are important because the state-of-the-art Natural Language Processing (NLP) techniques are highly data-dependent since they are neural-based. In particular, a hybrid method is presented that combines Markov Chains and Word Embeddings to generate new high-quality sentences that are similar to an initial dataset. This allows the augmentation of the training data. The method has been validated by building several Language Models (LM) based on the Transformer using data from three different domains and evaluating how well each LM was able to model each domain language.
The paper can be found in this link.[:]
