Nuevo artículo publicado: Multilevel neural networks with dual-stage feature fusion for human activity recognition

Human activity recognition (HAR) refers to the process of identifying human actions and activities using data collected from sensors. Neural networks, such as convolutional neural networks (CNNs), long short-term memory (LSTM) networks, convolutional LSTM, and their hybrid combinations, have demonstrated exceptional performance in various research domains. Developing a multilevel individual or hybrid model for HAR involves strategically integrating multiple networks to capitalize on their complementary strengths. The structural arrangement of these components is a critical factor influencing the overall performance. This study explored a novel framework of a two-level network architecture with dual-stage feature fusion: late fusion, which combines the outputs from the first network level, and intermediate fusion, which integrates the features from both the first and second levels. We evaluated  different network architectures of CNNs, LSTMs, and convolutional LSTMs, incorporating late fusion with and without intermediate fusion, to identify the optimal configuration. Experimental evaluation on two public benchmark datasets demonstrated that architectures incorporating both late and intermediate fusion achieve higher accuracy than those relying on late fusion alone. Moreover, the optimal configuration outperformed baseline models, thereby validating its effectiveness for HAR.

El reconocimiento de actividad humana (HAR, por sus siglas en inglés) se refiere al proceso de identificar acciones y actividades humanas utilizando datos recogidos mediante sensores. Las redes neuronales, como las redes neuronales convolucionales (CNN), las redes de memoria a corto y largo plazo (LSTM), las redes convolucionales LSTM y sus combinaciones híbridas, han demostrado un rendimiento excepcional en diversos ámbitos de investigación. El desarrollo de un modelo multnivel, individual o híbrido para HAR implica integrar estratégicamente múltiples redes con el fin de aprovechar sus fortalezas complementarias. La disposición estructural de estos componentes constituye un factor crítico que influye en el rendimiento global. En este estudio se exploró un marco novedoso basado en una arquitectura de red de dos niveles con fusión de características en dos etapas: una fusión tardía (late fusion), que combina las salidas del primer nivel de la red, y una fusión intermedia (intermediate fusion), que integra las características provenientes tanto del primer como del segundo nivel. Evaluamos diferentes arquitecturas de redes CNN, LSTM y convolucionales LSTM, incorporando fusión tardía con y sin fusión intermedia, con el objetivo de identificar la configuración óptima. La evaluación experimental realizada sobre dos conjuntos de datos públicos de referencia demostró que las arquitecturas que incluyen tanto fusión tardía como fusión intermedia alcanzan una mayor precisión que aquellas que dependen únicamente de la fusión tardía. Además, la configuración óptima superó a los modelos de referencia (baseline), validando así su eficacia para el reconocimiento de actividad humana.

Articulo publicado por Dr. Mahmoud Fakhry, investigador en nuestro instituto CEIEC

Scroll al inicio