Detección de Comportamiento Estudiantil en Tiempo Real Mediante una Arquitectura RT-DETR Optimizada

Introducción a la Detección de Comportamiento en el Aula

La integración de la inteligencia artificial y el análisis de macrodatos en los sistemas educativos ha transformado la gestión del aula y la evaluación del rendimiento académico. La detección de comportamiento estudiantil mediante visión por computadora ofrece una perspectiva cuantitativa para analizar la atención y la participación. Sin embargo, los entornos educativos presentan desafíos únicos: oclusión por mobiliario, variaciones de iluminación, necesidad de identificar objetivos pequeños (como manos levantadas o dispositivos móviles) y restricciones estrictas de recursos computacionales para el despliegue en tiempo real.

Los algoritmos de detección de objetos han evolucionado desde arquitecturas de dos etapas (como la familia R-CNN) y de una etapa (como YOLO y SSD), hacia modelos basados en Transformadores (DETR). Recientemente, RT-DETR (Real-Time Detection Transformer) ha surgido como una solución que elimina el diseño manual de anclas y post-procesamiento, optimizando la complejidad computacional. Este artículo detalla una metodología mejorada de RT-DETR diseñada específicamente para el análisis de comportamiento en el aula, incorporando redes neuronales ligeras, codificación posicional aprendida y muestreo dinámico.

Construcción y Fusión del Conjunto de Datos FSCB

La escasez de conjuntos de datos públicos y diversos es un cuello de botella en este dominio. Para mitigar esto, se propone el conjunto de datos FSCB (Fused Student Classroom Behavior), que combina observaciones del mundo real con datos sintéticos generados por IA. Esta estrategia no solo amplía el volumen de datos, sino que preserva la privacidad de los estudiantes al reducir la dependencia de imágenes reales identificables.

El conjunto de datos final consta de 4,711 imágenes y 10,185 anotaciones que abarcan cinco categorías principales: atención focalizada, levantar la mano, escribir, dormir y usar el teléfono móvil. La generación de imágenes sintéticas se realizó utilizando modelos de difusión latente y arquitecturas de transformación de texto a imagen (como Stable Diffusion y DALL-E 3), asegurando una alta fidelidad visual y diversidad de escenarios.

Arquitectura del Modelo Propuesto

El modelo base se fundamenta en la estructura de RT-DETR, que procesa las imágenes a través de un extractor de características (backbone), un codificador basado en atención y un decodificador con consultas de objetos. Para adaptarlo a las restricciones del borde (edge computing) y mejorar la detección de objetivos pequeños, se introducen tres modificaciones arquitectónicas críticas.

1. Backbone Ligero: MobileNetV3

Para reducir drásticamente la huella de memoria y los FLOPs (operaciones de punto flotante), se sustituye el backbone tradicional por MobileNetV3. Esta red introduce bloques de cuello de botella optimizados que integran mecanismos de atención de canal y convoluciones depthwise separables.

Además, se optimiza la función de activación para hardware de baja potencia. En lugar de utilizar la función Swish estándar, se implementa una versión cuantizable y eficiente:

def h_swish(x):
    # Aproximación piecewise-linear de Swish para reducir latencia en inferencia
    # Equivalente a ReLU6(x + 3)
    relu6_val = torch.clamp(x + 3.0, min=0.0, max=6.0)
    return x * (relu6_val / 6.0)

Esta modificación reduce el costo de las operaciones de multiplicación y división en la unidad de procesamiento, manteniendo la capacidad de expresión no lineal de la red.

2. Codificación Posicional Aprendida (LPE)

En el módulo de interacción de características intra-escala (AIFI) del codificador, la codificación posicional fija (basada en senos y cosenos) limita la capacidad del modelo para adaptarse a resoluciones variables. Se implementa una Codificación Posicional Aprendida (LPE) donde los vectores de posición son parámetros entrenables.

class LearnedPositionalEncoding(nn.Module):
    def __init__(self, max_seq_len, embed_dim):
        super().__init__()
        # Inicialización aleatoria de los embeddings de posición
        self.pos_embed = nn.Parameter(
            torch.randn(1, max_seq_len, embed_dim) * 0.02
        )

    def forward(self, x):
        # x: (batch_size, seq_len, embed_dim)
        # Se suma el embedding aprendible directamente a las características
        return x + self.pos_embed[:, :x.size(1), :]

Este enfoque permite que la red ajuste dinámicamente la representación espacial durante el entrenamiento, mejorando la localización de objetos en contextos donde la estructura de la secuencia no es rígida.

3. Muestreo Dinámico (DySample) en el CCFM

El módulo de fusión de características entre escalas (CCFM) requiere operaciones de sobremuestreo (upsampling) para alinear las resoluciones espaciales. Las técnicas de convolución dinámica son computacionalmente costosas. Se integra DySample, un método de sobremuestreo basado en el desplazamiento de puntos que evita las convoluciones pesadas.

def dynamic_upsample(F_in, scale_factor):
    H, W, C = F_in.shape
    target_H, target_W = H * scale_factor, W * scale_factor
    
    # 1. Generar rejilla base de coordenadas normalizadas
    P_base = generate_meshgrid(target_H, target_W)
    
    # 2. Predecir desplazamientos (offsets) mediante una convolución ligera
    delta_P = lightweight_offset_conv(F_in)
    
    # 3. Calcular coordenadas finales de muestreo
    P_sample = P_base + delta_P
    
    # 4. Reconstruir el mapa de características de alta resolución
    F_out = bilinear_interpolate(F_in, P_sample)
    
    return F_out

Al aprender las coordenadas de muestreo en lugar de aplicar kernels de convolución completos, DySample reduce significativamente el uso de memoria y el tiempo de inferencia, manteniendo una recuperación precisa de los detalles espaciales.

Evaluación Experimental y Análisis

El entrenamiento se llevó a cabo en un entorno con Ubuntu 20.04, PyTorch 1.10.0 y una GPU NVIDIA RTX 3090. Se utilizó el optimizador Adam con una tasa de aprendizaje inicial de 0.0001, aplicando una estrategia de calentamiento (warmup) durante las primeras 2,000 iteraciones. La función de pérdida combinó errores de regresión de caja (IoU), entropía cruzada para clasificación y Distributed Focal Loss (DFL) para refinar los límites de los cuadros delimitadores.

Métricas de Rendimiento

Al evaluar el modelo propuesto (RT-DETR-MobileNetV3+LPE+DySample) en el conjunto de datos FSCB, los resultados demostraron un equilibrio óptimo entre precisión y velocidad:

Precisión (Precision): 0.853
Exahustividad (Recall): 0.841
mAP@0.5: 0.885
mAP@0.5:0.95: 0.621

En comparación con las configuraciones base que utilizan ResNet18, la integración de MobileNetV3 redujo el número total de parámetros a aproximadamente 9.54 millones y los GFLOPs a 23.6. Esto se tradujo en un aumento de la velocidad de inferencia a 76.4 FPS (cuadros por segundo), superando a otras arquitecturas ligeras como EfficientViT, mientras se mantenía una precisión competitiva.

Aálisis de Visualización

Los mapas de calor de atención generados a partir de los pesos del modelo revelan que las mejoras en LPE y DySample permiten que la red centre su atención de manera más precisa en las regiones de interés (por ejemplo, las manos de los estudiantes o las pantallas de los teléfonos), reduciendo el ruido de fondo y las falsas activaciones en áreas irrelevantes del aula.

Limitaciones y Trabajo Futuro

A pesar de la eficiencia demostrada, la dependencia de datos sintéticos puede introducir sesgos sutiles que no capturen la totalidad de las variaciones físicas de un entorno educativo real. Además, la naturaleza de caja negra de los modelos basados en Transformadores limita la interpretabilidad, un factor crítico cuando las decisiones del sistema se utilizan para intervenciones pedagógicas.

Las futuras iteraciones de este sistema deben enfocarse en la fusión multimodal, incorporando flujos de audio para detectar patrones de participación verbal, y en la aplicación de técnicas de destilación de conocimiento y cuantización de enteros de 8 bits (INT8) para garantizar un despliegue robusto en microcontroladores y dispositivos IoT de baja potencia dentro del aula.

Etiquetas: RT-DETR MobileNetV3 Detección de Objetos Visión por Computadora Deep Learning

Publicado el 6-16 05:04

Friki Work