Actualización Dinámica de Modelos de Aprendizaje Profundo y Gestión de Memoria en Libtorch

En entornos de producción, la capacidad de actualizar modelos de aprendizaje profundo sin detener el servicio es esencial para corregir errores o desplegar mejoras, minimizando interrupciones. La actualización en caliente permite distribuir código de forma dinámica, evitando la necesidad de reiniciar el sistema.

Este proceso requiere atomicidad para prevenir inconsistencias durante actualizaciones concurrentes, evitar la interrupción del servicio durante la carga de modelos, y disponer de mecanismos de reversión en caso de fallos.

Técnica de Doble Buffer

El mecanismo de doble buffer utiliza dos copias del modelo: una activa para atander solicitudes de predicción y otra para actualizaciones. Una vez que la copia de actualización está lista, se intercambia con la activa para garantizar continuidad.

Esquemas de Despleigue para Modelos

Las estrategias comunes incluyen desplegar PyTorch como servicio mediante frameworks web, exportar a TorchScript para integración en C++ con libtorch, o convertir a formatos como ONNX o TensorRT. Algunas plataformas, como TensorFlow Serving, incorporan actualización en caliente de forma nativa, pero con libtorch se enfrenta el desafío de gestionar la memoria GPU al cargar nuevos modelos, ya que los enfoques tradicionales pueden no ser aplicables.

Gestión de Memoria GPU en Libtorch

Al usar libtorch para despliegue, la insuficiencia de memoria GPU es un problema común. La ocupación de memoria se divide en tres categorías: parámetros del modelo, tensores de entrada/salida y vraiables temporales durante la inferencia.

Funciones como cudaFree pueden liberar memoria de tensores, y CUDACachingAllocator::emptyCache ayuda a limpiar la caché de la GPU. Sin embargo, liberar directamente los parámetros del modelo puede causar errores en operaciones posteriores con CUDA.

Ejemplo de Código para Administración de Memoria

#include <torch/script.h> #include <torch/torch.h> #include <c10/cuda/CUDAStream.h> #include <ATen/cuda/CUDAEvent.h> #include #include #include #include <cuda_runtime_api.h> using namespace std;

static void reportar_memoria_gpu() { size_t espacio_libre; size_t espacio_total; cudaError_t estado = cudaMemGetInfo(&espacio_libre, &espacio_total); if (cudaSuccess != estado) { printf("Error en cudaMemGetInfo: %s \n", cudaGetErrorString(estado)); exit(1); } double libre_mb = static_cast(espacio_libre) / (1024.0 * 1024.0); double total_mb = static_cast(espacio_total) / (1024.0 * 1024.0); double usado_mb = total_mb - libre_mb; std::cout << "Uso de memoria GPU: " << usado_mb << " MB\n"; }

int main() { string modelo_ruta = "d_in_out.pt"; at::NoGradGuard sin_gradientes; int dispositivo_gpu = 0; torch::jit::Module red = torch::jit::load(modelo_ruta); red.to(at::kCUDA); red.eval();

std::cout << "Memoria usada tras cargar el modelo:\n";
reportar_memoria_gpu();

at::Tensor entrada_a = torch::ones({ 1,3,512,512 }).to(at::kCUDA);
at::Tensor entrada_b = torch::ones({ 1,3,512,512 }).to(at::kCUDA);
at::Tensor salida_x, salida_y;
std::cout << "\nMemoria tras crear tensores de entrada:\n";
reportar_memoria_gpu();

std::cout << "\nRealizando inferencias en bucle:\n";
for (int iter = 0; iter < 5; iter++) {
    auto respuesta = red.forward({ entrada_a, entrada_b });
    auto agrupamiento = respuesta.toTuple();
    salida_x = agrupamiento->elements()[0].toTensor();
    salida_y = agrupamiento->elements()[1].toTensor();
    reportar_memoria_gpu();
}

std::cout << "\nLiberando tensores (impacto limitado):\n";
cudaFree(entrada_a.data_ptr());
cudaFree(entrada_b.data_ptr());
cudaFree(salida_x.data_ptr());
cudaFree(salida_y.data_ptr());
reportar_memoria_gpu();

std::cout << "\nVaciando caché CUDA (efecto moderado):\n";
c10::cuda::CUDACachingAllocator::emptyCache();
reportar_memoria_gpu();

std::cout << "\nIntento de liberar parámetros del modelo (no recomendado):\n";
for (auto parametro : red.parameters())
    cudaFree(parametro.data_ptr());
reportar_memoria_gpu();

std::cout << "\nDestrucción explícita del modelo (sin efecto):\n";
red.~Module();
reportar_memoria_gpu();

std::cout << "\nReinicialización del estado CUDA (ineficaz):\n";
c10::cuda::CUDACachingAllocator::init(dispositivo_gpu);
c10::cuda::CUDACachingAllocator::resetAccumulatedStats(dispositivo_gpu);
c10::cuda::CUDACachingAllocator::resetPeakStats(dispositivo_gpu);
reportar_memoria_gpu();

std::cout << "\nReinicio completo del dispositivo CUDA (efectivo pero destructivo):\n";
cudaDeviceReset();
reportar_memoria_gpu();

torch::cuda::synchronize();
red = torch::jit::load(modelo_ruta);
red.to(at::kCUDA);
reportar_memoria_gpu();

return 0;

}


</div>Un método práctico para liberar memoria GPU consiste en mover el modelo a la CPU, vaciar la caché CUDA y luego recargar el modelo actualizado en la GPU:

<div>```

red.to(at::kCPU);
c10::cuda::CUDACachingAllocator::emptyCache();
red = torch::jit::load(modelo_ruta);

Etiquetas: libtorch CUDA PyTorch actualización_en_caliente doble_buffer

Publicado el 6-9 18:51

Friki Work

Actualización Dinámica de Modelos de Aprendizaje Profundo y Gestión de Memoria en Libtorch

Técnica de Doble Buffer

Esquemas de Despleigue para Modelos

Gestión de Memoria GPU en Libtorch

Ejemplo de Código para Administración de Memoria

Etiquetas populares