Defensas Heurísticas contra Evasión en Modelos de Lenguaje
Autoevaluación de Contenido
Método de detección de respuestas perjudiciales mediante un segundo modelo de lenguaje. Opera sin modificcaciones al modelo base ni datos adicionales.
import tqdm
import openai
from transformers import AutoModelForCausalLM, AutoTokenizer
class EvaluadorRiesgo:
def crear_prompt(self, texto):
return f" ...
Publicado el 6-11 03:58