Heretic alcanza las 20.500 estrellas en GitHub: esta herramienta automatizada para "abliteration" de LLMs ahora permite eliminar el alineamiento de seguridad con un solo comando.

Heretic es una herramienta de código abierto escrita en Python que automatiza la eliminación de los mecanismos de seguridad en modelos lingüísticos basados en transformadores, sin necesidad de entrenamiento posterior. Desde su lanzamiento, ha acumulado 20,5 mil ‘stars’ y 2,1 mil ‘forks’ en GitHub; además, la comunidad ha publicado más de 3.000 modelos derivados en Hugging Face bajo la etiqueta ‘heretic’. Creada por Philipp Emanuel Weidmann y distribuida bajo la licencia AGPL-3.0, Heretic combina una implementación avanzada de la ‘ablación direccional’ — técnica basada en el hallazgo de Arditi et al. 2024 según el cual el comportamiento de rechazo de los modelos se debe a una única dirección geométrica en el espacio de activaciones — con un optimizador bayesiano basado en búsqueda por exploración de árboles, impulsado por Optuna. Su gran ventaja es la total automatización: Heretic determina los parámetros óptimos minimizando simultáneamente las tasas de rechazo y la divergencia KL respecto al modelo original, logrando así reducir al mínimo la pérdida de inteligencia del modelo mientras se suprime dicho comportamiento. En pruebas con Gemma-3-12B-Instruct, Heretic consiguió una tasa de rechazo del 3 % frente a prompts ‘dañinos’, cifra equiparable a los mejores resultados obtenidos mediante ajustes manuales; además, su divergencia KL fue de apenas 0,16, un valor casi 6,5 veces inferior al de la mejor alternativa manual (1,04 KL). La instalación y uso son extremadamente sencillos: basta ejecutar pip install heretic-llm && heretic <model> desde la línea de comandos; además, permite la cuantización mediante bitsandbytes para ejecutarse en GPUs de uso doméstico.

La verdadera importancia de esta herramienta radica en que elimina la barrera de acceso anteriormente existente: los métodos previos de ‘ablación’ exigían conocimientos técnicos sobre el funcionamiento interno de los transformadores y ajustes manuales de pesos, algo que Heretic evita gracias a su optimizador. Es compatible con la mayoría de arquitecturas densas y de mezcla de expertos, incluyendo modelos Qwen, Gemma, Llama y la serie GPT-OSS; no obstante, aún no funciona con modelos basados exclusivamente en espacios de estados. Existe también un complemento de investigación opcional que genera visualizaciones animadas mediante PaCMAP de los vectores residuales por capa, facilitando a los investigadores analizar la separación geométrica entre las activaciones generadas por prompts ‘dañinos’ y ‘inofensivos’ sin necesidad de programar visualizaciones propias. La versión más reciente del proyecto es la v1.2.0, publicada el 14 de febrero de 2026. La proliferación de herramientas similares ha generado un intenso debate en torno a la seguridad de la IA: los modelos procesados con ‘ablación’ circulan libremente en Hugging Face y, tras evaluarse con métricas estándar como MMLU y GSM8K, muestran resultados comparables a los modelos originales, lo que indica que, en la práctica, el equilibrio entre inteligencia y seguridad resulta más factible de lograr de lo que muchos investigadores creían.