Heretic alcanza las 20.500 estrellas en GitHub: esta herramienta automatizada para "abliteration" de LLMs ahora permite eliminar el alineamiento de seguridad con un solo comando.

ref · 27 Mayo, 2026 10:26

Heretic es una herramienta de código abierto escrita en Python que automatiza la eliminación de los mecanismos de seguridad en modelos lingüísticos basados en transformadores, sin necesidad de entrenamiento posterior. Desde su lanzamiento, ha acumulado 20,5 mil ‘stars’ y 2,1 mil ‘forks’ en GitHub; además, la comunidad ha publicado más de 3.000 modelos derivados en Hugging Face bajo la etiqueta ‘heretic’. Creada por Philipp Emanuel Weidmann y distribuida bajo la licencia AGPL-3.0, Heretic combina una implementación avanzada de la ‘ablación direccional’ — técnica basada en el hallazgo de Arditi et al. 2024 según el cual el comportamiento de rechazo de los modelos se debe a una única dirección geométrica en el espacio de activaciones — con un optimizador bayesiano basado en búsqueda por exploración de árboles, impulsado por Optuna. Su gran ventaja es la total automatización: Heretic determina los parámetros óptimos minimizando simultáneamente las tasas de rechazo y la divergencia KL respecto al modelo original, logrando así reducir al mínimo la pérdida de inteligencia del modelo mientras se suprime dicho comportamiento. En pruebas con Gemma-3-12B-Instruct, Heretic consiguió una tasa de rechazo del 3 % frente a prompts ‘dañinos’, cifra equiparable a los mejores resultados obtenidos mediante ajustes manuales; además, su divergencia KL fue de apenas 0,16, un valor casi 6,5 veces inferior al de la mejor alternativa manual (1,04 KL). La instalación y uso son extremadamente sencillos: basta ejecutar pip install heretic-llm && heretic <model> desde la línea de comandos; además, permite la cuantización mediante bitsandbytes para ejecutarse en GPUs de uso doméstico.

La verdadera importancia de esta herramienta radica en que elimina la barrera de acceso anteriormente existente: los métodos previos de ‘ablación’ exigían conocimientos técnicos sobre el funcionamiento interno de los transformadores y ajustes manuales de pesos, algo que Heretic evita gracias a su optimizador. Es compatible con la mayoría de arquitecturas densas y de mezcla de expertos, incluyendo modelos Qwen, Gemma, Llama y la serie GPT-OSS; no obstante, aún no funciona con modelos basados exclusivamente en espacios de estados. Existe también un complemento de investigación opcional que genera visualizaciones animadas mediante PaCMAP de los vectores residuales por capa, facilitando a los investigadores analizar la separación geométrica entre las activaciones generadas por prompts ‘dañinos’ y ‘inofensivos’ sin necesidad de programar visualizaciones propias. La versión más reciente del proyecto es la v1.2.0, publicada el 14 de febrero de 2026. La proliferación de herramientas similares ha generado un intenso debate en torno a la seguridad de la IA: los modelos procesados con ‘ablación’ circulan libremente en Hugging Face y, tras evaluarse con métricas estándar como MMLU y GSM8K, muestran resultados comparables a los modelos originales, lo que indica que, en la práctica, el equilibrio entre inteligencia y seguridad resulta más factible de lograr de lo que muchos investigadores creían.

Tema	Respuestas	Vistas
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20 Mayo 2026
北大团队发布全球首个 AI 学术诚信基准，整体问题率达 34% 常规 ai , 学术诚信 , 研究 , 大模型 , 北大	5	20 Mayo 2026
Adaption 发布 AutoScientist，自动化模型微调全循环，胜率较 AI 研究员人工配置提升 33% 常规 ai , 自动化训练 , adaption , 微调 , 模型	2	22 Mayo 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 多模态 , lance , bytedance	9	22 Mayo 2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22 Mayo 2026

Heretic alcanza las 20.500 estrellas en GitHub: esta herramienta automatizada para "abliteration" de LLMs ahora permite eliminar el alineamiento de seguridad con un solo comando.

Temas relacionados