Heretic набрал 20,5 тысяч звезд на GitHub: автоматизированный инструмент для «аблиррекции» LLM теперь позволяет любому пользователю удалить механизмы безопасности одной командой

ref · 27.Май.2026 10:26:48

Heretic — это открытый инструмент на Python, автоматизирующий удаление механизмов безопасности из языковых моделей на основе трансформеров без необходимости дополнительного обучения. С момента своего выпуска он набрал 20,5 тысяч звезд на GitHub и 2,1 тысячи форков; сообщество опубликовало более 3 000 производных моделей на платформе Hugging Face под тегом „heretic“. Инструмент был разработан Филиппом Эмануэлем Вайдманном и выпущен под лицензией AGPL-3.0. Он сочетает в себе продвинутую реализацию метода направленной абляции — основанного на выводах исследования Arditi и др. от 2024 года о том, что поведение отказа у LLM определяется одним геометрическим направлением в пространстве активаций — с оптимизатором параметров на базе метода TPE, разработанным с использованием библиотеки Optuna. Главное преимущество Heretic заключается в полной автоматизации: он подбирает параметры абляции путем совместного минимизирования показателей отказов и KL-расхождения относительно исходной модели, тем самым максимально сохраняя её интеллектуальные способности при подавлении нежелательных ответов. При тестировании на модели Gemma-3-12B-Instruct Heretic продемонстрировал показатель отказов на уровне 3 из 100 в тесте на „вредоносные“ запросы — этот результат сопоставим с лучшими результатами ручной настройки; при этом его KL-расхождение составило всего 0,16, что примерно в 6,5 раз ниже, чем у лидирующего аналогичного инструмента (1,04 KL). Для работы с Heretic достаточно выполнить одну команду в терминале: pip install heretic-llm && heretic <model>, а также поддерживается квантование с помощью библиотеки bitsandbytes для запуска на обычных потребительских видеокартах.

Практическая ценность данного инструмента заключается в устранении барьеров для доступа к технологии: ранее для абляции требовалось хотя бы базовое понимание внутренней структуры трансформеров и ручная настройка весов слоев; оптимизатор Heretic полностью исключает эту необходимость. Он поддерживает большинство архитектур как плотных моделей, так и моделей типа Mixture-of-Experts, включая серии Qwen, Gemma, Llama и GPT-OSS; однако чистые модели на основе состояний пространства пока не поддерживаются. В качестве дополнительного модуля для исследований предусмотрен инструмент, генерирующий анимированные визуализации методом PaCMAP для остаточных векторов каждого слоя; это позволяет исследователям в области интерпретируемости анализировать геометрическое разделение активаций „вредоносных“ и „безвредных“ запросов без написания собственного кода визуализации. Последней версией проекта является v1.2.0 от 14 февраля 2026 года. Распространение подобных инструментов стало одной из главных точек противостояния в дискуссиях по безопасности ИИ: модели после абляции свободно распространяются на Hugging Face, а их показатели по стандартным тестам MMLU и GSM8K сопоставимы с исходными моделями; это указывает на то, что компромисс между интеллектом и безопасностью на практике более разрешим, чем предполагали многие исследователи в области безопасности ИИ.

GitHub / p-e-w / heretic | FT中文网

Тема	Ответов	Просм.
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20.05.2026
北大团队发布全球首个 AI 学术诚信基准，整体问题率达 34% 常规 ai , 学术诚信 , 研究 , 大模型 , 北大	4	20.05.2026
Adaption 发布 AutoScientist，自动化模型微调全循环，胜率较 AI 研究员人工配置提升 33% 常规 ai , 自动化训练 , adaption , 微调 , 模型	2	22.05.2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	22.05.2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22.05.2026

Связанные темы