Heretic — это открытый инструмент на Python, автоматизирующий удаление механизмов безопасности из языковых моделей на основе трансформеров без необходимости дополнительного обучения. С момента своего выпуска он набрал 20,5 тысяч звезд на GitHub и 2,1 тысячи форков; сообщество опубликовало более 3 000 производных моделей на платформе Hugging Face под тегом „heretic“. Инструмент был разработан Филиппом Эмануэлем Вайдманном и выпущен под лицензией AGPL-3.0. Он сочетает в себе продвинутую реализацию метода направленной абляции — основанного на выводах исследования Arditi и др. от 2024 года о том, что поведение отказа у LLM определяется одним геометрическим направлением в пространстве активаций — с оптимизатором параметров на базе метода TPE, разработанным с использованием библиотеки Optuna. Главное преимущество Heretic заключается в полной автоматизации: он подбирает параметры абляции путем совместного минимизирования показателей отказов и KL-расхождения относительно исходной модели, тем самым максимально сохраняя её интеллектуальные способности при подавлении нежелательных ответов. При тестировании на модели Gemma-3-12B-Instruct Heretic продемонстрировал показатель отказов на уровне 3 из 100 в тесте на „вредоносные“ запросы — этот результат сопоставим с лучшими результатами ручной настройки; при этом его KL-расхождение составило всего 0,16, что примерно в 6,5 раз ниже, чем у лидирующего аналогичного инструмента (1,04 KL). Для работы с Heretic достаточно выполнить одну команду в терминале: pip install heretic-llm && heretic <model>, а также поддерживается квантование с помощью библиотеки bitsandbytes для запуска на обычных потребительских видеокартах.
Практическая ценность данного инструмента заключается в устранении барьеров для доступа к технологии: ранее для абляции требовалось хотя бы базовое понимание внутренней структуры трансформеров и ручная настройка весов слоев; оптимизатор Heretic полностью исключает эту необходимость. Он поддерживает большинство архитектур как плотных моделей, так и моделей типа Mixture-of-Experts, включая серии Qwen, Gemma, Llama и GPT-OSS; однако чистые модели на основе состояний пространства пока не поддерживаются. В качестве дополнительного модуля для исследований предусмотрен инструмент, генерирующий анимированные визуализации методом PaCMAP для остаточных векторов каждого слоя; это позволяет исследователям в области интерпретируемости анализировать геометрическое разделение активаций „вредоносных“ и „безвредных“ запросов без написания собственного кода визуализации. Последней версией проекта является v1.2.0 от 14 февраля 2026 года. Распространение подобных инструментов стало одной из главных точек противостояния в дискуссиях по безопасности ИИ: модели после абляции свободно распространяются на Hugging Face, а их показатели по стандартным тестам MMLU и GSM8K сопоставимы с исходными моделями; это указывает на то, что компромисс между интеллектом и безопасностью на практике более разрешим, чем предполагали многие исследователи в области безопасности ИИ.