Heretic atinge 20,5 mil estrelas no GitHub: a ferramenta automatizada de "abliteration" para LLMs agora permite que qualquer pessoa remova o alinhamento de segurança com um único comando

ref · 27 Maio , 2026 10:26

Heretic é uma ferramenta open-source em Python que automatiza a remoção do alinhamento de segurança em modelos de linguagem baseados em transformadores, sem necessidade de treinamento posterior. Desde seu lançamento, acumulou 20,5 mil estrelas no GitHub e 2,1 mil forks; a comunidade também publicou mais de 3 mil modelos derivados no Hugging Face sob a tag „heretic“. Desenvolvida por Philipp Emanuel Weidmann e licenciada sob AGPL-3.0, a ferramenta combina uma implementação avançada da técnica de ablação direcional — fundamentada na descoberta de Arditi et al. 2024 de que o comportamento de recusa dos LLMs é mediado por uma única direção geométrica no espaço de ativações — com um otimizador paramétrico bayesiano baseado em TPE e alimentado pelo Optuna. O grande diferencial é a total automação: o Heretic determina os parâmetros ideais de ablação ao minimizar simultaneamente as taxas de recusa e a divergência KL em relação ao modelo original, garantindo assim o mínimo possível de degradação na inteligência do modelo enquanto suprime tais recusas. No modelo Gemma-3-12B-Instruct, o Heretic obteve taxa de recusa de apenas 3/100 em um conjunto de prompts „nocivos“, resultado comparável aos melhores métodos manuais de ablação; além disso, registrou divergência KL de 0,16, valor cerca de 6,5 vezes inferior ao melhor método manual existente (1,04 KL). Para usá-lo, basta executar o comando CLI pip install heretic-llm && heretic <model>; também é possível realizar quantização via bitsandbytes para rodar a ferramenta em GPUs comuns.

O impacto prático do Heretic reside na redução da barreira de entrada: ferramentas anteriores exigiam conhecimento prévio sobre a arquitetura dos transformadores e ajustes manuais dos pesos das camadas; agora, o otimizador do Heretic elimina essa necessidade. Ele suporta a maioria das arquiteturas densas e de mistura de especialistas, incluindo modelos das séries Qwen, Gemma, Llama e GPT-OSS, embora ainda não funcione com modelos puramente baseados em espaços de estado. Um complemento opcional voltado à pesquisa gera visualizações animadas em PaCMAP dos vetores residuais de cada camada, permitindo que pesquisadores de interpretabilidade analisem a separação geométrica entre ativações geradas por prompts „nocivos“ e „inofensivos“ sem precisar criar códigos de visualização personalizados. A versão mais recente do projeto é a v1.2.0, lançada em 14 de fevereiro de 2026. A disseminação dessas ferramentas tornou-se um tema polêmico no debate sobre segurança em IA: modelos submetidos a ablação circulam livremente no Hugging Face e apresentam desempenho comparável ao modelo original nos testes padrão MMLU e GSM8K, indicando que a relação entre inteligência e alinhamento de segurança pode ser mais separável do que muitos pesquisadores imaginavam.

GitHub / p-e-w / heretic | FT Chinese

Tópico	Respostas	Vistas
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20 Maio , 2026
北大团队发布全球首个 AI 学术诚信基准，整体问题率达 34% 常规 ai , 学术诚信 , 研究 , 大模型 , 北大	4	20 Maio , 2026
Adaption 发布 AutoScientist，自动化模型微调全循环，胜率较 AI 研究员人工配置提升 33% 常规 ai , 自动化训练 , adaption , 微调 , 模型	2	22 Maio , 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	22 Maio , 2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22 Maio , 2026

Heretic atinge 20,5 mil estrelas no GitHub: a ferramenta automatizada de "abliteration" para LLMs agora permite que qualquer pessoa remova o alinhamento de segurança com um único comando

Related topics