Heretic atinge 20,5 mil estrelas no GitHub: a ferramenta automatizada de "abliteration" para LLMs agora permite que qualquer pessoa remova o alinhamento de segurança com um único comando

Heretic é uma ferramenta open-source em Python que automatiza a remoção do alinhamento de segurança em modelos de linguagem baseados em transformadores, sem necessidade de treinamento posterior. Desde seu lançamento, acumulou 20,5 mil estrelas no GitHub e 2,1 mil forks; a comunidade também publicou mais de 3 mil modelos derivados no Hugging Face sob a tag „heretic“. Desenvolvida por Philipp Emanuel Weidmann e licenciada sob AGPL-3.0, a ferramenta combina uma implementação avançada da técnica de ablação direcional — fundamentada na descoberta de Arditi et al. 2024 de que o comportamento de recusa dos LLMs é mediado por uma única direção geométrica no espaço de ativações — com um otimizador paramétrico bayesiano baseado em TPE e alimentado pelo Optuna. O grande diferencial é a total automação: o Heretic determina os parâmetros ideais de ablação ao minimizar simultaneamente as taxas de recusa e a divergência KL em relação ao modelo original, garantindo assim o mínimo possível de degradação na inteligência do modelo enquanto suprime tais recusas. No modelo Gemma-3-12B-Instruct, o Heretic obteve taxa de recusa de apenas 3/100 em um conjunto de prompts „nocivos“, resultado comparável aos melhores métodos manuais de ablação; além disso, registrou divergência KL de 0,16, valor cerca de 6,5 vezes inferior ao melhor método manual existente (1,04 KL). Para usá-lo, basta executar o comando CLI pip install heretic-llm && heretic <model>; também é possível realizar quantização via bitsandbytes para rodar a ferramenta em GPUs comuns.

O impacto prático do Heretic reside na redução da barreira de entrada: ferramentas anteriores exigiam conhecimento prévio sobre a arquitetura dos transformadores e ajustes manuais dos pesos das camadas; agora, o otimizador do Heretic elimina essa necessidade. Ele suporta a maioria das arquiteturas densas e de mistura de especialistas, incluindo modelos das séries Qwen, Gemma, Llama e GPT-OSS, embora ainda não funcione com modelos puramente baseados em espaços de estado. Um complemento opcional voltado à pesquisa gera visualizações animadas em PaCMAP dos vetores residuais de cada camada, permitindo que pesquisadores de interpretabilidade analisem a separação geométrica entre ativações geradas por prompts „nocivos“ e „inofensivos“ sem precisar criar códigos de visualização personalizados. A versão mais recente do projeto é a v1.2.0, lançada em 14 de fevereiro de 2026. A disseminação dessas ferramentas tornou-se um tema polêmico no debate sobre segurança em IA: modelos submetidos a ablação circulam livremente no Hugging Face e apresentam desempenho comparável ao modelo original nos testes padrão MMLU e GSM8K, indicando que a relação entre inteligência e alinhamento de segurança pode ser mais separável do que muitos pesquisadores imaginavam.

GitHub / p-e-w / heretic | FT Chinese