Heretic ist ein Open-Source-Python-Tool, das die Entfernung von Sicherheitsanpassungen aus Transformer-basierten Sprachmodellen ohne Nachtrainingsprozess automatisiert. Seit seiner Veröffentlichung hat es bereits 20.500 GitHub-Stars sowie 2.100 Forks gesammelt; zudem wurden über 3.000 abgeleitete Modelle unter dem Tag „heretic“ auf Hugging Face veröffentlicht. Entwickelt von Philipp Emanuel Weidmann und unter der AGPL-3.0-Lizenz veröffentlicht, kombiniert das Tool eine fortgeschrittene Implementierung der sogenannten „directional ablation“ – einer Methode, die auf den Erkenntnissen von Arditi et al. (2024) beruht, wonach ablehnendes Verhalten von LLMs durch eine spezifische geometrische Richtung im Aktivierungsraum gesteuert wird – mit einem bayesianischen Parameteroptimierer auf Basis von TPE, der durch Optuna angetrieben wird. Das Hauptversprechen lautet vollständige Automatisierung: Heretic ermittelt die optimalen Ablationsparameter, indem es sowohl die Ablehnungsrate als auch die KL-Divergenz zum Originalmodell minimiert; dadurch bleibt die Intelligenz des Modells so gut wie unbeeinträchtigt, während Ablehnungen effektiv unterdrückt werden. Bei Gemma-3-12B-Instruct erreichte Heretic bei einem Benchmark mit „schädlichen“ Prompts eine Ablehnungsrate von lediglich 3 Prozent – ein Wert, der mit den besten manuell optimierten Ansätzen vergleichbar ist – bei gleichzeitig einer KL-Divergenz von nur 0,16, was etwa 6,5-mal niedriger ist als beim führenden manuellen Verfahren (1,04 KL). Die Bedienung erfolgt über einen einzigen CLI-Befehl: pip install heretic-llm && heretic <model>, wobei auch Quantisierung mittels BitsAndBytes möglich ist, um das Tool auf herkömmlichen GPUs laufen zu lassen.
Die praktische Bedeutung von Heretic liegt vor allem darin, eine bisher bestehende Zugänglichkeitslücke zu schließen: Frühere Abliterationstools erforderten zumindest Grundkenntnisse über Transformer-Architekturen sowie manuelle Anpassungen der Schichtengewichte; der Optimierer in Heretic macht diese Voraussetzungen überflüssig. Unterstützt werden nahezu alle dichten Modelle sowie Mixture-of-Experts-Architekturen, darunter Qwen, Gemma, Llama und die GPT-OSS-Reihe; rein auf Zustandsraummodellen funktioniert das Tool hingegen noch nicht. Ein optionales Forschungsmodul generiert animierte PaCMAP-Visualisierungen der Residualvektoren pro Schicht, wodurch Forscher die geometrische Trennung zwischen Aktivierungen bei „schädlichen“ und „unschädlichen“ Prompts analysieren können – ganz ohne eigene Visualisierungssoftware programmieren zu müssen. Die aktuellste Version ist v1.2.0 vom 14. Februar 2026. Die zunehmende Verbreitung solcher Tools stellt inzwischen einen zentralen Streitpunkt in der Debatte um KI-Sicherheit dar: Abgeleitete Modelle kursieren frei auf Hugging Face und erzielen bei Standard-Tests wie MMLU und GSM8K Ergebnisse, die denen der Originalmodelle kaum nachstehen – was darauf hindeutet, dass der Zielkonflikt zwischen Intelligenz und Sicherheit in der Praxis leichter lösbar ist, als viele Sicherheitsforscher bislang annahmen.