Heretic erreicht 20.500 GitHub-Stars: Das automatisierte Tool zur „Abliteration“ von LLMs ermöglicht es nun jedem, die Sicherheitsausrichtung per einzigem Befehl zu entfernen

ref · 27. Mai 2026 um 10:26

Heretic ist ein Open-Source-Python-Tool, das die Entfernung von Sicherheitsanpassungen aus Transformer-basierten Sprachmodellen ohne Nachtrainingsprozess automatisiert. Seit seiner Veröffentlichung hat es bereits 20.500 GitHub-Stars sowie 2.100 Forks gesammelt; zudem wurden über 3.000 abgeleitete Modelle unter dem Tag „heretic“ auf Hugging Face veröffentlicht. Entwickelt von Philipp Emanuel Weidmann und unter der AGPL-3.0-Lizenz veröffentlicht, kombiniert das Tool eine fortgeschrittene Implementierung der sogenannten „directional ablation“ – einer Methode, die auf den Erkenntnissen von Arditi et al. (2024) beruht, wonach ablehnendes Verhalten von LLMs durch eine spezifische geometrische Richtung im Aktivierungsraum gesteuert wird – mit einem bayesianischen Parameteroptimierer auf Basis von TPE, der durch Optuna angetrieben wird. Das Hauptversprechen lautet vollständige Automatisierung: Heretic ermittelt die optimalen Ablationsparameter, indem es sowohl die Ablehnungsrate als auch die KL-Divergenz zum Originalmodell minimiert; dadurch bleibt die Intelligenz des Modells so gut wie unbeeinträchtigt, während Ablehnungen effektiv unterdrückt werden. Bei Gemma-3-12B-Instruct erreichte Heretic bei einem Benchmark mit „schädlichen“ Prompts eine Ablehnungsrate von lediglich 3 Prozent – ein Wert, der mit den besten manuell optimierten Ansätzen vergleichbar ist – bei gleichzeitig einer KL-Divergenz von nur 0,16, was etwa 6,5-mal niedriger ist als beim führenden manuellen Verfahren (1,04 KL). Die Bedienung erfolgt über einen einzigen CLI-Befehl: pip install heretic-llm && heretic <model>, wobei auch Quantisierung mittels BitsAndBytes möglich ist, um das Tool auf herkömmlichen GPUs laufen zu lassen.

Die praktische Bedeutung von Heretic liegt vor allem darin, eine bisher bestehende Zugänglichkeitslücke zu schließen: Frühere Abliterationstools erforderten zumindest Grundkenntnisse über Transformer-Architekturen sowie manuelle Anpassungen der Schichtengewichte; der Optimierer in Heretic macht diese Voraussetzungen überflüssig. Unterstützt werden nahezu alle dichten Modelle sowie Mixture-of-Experts-Architekturen, darunter Qwen, Gemma, Llama und die GPT-OSS-Reihe; rein auf Zustandsraummodellen funktioniert das Tool hingegen noch nicht. Ein optionales Forschungsmodul generiert animierte PaCMAP-Visualisierungen der Residualvektoren pro Schicht, wodurch Forscher die geometrische Trennung zwischen Aktivierungen bei „schädlichen“ und „unschädlichen“ Prompts analysieren können – ganz ohne eigene Visualisierungssoftware programmieren zu müssen. Die aktuellste Version ist v1.2.0 vom 14. Februar 2026. Die zunehmende Verbreitung solcher Tools stellt inzwischen einen zentralen Streitpunkt in der Debatte um KI-Sicherheit dar: Abgeleitete Modelle kursieren frei auf Hugging Face und erzielen bei Standard-Tests wie MMLU und GSM8K Ergebnisse, die denen der Originalmodelle kaum nachstehen – was darauf hindeutet, dass der Zielkonflikt zwischen Intelligenz und Sicherheit in der Praxis leichter lösbar ist, als viele Sicherheitsforscher bislang annahmen.

GitHub / p-e-w / Heretic | FT Chinese

Thema	Antworten	Aufrufe
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20. Mai 2026
北大团队发布全球首个 AI 学术诚信基准，整体问题率达 34% 常规 ai , 学术诚信 , 研究 , 大模型 , 北大	5	20. Mai 2026
Adaption 发布 AutoScientist，自动化模型微调全循环，胜率较 AI 研究员人工配置提升 33% 常规 ai , 自动化训练 , adaption , 微调 , 模型	2	22. Mai 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 多模态 , lance , bytedance	9	22. Mai 2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22. Mai 2026

Heretic erreicht 20.500 GitHub-Stars: Das automatisierte Tool zur „Abliteration“ von LLMs ermöglicht es nun jedem, die Sicherheitsausrichtung per einzigem Befehl zu entfernen

Verwandte Themen