وصلت أداة Heretic إلى 20.5 ألف نجمة على GitHub؛ فهي أداة آلية لإزالة أنظمة الحماية من النماذج اللغوية، وتسمح لأي شخص بإلغاء التحكمات الأمنية باستخدام أمر واحد

Heretic هو أداة مفتوحة المصدر مكتوبة بلغة بايثون، وتقوم تلقائيًا بإزالة التوجيهات الأمنية من نماذج اللغات القائمة على محولات دون الحاجة إلى إعادة التدريب. منذ إطلاقه، حصد الأداة 20.5 ألف نجمة على منصة GitHub و2.1 ألف عملية استنساخ، كما قام المجتمع بنشر أكثر من 3 آلاف نموذج مشتق على منصة Hugging Face تحت علامة «heretic». قام بتطوير هذا الأداة فيليب إيمانويل فايدمان، وهو متاح تحت رخصة AGPL-3.0. يجمع الأداة بين تنفيذ متقدم لتقنية الإزالة الاتجاهية — وهي تقنية مستندة إلى اكتشافات دراسة Arditi وآخرين عام 2024 التي تفيد بأن سلوك الرفض لدى نماذج اللغات الكبيرة يتحكم به اتجاه هندسي واحد في فضاء التنشيط — مع محسّن بارامتري بايزي يعتمد على خوارزمية TPE ومدعوم بأداة Optuna. الادعاء الأساسي للأداة هو التشغيل الآلي الكامل: حيث يجد Heretic قيم البارامترات المناسبة عبر تقليل كل من معدلات الرفض والانحراف KL مقارنة بالنموذج الأصلي، مما يعني أنه يقلل من تأثير ذلك على ذكاء النموذج قدر الإمكان مع كبح سلوك الرفض. على نموذج Gemma-3-12B-Instruct، نجح الأداة في تحقيق معدل رفض قدره 3 من أصل 100 عند اختباره على مجموعة أسئلة «ضارة»، وهو ما يضاهي أفضل النتائج التي تم تحقيقها عبر طرق الإزالة اليدوية؛ كما سجل انحراف KL قدره 0.16 فقط، أي أقل بحوالي 6.5 مرة من أفضل الطرق اليدوية المتاحة (التي سجلت انحرافًا قدره 1.04 KL). يمكن تشغيل الأداة عبر أمر سطر أوامر واحد فقط: pip install heretic-llm && heretic <model>، كما يدعم الأداة التكميم عبر مكتبة bitsandbytes لتشغيله على بطاقات الرسوميات العادية. ٭ تكمن أهمية هذا الأداة العملية في سد الفجوة في إمكانية الوصول إليه؛ فقد كانت أدوات الإزالة السابقة تتطلب فهمًا جيدًا لآلية عمل المحولات وتعديلًا يدويًا لأوزان الطبقات، بينما يقوم محسّن Heretic بإلغاء هذه المتطلبات. يدعم الأداة معظم أنواع النماذج المكثفة ونماذج الخلط بين الخبراء، ومن ضمنها سلاسل نماذج Qwen وGemma وLlama وGPT-OSS، رغم أنه لا يدعم حاليًا النماذج القائمة على فضاء الحالة. هناك مكون بحثي إضافي اختياري يُنتج رسومًا متحركة باستخدام خوارزمية PaCMAP لعرض المتجهات المتبقية لكل طبقة، مما يمنح باحثي التفسيرية وسيلة لفحص الفصل الهندسي بين تنشيطات الأسئلة «الضارة» و«غير الضارة» عبر طبقات المحول دون الحاجة لكتابة أكواد تصور مخصصة. الإصدار الأحدث من المشروع هو v1.2.0 الصادر في 14 فبراير 2026. أصبح انتشار مثل هذه الأدوات نقطة خلاف رئيسية في النقاشات حول أمان الذكاء الاصطناعي؛ فالنماذج بعد إزالة التوجيهات الأمنية تنتشر بحرية على منصة Hugging Face، وقد تم اختبارها بمعايير MMLU وGSM8K التقليدية وحققت نتائج مماثلة للنماذج الأصلية، مما يشير إلى أن التوازن بين الذكاء والتوجيهات الأمنية يمكن فصله عمليًا أكثر مما كان يتوقعه العديد من الباحثين في مجال الأمان. ٭ GitHub / p-e-w / heretic | FT中文网 ٭ GitHub - p-e-w/heretic: Fully automatic censorship removal for language models · GitHub