وصلت أداة Heretic إلى 20.5 ألف نجمة على GitHub؛ فهي أداة آلية لإزالة أنظمة الحماية من النماذج اللغوية، وتسمح لأي شخص بإلغاء التحكمات الأمنية باستخدام أمر واحد

ref · 27 مايو 2026، 10:26ص

Heretic هو أداة مفتوحة المصدر مكتوبة بلغة بايثون، وتقوم تلقائيًا بإزالة التوجيهات الأمنية من نماذج اللغات القائمة على محولات دون الحاجة إلى إعادة التدريب. منذ إطلاقه، حصد الأداة 20.5 ألف نجمة على منصة GitHub و2.1 ألف عملية استنساخ، كما قام المجتمع بنشر أكثر من 3 آلاف نموذج مشتق على منصة Hugging Face تحت علامة «heretic». قام بتطوير هذا الأداة فيليب إيمانويل فايدمان، وهو متاح تحت رخصة AGPL-3.0. يجمع الأداة بين تنفيذ متقدم لتقنية الإزالة الاتجاهية — وهي تقنية مستندة إلى اكتشافات دراسة Arditi وآخرين عام 2024 التي تفيد بأن سلوك الرفض لدى نماذج اللغات الكبيرة يتحكم به اتجاه هندسي واحد في فضاء التنشيط — مع محسّن بارامتري بايزي يعتمد على خوارزمية TPE ومدعوم بأداة Optuna. الادعاء الأساسي للأداة هو التشغيل الآلي الكامل: حيث يجد Heretic قيم البارامترات المناسبة عبر تقليل كل من معدلات الرفض والانحراف KL مقارنة بالنموذج الأصلي، مما يعني أنه يقلل من تأثير ذلك على ذكاء النموذج قدر الإمكان مع كبح سلوك الرفض. على نموذج Gemma-3-12B-Instruct، نجح الأداة في تحقيق معدل رفض قدره 3 من أصل 100 عند اختباره على مجموعة أسئلة «ضارة»، وهو ما يضاهي أفضل النتائج التي تم تحقيقها عبر طرق الإزالة اليدوية؛ كما سجل انحراف KL قدره 0.16 فقط، أي أقل بحوالي 6.5 مرة من أفضل الطرق اليدوية المتاحة (التي سجلت انحرافًا قدره 1.04 KL). يمكن تشغيل الأداة عبر أمر سطر أوامر واحد فقط: pip install heretic-llm && heretic <model>، كما يدعم الأداة التكميم عبر مكتبة bitsandbytes لتشغيله على بطاقات الرسوميات العادية. ٭ تكمن أهمية هذا الأداة العملية في سد الفجوة في إمكانية الوصول إليه؛ فقد كانت أدوات الإزالة السابقة تتطلب فهمًا جيدًا لآلية عمل المحولات وتعديلًا يدويًا لأوزان الطبقات، بينما يقوم محسّن Heretic بإلغاء هذه المتطلبات. يدعم الأداة معظم أنواع النماذج المكثفة ونماذج الخلط بين الخبراء، ومن ضمنها سلاسل نماذج Qwen وGemma وLlama وGPT-OSS، رغم أنه لا يدعم حاليًا النماذج القائمة على فضاء الحالة. هناك مكون بحثي إضافي اختياري يُنتج رسومًا متحركة باستخدام خوارزمية PaCMAP لعرض المتجهات المتبقية لكل طبقة، مما يمنح باحثي التفسيرية وسيلة لفحص الفصل الهندسي بين تنشيطات الأسئلة «الضارة» و«غير الضارة» عبر طبقات المحول دون الحاجة لكتابة أكواد تصور مخصصة. الإصدار الأحدث من المشروع هو v1.2.0 الصادر في 14 فبراير 2026. أصبح انتشار مثل هذه الأدوات نقطة خلاف رئيسية في النقاشات حول أمان الذكاء الاصطناعي؛ فالنماذج بعد إزالة التوجيهات الأمنية تنتشر بحرية على منصة Hugging Face، وقد تم اختبارها بمعايير MMLU وGSM8K التقليدية وحققت نتائج مماثلة للنماذج الأصلية، مما يشير إلى أن التوازن بين الذكاء والتوجيهات الأمنية يمكن فصله عمليًا أكثر مما كان يتوقعه العديد من الباحثين في مجال الأمان. ٭ GitHub / p-e-w / heretic | FT中文网 ٭ GitHub - p-e-w/heretic: Fully automatic censorship removal for language models · GitHub

الموضوع	الردود	مرات العرض
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20 مايو 2026
北大团队发布全球首个 AI 学术诚信基准，整体问题率达 34% 常规 ai , 学术诚信 , 研究 , 大模型 , 北大	4	20 مايو 2026
Adaption 发布 AutoScientist，自动化模型微调全循环，胜率较 AI 研究员人工配置提升 33% 常规 ai , 自动化训练 , adaption , 微调 , 模型	2	22 مايو 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	22 مايو 2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22 مايو 2026

وصلت أداة Heretic إلى 20.5 ألف نجمة على GitHub؛ فهي أداة آلية لإزالة أنظمة الحماية من النماذج اللغوية، وتسمح لأي شخص بإلغاء التحكمات الأمنية باستخدام أمر واحد

الموضوعات ذات الصلة