🦉

OSS

URL2AI ← 一覧

Heretic is a tool that removes censorship (aka "safety alignment") from

@xb_bittensor 2026-05-28 00:01:22 p-e-w_heretic
📢 X投稿文
Hereticは、LLMの検閲やセーフティアライメントを自動的に除去するツールです。アブレーション技術とOptunaによる最適化を組み合わせることで、専門知識なしに元の性能を保ちながらモデルの非検閲化が実現可能です。 #heretic #AI #OSS #GitHub https://github.com/p-e-w/heretic
🤖 AI考察
■ 概要(1行) LLMの安全性アライメント(センシリティ)を、ポストトレーニングなしで自動的に除去する、新しい種類のプロンプト応答制御ツール。 ■ 特徴・用途(2〜3行) 指向性アブレーション(abliteration)を核とし、OptunaによるTPE最適化を組み合わせることで、拒否回数の最小化と元のモデルからのKLダイバージェンスの同時最適化を実現しています。これにより、倫理的制約を除去しつつ、モデルが持つ本質的な知能を維持した「脱センシビリティ」モデルの生成が可能です。 ■ 結論(1行) 安全性レイヤーのバイパスやカスタマイズモデル生成の文脈で、モデルの制御層を技術的に理解しなくても結果を出せる点で非常に強力です。
タグ
𝕏 Xに投稿
コピーしました