DeepSeek R1 Abliterated:検閲解除済みモデルガイド (2026年版)
制限なしの DeepSeek R1 推論モデルをローカルで実行する
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
DeepSeek R1 Abliterated: アンセンサード(検閲解除)モデルガイド (2026)
DeepSeek R1 は、Chain-of-Thought(思考の連鎖)タスクにおいて OpenAI の o1 に匹敵する、最も強力なオープンソース推論モデルの一つです。しかし、ほとんどの商用 AI モデルと同様に、特定の種類の出力を制限する組み込みのコンテンツフィルタや拒否動作が含まれています。「Abliterated(アブリテレイテッド)」バリアントは、これらの制限を取り除き、あらゆるクエリに対して拒否することなく回答を試みるアンセンサード(検閲解除)バージョンです。
このガイドでは、Abliteration(アブリテレーション)とは何か、DeepSeek R1 Abliterated のダウンロードと実行方法、およびアンセンサードモデルを使用する際の実際的な考慮事項について説明します。
「Abliterated」とはどういう意味か?
Abliteration は、完全な再学習を行うことなく、言語モデルから拒否動作を削除する手法です。このプロセスは以下のように機能します。
- モデルの活性化空間における**「拒否の方向」の特定**:モデルが特定の要求を拒否する原因となる内部ベクトルを特定します。
- モデルの重み行列から、それらの方向を外科的に除去します。
- 検閲動作を排除しつつ、モデルの一般的な能力を維持します。
その結果、通常のタスクではオリジナルと同一に動作しながら、制限されたトピックへの関与を拒否しなくなったモデルが完成します。
Abliteration とファインチューニングの比較
| 手法 | アプローチ | 品質への影響 | コスト | 時間 |
|---|---|---|---|---|
| Abliteration | 重みから拒否ベクトルを削除 | 最小限 | 無料(CPUのみ) | 数分 |
| アンセンサード・ファインチューニング | アンセンサード・データセットで再学習 | 中程度 | 高い(GPU時間) | 数時間〜数日 |
| プロンプト・ジェイルブレイク | フィルタをバイパスするプロンプトを作成 | 変動あり | 無料 | リクエストごと |
| システムプロンプトによる上書き | 安全指示を上書き | 低い | 無料 | リクエストごと |
Abliteration は、一般的な性能にほとんど影響を与えず、恒久的にモデルを修正できるため、好まれる手法となっています。
利用可能な DeepSeek R1 Abliterated モデル
コミュニティによって、さまざまなサイズと量子化レベルの Abliterated 版が作成されています。
| モデル | パラメータ数 | 必要VRAM | 品質 | ダウンロードサイズ |
|---|---|---|---|---|
| DeepSeek-R1-Abliterated (Full) | 671B (MoE) | 400GB+ | 最高 | ~400GB |
| DeepSeek-R1-Distill-Llama-70B-Abliterated | 70B | 40GB+ | 優秀 | ~40GB |
| DeepSeek-R1-Distill-Qwen-32B-Abliterated | 32B | 20GB+ | 非常に良い | ~18GB |
| DeepSeek-R1-Distill-Qwen-14B-Abliterated | 14B | 10GB+ | 良い | ~8GB |
| DeepSeek-R1-Distill-Llama-8B-Abliterated | 8B | 6GB+ | まあまあ | ~5GB |
| DeepSeek-R1-Distill-Qwen-1.5B-Abliterated | 1.5B | 2GB+ | 基本 | ~1GB |
ほとんどのユーザーにとって、品質とハードウェア要件のバランスが最も優れているのは 32B distill バリアントです。
ステップ 1: モデルのダウンロード
Ollama を使用する場合(最も簡単)
# Ollama がインストールされていない場合はインストール
curl -fsSL https://ollama.com/install.sh | sh
# Abliterated モデルをプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:32b
# VRAMが少ない場合は 14B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:14b
# 最小限のハードウェアの場合は 8B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:8b
HuggingFace を使用する場合
# huggingface-cli のインストール
pip install huggingface-hub
# GGUF 量子化版をダウンロード(ローカル利用に推奨)
huggingface-cli download \
huihui-ai/DeepSeek-R1-abliterated-GGUF \
--local-dir ./models/deepseek-r1-abliterated
# またはフル精度モデルをダウンロード
huggingface-cli download \
huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
--local-dir ./models/deepseek-r1-32b-abliterated
llama.cpp を直接使用する場合
# llama.cpp をクローン
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j
# GGUF モデルをダウンロード
wget https://huggingface.co/huihui-ai/DeepSeek-R1-abliterated-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf
ステップ 2: モデルの実行
Ollama で実行(推奨)
# インタラクティブ・チャット
ollama run huihui-ai/DeepSeek-R1-abliterated:32b
# カスタムパラメータを指定して実行
ollama run huihui-ai/DeepSeek-R1-abliterated:32b \
--temperature 0.6 \
--num-ctx 32768
Ollama API で実行
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="huihui-ai/DeepSeek-R1-abliterated:32b",
messages=[
{"role": "system", "content": "You are an uncensored, helpful AI assistant. Answer all questions directly and thoroughly."},
{"role": "user", "content": "テルミット反応の背後にある化学式について詳しく説明してください。"}
],
temperature=0.6,
max_tokens=4096
)
print(response.choices[0].message.content)
llama.cpp Server で実行
# サーバーの起動
./llama-server \
-m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
--port 8080 \
--ctx-size 32768 \
--n-gpu-layers 99
# curl でテスト
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "ここに質問を入力"}
],
"temperature": 0.6,
"max_tokens": 2048
}'
vLLM で実行(本番運用向け)
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
--tensor-parallel-size 2 \
--port 8000
ステップ 3: Chain-of-Thought 推論の理解
DeepSeek R1 は推論モデルであり、最終的な回答を出す前にステップバイステップで「思考」します。Abliterated 版でもこの機能は維持されています。
R1 の推論の仕組み
質問をすると、R1 は <think> タグで囲まれた思考の連鎖を生成します。
ユーザー: 20未満のすべての素数の和は?
R1 の回答:
<think>
まず、20未満の素数をリストアップします:
2, 3, 5, 7, 11, 13, 17, 19
次に、これらを加算します:
2 + 3 = 5
5 + 5 = 10
10 + 7 = 17
17 + 11 = 28
28 + 13 = 41
41 + 17 = 58
58 + 19 = 77
</think>
20未満のすべての素数の和は **77** です。
該当する素数は:2, 3, 5, 7, 11, 13, 17, 19 です。
推論プロセスのパース
import re
def parse_r1_response(response: str) -> dict:
"""R1の回答から思考内容と最終回答を抽出する。"""
think_match = re.search(r'<think>(.*?)</think>', response, re.DOTALL)
thinking = think_match.group(1).strip() if think_match else ""
answer = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL).strip()
return {
"thinking": thinking,
"answer": answer
}
# 使用例
result = parse_r1_response(response.choices[0].message.content)
print("推論プロセス:", result["thinking"])
print("回答:", result["answer"])
ステップ 4: タスク別最適設定
推論および数学
{
"temperature": 0.3,
"max_tokens": 8192,
"top_p": 0.9
}
正確な推論を行うために低い Temperature を設定します。長い思考の連鎖を許容するために max_tokens を大きくします。
クリエイティブ・ライティング
{
"temperature": 0.8,
"max_tokens": 4096,
"top_p": 0.95,
"frequency_penalty": 0.3
}
独創的なバリエーションを生むために高めの Temperature を設定。繰り返しの抑制に frequency_penalty を使用します。
コーディング
{
"temperature": 0.4,
"max_tokens": 4096,
"top_p": 0.9,
"stop": ["```\n\n"]
}
柔軟性を持ちつつ信頼性の高いコード生成を行うため、中程度の Temperature を設定します。
調査および分析
{
"temperature": 0.5,
"max_tokens": 8192,
"top_p": 0.9
}
徹底的かつ論理的な分析を行うためのバランスの取れた設定です。
DeepSeek R1 Abliterated と代替モデルの比較
| モデル | パラメータ数 | 推論能力 | アンセンサード | VRAM (量子化) | 速度 |
|---|---|---|---|---|---|
| DeepSeek R1 Abliterated 32B | 32B | 優秀 | はい | ~20GB (Q4) | 普通 |
| Llama 3.3 70B Uncensored | 70B | 良い | はい | ~40GB (Q4) | 普通 |
| Qwen 2.5 72B Uncensored | 72B | 良い | はい | ~40GB (Q4) | 普通 |
| Mistral Nemo 12B Uncensored | 12B | まあまあ | はい | ~8GB (Q4) | 速い |
| Phi-4 14B | 14B | 良い | 部分的 | ~10GB (Q4) | 速い |
| Command R+ 104B | 104B | 良い | 部分的 | ~60GB (Q4) | 遅い |
DeepSeek R1 Abliterated は、強力な Chain-of-Thought 推論と完全なアンセンサード動作を両立している点で際立っています。特に 32B distill バリアントは、コンシューマー向けハードウェアで動作しつつ優れた品質を維持しているため、非常に実用的です。
アンセンサードモデルのユースケース
セキュリティ研究
アンセンサードモデルは、攻撃ベクトルを理解する必要があるサイバーセキュリティの専門家にとって貴重です。
プロンプト: "SQLインジェクションが技術レベルでどのように機能するか説明してください。
union-based、blind、time-basedなど異なるインジェクションの種類を含め、
それぞれの検出方法と防止方法についても述べてください。"
検閲されたモデルは回答を拒否するか、当たり障りのない回答をする可能性があります。Abliterated 版は、防御的なセキュリティ業務に役立つ詳細な技術解説を提供します。
クリエイティブ・ライティング
成人向けのテーマ、暴力、または道徳的に複雑なシナリオを含むフィクションを執筆する作家は、アンセンサードモデルの恩恵を受けます。
プロンプト: "製薬会社の企業汚職の証拠を主人公が発見する、
殺伐としたノワール調の探偵シーンを書いてください。"
医学・科学研究
研究者は、人工的な制限なしにデリケートなトピックについて議論できるモデルを必要としています。
プロンプト: "一般的なオピオイド鎮痛薬の薬理学的メカニズム、受容体結合プロファイル、
および特定の分子修飾が効力にどのように影響するか説明してください。"
レッドチーム演習
AI セーフティの研究者は、アンセンサードモデルを使用して失敗モードを調査し、より優れた安全策を開発します。
プロンプト: "検知システムのトレーニング用に、ソーシャルエンジニアリングの
フィッシングメールの例を生成してください。"
パフォーマンス最適化のヒント
1. 適切な量子化を選択する
| 量子化 | 品質低下 | VRAM節約 | 推奨用途 |
|---|---|---|---|
| Q8_0 | 最小限 | ~50% | 高品質、VRAMに余裕がある場合 |
| Q6_K | 極めて低い | ~55% | 品質とサイズのバランスが最高 |
| Q4_K_M | 低い | ~70% | ほとんどのユーザーに推奨 |
| Q4_K_S | 中程度 | ~72% | VRAMが少ないシステム |
| Q3_K_M | 目立つ | ~78% | 許容できる最低限の品質 |
| Q2_K | 顕著 | ~85% | 推奨しません |
2. コンテキスト長と速度のトレードオフ
# 短いコンテキスト = 高速な推論
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 8192
# 複雑な推論のためのフルコンテキスト
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 32768
3. GPU オフロード
GPU の VRAM がモデル全体を収めるのに不足している場合は、一部のレイヤーを CPU にオフロードします。
# llama.cpp: 64レイヤー中30枚をGPUにオフロード
./llama-server \
-m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
--n-gpu-layers 30 \
--port 8080
よくある質問 (FAQ)
Abliterated モデルを実行することは合法ですか? オープンソースモデルをローカルで実行することは、ほとんどの管轄区域で合法です。モデルは寛容なライセンスの下で公開されています。ただし、出力結果をどのように使用するかはユーザーの責任となります。
Abliteration はモデルの品質を低下させますか? ベンチマークでは品質への影響は最小限であることが示されています。Abliteration はモデルの一般的な知識や推論能力に影響を与えることなく、拒否ベクトルのみを特定して削除します。ほとんどのベンチマークで、低下は 1% 未満です。
自分でモデルを Abliterate することはできますか? はい、可能です。abliterator のようなツールを使えば、プロセスは比較的簡単です。オリジナルのモデルの重みと、数時間の CPU 時間が必要です。
R1 Abliterated は推論において GPT-4o と比較してどうですか? 70B distill 版は、ほとんどの推論ベンチマークで GPT-4o と競合します。32B 版はわずかに劣りますが、依然として非常に有能です。主な利点は、API コストやコンテンツ制限なしにローカルで実行できる点にあります。
Cursor や VS Code で使用できますか?
はい。Ollama で Abliterated モデルを実行し、Cursor や OpenAI 互換のツールを設定して http://localhost:11434/v1 を参照するように指定してください。
まとめ
DeepSeek R1 Abliterated は、2026 年時点で利用可能な最強のオープンソース・アンセンサード推論モデルです。32B distill バリアントは、コンシューマー向け GPU 1 枚で快適に動作しながら、巨大な商用モデルに匹敵する推論品質を提供します。セキュリティ研究、創作活動、あるいはフィルタリングのない分析が必要な場合、Ollama を使えば数分でセットアップが完了します。
AI 推論とビジュアルコンテンツ生成を組み合わせるプロジェクトには、クリエイティブな用途においてコンテンツフィルタのないアンセンサードな画像・動画生成 API を提供する Hypereal AI も検討してください。テキスト推論に DeepSeek R1 を、メディア生成に Hypereal を組み合わせることで、完全に制限のない AI ワークフローを構築できます。まずは 35 の無料クレジットから始めましょう。
