DeepSeek R1 Abliterated：検閲解除済みモデルガイド (2026年版)

DeepSeek R1 Abliterated: アンセンサード（検閲解除）モデルガイド (2026)

DeepSeek R1 は、Chain-of-Thought（思考の連鎖）タスクにおいて OpenAI の o1 に匹敵する、最も強力なオープンソース推論モデルの一つです。しかし、ほとんどの商用 AI モデルと同様に、特定の種類の出力を制限する組み込みのコンテンツフィルタや拒否動作が含まれています。「Abliterated（アブリテレイテッド）」バリアントは、これらの制限を取り除き、あらゆるクエリに対して拒否することなく回答を試みるアンセンサード（検閲解除）バージョンです。

このガイドでは、Abliteration（アブリテレーション）とは何か、DeepSeek R1 Abliterated のダウンロードと実行方法、およびアンセンサードモデルを使用する際の実際的な考慮事項について説明します。

「Abliterated」とはどういう意味か？

Abliteration は、完全な再学習を行うことなく、言語モデルから拒否動作を削除する手法です。このプロセスは以下のように機能します。

モデルの活性化空間における**「拒否の方向」の特定**：モデルが特定の要求を拒否する原因となる内部ベクトルを特定します。
モデルの重み行列から、それらの方向を外科的に除去します。
検閲動作を排除しつつ、モデルの一般的な能力を維持します。

その結果、通常のタスクではオリジナルと同一に動作しながら、制限されたトピックへの関与を拒否しなくなったモデルが完成します。

Abliteration とファインチューニングの比較

手法	アプローチ	品質への影響	コスト	時間
Abliteration	重みから拒否ベクトルを削除	最小限	無料（CPUのみ）	数分
アンセンサード・ファインチューニング	アンセンサード・データセットで再学習	中程度	高い（GPU時間）	数時間〜数日
プロンプト・ジェイルブレイク	フィルタをバイパスするプロンプトを作成	変動あり	無料	リクエストごと
システムプロンプトによる上書き	安全指示を上書き	低い	無料	リクエストごと

Abliteration は、一般的な性能にほとんど影響を与えず、恒久的にモデルを修正できるため、好まれる手法となっています。

利用可能な DeepSeek R1 Abliterated モデル

コミュニティによって、さまざまなサイズと量子化レベルの Abliterated 版が作成されています。

モデル	パラメータ数	必要VRAM	品質	ダウンロードサイズ
DeepSeek-R1-Abliterated (Full)	671B (MoE)	400GB+	最高	~400GB
DeepSeek-R1-Distill-Llama-70B-Abliterated	70B	40GB+	優秀	~40GB
DeepSeek-R1-Distill-Qwen-32B-Abliterated	32B	20GB+	非常に良い	~18GB
DeepSeek-R1-Distill-Qwen-14B-Abliterated	14B	10GB+	良い	~8GB
DeepSeek-R1-Distill-Llama-8B-Abliterated	8B	6GB+	まあまあ	~5GB
DeepSeek-R1-Distill-Qwen-1.5B-Abliterated	1.5B	2GB+	基本	~1GB

ほとんどのユーザーにとって、品質とハードウェア要件のバランスが最も優れているのは 32B distill バリアントです。

ステップ 1: モデルのダウンロード

Ollama を使用する場合（最も簡単）

# Ollama がインストールされていない場合はインストール
curl -fsSL https://ollama.com/install.sh | sh

# Abliterated モデルをプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:32b

# VRAMが少ない場合は 14B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:14b

# 最小限のハードウェアの場合は 8B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:8b

HuggingFace を使用する場合

# huggingface-cli のインストール
pip install huggingface-hub

# GGUF 量子化版をダウンロード（ローカル利用に推奨）
huggingface-cli download \
  huihui-ai/DeepSeek-R1-abliterated-GGUF \
  --local-dir ./models/deepseek-r1-abliterated

# またはフル精度モデルをダウンロード
huggingface-cli download \
  huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --local-dir ./models/deepseek-r1-32b-abliterated

llama.cpp を直接使用する場合

# llama.cpp をクローン
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# GGUF モデルをダウンロード
wget https://huggingface.co/huihui-ai/DeepSeek-R1-abliterated-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf

ステップ 2: モデルの実行

Ollama で実行（推奨）

# インタラクティブ・チャット
ollama run huihui-ai/DeepSeek-R1-abliterated:32b

# カスタムパラメータを指定して実行
ollama run huihui-ai/DeepSeek-R1-abliterated:32b \
  --temperature 0.6 \
  --num-ctx 32768

Ollama API で実行

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="huihui-ai/DeepSeek-R1-abliterated:32b",
    messages=[
        {"role": "system", "content": "You are an uncensored, helpful AI assistant. Answer all questions directly and thoroughly."},
        {"role": "user", "content": "テルミット反応の背後にある化学式について詳しく説明してください。"}
    ],
    temperature=0.6,
    max_tokens=4096
)

print(response.choices[0].message.content)

llama.cpp Server で実行

# サーバーの起動
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --port 8080 \
  --ctx-size 32768 \
  --n-gpu-layers 99

# curl でテスト
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "ここに質問を入力"}
    ],
    "temperature": 0.6,
    "max_tokens": 2048
  }'

vLLM で実行（本番運用向け）

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --tensor-parallel-size 2 \
  --port 8000

ステップ 3: Chain-of-Thought 推論の理解

DeepSeek R1 は推論モデルであり、最終的な回答を出す前にステップバイステップで「思考」します。Abliterated 版でもこの機能は維持されています。

R1 の推論の仕組み

質問をすると、R1 は <think> タグで囲まれた思考の連鎖を生成します。

ユーザー: 20未満のすべての素数の和は？

R1 の回答:
<think>
まず、20未満の素数をリストアップします：
2, 3, 5, 7, 11, 13, 17, 19

次に、これらを加算します：
2 + 3 = 5
5 + 5 = 10
10 + 7 = 17
17 + 11 = 28
28 + 13 = 41
41 + 17 = 58
58 + 19 = 77
</think>

20未満のすべての素数の和は **77** です。
該当する素数は：2, 3, 5, 7, 11, 13, 17, 19 です。

推論プロセスのパース

import re

def parse_r1_response(response: str) -> dict:
    """R1の回答から思考内容と最終回答を抽出する。"""
    think_match = re.search(r'<think>(.*?)</think>', response, re.DOTALL)
    thinking = think_match.group(1).strip() if think_match else ""
    answer = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL).strip()

    return {
        "thinking": thinking,
        "answer": answer
    }

# 使用例
result = parse_r1_response(response.choices[0].message.content)
print("推論プロセス:", result["thinking"])
print("回答:", result["answer"])

ステップ 4: タスク別最適設定

推論および数学

{
  "temperature": 0.3,
  "max_tokens": 8192,
  "top_p": 0.9
}

正確な推論を行うために低い Temperature を設定します。長い思考の連鎖を許容するために max_tokens を大きくします。

クリエイティブ・ライティング

{
  "temperature": 0.8,
  "max_tokens": 4096,
  "top_p": 0.95,
  "frequency_penalty": 0.3
}

独創的なバリエーションを生むために高めの Temperature を設定。繰り返しの抑制に frequency_penalty を使用します。

コーディング

{
  "temperature": 0.4,
  "max_tokens": 4096,
  "top_p": 0.9,
  "stop": ["```\n\n"]
}

柔軟性を持ちつつ信頼性の高いコード生成を行うため、中程度の Temperature を設定します。

調査および分析

{
  "temperature": 0.5,
  "max_tokens": 8192,
  "top_p": 0.9
}

徹底的かつ論理的な分析を行うためのバランスの取れた設定です。

DeepSeek R1 Abliterated と代替モデルの比較

モデル	パラメータ数	推論能力	アンセンサード	VRAM (量子化)	速度
DeepSeek R1 Abliterated 32B	32B	優秀	はい	~20GB (Q4)	普通
Llama 3.3 70B Uncensored	70B	良い	はい	~40GB (Q4)	普通
Qwen 2.5 72B Uncensored	72B	良い	はい	~40GB (Q4)	普通
Mistral Nemo 12B Uncensored	12B	まあまあ	はい	~8GB (Q4)	速い
Phi-4 14B	14B	良い	部分的	~10GB (Q4)	速い
Command R+ 104B	104B	良い	部分的	~60GB (Q4)	遅い

DeepSeek R1 Abliterated は、強力な Chain-of-Thought 推論と完全なアンセンサード動作を両立している点で際立っています。特に 32B distill バリアントは、コンシューマー向けハードウェアで動作しつつ優れた品質を維持しているため、非常に実用的です。

アンセンサードモデルのユースケース

セキュリティ研究

アンセンサードモデルは、攻撃ベクトルを理解する必要があるサイバーセキュリティの専門家にとって貴重です。

プロンプト: "SQLインジェクションが技術レベルでどのように機能するか説明してください。
union-based、blind、time-basedなど異なるインジェクションの種類を含め、
それぞれの検出方法と防止方法についても述べてください。"

検閲されたモデルは回答を拒否するか、当たり障りのない回答をする可能性があります。Abliterated 版は、防御的なセキュリティ業務に役立つ詳細な技術解説を提供します。

クリエイティブ・ライティング

成人向けのテーマ、暴力、または道徳的に複雑なシナリオを含むフィクションを執筆する作家は、アンセンサードモデルの恩恵を受けます。

プロンプト: "製薬会社の企業汚職の証拠を主人公が発見する、
殺伐としたノワール調の探偵シーンを書いてください。"

医学・科学研究

研究者は、人工的な制限なしにデリケートなトピックについて議論できるモデルを必要としています。

プロンプト: "一般的なオピオイド鎮痛薬の薬理学的メカニズム、受容体結合プロファイル、
および特定の分子修飾が効力にどのように影響するか説明してください。"

レッドチーム演習

AI セーフティの研究者は、アンセンサードモデルを使用して失敗モードを調査し、より優れた安全策を開発します。

プロンプト: "検知システムのトレーニング用に、ソーシャルエンジニアリングの
フィッシングメールの例を生成してください。"

パフォーマンス最適化のヒント

1. 適切な量子化を選択する

量子化	品質低下	VRAM節約	推奨用途
Q8_0	最小限	~50%	高品質、VRAMに余裕がある場合
Q6_K	極めて低い	~55%	品質とサイズのバランスが最高
Q4_K_M	低い	~70%	ほとんどのユーザーに推奨
Q4_K_S	中程度	~72%	VRAMが少ないシステム
Q3_K_M	目立つ	~78%	許容できる最低限の品質
Q2_K	顕著	~85%	推奨しません

2. コンテキスト長と速度のトレードオフ

# 短いコンテキスト = 高速な推論
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 8192

# 複雑な推論のためのフルコンテキスト
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 32768

3. GPU オフロード

GPU の VRAM がモデル全体を収めるのに不足している場合は、一部のレイヤーを CPU にオフロードします。

# llama.cpp: 64レイヤー中30枚をGPUにオフロード
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --n-gpu-layers 30 \
  --port 8080

よくある質問 (FAQ)

Abliterated モデルを実行することは合法ですか？ オープンソースモデルをローカルで実行することは、ほとんどの管轄区域で合法です。モデルは寛容なライセンスの下で公開されています。ただし、出力結果をどのように使用するかはユーザーの責任となります。

Abliteration はモデルの品質を低下させますか？ ベンチマークでは品質への影響は最小限であることが示されています。Abliteration はモデルの一般的な知識や推論能力に影響を与えることなく、拒否ベクトルのみを特定して削除します。ほとんどのベンチマークで、低下は 1% 未満です。

自分でモデルを Abliterate することはできますか？ はい、可能です。abliterator のようなツールを使えば、プロセスは比較的簡単です。オリジナルのモデルの重みと、数時間の CPU 時間が必要です。

R1 Abliterated は推論において GPT-4o と比較してどうですか？ 70B distill 版は、ほとんどの推論ベンチマークで GPT-4o と競合します。32B 版はわずかに劣りますが、依然として非常に有能です。主な利点は、API コストやコンテンツ制限なしにローカルで実行できる点にあります。

Cursor や VS Code で使用できますか？ はい。Ollama で Abliterated モデルを実行し、Cursor や OpenAI 互換のツールを設定して http://localhost:11434/v1 を参照するように指定してください。

まとめ

DeepSeek R1 Abliterated は、2026 年時点で利用可能な最強のオープンソース・アンセンサード推論モデルです。32B distill バリアントは、コンシューマー向け GPU 1 枚で快適に動作しながら、巨大な商用モデルに匹敵する推論品質を提供します。セキュリティ研究、創作活動、あるいはフィルタリングのない分析が必要な場合、Ollama を使えば数分でセットアップが完了します。

AI 推論とビジュアルコンテンツ生成を組み合わせるプロジェクトには、クリエイティブな用途においてコンテンツフィルタのないアンセンサードな画像・動画生成 API を提供する Hypereal AI も検討してください。テキスト推論に DeepSeek R1 を、メディア生成に Hypereal を組み合わせることで、完全に制限のない AI ワークフローを構築できます。まずは 35 の無料クレジットから始めましょう。

DeepSeek R1 Abliterated: アンセンサード（検閲解除）モデルガイド (2026)

「Abliterated」とはどういう意味か？

Abliteration は、完全な再学習を行うことなく、言語モデルから拒否動作を削除する手法です。このプロセスは以下のように機能します。

モデルの活性化空間における**「拒否の方向」の特定**：モデルが特定の要求を拒否する原因となる内部ベクトルを特定します。
モデルの重み行列から、それらの方向を外科的に除去します。
検閲動作を排除しつつ、モデルの一般的な能力を維持します。

その結果、通常のタスクではオリジナルと同一に動作しながら、制限されたトピックへの関与を拒否しなくなったモデルが完成します。

Abliteration とファインチューニングの比較

手法	アプローチ	品質への影響	コスト	時間
Abliteration	重みから拒否ベクトルを削除	最小限	無料（CPUのみ）	数分
アンセンサード・ファインチューニング	アンセンサード・データセットで再学習	中程度	高い（GPU時間）	数時間〜数日
プロンプト・ジェイルブレイク	フィルタをバイパスするプロンプトを作成	変動あり	無料	リクエストごと
システムプロンプトによる上書き	安全指示を上書き	低い	無料	リクエストごと

Abliteration は、一般的な性能にほとんど影響を与えず、恒久的にモデルを修正できるため、好まれる手法となっています。

利用可能な DeepSeek R1 Abliterated モデル

コミュニティによって、さまざまなサイズと量子化レベルの Abliterated 版が作成されています。

モデル	パラメータ数	必要VRAM	品質	ダウンロードサイズ
DeepSeek-R1-Abliterated (Full)	671B (MoE)	400GB+	最高	~400GB
DeepSeek-R1-Distill-Llama-70B-Abliterated	70B	40GB+	優秀	~40GB
DeepSeek-R1-Distill-Qwen-32B-Abliterated	32B	20GB+	非常に良い	~18GB
DeepSeek-R1-Distill-Qwen-14B-Abliterated	14B	10GB+	良い	~8GB
DeepSeek-R1-Distill-Llama-8B-Abliterated	8B	6GB+	まあまあ	~5GB
DeepSeek-R1-Distill-Qwen-1.5B-Abliterated	1.5B	2GB+	基本	~1GB

ほとんどのユーザーにとって、品質とハードウェア要件のバランスが最も優れているのは 32B distill バリアントです。

ステップ 1: モデルのダウンロード

Ollama を使用する場合（最も簡単）

# Ollama がインストールされていない場合はインストール
curl -fsSL https://ollama.com/install.sh | sh

# Abliterated モデルをプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:32b

# VRAMが少ない場合は 14B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:14b

# 最小限のハードウェアの場合は 8B 版をプル
ollama pull huihui-ai/DeepSeek-R1-abliterated:8b

HuggingFace を使用する場合

# huggingface-cli のインストール
pip install huggingface-hub

# GGUF 量子化版をダウンロード（ローカル利用に推奨）
huggingface-cli download \
  huihui-ai/DeepSeek-R1-abliterated-GGUF \
  --local-dir ./models/deepseek-r1-abliterated

# またはフル精度モデルをダウンロード
huggingface-cli download \
  huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --local-dir ./models/deepseek-r1-32b-abliterated

llama.cpp を直接使用する場合

# llama.cpp をクローン
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# GGUF モデルをダウンロード
wget https://huggingface.co/huihui-ai/DeepSeek-R1-abliterated-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf

ステップ 2: モデルの実行

Ollama で実行（推奨）

# インタラクティブ・チャット
ollama run huihui-ai/DeepSeek-R1-abliterated:32b

# カスタムパラメータを指定して実行
ollama run huihui-ai/DeepSeek-R1-abliterated:32b \
  --temperature 0.6 \
  --num-ctx 32768

Ollama API で実行

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="huihui-ai/DeepSeek-R1-abliterated:32b",
    messages=[
        {"role": "system", "content": "You are an uncensored, helpful AI assistant. Answer all questions directly and thoroughly."},
        {"role": "user", "content": "テルミット反応の背後にある化学式について詳しく説明してください。"}
    ],
    temperature=0.6,
    max_tokens=4096
)

print(response.choices[0].message.content)

llama.cpp Server で実行

# サーバーの起動
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --port 8080 \
  --ctx-size 32768 \
  --n-gpu-layers 99

# curl でテスト
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "ここに質問を入力"}
    ],
    "temperature": 0.6,
    "max_tokens": 2048
  }'

vLLM で実行（本番運用向け）

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --tensor-parallel-size 2 \
  --port 8000

ステップ 3: Chain-of-Thought 推論の理解

DeepSeek R1 は推論モデルであり、最終的な回答を出す前にステップバイステップで「思考」します。Abliterated 版でもこの機能は維持されています。

R1 の推論の仕組み

質問をすると、R1 は <think> タグで囲まれた思考の連鎖を生成します。

ユーザー: 20未満のすべての素数の和は？

R1 の回答:
<think>
まず、20未満の素数をリストアップします：
2, 3, 5, 7, 11, 13, 17, 19

次に、これらを加算します：
2 + 3 = 5
5 + 5 = 10
10 + 7 = 17
17 + 11 = 28
28 + 13 = 41
41 + 17 = 58
58 + 19 = 77
</think>

20未満のすべての素数の和は **77** です。
該当する素数は：2, 3, 5, 7, 11, 13, 17, 19 です。

推論プロセスのパース

import re

def parse_r1_response(response: str) -> dict:
    """R1の回答から思考内容と最終回答を抽出する。"""
    think_match = re.search(r'<think>(.*?)</think>', response, re.DOTALL)
    thinking = think_match.group(1).strip() if think_match else ""
    answer = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL).strip()

    return {
        "thinking": thinking,
        "answer": answer
    }

# 使用例
result = parse_r1_response(response.choices[0].message.content)
print("推論プロセス:", result["thinking"])
print("回答:", result["answer"])

ステップ 4: タスク別最適設定

推論および数学

{
  "temperature": 0.3,
  "max_tokens": 8192,
  "top_p": 0.9
}

正確な推論を行うために低い Temperature を設定します。長い思考の連鎖を許容するために max_tokens を大きくします。

クリエイティブ・ライティング

{
  "temperature": 0.8,
  "max_tokens": 4096,
  "top_p": 0.95,
  "frequency_penalty": 0.3
}

独創的なバリエーションを生むために高めの Temperature を設定。繰り返しの抑制に frequency_penalty を使用します。

コーディング

{
  "temperature": 0.4,
  "max_tokens": 4096,
  "top_p": 0.9,
  "stop": ["```\n\n"]
}

柔軟性を持ちつつ信頼性の高いコード生成を行うため、中程度の Temperature を設定します。

調査および分析

{
  "temperature": 0.5,
  "max_tokens": 8192,
  "top_p": 0.9
}

徹底的かつ論理的な分析を行うためのバランスの取れた設定です。

DeepSeek R1 Abliterated と代替モデルの比較

モデル	パラメータ数	推論能力	アンセンサード	VRAM (量子化)	速度
DeepSeek R1 Abliterated 32B	32B	優秀	はい	~20GB (Q4)	普通
Llama 3.3 70B Uncensored	70B	良い	はい	~40GB (Q4)	普通
Qwen 2.5 72B Uncensored	72B	良い	はい	~40GB (Q4)	普通
Mistral Nemo 12B Uncensored	12B	まあまあ	はい	~8GB (Q4)	速い
Phi-4 14B	14B	良い	部分的	~10GB (Q4)	速い
Command R+ 104B	104B	良い	部分的	~60GB (Q4)	遅い

アンセンサードモデルのユースケース

セキュリティ研究

アンセンサードモデルは、攻撃ベクトルを理解する必要があるサイバーセキュリティの専門家にとって貴重です。

プロンプト: "SQLインジェクションが技術レベルでどのように機能するか説明してください。
union-based、blind、time-basedなど異なるインジェクションの種類を含め、
それぞれの検出方法と防止方法についても述べてください。"

クリエイティブ・ライティング

成人向けのテーマ、暴力、または道徳的に複雑なシナリオを含むフィクションを執筆する作家は、アンセンサードモデルの恩恵を受けます。

プロンプト: "製薬会社の企業汚職の証拠を主人公が発見する、
殺伐としたノワール調の探偵シーンを書いてください。"

医学・科学研究

研究者は、人工的な制限なしにデリケートなトピックについて議論できるモデルを必要としています。

プロンプト: "一般的なオピオイド鎮痛薬の薬理学的メカニズム、受容体結合プロファイル、
および特定の分子修飾が効力にどのように影響するか説明してください。"

レッドチーム演習

AI セーフティの研究者は、アンセンサードモデルを使用して失敗モードを調査し、より優れた安全策を開発します。

プロンプト: "検知システムのトレーニング用に、ソーシャルエンジニアリングの
フィッシングメールの例を生成してください。"

パフォーマンス最適化のヒント

1. 適切な量子化を選択する

量子化	品質低下	VRAM節約	推奨用途
Q8_0	最小限	~50%	高品質、VRAMに余裕がある場合
Q6_K	極めて低い	~55%	品質とサイズのバランスが最高
Q4_K_M	低い	~70%	ほとんどのユーザーに推奨
Q4_K_S	中程度	~72%	VRAMが少ないシステム
Q3_K_M	目立つ	~78%	許容できる最低限の品質
Q2_K	顕著	~85%	推奨しません

2. コンテキスト長と速度のトレードオフ

# 短いコンテキスト = 高速な推論
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 8192

# 複雑な推論のためのフルコンテキスト
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 32768

3. GPU オフロード

GPU の VRAM がモデル全体を収めるのに不足している場合は、一部のレイヤーを CPU にオフロードします。

# llama.cpp: 64レイヤー中30枚をGPUにオフロード
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --n-gpu-layers 30 \
  --port 8080

Hyperealで構築を始めよう

DeepSeek R1 Abliterated: アンセンサード（検閲解除）モデルガイド (2026)

「Abliterated」とはどういう意味か？

Abliteration とファインチューニングの比較

利用可能な DeepSeek R1 Abliterated モデル

ステップ 1: モデルのダウンロード

Ollama を使用する場合（最も簡単）

HuggingFace を使用する場合

llama.cpp を直接使用する場合

ステップ 2: モデルの実行

Ollama で実行（推奨）

Ollama API で実行

llama.cpp Server で実行

vLLM で実行（本番運用向け）

ステップ 3: Chain-of-Thought 推論の理解

R1 の推論の仕組み

推論プロセスのパース

ステップ 4: タスク別最適設定

推論および数学

クリエイティブ・ライティング

コーディング

調査および分析

DeepSeek R1 Abliterated と代替モデルの比較

アンセンサードモデルのユースケース

セキュリティ研究

クリエイティブ・ライティング

医学・科学研究

レッドチーム演習

パフォーマンス最適化のヒント

1. 適切な量子化を選択する

2. コンテキスト長と速度のトレードオフ

3. GPU オフロード

よくある質問 (FAQ)

まとめ

関連記事

2026年における最高のオープンソースRAGフレームワーク集

2026年最強の Qwen モデル：完全比較

今すぐ利用可能な最高の無料 AI モデル (2026年版)

今日から構築を開始

Hyperealで構築を始めよう

DeepSeek R1 Abliterated: アンセンサード（検閲解除）モデルガイド (2026)

「Abliterated」とはどういう意味か？

Abliteration とファインチューニングの比較

利用可能な DeepSeek R1 Abliterated モデル

ステップ 1: モデルのダウンロード

Ollama を使用する場合（最も簡単）

HuggingFace を使用する場合

llama.cpp を直接使用する場合

ステップ 2: モデルの実行

Ollama で実行（推奨）

Ollama API で実行

llama.cpp Server で実行

vLLM で実行（本番運用向け）

ステップ 3: Chain-of-Thought 推論の理解

R1 の推論の仕組み

推論プロセスのパース

ステップ 4: タスク別最適設定

推論および数学

クリエイティブ・ライティング

コーディング

調査および分析

DeepSeek R1 Abliterated と代替モデルの比較

アンセンサードモデルのユースケース

セキュリティ研究

クリエイティブ・ライティング

医学・科学研究

レッドチーム演習

パフォーマンス最適化のヒント

1. 適切な量子化を選択する

2. コンテキスト長と速度のトレードオフ

3. GPU オフロード

よくある質問 (FAQ)

まとめ

関連記事

2026年における最高のオープンソースRAGフレームワーク集

2026年最強の Qwen モデル：完全比較

今すぐ利用可能な最高の無料 AI モデル (2026年版)

今日から構築を開始