LM Studio:ローカルLLM推論の完全ガイド(2026年版)
クラウドへの依存を一切排除し、お使いのハードウェア上で強力なAIモデルを実行しましょう
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
LM Studio:ローカルLLM推論コンプリートガイド (2026年版)
LM Studioは、大規模言語モデル(LLM)を完全にローカルなハードウェア上でダウンロード、実行、および対話ができるデスクトップアプリケーションです。クラウドへの依存、APIキー、利用料は一切不要で、完全なプライバシーが保たれます。あなたのデータがマシンから外部へ出ることはありません。
2026年現在、ローカルLLMの推論は驚くほど実用的になりました。GGUFのような最適化された量子化フォーマットにより、一般的なコンシューマー向けハードウェアでも、多くのタスクにおいてクラウドAPIに匹敵するモデルを動かすことが可能です。このガイドでは、LM Studioのインストール、モデルの選択、設定、パフォーマンスの最適化、そしてAPIのセットアップまで、必要な知識を網羅しています。
LM Studioとは?
LM Studioは、macOS、Windows、Linuxに対応した無料のデスクトップアプリケーションであり、以下の機能を提供します:
- モデルの検索とダウンロード(Hugging Faceのブラウジング)
- モデルと対話するためのチャットUI
- OpenAI互換のローカルAPIサーバー
- モデル管理(ダウンロード、削除、整理)
- 設定可能な推論パラメータ(temperature、コンテキスト長、GPUレイヤー)
- GGUF、MLX、およびその他の量子化モデルフォーマットのサポート
なぜモデルをローカルで実行するのか?
| メリット | 詳細 |
|---|---|
| プライバシー | データがマシン外に出ることがない |
| コストゼロ | API使用料やサブスクリプションが不要 |
| レート制限なし | 好きなだけ使用可能 |
| オフライン | モデルのダウンロード後はインターネットなしで動作 |
| カスタマイズ性 | パラメータやシステムプロンプトを完全に制御可能 |
| スピード | ネットワーク遅延がない(GPU推論は非常に高速) |
システム要件
LM Studioは幅広いハードウェアで動作しますが、パフォーマンスはGPUメモリとシステムRAMの容量に大きく依存します。
最小要件
| コンポーネント | 最小構成 | 推奨構成 |
|---|---|---|
| OS | macOS 13+, Windows 10+, Ubuntu 22.04+ | 最新バージョン |
| RAM | 8 GB | 16-32 GB |
| GPU | 不要(CPUモード) | 8+ GB VRAM |
| ストレージ | 10 GBの空き容量 | 50+ GBの空き容量 |
| CPU | 64ビットCPU | Apple Silicon または最新の x86 |
GPUの互換性
| GPUタイプ | サポート状況 | 備考 |
|---|---|---|
| NVIDIA (CUDA) | フルサポート | Windows/Linuxで最高のパフォーマンス |
| Apple Silicon (Metal) | フルサポート | macOSで優れたパフォーマンス |
| AMD (ROCm/Vulkan) | 一部サポート | Linux ROCmは良好、WindowsはVulkan経由 |
| Intel Arc | 一部サポート | Vulkan経由でサポート改善中 |
| CPUのみ | サポートあり | 低速だが小型モデルなら動作可能 |
ステップ 1: LM Studioのインストール
macOS
# ウェブサイトからダウンロード
# https://lmstudio.ai にアクセスして .dmg ファイルをダウンロード
# または Homebrew 経由でインストール
brew install --cask lm-studio
Windows
lmstudio.ai からインストーラーをダウンロードして実行します。LM Studioはユーザーディレクトリにインストールされるため、管理者権限は不要です。
Linux
# lmstudio.ai から AppImage をダウンロード
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage
# または Flatpak を使用(利用可能な場合)
flatpak install flathub ai.lmstudio.LMStudio
ステップ 2: 最初のモデルをダウンロードする
LM Studioを起動した後、「Discover」タブを使用してモデルを検索し、ダウンロードします。
ハードウェア別推奨モデル (2026年)
| ハードウェア | モデル | サイズ | 品質 |
|---|---|---|---|
| 8 GB RAM (CPU) | Qwen 3 0.6B Q8 | 0.8 GB | 基本的なタスク |
| 16 GB RAM (CPU) | Llama 4 Scout 8B Q4_K_M | 5 GB | チャットに最適 |
| 8 GB VRAM | Qwen 3 14B Q4_K_M | 9 GB | 非常に良好 |
| 12 GB VRAM | Qwen 3 32B Q4_K_M | 19 GB | 優秀 |
| 16 GB VRAM | Llama 4 Scout 109B Q3_K_M | 14 GB | 優秀 |
| 24 GB VRAM (RTX 4090) | DeepSeek Coder V3 Q4_K_M | 18 GB | クラウド級の品質 |
| Apple M4 Pro 24GB | Qwen 3 32B Q4_K_M | 19 GB | 優秀 |
| Apple M4 Max 64GB | Llama 4 Maverick Q4_K_M | 55 GB | クラウド競合レベル |
モデルのダウンロード方法
- LM Studioの「Discover」タブを開く
- モデル名(例: "Qwen 3 14B")を検索する
- 希望するGGUF量子化を選択(Q4_K_M が標準的な推奨設定)
- 「Download」をクリック
- ダウンロード完了まで待機(モデルサイズは2GBから60GB以上まで様々)
量子化(Quantization)について
量子化は、品質をわずかに犠牲にすることでモデルサイズとメモリ使用量を削減する技術です。一般的なGGUF量子化レベルの目安は以下の通りです。
| 量子化 | ビット数 | サイズ(対FP16) | 品質への影響 |
|---|---|---|---|
| Q2_K | 2-bit | ~25% | 大幅な品質低下 |
| Q3_K_M | 3-bit | ~35% | 目に見える品質低下 |
| Q4_K_M | 4-bit | ~45% | 最小限の品質低下(推奨) |
| Q5_K_M | 5-bit | ~55% | ごくわずかな品質低下 |
| Q6_K | 6-bit | ~65% | ほぼロスレス |
| Q8_0 | 8-bit | ~85% | 事実上のロスレス |
| FP16 | 16-bit | 100% | オリジナル品質 |
Q4_K_M は、メモリ使用量をモデル本来の約半分に抑えつつ、品質低下を最小限にとどめる、ほとんどのユーザーにとっての「スイートスポット」です。
ステップ 3: モデルとチャットする
- 「Chat」タブを開く
- ドロップダウンからダウンロードしたモデルを選択
- メッセージの入力を開始
便利なチャット設定
| 設定 | デフォルト | 推奨値 | 目的 |
|---|---|---|---|
| Temperature | 0.7 | 0.1-0.3(コード), 0.7-0.9(クリエイティブ) | ランダム性の制御 |
| Context Length | 4096 | ハードウェアが許す最大値 | モデルが記憶できるテキスト量 |
| GPU Layers | Auto | すべて(VRAMが許す場合) | GPUで実行するレイヤー数 |
| System Prompt | なし | ユースケースに合わせて設定 | モデルの振る舞いを指示する |
システムプロンプトの例
コーディング支援用:
あなたは熟練したソフトウェアエンジニアです。クリーンで文書化されたコードを書いてください。
常にエラーハンドリングと型定義を含めてください。サードパーティの依存関係よりも
標準ライブラリを優先してください。論理的な思考プロセスを簡潔に説明してください。
文章作成支援用:
あなたはプロの編集者です。文章の明快さ、文法、構成の改善をサポートしてください。
一般的なアドバイスではなく、具体的な修正案を提示してください。
著者の意図やトーンを尊重してください。
ステップ 4: ローカルAPIサーバーを使用する
LM StudioにはOpenAI互換のAPIサーバーが搭載されています。これにより、Cursor、Continue、Cline、Aider、その他のカスタムアプリケーションなど、OpenAI API形式をサポートするあらゆるツールでローカルモデルを使用できます。
APIサーバーの起動
- 「Developer」タブ(または Local Server タブ)を開く
- モデルを選択
- 「Start Server」をクリック
- デフォルトでは
http://localhost:1234でサーバーが動作します
APIのテスト
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-14b",
"messages": [
{"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
{"role": "user", "content": "ネストされた辞書を平坦化するPython関数を書いてください。"}
],
"temperature": 0.2,
"max_tokens": 1000
}'
Pythonでの使用例
from openai import OpenAI
# LM Studioのローカルサーバーを指すように設定
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed" # LM StudioではAPIキーは不要
)
response = client.chat.completions.create(
model="qwen3-14b",
messages=[
{"role": "system", "content": "あなたは優秀なアシスタントです。"},
{"role": "user", "content": "HTTPキャッシュの仕組みについて説明してください。"}
],
temperature=0.3
)
print(response.choices[0].message.content)
Cursorとの連携
- Cursorを開き、Settings > Models に移動
- カスタムモデルを追加:
- API Key:
lm-studio(空でない任意の文字列) - Base URL:
http://localhost:1234/v1 - Model name: ロードしたモデルの名前
- API Key:
- Cursorのチャットまたはエージェントパネルでそのモデルを選択
Continue (VS Code) との連携
// ~/.continue/config.json
{
"models": [
{
"title": "LM Studio - Qwen 3 14B",
"provider": "openai",
"model": "qwen3-14b",
"apiBase": "http://localhost:1234/v1",
"apiKey": "not-needed"
}
]
}
Aider との連携
# LM StudioをバックエンドとしてAiderを使用
aider --model openai/qwen3-14b \
--openai-api-base http://localhost:1234/v1 \
--openai-api-key not-needed
ステップ 5: パフォーマンスの最適化
GPUオフロードの最大化
最も効果的なパフォーマンス設定はGPUオフロードです。VRAMが許容する最大数のGPUレイヤーを設定してください。
| モデルサイズ | 必要なGPU VRAM (Q4_K_M) | およその速度 |
|---|---|---|
| 7-8B | 5-6 GB | 30-60 tokens/sec |
| 14B | 9-10 GB | 20-40 tokens/sec |
| 32B | 19-22 GB | 10-25 tokens/sec |
| 70B | 40-45 GB | 5-15 tokens/sec |
コンテキスト長と速度の関係
コンテキストウィンドウを長くすると、メモリ使用量が増え、推論速度も低下します。実際のニーズに合わせてコンテキスト長を設定してください。
一般的なチャット: 4096-8192 tokens
コーディング支援: 8192-16384 tokens
ドキュメント分析: 16384-32768 tokens
大規模なコードベース: 32768-65536 tokens
メモリに関するヒント
- モデルをロードする前に他のアプリケーションを閉じ、RAMを解放する
- デフォルトとして Q4_K_M 量子化を使用する(品質とサイズのバランスが最適)
- モデルがVRAMにギリギリ入りきらない場合は、Q3_K_M を試してメモリを節約する
- Apple Silicon搭載モデルでは、ユニファイドメモリによりシステムRAMがCPUとGPU間で共有されます。32GB搭載のMacであれば、28-30GBを必要とするモデルもロード可能です。
LM Studio vs. Ollama
LM StudioとOllamaは、最も人気のある2つのローカル推論ツールです。比較は以下の通りです。
| 機能 | LM Studio | Ollama |
|---|---|---|
| インターフェース | GUI + API | CLI + API |
| モデル形式 | GGUF, MLX | GGUF (Modelfile経由) |
| モデル探索 | 内蔵ブラウザ | ollama pull |
| API互換性 | OpenAI互換 | OpenAI互換 |
| プラットフォーム | macOS, Windows, Linux | macOS, Windows, Linux |
| リソース使用量 | やや高い (Electron製) | 低い (CLI) |
| 使いやすさ | 初心者に最適 | CLIユーザーに最適 |
| 価格 | 無料 | 無料 |
モデルの検索、ダウンロード、管理にグラフィカルなインターフェースを好む場合は LM Studio を選んでください。CLIベースのワークフローを好み、リソース消費を最小限に抑えたい場合は Ollama を選んでください。
よくある質問 (FAQ)
LM Studioは無料ですか? はい、LM Studioは個人利用において完全に無料です。API利用料、サブスクリプション、使用制限もありません。
どのモデルから使い始めるべきですか? 16GBのRAMまたは8GB以上のVRAMがある場合は、Qwen 3 14B Q4_K_M からお試しください。特にコーディング目的であれば、DeepSeek Coder V3 や Qwen 2.5 Coder が推奨されます。
ローカルモデルはクラウドAPIの品質に匹敵しますか? 多くのタスクにおいて「はい」と言えます。適切に量子化された32Bや70Bの大規模モデルをローカルで実行すれば、コーディング、ライティング、分析においてGPT-4oに匹敵する出力を得られます。ただし、極めて難易度の高いタスクでは、クラウドモデル(GPT-5、Claude Opus 4など)に依然として優位性があります。
LM StudioをCursor/Cline/Aiderと一緒に使えますか? はい。LM StudioのOpenAI互換APIサーバーは、カスタムエンドポイントをサポートするあらゆるツールで動作します。設定例はステップ4を参照してください。
オフラインでも動作しますか? はい。モデルを一度ダウンロードすれば、LM Studioは完全にオフラインで動作します。推論にインターネット接続は必要ありません。
ディスク容量はどのくらい必要ですか? 小型の3Bモデルで約1GB、大型の70Bモデルで60GB以上と幅があります。複数のモデルを保持する場合は、10GBから50GB程度の空き容量を確保しておくことをお勧めします。
最後に
LM Studioは、ローカルLLM推論を誰にとっても身近なものにしました。お使いのハードウェアに適したモデルを選ぶことで、プライベートかつ無料、そしてオフラインで利用できる強力なAIアシスタントを手にすることができます。
AI生成の画像、ビデオ、オーディオなどの、よりクラウド級の能力を必要とするタスクについては、Hypereal AIを無料でお試しください。35クレジット提供中、クレジットカード不要です。LM Studioによるローカルのテキスト生成と、Hyperealのメディア生成用クラウドAPIを組み合わせることで、コストを抑えつつ強力なAIアプリケーションを構築することが可能です。
