開源 AI 模型本地部署 Google AI 2026年6月4日

Gemma 4 12B 繁中完整教學 2026：Google 多模態 AI 本地安裝、與 Llama 4 比較、免費自架指南

Q: 如何在台灣用 Ollama 安裝 Gemma 4 12B？

安裝非常簡單：先安裝 Ollama（ollama.com），然後執行 `ollama pull gemma4:12b`，等待下載完成後執行 `ollama run gemma4:12b` 即可開始使用。整個過程約 5-10 分鐘（取決於網路速度），無需任何 API 金鑰。

Google 今日釋出 Gemma 4——新一代統一多模態開源模型，12B 參數版本可在 16GB RAM 的消費級筆電直接運行，支援圖像輸入、128K context、原生 agentic 工作流，免費商用。這篇文章帶你從零到完整部署，10 分鐘上手。

16GB

RAM 即可本地運行
MacBook M2/M3 直接跑

128K

Context Window
Gemma 3 的 4 倍

商用授權

免費下載，可商業使用
Gemma License

2026 年的開源 AI 模型競爭已到了白熱化的階段：Meta 的 Llama 4、Mistral 的 Magistral、Microsoft 的 Phi-4……每一家大廠都在搶佔開源市場。而 Google 今日的 Gemma 4 發布，是這場競賽中分量最重的一張牌之一。

對台灣工程師和開發者來說，Gemma 4 12B 的意義在於：

硬體門檻破歷史低點： 16GB RAM 的 MacBook 就能跑，消費級 GPU 也行
真正的多模態： 文字 + 圖像輸入，一個模型解決多種需求
Agentic 原生支援： Function Calling 強化，直接整合 Claude Code / OpenCode 工作流
零費用： 免費下載、免費商用，不需 API 金鑰

🧠 Gemma 4 12B 是什麼？架構重點解析

Gemma 4 是 Google DeepMind 的第四代開源模型系列，Gemma 4 12B 是其中最適合本地部署的版本。相較前代，有幾個關鍵架構升級：

五大核心升級

🖼️ 統一多模態架構

Gemma 4 首次採用 encoder-free 多模態設計，將視覺理解直接整合進語言模型主幹，不再是「視覺 adapter + 語言模型」的拼接架構。這意味著圖像和文字的理解更深度融合。

⚡ MTP 解碼（Multi-Token Prediction）

Gemma 4 導入 MTP 技術，每次解碼可預測多個 token，生成速度比傳統 autoregressive 方式顯著提升。Hugging Face CEO 背書此項技術為「推理效率的里程碑」。

🤖 Agentic 工作流原生支援

Gemma 4 的 Function Calling 和工具使用能力大幅強化，可直接用於 OpenCode、Hermes Agent、n8n 等 agent 框架，作為本地免費的 LLM 後端。

📚 128K Context Window

128,000 tokens 的 context，相當於約 200 頁 Word 文件或 10,000 行代碼，讓大型 codebase 分析、長文件摘要一次完成，不需要拆段處理。

🎯 針對 AI Agent 優化（新增）

Gemma 4 是 Google 首款明確針對 agentic 工作流設計的開源模型。官方文件指出，12B 版本在 BFCL（Berkeley Function Calling Leaderboard）上表現超越多個 70B 級別的開源競品，在「工具使用準確率」上接近 Claude 3.5 Sonnet 的水準。

💻 硬體需求：你的電腦跑得動嗎？

✅ 順暢運行

MacBook M2/M3/M4 Pro (16GB+)
MacBook Air M3 16GB
RTX 3090 / 4080 (24GB VRAM)
RTX 4070 Ti (12GB VRAM) + Q4量化

⚠️ 可運行（較慢）

MacBook M1/M2 Base (8GB)
RTX 3070 (8GB VRAM) + Q4量化
CPU 推理（16GB RAM，慢但可用）
Intel i9 + 32GB RAM（純CPU）

❌ 建議用雲端

MacBook Air M1 (8GB)
8GB VRAM GPU（fp16精度）
低於 16GB RAM 的電腦
→ 建議用 DigitalOcean GPU Droplet

* Q4 量化 = 4-bit 量化，犧牲少量精度換取 50% 記憶體節省。對大多數應用場景影響不明顯。

☁️ 硬體不夠？用雲端 GPU 跑 Gemma 4 12B

DigitalOcean GPU Droplet（H100/A100）讓你用雲端算力運行 Gemma 4 全精度版本，免去本地硬體限制。新帳號 $200 免費額度，夠跑幾十個小時 GPU 推理。

🚀 DigitalOcean 免費 $200 額度 →

新帳號 60 天內使用，GPU Droplet 從 $2.99/小時起

🚀 安裝教學：三種方式，按需求選擇

方法一：Ollama（推薦，最簡單）

Ollama 是目前本地運行開源 LLM 最友善的方式，macOS / Linux / Windows 全支援，一行指令搞定。

1 安裝 Ollama

# macOS（推薦方式）

brew install ollama

# Linux（一行安裝）

curl -fsSL https://ollama.com/install.sh | sh

# Windows：從 ollama.com 下載安裝包

2 下載 Gemma 4 12B 模型

# 標準版（需要約 8GB 磁碟空間）

ollama pull gemma4:12b

# Q4量化版（約 7GB，適合 8GB VRAM 以下）

ollama pull gemma4:12b-q4_0

# 多模態版（支援圖像輸入，約 9GB）

ollama pull gemma4:12b-vision

3 啟動對話

# 互動對話模式

ollama run gemma4:12b

# 測試一下（多模態，輸入圖片）

ollama run gemma4:12b-vision "描述這張圖片的內容" --image ./screenshot.png

# 啟動本地 API 服務（可讓 OpenCode/其他工具呼叫）

ollama serve

API 會啟動在 http://localhost:11434，相容 OpenAI API 格式。

方法二：Hugging Face Transformers（開發者適用）

# 安裝依賴

pip install transformers torch accelerate

# Python 載入 Gemma 4 12B

from transformers import AutoTokenizer, AutoModelForCausalLM

import torch

model_id = "google/gemma-4-12b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(

    model_id,

    torch_dtype=torch.bfloat16,

    device_map="auto"  # 自動分配 CPU/GPU

)

messages = [{"role": "user", "content": "用繁體中文解釋什麼是 LLM"}]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)

output = model.generate(input_ids, max_new_tokens=512)

print(tokenizer.decode(output[0][input_ids.shape[-1]:])

方法三：LM Studio（無需命令列，GUI 操作）

如果你不習慣終端機，LM Studio 提供圖形化介面，可直接從 Hugging Face 搜尋並下載 Gemma 4 12B，點幾下就完成。從 lmstudio.ai 下載後，搜尋 google/gemma-4-12b-it-gguf 即可。

🔗 整合 OpenCode / Hermes Agent（本地免費 LLM 後端）

Gemma 4 最實際的應用場景之一：作為 OpenCode 或 Hermes Agent 的本地 LLM 後端，讓你的 AI 編碼工具完全脫離 API 費用。

OpenCode + Gemma 4（零費用 AI 編碼）

# 先啟動 Ollama 服務（確保 Gemma 4 已下載）

ollama serve

# 設定 OpenCode 使用 Ollama 的 Gemma 4

export OPENAI_API_BASE="http://localhost:11434/v1"

export OPENAI_API_KEY="ollama"  # 隨意設定，ollama 不驗證

# 啟動 OpenCode，選擇 Gemma 4

opencode --model ollama/gemma4:12b

# 或在 opencode 互動介面中切換模型

opencode  # 然後輸入 /model ollama/gemma4:12b

n8n Workflow 整合（自動化 AI 任務）

# n8n 的 Ollama node 設定

Host: http://localhost:11434

Model: gemma4:12b

# 或多模態任務用

Model: gemma4:12b-vision

# 這樣 n8n 所有 AI 節點都使用本地 Gemma 4，零 API 費用

📊 Gemma 4 12B vs Llama 4 Scout vs Mistral Magistral 比較表

比較項目	🟦 Gemma 4 12B	🟧 Llama 4 Scout 17B	🟩 Mistral Magistral 8B
參數數量	12B（dense）	17B（MoE，激活 3.4B）	8B（dense）
Context Window	128K tokens	128K tokens	32K tokens
多模態	✅ 文字 + 圖像	✅ 文字 + 圖像	❌ 純文字
最低 VRAM	8GB（Q4量化）	10GB（Q4量化）	5GB（Q4量化）
代碼生成（HumanEval）	88.4%	85.1%	82.7%
數學推理（MATH）	76.2%	73.8%	71.4%
Function Calling	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
繁中支援	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
推理速度（MTP）	最快（MTP加速）	快（MoE稀疏）	中
商業授權	✅ Gemma License（免費商用）	✅ Llama 4 License	✅ Apache 2.0
Ollama 支援	✅ 今日上架	✅ 已支援	✅ 已支援
Agentic 優化	⭐⭐⭐⭐⭐（官方設計重點）	⭐⭐⭐⭐	⭐⭐⭐

* 基準測試數據來自 Hugging Face Open LLM Leaderboard 及 Google 官方技術報告（2026-06-04）。

🎯 Gemma 4 12B 最適合哪些應用場景？

✅ 最適合：代碼輔助

HumanEval 88.4%，超越 Llama 4 Scout
Function Calling 最強，適合工具整合
可作為 OpenCode/Cursor 的本地後端
128K context 讀完整個 repo

✅ 最適合：文件分析 + 多模態

PDF 截圖 → 文字摘要一步完成
分析設計稿、截圖、流程圖
128K context 處理長篇文件
結合 liteparse 做 RAG 管線

✅ 最適合：本地 AI Agent

n8n + Gemma 4 = 零 API 費用自動化
agentic 工作流原生支援
資料隱私場景（企業內網）
離線環境部署（不需網路）

⚠️ 相對較弱：純繁中寫作

繁中長文寫作不如 Claude/GPT-4o
台灣在地知識有落差
建議配合 Prompt 工程補強
或切回 Claude API 處理繁中任務

🎓 想系統學習本地 AI 部署和 LLM 工程？

DataCamp 的 AI Engineering 課程涵蓋本地 LLM 部署、RAG 管線建構、Agent 工具整合，正是 Gemma 4 這類場景的完整知識體系。

📚 DataCamp AI Engineering 課程 →

含 LLM Fine-tuning、RAG Pipeline、AI Agent 實戰課程

💡 實戰：Gemma 4 的三個殺手級應用範例

應用一：截圖 → 自動生成 PRD（產品需求文件）

# 輸入：產品截圖 → 輸出：完整 PRD

ollama run gemma4:12b-vision \

  "根據這個 App 截圖，幫我撰寫一份完整的 PRD，包含功能說明、用戶故事、驗收條件，用繁體中文。" \

  --image ./app_screenshot.png

應用二：整個 repo 的代碼審查（128K context 優勢）

# 將整個 repo 打包給 Gemma 4 一次審查

find . -name "*.ts" -o -name "*.tsx" | xargs cat | \

ollama run gemma4:12b "請審查以下代碼，指出安全漏洞、性能問題和改進建議，用繁體中文：\n$(cat)"

應用三：n8n 本地 AI 工作流（零費用）

# n8n workflow 節點設定（JSON 片段）

{

  "type": "n8n-nodes-base.ollama",

  "parameters": {

    "model": "gemma4:12b",

    "prompt": "{{ $json.userInput }}"

  }

}

# 完全本地，零 API 費用，適合每日自動化任務

📈 台灣工程師費用試算：本地 vs 雲端 API

情境	本地 Gemma 4 12B	Claude API（Sonnet）	GPT-4o API
每日 100 次對話（~500 tokens/次）	$0（電費忽略不計）	~$0.15/天（~$4.5/月）	~$0.25/天（~$7.5/月）
大量代碼審查（每日 10K tokens）	$0	~$0.30/天（~$9/月）	~$0.50/天（~$15/月）
多模態（每日 20 張圖片分析）	$0	~$0.40/天（~$12/月）	~$0.60/天（~$18/月）
年化費用（中度使用）	$0（硬體已有）	~$108/年	~$180/年
輸出品質	⭐⭐⭐⭐（代碼/英文強）	⭐⭐⭐⭐⭐（繁中最強）	⭐⭐⭐⭐⭐（繁中強）

結論： 代碼工作、自動化工作流、多模態任務 → 本地 Gemma 4 省最多。繁中長文寫作、需要最高品質推理 → 仍建議 Claude API。最佳策略是混搭：日常任務用 Gemma 4，高品質輸出需求用 Claude。

🔧 進階：Fine-tuning Gemma 4 12B（台灣繁中客製）

如果你需要 Gemma 4 更精通特定領域（台灣法律、台灣企業術語、特定代碼風格），可以用 Google 官方的 Gemma fine-tuning 工具對 12B 版本進行客製化。

# 安裝 Google 官方 fine-tuning 工具

pip install keras keras-nlp

# 載入 Gemma 4 12B 並開始 LoRA fine-tuning

import keras_nlp

gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma4_12b_en")

gemma_lm.backbone.enable_lora(rank=4)

# 準備繁中訓練資料（JSONL 格式）

# {"prompt": "問題", "response": "繁中回答"}

gemma_lm.compile(optimizer=..., loss=...)

gemma_lm.fit(your_zh_tw_dataset, epochs=3)

完整的 fine-tuning 教學和資料集準備，可以參考 DataCamp 的 LLM Fine-tuning 課程（連結在文末）。

❓ 台灣工程師最常問的 5 個問題

Q1：Gemma 4 12B 需要多少 RAM 才能本地運行？
Gemma 4 12B 的 Q4 量化版本需要約 8-10GB VRAM（GPU）或 16GB 系統 RAM（CPU 推理）。配備 16GB RAM 的 MacBook Pro M2/M3 可流暢運行。如果使用 fp16 精度，需要 24GB VRAM。

Q2：Gemma 4 12B 可以免費商業使用嗎？
是的。Gemma 4 採用 Gemma License，允許免費商業使用，包括建立商業產品、API 服務、應用程式。唯一限制是不能用來訓練其他大型語言模型，以及不能在超過 100 億月活躍用戶的平台上使用（這個門檻對絕大多數台灣開發者不構成障礙）。

Q3：Gemma 4 12B 和 Gemma 3 相比有哪些改進？
Gemma 4 最大的升級是架構重構：從文字專用模型變成統一多模態（文字+圖像輸入），新增 MTP（Multi-Token Prediction）解碼技術讓生成速度提升，原生支援 agentic 工作流，128K context window（Gemma 3 的 4 倍），並針對 Function Calling 和工具使用做了強化。

Q4：Gemma 4 12B 和 Llama 4 Scout 哪個比較好？
各有擅長。Gemma 4 12B 在代碼生成、數學推理、多模態理解上表現突出，且硬體需求較低（16GB RAM 可跑）。Llama 4 Scout 17B 的語言多樣性更好，但硬體需求更高。對台灣工程師來說，Gemma 4 12B 的硬體門檻更友善，是消費級筆電的首選開源模型。

Q5：如何在台灣用 Ollama 安裝 Gemma 4 12B？
先安裝 Ollama（ollama.com），然後執行 ollama pull gemma4:12b，等待下載完成後執行 ollama run gemma4:12b 即可開始使用。整個過程約 5-10 分鐘（取決於網路速度），無需任何 API 金鑰。

💎 OpenCode + Gemma 4 本地部署的最佳搭檔

Claude Code 工具包（kknad）內含最佳化的 CLAUDE.md 配置、自定義 Slash Commands，可直接套用到 OpenCode + Gemma 4 的本地工作流，讓你的 AI 編碼效率從第一天就到位。

🛍️ Claude Code / OpenCode 工具包（Gumroad）→

包含 CLAUDE.md 最佳配置、繁中 Prompt 模板、Agent Skills 選集

🗺️ Gemma 4 系列完整陣容（各版本選擇指南）

版本	參數	適合場景	最低硬體	Ollama 指令
Gemma 4 2B	2B	手機/嵌入式、快速原型	4GB RAM	`ollama pull gemma4:2b`
Gemma 4 9B	9B	輕量代碼輔助	8GB VRAM	`ollama pull gemma4:9b`
Gemma 4 12B ⭐推薦	12B	代碼 + 多模態 + Agent	16GB RAM	`ollama pull gemma4:12b`
Gemma 4 27B	27B	高品質推理、複雜任務	24GB VRAM	`ollama pull gemma4:27b`

對大多數台灣工程師而言，Gemma 4 12B 是甜蜜點：16GB RAM 的筆電就能跑，性能又遠超 9B 版本，多模態能力完整。

🔗 延伸閱讀

🆓 OpenCode vs Cursor vs Claude Code 繁中終極比較 2026（Gemma 4 作為 OpenCode 本地後端）
🦀 RTK Rust Token Killer：Claude Code 省 60-90% token 費用
🧠 DeepClaude：費用砍 17 倍的 Claude Code 替代後端
🤖 Hermes Agent vs OpenClaw：本地 AI Agent 完整比較
⚙️ n8n 自動化教學：結合本地 LLM 打造零費用工作流