Gemma 4 12B 繁中完整教學 2026:Google 多模態 AI 本地安裝、與 Llama 4 比較、免費自架指南
Google 今日釋出 Gemma 4——新一代統一多模態開源模型,12B 參數版本可在 16GB RAM 的消費級筆電直接運行,支援圖像輸入、128K context、原生 agentic 工作流,免費商用。這篇文章帶你從零到完整部署,10 分鐘上手。
MacBook M2/M3 直接跑
Gemma 3 的 4 倍
Gemma License
2026 年的開源 AI 模型競爭已到了白熱化的階段:Meta 的 Llama 4、Mistral 的 Magistral、Microsoft 的 Phi-4……每一家大廠都在搶佔開源市場。而 Google 今日的 Gemma 4 發布,是這場競賽中分量最重的一張牌之一。
對台灣工程師和開發者來說,Gemma 4 12B 的意義在於:
- 硬體門檻破歷史低點: 16GB RAM 的 MacBook 就能跑,消費級 GPU 也行
- 真正的多模態: 文字 + 圖像輸入,一個模型解決多種需求
- Agentic 原生支援: Function Calling 強化,直接整合 Claude Code / OpenCode 工作流
- 零費用: 免費下載、免費商用,不需 API 金鑰
🧠 Gemma 4 12B 是什麼?架構重點解析
Gemma 4 是 Google DeepMind 的第四代開源模型系列,Gemma 4 12B 是其中最適合本地部署的版本。相較前代,有幾個關鍵架構升級:
五大核心升級
🖼️ 統一多模態架構
Gemma 4 首次採用 encoder-free 多模態設計,將視覺理解直接整合進語言模型主幹,不再是「視覺 adapter + 語言模型」的拼接架構。這意味著圖像和文字的理解更深度融合。
⚡ MTP 解碼(Multi-Token Prediction)
Gemma 4 導入 MTP 技術,每次解碼可預測多個 token,生成速度比傳統 autoregressive 方式顯著提升。Hugging Face CEO 背書此項技術為「推理效率的里程碑」。
🤖 Agentic 工作流原生支援
Gemma 4 的 Function Calling 和工具使用能力大幅強化,可直接用於 OpenCode、Hermes Agent、n8n 等 agent 框架,作為本地免費的 LLM 後端。
📚 128K Context Window
128,000 tokens 的 context,相當於約 200 頁 Word 文件或 10,000 行代碼,讓大型 codebase 分析、長文件摘要一次完成,不需要拆段處理。
🎯 針對 AI Agent 優化(新增)
Gemma 4 是 Google 首款明確針對 agentic 工作流設計的開源模型。官方文件指出,12B 版本在 BFCL(Berkeley Function Calling Leaderboard)上表現超越多個 70B 級別的開源競品,在「工具使用準確率」上接近 Claude 3.5 Sonnet 的水準。
💻 硬體需求:你的電腦跑得動嗎?
MacBook Air M3 16GB
RTX 3090 / 4080 (24GB VRAM)
RTX 4070 Ti (12GB VRAM) + Q4量化
RTX 3070 (8GB VRAM) + Q4量化
CPU 推理(16GB RAM,慢但可用)
Intel i9 + 32GB RAM(純CPU)
8GB VRAM GPU(fp16精度)
低於 16GB RAM 的電腦
→ 建議用 DigitalOcean GPU Droplet
* Q4 量化 = 4-bit 量化,犧牲少量精度換取 50% 記憶體節省。對大多數應用場景影響不明顯。
DigitalOcean GPU Droplet(H100/A100)讓你用雲端算力運行 Gemma 4 全精度版本,免去本地硬體限制。新帳號 $200 免費額度,夠跑幾十個小時 GPU 推理。
🚀 DigitalOcean 免費 $200 額度 →🚀 安裝教學:三種方式,按需求選擇
方法一:Ollama(推薦,最簡單)
Ollama 是目前本地運行開源 LLM 最友善的方式,macOS / Linux / Windows 全支援,一行指令搞定。
1 安裝 Ollama
brew install ollama
# Linux(一行安裝)
curl -fsSL https://ollama.com/install.sh | sh
# Windows:從 ollama.com 下載安裝包
2 下載 Gemma 4 12B 模型
ollama pull gemma4:12b
# Q4量化版(約 7GB,適合 8GB VRAM 以下)
ollama pull gemma4:12b-q4_0
# 多模態版(支援圖像輸入,約 9GB)
ollama pull gemma4:12b-vision
3 啟動對話
ollama run gemma4:12b
# 測試一下(多模態,輸入圖片)
ollama run gemma4:12b-vision "描述這張圖片的內容" --image ./screenshot.png
# 啟動本地 API 服務(可讓 OpenCode/其他工具呼叫)
ollama serve
API 會啟動在 http://localhost:11434,相容 OpenAI API 格式。
方法二:Hugging Face Transformers(開發者適用)
pip install transformers torch accelerate
# Python 載入 Gemma 4 12B
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-12b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto" # 自動分配 CPU/GPU
)
messages = [{"role": "user", "content": "用繁體中文解釋什麼是 LLM"}]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=512)
print(tokenizer.decode(output[0][input_ids.shape[-1]:])
方法三:LM Studio(無需命令列,GUI 操作)
如果你不習慣終端機,LM Studio 提供圖形化介面,可直接從 Hugging Face 搜尋並下載 Gemma 4 12B,點幾下就完成。從 lmstudio.ai 下載後,搜尋 google/gemma-4-12b-it-gguf 即可。
🔗 整合 OpenCode / Hermes Agent(本地免費 LLM 後端)
Gemma 4 最實際的應用場景之一:作為 OpenCode 或 Hermes Agent 的本地 LLM 後端,讓你的 AI 編碼工具完全脫離 API 費用。
OpenCode + Gemma 4(零費用 AI 編碼)
ollama serve
# 設定 OpenCode 使用 Ollama 的 Gemma 4
export OPENAI_API_BASE="http://localhost:11434/v1"
export OPENAI_API_KEY="ollama" # 隨意設定,ollama 不驗證
# 啟動 OpenCode,選擇 Gemma 4
opencode --model ollama/gemma4:12b
# 或在 opencode 互動介面中切換模型
opencode # 然後輸入 /model ollama/gemma4:12b
n8n Workflow 整合(自動化 AI 任務)
Host: http://localhost:11434
Model: gemma4:12b
# 或多模態任務用
Model: gemma4:12b-vision
# 這樣 n8n 所有 AI 節點都使用本地 Gemma 4,零 API 費用
📊 Gemma 4 12B vs Llama 4 Scout vs Mistral Magistral 比較表
| 比較項目 | 🟦 Gemma 4 12B | 🟧 Llama 4 Scout 17B | 🟩 Mistral Magistral 8B |
|---|---|---|---|
| 參數數量 | 12B(dense) | 17B(MoE,激活 3.4B) | 8B(dense) |
| Context Window | 128K tokens | 128K tokens | 32K tokens |
| 多模態 | ✅ 文字 + 圖像 | ✅ 文字 + 圖像 | ❌ 純文字 |
| 最低 VRAM | 8GB(Q4量化) | 10GB(Q4量化) | 5GB(Q4量化) |
| 代碼生成(HumanEval) | 88.4% | 85.1% | 82.7% |
| 數學推理(MATH) | 76.2% | 73.8% | 71.4% |
| Function Calling | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 繁中支援 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 推理速度(MTP) | 最快(MTP加速) | 快(MoE稀疏) | 中 |
| 商業授權 | ✅ Gemma License(免費商用) | ✅ Llama 4 License | ✅ Apache 2.0 |
| Ollama 支援 | ✅ 今日上架 | ✅ 已支援 | ✅ 已支援 |
| Agentic 優化 | ⭐⭐⭐⭐⭐(官方設計重點) | ⭐⭐⭐⭐ | ⭐⭐⭐ |
* 基準測試數據來自 Hugging Face Open LLM Leaderboard 及 Google 官方技術報告(2026-06-04)。
🎯 Gemma 4 12B 最適合哪些應用場景?
✅ 最適合:代碼輔助
- HumanEval 88.4%,超越 Llama 4 Scout
- Function Calling 最強,適合工具整合
- 可作為 OpenCode/Cursor 的本地後端
- 128K context 讀完整個 repo
✅ 最適合:文件分析 + 多模態
- PDF 截圖 → 文字摘要一步完成
- 分析設計稿、截圖、流程圖
- 128K context 處理長篇文件
- 結合 liteparse 做 RAG 管線
✅ 最適合:本地 AI Agent
- n8n + Gemma 4 = 零 API 費用自動化
- agentic 工作流原生支援
- 資料隱私場景(企業內網)
- 離線環境部署(不需網路)
⚠️ 相對較弱:純繁中寫作
- 繁中長文寫作不如 Claude/GPT-4o
- 台灣在地知識有落差
- 建議配合 Prompt 工程補強
- 或切回 Claude API 處理繁中任務
DataCamp 的 AI Engineering 課程涵蓋本地 LLM 部署、RAG 管線建構、Agent 工具整合,正是 Gemma 4 這類場景的完整知識體系。
📚 DataCamp AI Engineering 課程 →💡 實戰:Gemma 4 的三個殺手級應用範例
應用一:截圖 → 自動生成 PRD(產品需求文件)
ollama run gemma4:12b-vision \
"根據這個 App 截圖,幫我撰寫一份完整的 PRD,包含功能說明、用戶故事、驗收條件,用繁體中文。" \
--image ./app_screenshot.png
應用二:整個 repo 的代碼審查(128K context 優勢)
find . -name "*.ts" -o -name "*.tsx" | xargs cat | \
ollama run gemma4:12b "請審查以下代碼,指出安全漏洞、性能問題和改進建議,用繁體中文:\n$(cat)"
應用三:n8n 本地 AI 工作流(零費用)
{
"type": "n8n-nodes-base.ollama",
"parameters": {
"model": "gemma4:12b",
"prompt": "{{ $json.userInput }}"
}
}
# 完全本地,零 API 費用,適合每日自動化任務
📈 台灣工程師費用試算:本地 vs 雲端 API
| 情境 | 本地 Gemma 4 12B | Claude API(Sonnet) | GPT-4o API |
|---|---|---|---|
| 每日 100 次對話(~500 tokens/次) | $0(電費忽略不計) | ~$0.15/天(~$4.5/月) | ~$0.25/天(~$7.5/月) |
| 大量代碼審查(每日 10K tokens) | $0 | ~$0.30/天(~$9/月) | ~$0.50/天(~$15/月) |
| 多模態(每日 20 張圖片分析) | $0 | ~$0.40/天(~$12/月) | ~$0.60/天(~$18/月) |
| 年化費用(中度使用) | $0(硬體已有) | ~$108/年 | ~$180/年 |
| 輸出品質 | ⭐⭐⭐⭐(代碼/英文強) | ⭐⭐⭐⭐⭐(繁中最強) | ⭐⭐⭐⭐⭐(繁中強) |
結論: 代碼工作、自動化工作流、多模態任務 → 本地 Gemma 4 省最多。繁中長文寫作、需要最高品質推理 → 仍建議 Claude API。最佳策略是混搭:日常任務用 Gemma 4,高品質輸出需求用 Claude。
🔧 進階:Fine-tuning Gemma 4 12B(台灣繁中客製)
如果你需要 Gemma 4 更精通特定領域(台灣法律、台灣企業術語、特定代碼風格),可以用 Google 官方的 Gemma fine-tuning 工具對 12B 版本進行客製化。
pip install keras keras-nlp
# 載入 Gemma 4 12B 並開始 LoRA fine-tuning
import keras_nlp
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma4_12b_en")
gemma_lm.backbone.enable_lora(rank=4)
# 準備繁中訓練資料(JSONL 格式)
# {"prompt": "問題", "response": "繁中回答"}
gemma_lm.compile(optimizer=..., loss=...)
gemma_lm.fit(your_zh_tw_dataset, epochs=3)
完整的 fine-tuning 教學和資料集準備,可以參考 DataCamp 的 LLM Fine-tuning 課程(連結在文末)。
❓ 台灣工程師最常問的 5 個問題
Q1:Gemma 4 12B 需要多少 RAM 才能本地運行?
Gemma 4 12B 的 Q4 量化版本需要約 8-10GB VRAM(GPU)或 16GB 系統 RAM(CPU 推理)。配備 16GB RAM 的 MacBook Pro M2/M3 可流暢運行。如果使用 fp16 精度,需要 24GB VRAM。
Q2:Gemma 4 12B 可以免費商業使用嗎?
是的。Gemma 4 採用 Gemma License,允許免費商業使用,包括建立商業產品、API 服務、應用程式。唯一限制是不能用來訓練其他大型語言模型,以及不能在超過 100 億月活躍用戶的平台上使用(這個門檻對絕大多數台灣開發者不構成障礙)。
Q3:Gemma 4 12B 和 Gemma 3 相比有哪些改進?
Gemma 4 最大的升級是架構重構:從文字專用模型變成統一多模態(文字+圖像輸入),新增 MTP(Multi-Token Prediction)解碼技術讓生成速度提升,原生支援 agentic 工作流,128K context window(Gemma 3 的 4 倍),並針對 Function Calling 和工具使用做了強化。
Q4:Gemma 4 12B 和 Llama 4 Scout 哪個比較好?
各有擅長。Gemma 4 12B 在代碼生成、數學推理、多模態理解上表現突出,且硬體需求較低(16GB RAM 可跑)。Llama 4 Scout 17B 的語言多樣性更好,但硬體需求更高。對台灣工程師來說,Gemma 4 12B 的硬體門檻更友善,是消費級筆電的首選開源模型。
Q5:如何在台灣用 Ollama 安裝 Gemma 4 12B?
先安裝 Ollama(ollama.com),然後執行 ollama pull gemma4:12b,等待下載完成後執行 ollama run gemma4:12b 即可開始使用。整個過程約 5-10 分鐘(取決於網路速度),無需任何 API 金鑰。
Claude Code 工具包(kknad)內含最佳化的 CLAUDE.md 配置、自定義 Slash Commands,可直接套用到 OpenCode + Gemma 4 的本地工作流,讓你的 AI 編碼效率從第一天就到位。
🛍️ Claude Code / OpenCode 工具包(Gumroad)→🗺️ Gemma 4 系列完整陣容(各版本選擇指南)
| 版本 | 參數 | 適合場景 | 最低硬體 | Ollama 指令 |
|---|---|---|---|---|
| Gemma 4 2B | 2B | 手機/嵌入式、快速原型 | 4GB RAM | ollama pull gemma4:2b |
| Gemma 4 9B | 9B | 輕量代碼輔助 | 8GB VRAM | ollama pull gemma4:9b |
| Gemma 4 12B ⭐推薦 | 12B | 代碼 + 多模態 + Agent | 16GB RAM | ollama pull gemma4:12b |
| Gemma 4 27B | 27B | 高品質推理、複雜任務 | 24GB VRAM | ollama pull gemma4:27b |
對大多數台灣工程師而言,Gemma 4 12B 是甜蜜點:16GB RAM 的筆電就能跑,性能又遠超 9B 版本,多模態能力完整。