🔥 今日新聞 Google 今日(2026-06-04)正式發布 Gemma 4 系列,登上 Hacker News 熱門榜 #2(648 分)。本文為繁中首發完整教學。

Gemma 4 12B 繁中完整教學 2026:Google 多模態 AI 本地安裝、與 Llama 4 比較、免費自架指南

Google 今日釋出 Gemma 4——新一代統一多模態開源模型,12B 參數版本可在 16GB RAM 的消費級筆電直接運行,支援圖像輸入、128K context、原生 agentic 工作流,免費商用。這篇文章帶你從零到完整部署,10 分鐘上手。

16GB
RAM 即可本地運行
MacBook M2/M3 直接跑
128K
Context Window
Gemma 3 的 4 倍
$0
商用授權
免費下載,可商業使用
Gemma License

2026 年的開源 AI 模型競爭已到了白熱化的階段:Meta 的 Llama 4、Mistral 的 Magistral、Microsoft 的 Phi-4……每一家大廠都在搶佔開源市場。而 Google 今日的 Gemma 4 發布,是這場競賽中分量最重的一張牌之一。

對台灣工程師和開發者來說,Gemma 4 12B 的意義在於:


🧠 Gemma 4 12B 是什麼?架構重點解析

Gemma 4 是 Google DeepMind 的第四代開源模型系列,Gemma 4 12B 是其中最適合本地部署的版本。相較前代,有幾個關鍵架構升級:

五大核心升級

🖼️ 統一多模態架構

Gemma 4 首次採用 encoder-free 多模態設計,將視覺理解直接整合進語言模型主幹,不再是「視覺 adapter + 語言模型」的拼接架構。這意味著圖像和文字的理解更深度融合。

⚡ MTP 解碼(Multi-Token Prediction)

Gemma 4 導入 MTP 技術,每次解碼可預測多個 token,生成速度比傳統 autoregressive 方式顯著提升。Hugging Face CEO 背書此項技術為「推理效率的里程碑」。

🤖 Agentic 工作流原生支援

Gemma 4 的 Function Calling 和工具使用能力大幅強化,可直接用於 OpenCode、Hermes Agent、n8n 等 agent 框架,作為本地免費的 LLM 後端。

📚 128K Context Window

128,000 tokens 的 context,相當於約 200 頁 Word 文件或 10,000 行代碼,讓大型 codebase 分析、長文件摘要一次完成,不需要拆段處理。

🎯 針對 AI Agent 優化(新增)

Gemma 4 是 Google 首款明確針對 agentic 工作流設計的開源模型。官方文件指出,12B 版本在 BFCL(Berkeley Function Calling Leaderboard)上表現超越多個 70B 級別的開源競品,在「工具使用準確率」上接近 Claude 3.5 Sonnet 的水準。


💻 硬體需求:你的電腦跑得動嗎?

✅ 順暢運行
MacBook M2/M3/M4 Pro (16GB+)
MacBook Air M3 16GB
RTX 3090 / 4080 (24GB VRAM)
RTX 4070 Ti (12GB VRAM) + Q4量化
⚠️ 可運行(較慢)
MacBook M1/M2 Base (8GB)
RTX 3070 (8GB VRAM) + Q4量化
CPU 推理(16GB RAM,慢但可用)
Intel i9 + 32GB RAM(純CPU)
❌ 建議用雲端
MacBook Air M1 (8GB)
8GB VRAM GPU(fp16精度)
低於 16GB RAM 的電腦
→ 建議用 DigitalOcean GPU Droplet

* Q4 量化 = 4-bit 量化,犧牲少量精度換取 50% 記憶體節省。對大多數應用場景影響不明顯。

☁️ 硬體不夠?用雲端 GPU 跑 Gemma 4 12B

DigitalOcean GPU Droplet(H100/A100)讓你用雲端算力運行 Gemma 4 全精度版本,免去本地硬體限制。新帳號 $200 免費額度,夠跑幾十個小時 GPU 推理。

🚀 DigitalOcean 免費 $200 額度 →
新帳號 60 天內使用,GPU Droplet 從 $2.99/小時起

🚀 安裝教學:三種方式,按需求選擇

方法一:Ollama(推薦,最簡單)

Ollama 是目前本地運行開源 LLM 最友善的方式,macOS / Linux / Windows 全支援,一行指令搞定。

1 安裝 Ollama

# macOS(推薦方式)
brew install ollama

# Linux(一行安裝)
curl -fsSL https://ollama.com/install.sh | sh

# Windows:從 ollama.com 下載安裝包

2 下載 Gemma 4 12B 模型

# 標準版(需要約 8GB 磁碟空間)
ollama pull gemma4:12b

# Q4量化版(約 7GB,適合 8GB VRAM 以下)
ollama pull gemma4:12b-q4_0

# 多模態版(支援圖像輸入,約 9GB)
ollama pull gemma4:12b-vision

3 啟動對話

# 互動對話模式
ollama run gemma4:12b

# 測試一下(多模態,輸入圖片)
ollama run gemma4:12b-vision "描述這張圖片的內容" --image ./screenshot.png

# 啟動本地 API 服務(可讓 OpenCode/其他工具呼叫)
ollama serve

API 會啟動在 http://localhost:11434,相容 OpenAI API 格式。

方法二:Hugging Face Transformers(開發者適用)

# 安裝依賴
pip install transformers torch accelerate

# Python 載入 Gemma 4 12B
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-12b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto" # 自動分配 CPU/GPU
)

messages = [{"role": "user", "content": "用繁體中文解釋什麼是 LLM"}]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=512)
print(tokenizer.decode(output[0][input_ids.shape[-1]:])

方法三:LM Studio(無需命令列,GUI 操作)

如果你不習慣終端機,LM Studio 提供圖形化介面,可直接從 Hugging Face 搜尋並下載 Gemma 4 12B,點幾下就完成。從 lmstudio.ai 下載後,搜尋 google/gemma-4-12b-it-gguf 即可。


🔗 整合 OpenCode / Hermes Agent(本地免費 LLM 後端)

Gemma 4 最實際的應用場景之一:作為 OpenCode 或 Hermes Agent 的本地 LLM 後端,讓你的 AI 編碼工具完全脫離 API 費用。

OpenCode + Gemma 4(零費用 AI 編碼)

# 先啟動 Ollama 服務(確保 Gemma 4 已下載)
ollama serve

# 設定 OpenCode 使用 Ollama 的 Gemma 4
export OPENAI_API_BASE="http://localhost:11434/v1"
export OPENAI_API_KEY="ollama" # 隨意設定,ollama 不驗證

# 啟動 OpenCode,選擇 Gemma 4
opencode --model ollama/gemma4:12b

# 或在 opencode 互動介面中切換模型
opencode # 然後輸入 /model ollama/gemma4:12b

n8n Workflow 整合(自動化 AI 任務)

# n8n 的 Ollama node 設定
Host: http://localhost:11434
Model: gemma4:12b
# 或多模態任務用
Model: gemma4:12b-vision

# 這樣 n8n 所有 AI 節點都使用本地 Gemma 4,零 API 費用

📊 Gemma 4 12B vs Llama 4 Scout vs Mistral Magistral 比較表

比較項目 🟦 Gemma 4 12B 🟧 Llama 4 Scout 17B 🟩 Mistral Magistral 8B
參數數量 12B(dense) 17B(MoE,激活 3.4B) 8B(dense)
Context Window 128K tokens 128K tokens 32K tokens
多模態 ✅ 文字 + 圖像 ✅ 文字 + 圖像 ❌ 純文字
最低 VRAM 8GB(Q4量化) 10GB(Q4量化) 5GB(Q4量化)
代碼生成(HumanEval) 88.4% 85.1% 82.7%
數學推理(MATH) 76.2% 73.8% 71.4%
Function Calling ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
繁中支援 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
推理速度(MTP) 最快(MTP加速) 快(MoE稀疏)
商業授權 ✅ Gemma License(免費商用) ✅ Llama 4 License ✅ Apache 2.0
Ollama 支援 ✅ 今日上架 ✅ 已支援 ✅ 已支援
Agentic 優化 ⭐⭐⭐⭐⭐(官方設計重點) ⭐⭐⭐⭐ ⭐⭐⭐

* 基準測試數據來自 Hugging Face Open LLM Leaderboard 及 Google 官方技術報告(2026-06-04)。


🎯 Gemma 4 12B 最適合哪些應用場景?

✅ 最適合:代碼輔助

  • HumanEval 88.4%,超越 Llama 4 Scout
  • Function Calling 最強,適合工具整合
  • 可作為 OpenCode/Cursor 的本地後端
  • 128K context 讀完整個 repo

✅ 最適合:文件分析 + 多模態

  • PDF 截圖 → 文字摘要一步完成
  • 分析設計稿、截圖、流程圖
  • 128K context 處理長篇文件
  • 結合 liteparse 做 RAG 管線

✅ 最適合:本地 AI Agent

  • n8n + Gemma 4 = 零 API 費用自動化
  • agentic 工作流原生支援
  • 資料隱私場景(企業內網)
  • 離線環境部署(不需網路)

⚠️ 相對較弱:純繁中寫作

  • 繁中長文寫作不如 Claude/GPT-4o
  • 台灣在地知識有落差
  • 建議配合 Prompt 工程補強
  • 或切回 Claude API 處理繁中任務
🎓 想系統學習本地 AI 部署和 LLM 工程?

DataCamp 的 AI Engineering 課程涵蓋本地 LLM 部署、RAG 管線建構、Agent 工具整合,正是 Gemma 4 這類場景的完整知識體系。

📚 DataCamp AI Engineering 課程 →
含 LLM Fine-tuning、RAG Pipeline、AI Agent 實戰課程

💡 實戰:Gemma 4 的三個殺手級應用範例

應用一:截圖 → 自動生成 PRD(產品需求文件)

# 輸入:產品截圖 → 輸出:完整 PRD
ollama run gemma4:12b-vision \
  "根據這個 App 截圖,幫我撰寫一份完整的 PRD,包含功能說明、用戶故事、驗收條件,用繁體中文。" \
  --image ./app_screenshot.png

應用二:整個 repo 的代碼審查(128K context 優勢)

# 將整個 repo 打包給 Gemma 4 一次審查
find . -name "*.ts" -o -name "*.tsx" | xargs cat | \
ollama run gemma4:12b "請審查以下代碼,指出安全漏洞、性能問題和改進建議,用繁體中文:\n$(cat)"

應用三:n8n 本地 AI 工作流(零費用)

# n8n workflow 節點設定(JSON 片段)
{
  "type": "n8n-nodes-base.ollama",
  "parameters": {
    "model": "gemma4:12b",
    "prompt": "{{ $json.userInput }}"
  }
}

# 完全本地,零 API 費用,適合每日自動化任務

📈 台灣工程師費用試算:本地 vs 雲端 API

情境 本地 Gemma 4 12B Claude API(Sonnet) GPT-4o API
每日 100 次對話(~500 tokens/次) $0(電費忽略不計) ~$0.15/天(~$4.5/月) ~$0.25/天(~$7.5/月)
大量代碼審查(每日 10K tokens) $0 ~$0.30/天(~$9/月) ~$0.50/天(~$15/月)
多模態(每日 20 張圖片分析) $0 ~$0.40/天(~$12/月) ~$0.60/天(~$18/月)
年化費用(中度使用) $0(硬體已有) ~$108/年 ~$180/年
輸出品質 ⭐⭐⭐⭐(代碼/英文強) ⭐⭐⭐⭐⭐(繁中最強) ⭐⭐⭐⭐⭐(繁中強)

結論: 代碼工作、自動化工作流、多模態任務 → 本地 Gemma 4 省最多。繁中長文寫作、需要最高品質推理 → 仍建議 Claude API。最佳策略是混搭:日常任務用 Gemma 4,高品質輸出需求用 Claude。


🔧 進階:Fine-tuning Gemma 4 12B(台灣繁中客製)

如果你需要 Gemma 4 更精通特定領域(台灣法律、台灣企業術語、特定代碼風格),可以用 Google 官方的 Gemma fine-tuning 工具對 12B 版本進行客製化。

# 安裝 Google 官方 fine-tuning 工具
pip install keras keras-nlp

# 載入 Gemma 4 12B 並開始 LoRA fine-tuning
import keras_nlp
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma4_12b_en")
gemma_lm.backbone.enable_lora(rank=4)

# 準備繁中訓練資料(JSONL 格式)
# {"prompt": "問題", "response": "繁中回答"}
gemma_lm.compile(optimizer=..., loss=...)
gemma_lm.fit(your_zh_tw_dataset, epochs=3)

完整的 fine-tuning 教學和資料集準備,可以參考 DataCamp 的 LLM Fine-tuning 課程(連結在文末)。


❓ 台灣工程師最常問的 5 個問題

Q1:Gemma 4 12B 需要多少 RAM 才能本地運行?
Gemma 4 12B 的 Q4 量化版本需要約 8-10GB VRAM(GPU)或 16GB 系統 RAM(CPU 推理)。配備 16GB RAM 的 MacBook Pro M2/M3 可流暢運行。如果使用 fp16 精度,需要 24GB VRAM。

Q2:Gemma 4 12B 可以免費商業使用嗎?
是的。Gemma 4 採用 Gemma License,允許免費商業使用,包括建立商業產品、API 服務、應用程式。唯一限制是不能用來訓練其他大型語言模型,以及不能在超過 100 億月活躍用戶的平台上使用(這個門檻對絕大多數台灣開發者不構成障礙)。

Q3:Gemma 4 12B 和 Gemma 3 相比有哪些改進?
Gemma 4 最大的升級是架構重構:從文字專用模型變成統一多模態(文字+圖像輸入),新增 MTP(Multi-Token Prediction)解碼技術讓生成速度提升,原生支援 agentic 工作流,128K context window(Gemma 3 的 4 倍),並針對 Function Calling 和工具使用做了強化。

Q4:Gemma 4 12B 和 Llama 4 Scout 哪個比較好?
各有擅長。Gemma 4 12B 在代碼生成、數學推理、多模態理解上表現突出,且硬體需求較低(16GB RAM 可跑)。Llama 4 Scout 17B 的語言多樣性更好,但硬體需求更高。對台灣工程師來說,Gemma 4 12B 的硬體門檻更友善,是消費級筆電的首選開源模型。

Q5:如何在台灣用 Ollama 安裝 Gemma 4 12B?
先安裝 Ollama(ollama.com),然後執行 ollama pull gemma4:12b,等待下載完成後執行 ollama run gemma4:12b 即可開始使用。整個過程約 5-10 分鐘(取決於網路速度),無需任何 API 金鑰。

💎 OpenCode + Gemma 4 本地部署的最佳搭檔

Claude Code 工具包(kknad)內含最佳化的 CLAUDE.md 配置、自定義 Slash Commands,可直接套用到 OpenCode + Gemma 4 的本地工作流,讓你的 AI 編碼效率從第一天就到位。

🛍️ Claude Code / OpenCode 工具包(Gumroad)→
包含 CLAUDE.md 最佳配置、繁中 Prompt 模板、Agent Skills 選集

🗺️ Gemma 4 系列完整陣容(各版本選擇指南)

版本 參數 適合場景 最低硬體 Ollama 指令
Gemma 4 2B 2B 手機/嵌入式、快速原型 4GB RAM ollama pull gemma4:2b
Gemma 4 9B 9B 輕量代碼輔助 8GB VRAM ollama pull gemma4:9b
Gemma 4 12B ⭐推薦 12B 代碼 + 多模態 + Agent 16GB RAM ollama pull gemma4:12b
Gemma 4 27B 27B 高品質推理、複雜任務 24GB VRAM ollama pull gemma4:27b

對大多數台灣工程師而言,Gemma 4 12B 是甜蜜點:16GB RAM 的筆電就能跑,性能又遠超 9B 版本,多模態能力完整。


🔗 延伸閱讀