LLM Wiki vs RAG

兩者都解決「如何讓 LLM 存取外部知識」,但 underlying mechanism 差距極大。

知識表示方式 — 最根本的差異

  • RAG:text → embedding model → vectors。儲存在向量資料庫,人類無法解讀。
  • LLM Wiki:text → LLM → structured markdown + [[wikilinks]]。人類可直接閱讀、修正、學習。

這是兩種完全不同的中間產物:一個是數字,一個是人類語言。

人類可解釋性

Wiki 的極大優勢:中間產物可被人類解讀

  • 每個 claim 可追溯到具體 .md 檔案
  • 發現錯誤時,打開檔案改一行就好
  • 向量資料庫出錯時,無法理解錯誤來源,更無法直接修正
  • Wiki 不只是給 LLM 用的 — 人類自己也能從中學到東西

處理模式

兩者 ingest 和 query 都需要 LLM,成本結構類似,但產出不同:

RAGLLM Wiki
Ingesttext → vectors(機器用)text → markdown(人機皆用)
Querysimilarity search → chunks → LLM 合成讀 index → 讀相關頁面 → LLM 合成
知識累積無,每次從零開始有,wiki 是 compounding artifact

本質上是 write-time-vs-read-time-compute 的不同選擇。

真正的成本差異

可解釋性是優勢,但也帶來成本:Wiki 絕對需要人類審查。LLM 生成的頁面可能有錯誤、遺漏、或不符合你的理解,你必須花時間讀、檢查、修正。這是 RAG 沒有的成本 — RAG 的中間產物(vectors)人類反正看不懂,也不需要審查。

所以 trade-off 是:

  • Wiki:人類可解釋 → 人類必須審查 → 成本較高,但品質可控
  • RAG:人類不可解釋 → 無法審查 → 成本低,但品質是 black box

選擇 wiki 就是選擇用人類時間換品質和可控性。

各自適用範圍

  • Wiki 勝出:個人知識庫、~100 sources、需要深度合成、人類想參與審查
  • RAG 勝出:大規模(數千文件)、頻繁變動、不需要人類審查中間產物
  • 混合(GraphRAG):用 knowledge graph 保留結構化關係,同時支援大規模檢索

規模臨界點

~50,000-100,000 tokens 左右,wiki 的 index 無法塞進 context window,需要引入檢索層。此時兩種方法開始趨同。