03. 智能體的解剖學：如何製造一個數位泥人？

Published: Fri Feb 06 2026 | Modified: Tue Jun 23 2026 , 1 minutes reading.

傳說中的泥人：最早的「編程」嘗試

在 16 世紀的布拉格傳說中，猶太拉比（Rabbi）用河邊的泥土捏成了一個巨大的傀儡——泥人 (Golem)。

泥人本身沒有靈魂，也不懂思考。但拉比在它的嘴裡放一張寫有希伯來語神聖咒語（Shem）的紙條，它就會突然睜開眼睛，聽從命令去挑水、劈柴、甚至保護社區。如果你把紙條抽出來，它就瞬間變回一堆死土。

這其實是人類歷史上最早關於「代理 (Agent)」的構想：一個沒有自主意識，但能嚴格執行指令的實體。

2026 年的 AI Agent，其本質與泥人驚人地相似。如果我們要「解剖」一個現代智能體，你會發現它由三個精密的部分組成：大腦、筆記本、與雙手。

1. 大腦：大語言模型 (LLM) 與「概率鸚鵡」

泥人的大腦是拉比寫的紙條，而智能體的大腦就是 大語言模型 (LLM)。你熟悉的 GPT-4、Claude 3.5 或 DeepSeek 都在扮演這個角色。

但你需要理解這個大腦的運作原理，才能明白它為什麼有時會犯蠢。

為什麼 AI 會產生幻覺？

想像一下我們在玩一個「成語接龍」的遊戲。我說「一馬當」，你大概率會接「先」。如果我說「掩耳盜」，你大概率會接「鈴」。

LLM 的本質，就是一個超級複雜的「成語接龍」機器。它並不理解什麼是「真理」，它只理解機率。當你問它一個問題時，它其實是在計算：「在人類歷史上所有的文本中，這幾個字後面最可能緊跟的字是什麼？」

這就解釋了所謂的**「幻覺」 (Hallucination)**：當你問它：「林黛玉是怎麼倒拔垂楊柳的？」

它的大腦裡沒有這個事實。
但它的機率模型告訴它：「倒拔垂楊柳」這個詞後面，通常跟著「魯智深」或者具體的動作描寫。
於是，它會一本正經地編造一段林黛玉在健身房練舉重的故事。因為它不是在「回憶」，它是在「預測」。

為了讓這個大概率瞎編的大腦變靠譜，我們需要第二個組件。

2. 筆記本：上下文記憶 (Context & RAG)

泥人通常很笨，它執行完一個任務可能就忘了。為了讓智能體變聰明，我們需要給它一個**「筆記本」**。

閉卷考試 vs 開卷考試

單獨使用 ChatGPT，就像是讓一個學生參加閉卷考試。

他只能靠腦子裡的存貨（訓練數據）。如果他忘了，或者書上沒寫（比如你們公司的內部規定），他就只能瞎編。

而 RAG (檢索增強生成) 技術，就是讓這個學生參加開卷考試。

當智能體收到問題時，它不會急著回答。
它會先轉身，在一個外掛的「知識庫」（比如你公司的 PDF 文檔庫）裡翻書。
它找到了相關的段落，把內容抄在「筆記本」上。
最後，它看著筆記本回答你的問題：「根據公司手冊第 3 頁，報銷需要主管簽字。」

這就是為什麼現在的智能體能夠處理你的私人任務：因為它看過了你的筆記本，而不僅僅是依靠它那個充滿幻覺的大腦。

3. 雙手：工具與 MCP (Tools)

這是讓 AI 變成智能體的關鍵：讓它長出手。

以前，你問 AI：「幫我查查我的銀行餘額。」 AI 只能無奈地說：「臣妾做不到啊，我沒聯網。」

現在的智能體擁有一條**「多功能工具帶」**。當它意識到它需要查餘額時，它會自主調用銀行的 API 接口。

MCP：機器人的通用插頭

這裡有一個很酷的新概念：MCP (Model Context Protocol)。

以前，給智能體裝工具很麻煩。你想讓它連 Google Drive，需要寫一套程式碼；想連 Slack，又要寫一套程式碼。就像出國旅行要帶一堆不同的插頭轉換器。

MCP 就像是發明了 Type-C 接口。

只要你的軟體（GitHub, Google, Notion）支援 MCP 標準，智能體就能直接插上去讀取數據、發送指令。
這意味著，未來的智能體可以隨意穿梭在你所有的 APP 之間，成為一個真正的「數位管家」。

4. 紙上實驗：手動構建一個智能體

為了徹底理解智能體是怎麼工作的，我們來玩一個思維遊戲。不需要寫程式碼，我們用紙和筆來模擬一個 「旅行規劃智能體」 的思考過程。

任務：用戶說「幫我訂一張明天去上海的便宜機票」。

智能體的大腦裡會運行一個叫 ReAct (Reason + Act) 的循環：

第一輪循環

思考 (Thought)：用戶想去上海，時間是明天。我需要知道「明天」具體是幾月幾號，以及現在的機票價格。但我不知道今天的日期。
行動 (Action)：調用工具 Get_Current_Date()。
觀察 (Observation)：工具返回 2026-02-07。

第二輪循環

思考 (Thought)：今天是 2 月 7 號，那明天就是 2 月 8 號。現在我要查從「用戶所在地」去上海的票。等等，我不知道用戶在哪裡。
行動 (Action)：調用工具 Get_User_Location()。
觀察 (Observation)：工具返回 Beijing。

第三輪循環

思考 (Thought)：已知：北京 -> 上海，時間：2026-02-08。策略：找便宜的。
行動 (Action)：調用工具 Search_Flights(from="Beijing", to="Shanghai", date="2026-02-08", sort="price_asc")。
觀察 (Observation)：工具返回列表：[早晨 6 點: ¥400, 下午 2 點: ¥1200...]。

第四輪循環

思考 (Thought)：查到了。最便宜的是早晨 6 點的 ¥400，但太早了用戶可能起不來；其次是晚上 10 點的 ¥450。我應該把這兩個選項都告訴用戶。
最終回答 (Final Answer)：幫你查到了，明天最便宜的機票是晚上 10 點的，價格 450 元。早晨 6 點有更便宜的（400 元），但太早了，你需要訂這個嗎？

小結：獲得感時間

這就是一個智能體的「心理活動」。它不是魔法，它只是一個不斷碎碎唸、不斷查資料、不斷修正計劃的勤奮員工。

大腦 (LLM)：負責碎碎唸（規劃與推理）。
筆記本 (RAG)：負責翻書（獲取知識）。
雙手 (MCP)：負責幹活（操作軟體）。

在下一章中，我們將走出實驗室，看看這些「數位泥人」是如何在具體的職業場景中（編程、研究、法律）掀起一場「端到端」的革命。

Luke Sun