Luke a Pro

Luke Sun

Developer & Marketer

🇺🇦
EN||

03. 智能體的解剖學:如何製造一個數位泥人?

| , 1 minutes reading.

傳說中的泥人:最早的「編程」嘗試

在 16 世紀的布拉格傳說中,猶太拉比(Rabbi)用河邊的泥土捏成了一個巨大的傀儡——泥人 (Golem)

泥人本身沒有靈魂,也不懂思考。但拉比在它的嘴裡放一張寫有希伯來語神聖咒語(Shem)的紙條,它就會突然睜開眼睛,聽從命令去挑水、劈柴、甚至保護社區。如果你把紙條抽出來,它就瞬間變回一堆死土。

這其實是人類歷史上最早關於「代理 (Agent)」的構想:一個沒有自主意識,但能嚴格執行指令的實體。

2026 年的 AI Agent,其本質與泥人驚人地相似。如果我們要「解剖」一個現代智能體,你會發現它由三個精密的部分組成:大腦、筆記本、與雙手。


1. 大腦:大語言模型 (LLM) 與「概率鸚鵡」

泥人的大腦是拉比寫的紙條,而智能體的大腦就是 大語言模型 (LLM)。你熟悉的 GPT-4、Claude 3.5 或 DeepSeek 都在扮演這個角色。

但你需要理解這個大腦的運作原理,才能明白它為什麼有時會犯蠢。

為什麼 AI 會產生幻覺?

想像一下我們在玩一個「成語接龍」的遊戲。我說「一馬當」,你大概率會接「先」。如果我說「掩耳盜」,你大概率會接「鈴」。

LLM 的本質,就是一個超級複雜的「成語接龍」機器。它並不理解什麼是「真理」,它只理解機率。當你問它一個問題時,它其實是在計算:「在人類歷史上所有的文本中,這幾個字後面最可能緊跟的字是什麼?」

這就解釋了所謂的**「幻覺」 (Hallucination)**: 當你問它:「林黛玉是怎麼倒拔垂楊柳的?」

  • 它的大腦裡沒有這個事實。
  • 但它的機率模型告訴它:「倒拔垂楊柳」這個詞後面,通常跟著「魯智深」或者具體的動作描寫。
  • 於是,它會一本正經地編造一段林黛玉在健身房練舉重的故事。因為它不是在「回憶」,它是在「預測」。

為了讓這個大概率瞎編的大腦變靠譜,我們需要第二個組件。


2. 筆記本:上下文記憶 (Context & RAG)

泥人通常很笨,它執行完一個任務可能就忘了。為了讓智能體變聰明,我們需要給它一個**「筆記本」**。

閉卷考試 vs 開卷考試

單獨使用 ChatGPT,就像是讓一個學生參加閉卷考試

  • 他只能靠腦子裡的存貨(訓練數據)。如果他忘了,或者書上沒寫(比如你們公司的內部規定),他就只能瞎編。

RAG (檢索增強生成) 技術,就是讓這個學生參加開卷考試

  • 當智能體收到問題時,它不會急著回答。
  • 它會先轉身,在一個外掛的「知識庫」(比如你公司的 PDF 文檔庫)裡翻書。
  • 它找到了相關的段落,把內容抄在「筆記本」上。
  • 最後,它看著筆記本回答你的問題:「根據公司手冊第 3 頁,報銷需要主管簽字。」

這就是為什麼現在的智能體能夠處理你的私人任務:因為它看過了你的筆記本,而不僅僅是依靠它那個充滿幻覺的大腦。


3. 雙手:工具與 MCP (Tools)

這是讓 AI 變成智能體的關鍵:讓它長出手。

以前,你問 AI:「幫我查查我的銀行餘額。」 AI 只能無奈地說:「臣妾做不到啊,我沒聯網。」

現在的智能體擁有一條**「多功能工具帶」**。當它意識到它需要查餘額時,它會自主調用銀行的 API 接口。

MCP:機器人的通用插頭

這裡有一個很酷的新概念:MCP (Model Context Protocol)

以前,給智能體裝工具很麻煩。你想讓它連 Google Drive,需要寫一套程式碼;想連 Slack,又要寫一套程式碼。就像出國旅行要帶一堆不同的插頭轉換器。

MCP 就像是發明了 Type-C 接口

  • 只要你的軟體(GitHub, Google, Notion)支援 MCP 標準,智能體就能直接插上去讀取數據、發送指令。
  • 這意味著,未來的智能體可以隨意穿梭在你所有的 APP 之間,成為一個真正的「數位管家」。

4. 紙上實驗:手動構建一個智能體

為了徹底理解智能體是怎麼工作的,我們來玩一個思維遊戲。不需要寫程式碼,我們用紙和筆來模擬一個 「旅行規劃智能體」 的思考過程。

任務:用戶說「幫我訂一張明天去上海的便宜機票」。

智能體的大腦裡會運行一個叫 ReAct (Reason + Act) 的循環:

第一輪循環

  • 思考 (Thought):用戶想去上海,時間是明天。我需要知道「明天」具體是幾月幾號,以及現在的機票價格。但我不知道今天的日期。
  • 行動 (Action):調用工具 Get_Current_Date()
  • 觀察 (Observation):工具返回 2026-02-07

第二輪循環

  • 思考 (Thought):今天是 2 月 7 號,那明天就是 2 月 8 號。現在我要查從「用戶所在地」去上海的票。等等,我不知道用戶在哪裡。
  • 行動 (Action):調用工具 Get_User_Location()
  • 觀察 (Observation):工具返回 Beijing

第三輪循環

  • 思考 (Thought):已知:北京 -> 上海,時間:2026-02-08。策略:找便宜的。
  • 行動 (Action):調用工具 Search_Flights(from="Beijing", to="Shanghai", date="2026-02-08", sort="price_asc")
  • 觀察 (Observation):工具返回列表:[早晨 6 點: ¥400, 下午 2 點: ¥1200...]

第四輪循環

  • 思考 (Thought):查到了。最便宜的是早晨 6 點的 ¥400,但太早了用戶可能起不來;其次是晚上 10 點的 ¥450。我應該把這兩個選項都告訴用戶。
  • 最終回答 (Final Answer):幫你查到了,明天最便宜的機票是晚上 10 點的,價格 450 元。早晨 6 點有更便宜的(400 元),但太早了,你需要訂這個嗎?

小結:獲得感時間

這就是一個智能體的「心理活動」。它不是魔法,它只是一個不斷碎碎唸、不斷查資料、不斷修正計劃的勤奮員工。

  • 大腦 (LLM):負責碎碎唸(規劃與推理)。
  • 筆記本 (RAG):負責翻書(獲取知識)。
  • 雙手 (MCP):負責幹活(操作軟體)。

在下一章中,我們將走出實驗室,看看這些「數位泥人」是如何在具體的職業場景中(編程、研究、法律)掀起一場「端到端」的革命。