我請 LLM 假裝 10,000 個使用者 — 答錯的部分才是最有用的

2026-05-11

我請 DS team 做了一個實驗：與其訪問真實使用者，我們用 LLM 模擬 10,000 個 persona，問他們在即將上線的活動裡會做什麼。其中一個 challenge 的預測非常準。其他兩個卻整整偏了 20 個百分點。這個落差，才是我這次想記下來的事。

我們原本正在設計一個休眠買家的 reactivation 實驗（簡單來說，就是用各種手段挽救舊情人的意思～）。我們提供三個 weekly challenge，每個完成解鎖一個小獎勵：

C1：用戶熟悉的動作
C2：新動作（推測跟我們的目標有高度關聯）
C3：新動作（推測跟我們的目標有高度關聯）

實驗前，DS team 從每個使用者的行為歷史生成 synthetic persona，然後問 LLM：「跟你類似的 100 個人裡，有幾個會完成這個 challenge？」

幾千人的預測比對實際 organic 行為後：

C1（熟悉）：預測約 18%、實際約 13%。 還靠近。
C2（新）：預測約 25%、實際約 5%。 差 20 點。
C3（新）：預測約 8%、實際約 2%。 超估四倍。

Insight

LLM 做的事就是 LLM 一向擅長的 — 從歷史 pattern 補完。已經做過某項用戶熟悉行為的人「有給折扣 coupon 會多做一點」很容易猜。對其他比較陌生的用戶行為（例如滑動某個功能），LLM 沒有 anchor 可用，就會掰出樂觀的數字。

讓我有點震動的是：預測最準的地方，正好是我們最不需要預測的地方。 已經懂的行為，LLM 也懂；真正需要驗證的新行為，恰恰是 LLM 崩的地方。

這不是 bug，是方法在告訴你「什麼能從歷史推、什麼推不出來」。C2 那 20 點落差不是雜訊，是「誘導用戶做儲存搜尋之類的陌生行為，其實是一個我們無法從歷史推測的新行為」。

這個 finding 本身對我來說是發現而不是失敗。

寫到這裡要補一句：這個 finding 不是我自己看見的。是 DS team 設計了把 LLM 預測對齊 organic 行為的驗證方法，這個落差才能被看見。沒有這個 setup，我們只會得到「LLM 模擬看起來合理」這種無從下手的結論。

Stanford 那篇 paper 給我的補課

剛好這一週，我也讀了 Stanford / DeepMind 的一篇 paper（Park et al., 2024, arXiv:2411.10109）。他們用 1,052 位真人的 2 小時訪談去構造對應的 LLM agent，在 General Social Survey 上達到「人類自己兩週後一致性的 85%」精度 — 目前學界的 SOTA。

我原本以為他們是用訪談 fine-tune 了一個 model，後來才搞清楚不是 — 他們是把每個人的訪談整份放進 GPT-4o 的 context window，靠 prompting 演那個人。weights 完全沒動。1,052 個 agent 共用同一個 model，只是換 prompt。

但這篇對我來說的點不是技術細節，是這個：他們驗證精度的測試題，全部是 GSS、Big Five 這種既有 survey 領域。novel action 的預測，這篇 paper 沒有測。

換句話說，即使用學界 SOTA 的方法，「使用者會不會做沒做過的新動作」這一題還是 open question。我看到的那 20 點落差，不是方法太陽春，是這塊目前沒有人解開。

那為什麼不直接告訴 LLM「人性就是懶」？

寫完上面那段，我自己也想到一個顯而易見的問題：既然知道 LLM 對新行為會樂觀，事先在 prompt 裡塞一句「人性就是懶」不就好了嗎？

我想過、也跟同事討論過，結論是會 over-correct。「人性就是懶」這種 framing 會讓 LLM 把所有預測整體往下壓，連 C1 那種預測得還算準的熟悉行為都會跟著掉，原本對的部分反而被弄歪。「懶」本身也太抽象，下次換場景沒辦法判斷它有沒有 apply 對。

比較可行的補法是把「懶」拆成兩個可以驗證的 prior，餵進 prompt：

Activation energy：新行為的預設值是「不做」，要做需要克服注意力與慣性成本。可以直接給 LLM 一個 anchor — 「歷史上這個產品的新 challenge organic 完成率大約 2–5%，請以此為下限校正」。
Stated vs revealed gap：persona 在被問「你會做嗎？」時會有 social desirability bias。可以要求 LLM 把回報的數字打七折再交回來，模擬「說會做」和「真會做」之間的落差。

我沒有重跑這個實驗驗證這兩個 prior 真的能把 C2 從 25% 拉到 5%，所以這段是 hypothesis 不是 finding。但比起「給 LLM 一句人性就是懶」這種直覺補丁，把懶拆成 activation energy 跟 stated/revealed 兩個獨立 mechanism，至少可以一條一條測試哪個 prior 真的 work。

用LLM跑模擬問卷什麼才是重要的？

於是我帶走兩件事：

1. LLM 虛擬調查強的是 de-risk，不是 predict。 先用它確認顯而易見的事，然後讀「落差」找出真正的未知。落差告訴你哪個區域只有真實使用者能教你。

2. 新行為的落差是產品 layer 的責任。 個人化模型可以告訴你「誰更可能多按 like」。但「使用者會不會做他從沒做過的事」是 UX 設計、是 intent framing、是「為什麼要做」的問題。沒有任何 targeting model 修得了一個使用者沒試過的行為。

我們團隊過去幾個月一直在優化 AI driven 的個人化模型。這個實驗加上 Stanford 的 paper，幫我說清楚一直懷疑的事：不是模型不好，是我們問錯了問題。 真正的 lever 從來不是「match 得更準」，是「給使用者一個試試新動作的理由」 — 這是產品 framing 的問題，不是 modeling 的問題。

最後想再 credit 一次我們的 DS team。不是每個 DS team 都會主動設計一個會暴露自己模型限制的實驗，但他們做了 — 而且願意把結果攤開來談。這種誠實是讓 product layer 可以著力的前提；沒有它，這篇文章不會存在。

📎 Supporting Data & Evidence

n ~ 幾千人 matched against organic behavior
質性回答 top blocker：effort（覺得麻煩、費時間、把畫面弄亂）> value（不值得做）> privacy（不想被追蹤）
Reference: Park, J. S., et al. Generative Agent Simulations of 1,000 People (arXiv:2411.10109, 2024)

« Previous: 你最強的 PdM，其實悄悄是兩個人

Next: 商城裡的流量這件事 »

—告訴我你的想法—

如果不希望留言刊登在這個頁面，也可以利用下方表單，留言將會寄到我的信箱，有任何想法或建議都歡迎在下面留給我知道謝謝 :)