我請 LLM 假裝 10,000 個使用者 — 答錯的部分才是最有用的

2026-05-11

我請 DS team 做了一個實驗:與其訪問真實使用者,我們用 LLM 模擬 10,000 個 persona,問他們在即將上線的活動裡會做什麼。其中一個 challenge 的預測非常準。其他兩個卻整整偏了 20 個百分點。這個落差,才是我這次想記下來的事。

我們原本正在設計一個休眠買家的 reactivation 實驗(簡單來說,就是用各種手段挽救舊情人的意思~)。我們提供三個 weekly challenge,每個完成解鎖一個小獎勵:

  • C1:用戶熟悉的動作
  • C2:新動作 (推測跟我們的目標有高度關聯)
  • C3:新動作 (推測跟我們的目標有高度關聯)

實驗前,DS team 從每個使用者的行為歷史生成 synthetic persona,然後問 LLM:「跟你類似的 100 個人裡,有幾個會完成這個 challenge?」

幾千人的預測比對實際 organic 行為後:

  • C1(熟悉):預測約 18%、實際約 13%。 還靠近。
  • C2(新):預測約 25%、實際約 5%。 差 20 點。
  • C3(新):預測約 8%、實際約 2%。 超估四倍。

Insight

LLM 做的事就是 LLM 一向擅長的 — 從歷史 pattern 補完。已經做過某項用戶熟悉行為的人「有給折扣 coupon 會多做一點」很容易猜。對其他比較陌生的用戶行為(例如滑動某個功能),LLM 沒有 anchor 可用,就會掰出樂觀的數字。

讓我有點震動的是:預測最準的地方,正好是我們最不需要預測的地方。 已經懂的行為,LLM 也懂;真正需要驗證的新行為,恰恰是 LLM 崩的地方。

這不是 bug,是方法在告訴你「什麼能從歷史推、什麼推不出來」。C2 那 20 點落差不是雜訊,是「誘導用戶做儲存搜尋之類的陌生行為,其實是一個我們無法從歷史推測的新行為」。

這個 finding 本身對我來說是發現而不是失敗。

寫到這裡要補一句:這個 finding 不是我自己看見的。是 DS team 設計了把 LLM 預測對齊 organic 行為的驗證方法,這個落差才能被看見。沒有這個 setup,我們只會得到「LLM 模擬看起來合理」這種無從下手的結論。

Stanford 那篇 paper 給我的補課

剛好這一週,我也讀了 Stanford / DeepMind 的一篇 paper(Park et al., 2024, arXiv:2411.10109)。他們用 1,052 位真人的 2 小時訪談去構造對應的 LLM agent,在 General Social Survey 上達到「人類自己兩週後一致性的 85%」精度 — 目前學界的 SOTA。

我原本以為他們是用訪談 fine-tune 了一個 model,後來才搞清楚不是 — 他們是把每個人的訪談整份放進 GPT-4o 的 context window,靠 prompting 演那個人。weights 完全沒動。1,052 個 agent 共用同一個 model,只是換 prompt。

但這篇對我來說的點不是技術細節,是這個:他們驗證精度的測試題,全部是 GSS、Big Five 這種既有 survey 領域。novel action 的預測,這篇 paper 沒有測。

換句話說,即使用學界 SOTA 的方法,「使用者會不會做沒做過的新動作」這一題還是 open question。我看到的那 20 點落差,不是方法太陽春,是這塊目前沒有人解開

用LLM跑模擬問卷什麼才是重要的?

於是我帶走兩件事:

1. LLM 虛擬調查強的是 de-risk,不是 predict。 先用它確認顯而易見的事,然後讀「落差」找出真正的未知。落差告訴你哪個區域只有真實使用者能教你。

2. 新行為的落差是產品 layer 的責任。 個人化模型可以告訴你「誰更可能多按 like」。但「使用者會不會做他從沒做過的事」是 UX 設計、是 intent framing、是「為什麼要做」的問題。沒有任何 targeting model 修得了一個使用者沒試過的行為。

我們團隊過去幾個月一直在優化 AI driven 的個人化模型。這個實驗加上 Stanford 的 paper,幫我說清楚一直懷疑的事:不是模型不好,是我們問錯了問題。 真正的 lever 從來不是「match 得更準」,是「給使用者一個試試新動作的理由」 — 這是產品 framing 的問題,不是 modeling 的問題。

最後想再 credit 一次我們的 DS team。不是每個 DS team 都會主動設計一個會暴露自己模型限制的實驗,但他們做了 — 而且願意把結果攤開來談。這種誠實是讓 product layer 可以著力的前提;沒有它,這篇文章不會存在。


📎 Supporting Data & Evidence

  • n ~ 幾千人 matched against organic behavior
  • 質性回答 top blocker:effort(覺得麻煩、費時間、把畫面弄亂)> value(不值得做)> privacy(不想被追蹤)
  • Reference: Park, J. S., et al. Generative Agent Simulations of 1,000 People (arXiv:2411.10109, 2024)

—告訴我你的想法—



如果不希望留言刊登在這個頁面,也可以利用下方表單,留言將會寄到我的信箱,有任何想法或建議都歡迎在下面留給我知道 謝謝 :)