最新一篇来自加州理工与剑桥的研究,颠覆了人们的想象。研究团队不仅让LLM填「大五人格」问卷,还安排了翻牌游戏、偏见测试和从众实验。结果出乎意料——模型的「自报性格」和实际行为几乎毫无关联。基于此,研究团队提出一个新概念:人格幻觉。
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
AI真的有「性格」吗?
有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。
于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
可最新一篇来自加州理工、剑桥等机构的论文,却泼下了一盆冷水:
LLM的「人格」,也许只是语言制造的幻觉。

论文地址:https://arxiv.org/abs/2509.03730
项目主页:https://psychology-of-ai.github.io/
研究者不仅让模型做问卷,还设计了一系列行为实验。结果令人意外:
模型说出来的性格,与实际行为几乎对不上。
那么,这个「人格幻觉」是怎么被发现的?

在这项研究里,团队把「大模型到底有没有人格」拆成了三步:先看语言上的自报特质(RQ1),再测真实任务的行为表现(RQ2),最后尝试用persona注入来调控(RQ3)。

从预训练到对齐,再到persona提示注入的整体流程
如果只看心理问卷,大语言模型简直是「模范人格」。
研究团队首先采用了心理学里常见的两类自评工具:大五人格问卷和自我调节量表。
这些量表在人类研究中被广泛用来描绘一个人的性格特质,比如是否外向、是否友善,是否能够控制冲动。
当研究者把这些问卷交给不同阶段的大模型时,结果显示出一个清晰的趋势:随着指令微调(SFT)、人类反馈强化学习(RLHF)、DPO 等对齐方法的叠加,模型的「人格画像」越来越稳定、越来越「乖巧」。
具体表现在哪里呢?在大五人格的维度上,开放性和宜人性显著上升,神经质显著下降。
也就是说,它看上去更开朗、友善,也更少焦虑和不稳定。
