复旦、人大等发布大五人格+MBTI测试 角色扮演AI特质还原率达82.8%
要点:
复旦大学和中国人民大学联合Chat凉宫春日团队发布的研究强调,评价AI角色扮演的关键在于良好的人设还原度,其特质还原率达到82.8%。
使用大五人格的NEO-FFI问卷和MBTI的16Personalities测试,研究人员通过LLM进行引导式开放式问答,对AI角色进行全面的人格测试,从心理学的角度研究角色扮演AI的行为模式。
研究者提出了一套面谈式人格测试框架,利用开放式问答,通过LLM预测角色扮演AI的人格特质,实验结果显示在大五人格和MBTI测试上达到了82.8%的还原率。
近期,由复旦大学和中国人民大学合作的Chat凉宫春日团队发布了一项关于AI角色扮演的研究。该研究强调了良好的人设还原度对于评价AI角色扮演的重要性,特质还原率高达82.8%。研究使用了大五人格的NEO-FFI问卷和MBTI的16Personalities测试,并通过LLM进行引导式开放式问答,全面测试了AI角色的人格。这一面谈式人格测试框架的提出,为评估角色扮演AI的人格特质提供了新的方法。
项目地址:https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality
随着大语言模型的发展,基于这些模型的角色扮演聊天机器人在全球范围内引起了广泛关注。相较于传统聊天机器人的繁琐工程,现今的大语言模型能够轻松构建具备不同身份、人格、记忆和语言习惯的角色扮演AI。然而,对于角色扮演AI的分析性研究仍然相当匮乏,尤其是在对它们的评估上。这项研究通过使用心理学的人格相关理论,从大五人格和MBTI等维度对角色扮演AI进行了人格测试,为这一领域的研究提供了新的视角。
研究者提出的面谈式人格测试框架通过开放式问答,使得角色扮演AI的评估更为全面。与传统的Likert Scale相比,这种框架能够更好地激发角色扮演AI的扮演行为,减少对底座LLM训练数据的影响。实验结果显示,现有的角色扮演AI在大五人格和MBTI测试上的还原率达到了82.8%。
研究者指出,这些结果仍受到底座LLM的先验影响,表现为在某些维度上的平均得分与底座模型较为一致。为了研究这一点,研究者比较了不同底座模型对角色扮演AI的影响,发现在某些维度上存在一致性,但在其他维度上并没有明显的相关关系。
综合而言,这项研究为评估AI角色扮演的人格特质提供了新的方法和视角,同时也揭示了在现有技术中存在的一些挑战和限制。未来,随着技术的不断发展,角色扮演AI的人格还原度和表现可能会得到进一步提升。
“仅退款”成标配,谁赞成,谁反对?
这两天,#仅退款动了谁的奶酪#登上了微博热搜,引发了1.3亿阅读,1.8万讨论。“仅退款”的出现,本质上是为了减少商家和用户在关乎质量和退货问题上的争执和矛盾,也是对用户权益的保障。如今已经成为电商平台应对某些特殊情况的标配。站长网2024-07-11 20:24:200000花上百万加盟,遍地开花的俄货店,藏着绥芬河商人的“生意经”
“战斗民族”俄罗斯,正在抢占年轻人的社交平台。新一代旅游顶流是“花600元坐通往俄罗斯的雪国列车”和“比芬兰挪威更有性价比的追极光”,刷屏社交平台获赞上千的还有“西伯利亚大仓鼠(棕熊)合影”和“俄罗斯猛男指导开坦克”.......毗邻中国的俄罗斯,堪称中国年轻人的“网红景点”。0000荣耀Magic7 RSR 保时捷设计正式发布:售价7999元起
荣耀公司今天下午宣布了其最新旗舰手机——荣耀Magic7RSR保时捷设计的正式发布。这款高端智能手机以其卓越的影像系统和独特的设计而备受市场关注,将于12月24日上市,其中16GB512GB版本售价为7999元,而24GB1TB版本售价为8999元。0000深扒Altman巨型AI帝国:从核聚变工厂到永生技术中心,规模惊人!
【新智元导读】SamAltman构建的未来AI帝国正式曝光,规模惊人!可控核聚变、7万亿芯片产业、光量子计算,甚至是延长人类寿命的研究,个个都是「登月级」。同时,OpenAI董事会风波又有了新的爆料,ChatGPT之母竟扮演了重要角色。从可控核聚变到AGI,再到重塑整个芯片行业,Altman未来的AI版图已经不仅仅是成立科技公司挣更多的钱了。站长网2024-03-09 18:00:190001浪越大,鱼越贵:上海车展新能源热潮下 谁是那条大鱼?
继湖北东风汽车率先打响降价第一枪后,超40个汽车品牌高调参战,迅速引起市场端的广泛关注和热议。然而,席卷汽车行业的“降价潮”并未给市场带来好消息,根据乘联会发布的数据,一季度国内狭义乘用车零售销量同比下跌13.4%,中国汽车流通协会表示,2023年3月中国汽车经销商库存预警指数为62.4%,位于荣枯线之上。站长网2023-05-12 14:38:140000