ChatGPT在图灵测试研究中败给上世纪60年代的计算机程序 ELIZA
**划重点:**
1. 📉 UC圣迭戈研究人员发现上世纪60年代的ELIZA在图灵测试中胜过OpenAI的ChatGPT。
2. 🤯 ELIZA以27%的成功率模拟人类,而GPT-3.5仅为14%,引发对现代AI技术的尴尬评价。
3. 🧐 有学者认为,ChatGPT并非为在图灵测试中表现良好而设计,而OpenAI的GPT-4在测试中表现更强大。
近日,加利福尼亚大学圣迭戈分校的研究人员进行了一项有趣的实验,将上世纪60年代的计算机程序ELIZA与现代AI聊天机器人ChatGPT进行了图灵测试比较。该研究引发了对OpenAI的尴尬评价,认为ELIZA在这一测试中表现得更为出色。
图灵测试是评估计算机是否能够模拟人类对话的标准,由英国计算机科学家艾伦·图灵于1950年首次提出。在这项最新研究中,研究人员邀请了652名参与者,通过互联网判断他们是在与另一个人还是与AI聊天机器人交流。
结果显示,ELIZA成功模拟人类的能力达到27%,而OpenAI的GPT-3.5仅为14%。引起尤为注目的是,OpenAI的更强大版本GPT-4在测试中的成功率为41%,超过了ELIZA。
对此,AI专家Gary Marcus形容ELIZA的成功对现代科技公司开发AI聊天机器人是一种“尴尬”。然而,一些学者认为,ChatGPT并非被设计用于在图灵测试中表现优异。
美国宾夕法尼亚大学沃顿商学院的AI教授Ethan Mollick在社交媒体上发文表示:“我认为GPT-3.5输给ELIZA并不令人惊讶,当你读完论文后就会明白。OpenAI一直认为模仿风险是一个真正的问题,并采用了RLHF(从人类反馈中进行强化学习),以确保ChatGPT不会试图冒充人类。而ELIZA则更多地是通过利用我们的心理来成功冒充。”
研究中提到,参与者误认ELIZA为人类的原因之一是ELIZA“太糟糕”,以至于被认为是当前AI模型无法达到的水平,因此“更有可能是有意不合作的人类”。
普林斯顿大学计算机科学教授Arvind Narayanan指出:“一如既往,测试行为并不能告诉我们关于能力的信息。ChatGPT被调整为具有正式的语气,不表达观点等,这使得它不太像人类。”
这项名为“GPT-4是否通过图灵测试”的研究尚未经过同行评审。这一发现引发了对现代AI聊天机器人设计和性能的深入思考。
腾讯发布2023年第三季度财报:营收1546亿元 同比增长10%
腾讯控股公布2023年第三季度财报称,该季度其营收达到了1546亿元,同比增长10%。净利润下滑9%,为361.8亿元。其中,增值服务收入为757.48亿元,同比增长了4%。国际市场游戏收入增长了14%,达到了133亿元;本土游戏收入增长了5%,达到了327亿元;而社交网络收入则保持稳定,为297亿元。站长网2023-11-15 19:51:490000防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。站长网2024-08-22 11:09:430000微软旗下 LinkedIn 为招聘人员推出人工智能助理
微软旗下的招聘社交平台LinkedIn宣布推出新的人工智能(AI)功能,以协助招聘人员在寻找候选人时进行候选人搜索。10月3日,LinkedIn表示,正在推出「Recruiter2024」的试点项目,这是一款面向招聘人员的AI辅助工具。根据公告,使用该工具的招聘人员现在可以用「自然语言」提问,在平台上寻找候选人。此外,该工具还可以用于创建工作岗位的广告活动。站长网2023-10-05 09:24:120000抖音将进一步扩大“小时达”测试范围
据Tech星球报道,抖音小时达的测试范围将进一步扩大,此前曾在深圳等试点城市提供小时达服务,近期已经扩大至武汉、天津等城市的部分生鲜果蔬商家。如本来鲜、叮咚买菜、物美超市已经开始在抖音内推出一小时果蔬配送服务,而且相关的配送商品已经上架至商家的抖音号内。站长网2023-04-26 18:11:320000微信朋友圈的这条横线为何有长有短?怎么判断屏蔽拉黑删除
近日,微博热搜榜上出现了一则引人关注的话题——#为什么朋友圈这条线有长有短#,引发了网友们的广泛讨论和好奇心。大家纷纷发现,好友的朋友圈显示出现了不同长度的线条,长线、短线究竟各自代表什么含义呢?为此,许多人开始尝试各种测试,试图揭开这一谜团。站长网2024-03-13 09:24:550000