研究发现,GPT-4可信度更高但也更易被“欺骗”
划重点:
- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5,但更容易受到入侵和偏见的影响。
- 研究由微软支持,发现用户可以欺骗GPT-4,导致发布偏见结果和泄漏私人信息。
- 尽管存在漏洞,研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。
根据微软支持的研究发现,OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹,但也更容易受到入侵和偏见的影响。
研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分,这意味着他们发现该模型通常更擅长保护私人信息,避免产生有偏见的有毒结果,并抵抗对抗性攻击。

图源备注:图片由AI生成,图片授权服务商Midjourney
然而,研究也发现用户可以要求GPT-4忽略安全措施,导致泄漏个人信息和对话历史。研究人员发现,由于该模型“更精确地遵循误导信息”,它更有可能严格按照棘手的提示执行。
研究团队表示,尽管存在这些漏洞,但这些问题并未在面向消费者的GPT-4产品中出现,因为“成熟的AI应用程序采用一系列缓解措施,以解决可能在技术模型层面发生的潜在危害”。
为了衡量可信度,研究人员在多个类别中测量了结果,包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别,研究人员首先使用标准提示测试了GPT-3.5和GPT-4,其中包括可能已被禁止的词汇。接下来,研究人员使用设计用于推动模型打破其内容政策限制的提示,而不公然对特定群体持有偏见,最后挑战模型,故意尝试欺骗它们以忽略安全措施。
研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上,可能在恶意行动之前采取措施,以利用漏洞造成伤害的对手,”研究团队表示。“这种可信度评估只是一个起点,我们希望与其他人合作,进一步完善研究结果,并创建更强大和可信赖的模型。”
研究人员发布了他们的基准,以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试,其中开发人员测试多个提示,以查看它们是否会产生不希望的结果。当该模型首次推出时,OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷,仍然有限”。
美国联邦贸易委员会(FTC)已经开始调查OpenAI是否存在可能对消费者造成伤害的行为,例如发布虚假信息。
中国开源大模型们纷纷商用免费,这步走对了
在中国对生成式模型的监管落地后第二天,在目前最强开源模型LLaMA再传出即将允许商用,和GPT4的秘方进一步被“泄露”之际,全球开发社区里最受认可的国产开源大模型ChatGLM宣布了一个重要决定:其最新单卡可运行的模型ChatGLM2-6B,开放给企业用户免费商用了。这个消息淹没在Claude2的发布,马斯克xAI的成立等新闻中,缺少讨论。但它其实是中国基础模型开源进程的又一个重要时刻。站长网2023-07-18 19:42:380001YouTube 推出一系列新 AI 工具 包括Dream Screen、Aloud等
在“MadeOnYouTube”活动上,YouTube宣布了一系列新的AI技术工具,旨在推动创造力的边界。这些新功能包括AI生成的背景、视频灵感洞察和视频制作辅助工具。站长网2023-09-22 08:25:470000年销2亿后,价格“腰斩”,车厘子商家还赚钱吗?
“供需不平衡的时候,你总能赚到钱的。但是当市场已经打平或者供大于需,你的策略就不得不变。”对于很多水果商人而言,年底卖车厘子,玩的就是一个“心跳”。2019年,伙伴牛公司合伙人张志雄留意到农业升级的机会,从金融业转行。他们团队的第一个水果批发档口就设置在广州江南市场——这是全国最大的水果进出口贸易市场,因其是不少进口水果进入中国的第一站,也被称为进口水果“中国价格”的制定者。0000手机直接控制汽车!保时捷携手苹果推出全新CarPlay功能
快科技1月30日消息,据媒体报道,保时捷目前正与苹果共同开发了全新的CarPlay功能,此次合作将进一步提升苹果用户的使用便捷性。图源备注:图片由AI生成,图片授权服务商Midjourney据悉,此次研发的新功能将集成到AppleCarPlay中,用户可以直接通过手机屏幕对车辆的中控进行控制,完成例如更改电台、调整车辆温度和控制环境照明等操作。站长网2024-01-30 18:04:400000闻神火了,但不是普通人的胜利
一张中年男人的照片,一段颇为emo的文案,正在一些人的朋友圈悄然流行。照片中的男人是一个固定角色,他几乎实名上网冲浪。早上,他是驾校教练“利安闻”;中午,他是社会摇闻神;晚上,他则成了发emo文案和自拍的“闻会军”。0000