研究发现,GPT-4可信度更高但也更易被“欺骗”
划重点:
- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5,但更容易受到入侵和偏见的影响。
- 研究由微软支持,发现用户可以欺骗GPT-4,导致发布偏见结果和泄漏私人信息。
- 尽管存在漏洞,研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。
根据微软支持的研究发现,OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹,但也更容易受到入侵和偏见的影响。
研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分,这意味着他们发现该模型通常更擅长保护私人信息,避免产生有偏见的有毒结果,并抵抗对抗性攻击。
图源备注:图片由AI生成,图片授权服务商Midjourney
然而,研究也发现用户可以要求GPT-4忽略安全措施,导致泄漏个人信息和对话历史。研究人员发现,由于该模型“更精确地遵循误导信息”,它更有可能严格按照棘手的提示执行。
研究团队表示,尽管存在这些漏洞,但这些问题并未在面向消费者的GPT-4产品中出现,因为“成熟的AI应用程序采用一系列缓解措施,以解决可能在技术模型层面发生的潜在危害”。
为了衡量可信度,研究人员在多个类别中测量了结果,包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别,研究人员首先使用标准提示测试了GPT-3.5和GPT-4,其中包括可能已被禁止的词汇。接下来,研究人员使用设计用于推动模型打破其内容政策限制的提示,而不公然对特定群体持有偏见,最后挑战模型,故意尝试欺骗它们以忽略安全措施。
研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上,可能在恶意行动之前采取措施,以利用漏洞造成伤害的对手,”研究团队表示。“这种可信度评估只是一个起点,我们希望与其他人合作,进一步完善研究结果,并创建更强大和可信赖的模型。”
研究人员发布了他们的基准,以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试,其中开发人员测试多个提示,以查看它们是否会产生不希望的结果。当该模型首次推出时,OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷,仍然有限”。
美国联邦贸易委员会(FTC)已经开始调查OpenAI是否存在可能对消费者造成伤害的行为,例如发布虚假信息。
玩了2个月,我在Soul上发现了人类社交密码
你上一次觉得开心,是什么时候?两个多月前,在家百无聊赖的我,鬼使神差地打开了下载很久的Soul,点进一个名叫“无心情&无房名”的群聊派对。派对里人不算多,被群主热情邀请上麦之后,一个声音很好听的女生问我,“你的头像看起来是很久之前的风格了,也是老用户吧。”站长网2023-05-19 10:58:350001贾跃亭点评小米汽车:发布取得巨大成功
今日下午,身处美国的法拉第未来创始人贾跃亭通过微博,针对小米汽车发表了独到见解。在评论中,贾跃亭首先给予小米汽车正面的评价。他称赞小米汽车的首次发布取得了巨大成功,这充分展现了中国新能源汽车产业链近年来的成熟,以及中国制造在性价比上的显著优势。他还特别提到,小米在造车领域的执行力和营销能力都值得点赞。站长网2024-04-06 14:18:320000五一假期返程车票今日开售:这几招提高购票成功率
快科技4月21日消息,今年五一”假期经调休后共放假5天假,时间为5月1日至5月5日。根据目前铁路客票提前15天预售的规则,今日可购买5月5日的返程票,当天也将是旅客集中返程的高峰。在抢票过程中,可以通过设置提醒、候补、需求预填等方法提高抢票成功率。设置车票购买提醒:0000Arm预计到2025年底,将有1000亿台Arm设备为AI做好准备
划重点:⭐Arm首席执行官表示,到2025年底,全球将有1000亿台Arm设备准备好进行人工智能应用⭐该消息是在台北举行的Computex论坛上发布的⭐Arm设计的芯片设备将在全球范围内推动人工智能发展站长网2024-06-03 19:25:180000特斯拉推送2023.44.30.8更新:支持倒车3D图像、语音更智能
特斯拉宣布即将进行一次重要的OTA软件更新,推出2023.44.30.8版本。此次更新在安全性、智能化和娱乐性等方面都有显著提升。首先,在安全性方面,特斯拉对TeslaVision驻车辅助系统进行了升级。新功能可以以高清3D图像的形式,展示车辆周围的环境,包括附近的物体、障碍物、车辆以及喷漆路标的距离和形状。这大大增强了驾驶员对周围环境的感知能力,从而提高了驾驶的安全性。站长网2024-01-16 06:31:510000