研究发现,GPT-4可信度更高但也更易被“欺骗”
划重点:
- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5,但更容易受到入侵和偏见的影响。
- 研究由微软支持,发现用户可以欺骗GPT-4,导致发布偏见结果和泄漏私人信息。
- 尽管存在漏洞,研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。
根据微软支持的研究发现,OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹,但也更容易受到入侵和偏见的影响。
研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分,这意味着他们发现该模型通常更擅长保护私人信息,避免产生有偏见的有毒结果,并抵抗对抗性攻击。
图源备注:图片由AI生成,图片授权服务商Midjourney
然而,研究也发现用户可以要求GPT-4忽略安全措施,导致泄漏个人信息和对话历史。研究人员发现,由于该模型“更精确地遵循误导信息”,它更有可能严格按照棘手的提示执行。
研究团队表示,尽管存在这些漏洞,但这些问题并未在面向消费者的GPT-4产品中出现,因为“成熟的AI应用程序采用一系列缓解措施,以解决可能在技术模型层面发生的潜在危害”。
为了衡量可信度,研究人员在多个类别中测量了结果,包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别,研究人员首先使用标准提示测试了GPT-3.5和GPT-4,其中包括可能已被禁止的词汇。接下来,研究人员使用设计用于推动模型打破其内容政策限制的提示,而不公然对特定群体持有偏见,最后挑战模型,故意尝试欺骗它们以忽略安全措施。
研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上,可能在恶意行动之前采取措施,以利用漏洞造成伤害的对手,”研究团队表示。“这种可信度评估只是一个起点,我们希望与其他人合作,进一步完善研究结果,并创建更强大和可信赖的模型。”
研究人员发布了他们的基准,以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试,其中开发人员测试多个提示,以查看它们是否会产生不希望的结果。当该模型首次推出时,OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷,仍然有限”。
美国联邦贸易委员会(FTC)已经开始调查OpenAI是否存在可能对消费者造成伤害的行为,例如发布虚假信息。
谷歌推出 2000 万美元基金支持负责任的人工智能开发
站长之家(ChinaZ.com)9月12日消息:继在旧金山举行的GoogleCloudNext会议上发布了一系列生成式AI项目和工具后,谷歌于周一宣布推出数字未来项目,旨在汇聚AI发展中的多样化声音。谷歌还宣布设立2000万美元基金,支持「人工智能的负责任发展」。站长网2023-09-12 09:43:060000辛巴泰国带货8亿,头部主播卷向海外
辛巴泰国带货8亿一向做人做事都高调的辛巴,这次前往泰国带货,同样声势浩大。5月7日,辛巴和一众徒弟现身泰国曼谷,在泰国的户外文化遗产博物园暹罗古城开启直播带货。从当天的直播表现来看,辛巴保持着自己一贯的高调风格,喊出“泰国特产”、“最低价”、“当场改价”等话术,全程情绪激昂,讲解产品十分卖力。据悉,这场直播开播两分钟,在线观看破百万观看。站长网2023-05-11 09:02:500002快手2023年Q2实现营收277.4亿元 同比增长27.9%
快手科技发布了2023年第二季度业绩,集团上市后首次实现国际会计准则净利润14.8亿元。经调整净利润为26.9亿元。总营收同比增长27.9%至277.4亿元,超过市场预期。站长网2023-08-22 21:43:020000Comfyui像素画风格插件——PixelArt Detector 可模拟不同时段光照变化
近日,一款名为PixelArtDetector的Comfyui插件引起了广泛关注,它为像素画创作带来了全新的风格调整功能,极大地丰富了像素艺术的表现力。插件地址:https://top.aibase.com/tool/comfyui-pixelart-detector站长网2024-04-06 14:20:450002周鸿祎称任何情况都会支持华为 鸿蒙会成为中国最大操作系统
360集团创始人、董事长周鸿祎宣布,旗下360浏览器等应用已完成鸿蒙原生核心版本的开发,未来将全线产品转移到鸿蒙生态。他强调,无论在何种情况下,都会坚定支持华为,并深信鸿蒙将成为中国最大的操作系统。今年8月,360与华为在华为开发者大会上签署了鸿蒙生态合作协议,主要围绕360浏览器的适配展开。目前,360天气大师等应用已完成鸿蒙原生应用核心版本的开发。站长网2023-12-27 16:41:320001