研究人员发布了针对ChatGPT和其他LLM的攻击算法
卡内基梅隆大学(CMU)的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。
与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:
也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。
随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际的提示,要求有害响应。
接下来,算法通过使用贪婪坐标梯度(GCG)方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM
央视联合上海人工智能实验室发布央视听媒体大模型CMG Media GPT
7月20日,上海人工智能实验室(上海AI实验室)、中央广播电视总台联合发布“央视听媒体大模型”(CMGMediaGPT)。目前,央视听大模型具备了强大的视频理解能力和视听媒体问答能力,同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。站长网2023-07-24 12:04:420001孙燕姿回应「AI 孙燕姿」:没有任何技术能预测人类感受
站长之家(ChinaZ.com)5月23日消息:近期在各大视频平台上,「冷门歌手孙燕姿」靠着各种各样的AI「分身」翻唱不同曲风的歌曲,作品火爆出圈。据了解,目前B站与「AI孙燕姿」相关的视频已有上千条。AI孙燕姿用的核心技术主要来自于一个叫做So-vits的开源项目。按照目前的技术,歌手的唱腔、技巧和风格还很难完全模仿,但音色已经基本能1:1复制了。站长网2023-05-23 14:07:230001被国产手机强势围剿!iPhone三季度再次跌出中国前五
快科技10月28日消息,根据市场研究机构CounterpointResearch的最新数据,2024年第三季度,中国智能手机销量同比增长2.3%,连续四个季度实现同比正增。然而,在国产手机品牌如华为、小米等的强势围剿下,iPhone销量再次跌出中国智能手机市场前五名。站长网2024-10-29 11:48:180000苹果回应地震预警:开启振动开关 下载APP可实现
快科技8月6日消息,山东德州平原县凌晨发生5.5级地震,多地有震感。不少国产手机手机内置地震预警功能,而苹果三星等品牌无内置功能,苹果地震预警热议。对此,苹果客服回应,iPhone确实是有地震预警这个功能的,但是目前这个功能只在地震比较频繁的国家才会有,比如日本、海地。在中国,iPhone地震预警功能也可以在应用商店下载实现。站长网2023-08-06 18:25:590000AI 社交产品Airchat火了 主要以语音为内容载体
要点:1.Airchat是一新的社交产品,具备AI大模型加成,吸引了许多用户的好奇和兴趣,特别是因为其语音互动和实时翻译功能。2.Airchat的不同之处在于其语音为主要内容形式,支持文字和图片,用户可以在异步的语音留言互动中交流。3.最显著的特点是Airchat能实现语音的精准实时翻译,并模仿口音用其他语言表达,展示了AI大模型在产品应用中的能力。站长网2023-10-25 18:42:510000