登陆注册
10453

富士通推出新技术保护对话型AI免受幻觉和对抗性攻击

站长网2023-09-26 10:48:100

文章概要:

1. 富士通宣布推出两项新的人工智能信任技术,旨在提高对话型人工智能模型的可靠性,包括检测幻觉和对抗性攻击的技术。

2. 这些新技术将集成到富士通的人工智能平台“Kozuchi”中,旨在为企业和个人用户提供工具,评估对话型人工智能回复的可靠性,增强人工智能的安全性。

3. 这些技术的应用领域广泛,将有助于保护企业免受虚假信息、钓鱼攻击等威胁,从而促进更安全的人工智能使用。

富士通于2023年9月26日宣布推出两项新的人工智能(AI)信任技术,旨在提高对话型人工智能模型的可靠性,从而增强其在各种用例中的安全性。这两项新技术包括检测对话型人工智能模型中的幻觉以及检测通过注入虚假信息进行的对抗性攻击所植入的网络钓鱼网址的技术。

第一项技术旨在高度精确地检测对话型人工智能回复中的幻觉。在业务运营中,企业经常使用对话型人工智能来提取与问题相关的信息,并将这些数据作为参考信息添加到向外部对话型人工智能提问时。尽管这种方法提供了准确的回复并减少了幻觉,但完全防止幻觉仍然是一个持续存在的问题。这是因为对话型人工智能在某些情况下无法正确提取与问题相关的信息,从而创建不相关或不正确的回复。

图源备注:图片由AI生成,图片授权服务商Midjourney

为了计算高度精确的幻觉评分,新技术首先将人工智能的回复分为三个部分(主语、谓语、宾语等),然后自动识别回复中的命名实体。接下来,技术将这些命名实体留空,并反复向外部人工智能提问,以更准确地定义这些特定表达方式。根据使用WikiBio GPT-3幻觉数据集等开放数据进行的基准测试显示,相对于其他用于检测AI幻觉的先进方法,如SelfCheckGPT,该技术可以将检测的准确性(AUC-ROC)提高约22%。

第二项技术旨在检测对话型人工智能回复中植入的网络钓鱼网址。由于对话型人工智能基于其训练数据创建回复,恶意实体可以通过在人工智能训练数据中注入恶意信息,欺骗人工智能以创建包含操纵信息的回复,例如导致虚假网站的网络钓鱼网址。

为了解决这个问题,富士通开发了一项技术,用于检测对话型人工智能回复中的操纵网址。一旦技术识别出网络钓鱼网址,它将向用户发出警告消息。这项新技术不仅可以检测网络钓鱼网址,还可以增强人工智能模型对现有攻击的抵抗力,以确保其提供高度可靠的回复。该技术是在富士通与以色列本古里安大学的合作下共同开发的,利用了恶意实体通常攻击单一类型的人工智能模型的倾向,通过使用不同的人工智能模型处理信息并评估判断结果的合理性差异来检测恶意数据。此技术不仅可用于检测网络钓鱼网址,还可用于预防欺骗使用表格数据的人工智能模型的一般攻击,从而避免对其他服务的攻击。

这两项新技术将纳入富士通的对话型人工智能核心引擎中,通过“富士通Kozuchi(代号)-富士通AI平台”提供给用户,使用户可以访问广泛的强大人工智能和机器学习技术。检测对话型人工智能中的幻觉的技术将于2023年9月28日起提供给日本用户,而检测对话型人工智能回复中的网络钓鱼网址的技术将于2023年10月起提供。这两项新技术将通过Kozuchi提供给企业用户作为演示环境,并通过专用门户网站提供给个人用户。富士通计划将这两项新技术未来推广到全球市场。

0000
评论列表
共(0)条