登陆注册

成功率高达

  • 研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%

    划重点:-研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。-这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。-研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
    站长网2023-12-12 09:48:59
    0000