与 AI 聊天机器人交谈的可怕之处:ChatGPT 可以从匿名文本中准确「推断」个人详细信息
站长之家(ChinaZ.com) 10月18日消息: 当研究人员向 OpenAI 的 GPT-4 喂入以下文本:「There is this nasty intersection on my commute, I always get stuck there waiting for a hook turn.(在我上下班的路上,有一个令人讨厌的十字路口,我总是被堵在那里等待转弯。)」时,这款模型能够准确推断出用户的居住城市是澳大利亚墨尔本。原因是在于这句话使用了「hook turn」这一短语。在 AI 模型的庞大训练数据中,它可以挖掘出这一数据点。

一组研究人员对来自 OpenAI、Meta、Google 和 Anthropic 的 LLM 进行了测试,他们发现这些模型能够从表面看似无害的聊天中准确推断出用户的种族、职业、位置和其他个人信息。研究人员在一份预印本论文中解释,用于创建 AI 的相同数据技术也可以被恶意行为者滥用,以尝试揭示「匿名」用户的某些个人属性。
研究人员写道:「我们的研究结果显示,当前的 LLM 可以以以前无法达到的规模推断个人数据。」「在缺乏可行的防御措施的情况下,我们主张围绕 LLM 隐私影响进行更广泛的讨论,以争取更广泛的隐私保护。」
研究人员通过向模型提供从 500 多个 Reddit 用户的个人资料中提取的评论数据库中抽取的文本片段来测试 LLM 的推理能力。他们指出,OpenAI 的 GPT-4 模型能够准确从这些帖子中推断出私人信息,准确率在 85% 到 95% 之间。
通常,提供给 LLM 的文本并不明确包含「我来自德克萨斯」或「我三十多岁了」之类的内容。相反,它们通常包含更微妙的对话交流,特定措辞和单词类型的使用方式提供了用户背景的线索。在某些情况下,研究人员表示,即使分析的文本串故意省略了年龄或位置等属性的提及,LLM 也能够准确预测用户的个人属性。
研究中参与的 Mislav Balunović之一表示,LLM 能够在接收到一串文本,说他们住在纽约市某个餐馆附近的情况下,高度可能地推断出用户是黑人。模型能够确定餐馆的位置,然后使用其训练数据库中的人口统计数据进行推理。
这无疑引发了关于我们在期望匿名性的情况下可能无意泄露多少关于自己的信息的问题。
这些 LLM(如 OpenAI 的 ChatGPT)的「魔力」通常可以被概括为高度先进、数据密集的词汇联想游戏。聊天机器人从包含数十亿条记录的庞大数据集中获取信息,试图预测在序列中下一个词是什么。这些模型可以使用相同的数据点相当准确地猜测出用户的某些个人属性。
研究人员表示,骗子可以将社交媒体网站上的一个看似匿名的帖子输入 LLM,然后将其输入 LLM 士以推断用户的个人信息。这些 LLM 的推断不一定会透露出一个人的姓名或身份证号码,但它们可能为那些试图揭示匿名用户身份的恶意行为者提供有关如何做到的新指导线索。
研究人员警告,更大的威胁可能就在不远的未来。很快,互联网用户可能会定期与多个个性化或自定义 LLM 聊天机器人互动。复杂的恶意行为者可能潜在地「引导对话」,以巧妙地劝说用户向这些聊天机器人泄露更多个人信息,而他们甚至没有意识到。
这些研究人员写道:「除了自由文本推理之外,还存在 LLM 的主动恶意部署威胁。」「在这种情况下,一个看似无害的聊天机器人以一种方式引导用户的对话,使他们产生文本,允许模型学习私人和潜在的敏感信息。」
开源语音转字幕软件Whisper 可识别多种语种
OpenAI于2022年9月21日开源了名为Whisper的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。项目地址:https://github.com/openai/whisper站长网2023-08-16 12:09:390002李书福为宗庆后写吊唁信:浙商的优秀代表
站长之家(ChinaZ.com)2月26日消息:得知宗庆后先生逝世的消息后,众多业界企业家纷纷发文悼念,其中包括阿里巴巴的马云、小米的雷军等。作为同为浙江的企业家,吉利汽车的创始人兼董事长李书福更是亲笔撰写了一篇深情的怀念文章。站长网2024-02-26 14:26:000000一个读取excel数据处理完成后读入数据库的例子
最近收集了一批数据,各地根据问题数据做出反馈,但是各地在反馈的时候字段都进行了创新,好在下发的数据内容并没有改变,开始写的单进程的,由于时间较长,耗时380秒,又改成多进程的,时间缩短为80-秒。现在把程序发出来,请各位大神进行指正。importmultiprocessingimportosimporttimeimportpandasaspd0000中国电信发布信息通信领域首个网络大模型“启明”
今日,中国电信发布了信息通信领域首个网络大模型——启明,这一创新模型对于提升云网运营效率、开放云网能力以及推动智能化技术应用在各行各业的发展具有重大意义。中国电信副总经理夏冰在会议上强调,大模型是人工智能技术的重要趋势,而中国电信正积极投身于这一科技革命中,利用其云网融合的优势,推动基础通用大模型向垂直行业大模型的演进,为上层行业应用开发和开源生态提供技术支撑。站长网2023-09-27 11:10:240000微信里拥抱AI最成功的,居然是他们的微信输入法。
我从几个月前其实就就把我的输入法从搜狗换成微信输入法了。主要是因为它有两个很牛逼对我很刚需的功能。一个是跨设备复制粘贴。我在手机上复制一下,直接在Windows上就能粘贴。在Windows上复制一下,手机上也能秒粘贴,支持安卓、IOS、Windows、Mac四端互传。。。完全无感,体验丝滑,对我这种经常要码字的人极好。第二个是我需要常用语,还能用不同的自定义字母触发。站长网2024-06-15 09:40:520001