微软在开发AI模型时泄露了38TB敏感数据
要点:
微软在GitHub公共存储库上错误使用Azure平台的共享访问签名令牌(SAS),导致38TB的私人数据泄露,包括密码、密钥和内部消息。
SAS令牌的不当使用和缺乏监控以及管理,使得数据泄露风险增加,难以追踪。
高度依赖大规模数据的AI模型训练过程需要更强的安全措施和协同工作,以防止类似的事件再次发生。
微软近期的数据泄露事件凸显了AI模型训练过程中的安全风险和挑战。这一事件发生在GitHub公共存储库上,由于错误使用Azure平台的共享访问签名令牌(SAS),导致了38TB的私人数据泄露。
微软的AI研究人员通过一个权限过于宽松的SAS令牌在GitHub上分享文件,其中包括用于图像识别的开源代码和AI模型。然而,SAS令牌的危险在于缺乏监控和管理,因此难以追踪和控制。这使得微软的数据曝露了数年之久,严重威胁了数据的安全性。
图源备注:图片由AI生成,图片授权服务商Midjourney
除了用于AI模型训练的数据,微软还泄露了两名员工工作站的磁盘备份,其中包括了“秘密”、私人加密密钥、密码以及属于359名微软员工的超过30,000条内部Microsoft Teams消息。总计有38TB的私人文件可能被任何人访问,直到微软于2023年6月24日吊销了危险的SAS令牌。
这次事件突显了SAS令牌的安全风险,因为它们缺乏监控和治理。Wiz指出,应尽量限制SAS令牌的使用,因为微软没有提供通过Azure门户进行集中管理的方式。
此外,SAS令牌可以配置为“实际上永久有效”,这使得难以追踪和控制其使用。首个微软提交到其AI GitHub存储库的令牌于2020年7月20日添加,有效期一直延续到2021年10月5日。随后又添加了第二个令牌,有效期设置为2051年10月6日。
总之,微软的这一多TB数据泄露事件凸显了AI模型训练的风险。这种新兴技术需要大规模的数据来进行训练,许多开发团队需要处理大量数据,与同行分享数据,或者参与公共开源项目的合作。然而,类似微软的事件变得越来越难以监控和避免,因此需要更强的安全措施和协同工作来确保数据的安全性和隐私保护。
2023短剧复盘与2024年的十个预测
从2019年开始,我们对短剧持续观察,至今还有许多待解的疑问:短剧对用户提供什么样的核心价值?究竟只是针对某部分特定人群的内容消费,还是对整个短视频的普遍「升级」?短剧的用户盘子究竟能有多大?内容在短剧价值链里的份额有多大的提高空间?短剧能成为新的明星产生通道吗?有没有可能形成真正意义的IP?它是否有可能演化出全新的内容叙事形态?站长网2024-02-19 09:08:290000阿里云实验将千问大模型接入工业机器人
据财联社消息,在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云的工程师正在进行实验,将千问大模型应用于工业机器人,使得机器人能够远程接受人类语言的指令来进行工作。这一技术能够通过钉钉的对话框来实现,在连接上机器人后,只需要在钉钉中输入指令,即可远程操控机器人工作。站长网2023-04-27 17:35:010000华为发布全新昇腾AI计算集群 支持超万亿参数大模型训练
华为在全联接大会2023期间发布了全新架构的昇腾AI计算集群Atlas900SuperCluster,该集群可支持超万亿参数的大模型训练。该集群采用了全新的华为星河AI智算交换机CloudEngineXH16800,并使用了创新的超节点架构,大大提升了大模型训练能力。站长网2023-09-20 17:29:470000不增加投入推广网站的5个实用方法
作为一个站长,必须了解网站推广的重要性,下面简单谈一谈5个比较实用的网站推广方法。一、通过各大广告任务网推广为什么要把广告任务网推广排在第一呢?因为现在主要就是用这些平台在推广网站,不过广告任务网需要付费,虽然一天才几块钱,但是大家还是要谨慎。广告任务网挂广告,大家需要注意几点。站长网2020-06-13 22:42:390004