MIT等机构推出数据溯源平台 解决AI领域的数据透明危机
🔍 划重点:
1. 研究人员联合MIT、Cohere for AI等机构发布了Data Provenance Platform,旨在解决AI领域的数据透明危机。
2. 他们对近2,000个广泛使用的微调数据集进行了审计和追踪,这些数据集已被下载数千万次,是许多自然语言处理(NLP)突破的基础。
3. 报告指出,数据集的溯源和透明度问题可能导致数据泄漏、暴露个人身份信息、出现意外偏见或行为,从而降低了模型的质量,同时也带来了法律和伦理风险。
研究人员来自麻省理工学院(MIT)、Cohere for AI以及其他11个机构,他们共同发布了Data Provenance Platform,旨在应对AI领域的数据透明危机。这一平台的推出旨在解决AI模型训练数据集的来源和使用透明度不足的问题,这是当前AI领域亟待解决的挑战之一。
图源备注:图片由AI生成,图片授权服务商Midjourney
这个跨机构合作的倡议审计和追踪了近2,000个广泛使用的微调数据集。这些数据集被下载了数千万次,被认为是许多自然语言处理(NLP)领域突破的基础。这一举措的发起者包括MIT Media Lab的博士候选人Shayne Longpre和Cohere for AI的负责人Sara Hooker。
这个跨学科倡议的结果是迄今为止规模最大的AI数据集审计。这些数据集首次包含了标签,用于指示原始数据来源、多次重新授权、创建者和其他数据属性。为了使这些信息实际可操作并易于获取,他们还开发了一个名为"Data Provenance Explorer"的互动平台,允许开发人员根据法律和伦理考虑来跟踪和筛选成千上万个数据集,同时也让学者和记者探索流行AI数据集的组成和数据渊源。
与此同时,他们还发布了一份名为"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"(数据来源倡议:人工智能中数据集许可和归属的大规模审计)的研究报告。报告指出,越来越多的广泛使用的数据集被视为单一整体,而不是一系列数据来源,这些数据经过多次包装和重新授权。这种处理方式的缺点在于,它们通常不充分注明数据来源和版权信息,这导致了对训练数据的理解不足。这一不足可能导致训练数据和测试数据之间的数据泄漏,暴露个人身份信息,导致意外的偏见或行为,最终降低了模型的质量。此外,这也带来了伦理和法律风险,例如,模型发布与数据使用条款可能相互抵触。这些挑战都不容易解决,因为在数据上训练模型既昂贵又基本不可逆转。
Data Provenance Platform的推出有望改善AI领域的数据透明度,提高数据集的质量和伦理合规性,从而推动AI技术的可持续发展。这一举措也将有助于减少AI模型中的潜在问题,如偏见、数据泄漏和法律风险,为AI技术的广泛应用提供更可靠的基础。
华北地区天空惊现UFO 博主科普:大概率是美国猎鹰9号火箭
快科技1月15日消息,昨晚18点多,北京、河北、山西等地多位网友发帖称,拍摄到天空中有疑似不明飞行物体。此UFO呈现圆形烟雾,飞行方向是西南-东北。有网友形容:不明光团,飞着飞着就没了,不是飞机,边上的飞机有闪烁的灯光很清晰。”对此,知名航空博主航空物语”科普道:此次UFO非常有可能是美国猎鹰9号火箭。站长网2024-01-16 07:01:200000凌晨直播的老年人,卖惨也卖货
“谢谢大家下单”“希望你们喜欢我的产品”凌晨1点,连话都说不清的的老人还在直播间反复说着:“谢谢”。据老爷爷描述,老伴和儿媳都患有精神疾病,儿子一个人要照顾他们三个人,非常不容易,只好让他出来直播增添家用。这样的家庭背景引起了很多网友的同情,不少用户主动在直播间热心刷礼物、购买产品。站长网2023-08-17 09:11:320001新晋乡村“顶流”,能带得动货吗
1月12日早9点,@八零徐姥姥一家如约出现在抖音直播间。和日常发布的短视频不同,一贯不怎么露面的视频拍摄者成成变成了首场直播的“主力”,负责在直播间和网友们聊天、介绍、带产品,妈妈和姥姥则穿着大花袄坐在一旁当“吉祥物”,大部分时间不怎么说话。站长网2024-01-22 17:55:200001B站给16位UP主颁了个商业奖,释放出哪些信号?
2024年,UP主如何在B站优雅吸金?1月6日的2023百大UP主盛典上,B站公布的16个商业单项奖给出了参考答案。有的UP主从学习博主转型做汽车科普,靠硬核讲解获得粉丝和品牌的双重信任;有的UP主凭借“丝滑”植入,吸引头部品牌稳定复投;还有的UP主精准把握B站用户成长转型需求进军家居带货,双十一创下直播带货全渠道GMV16.8亿元的战绩。0003字节跳动宣布除夕统一放假 特批节日假期不占年休
10月30日,网传字节跳动宣布除夕统一放假,字节跳动员工证实该消息属实。字节跳动于10月30日13时发布公告,通知除夕当天为公司额外提供的春节团聚假,不占用员工年假额度。10月25日,国务院办公厅发布通知,规定2024年春节假期为2月10日至17日放假调休,共8天。通知提出鼓励各单位在除夕安排职工休息。字节跳动的安排符合国务院的建议。站长网2023-10-30 17:12:400000