CMU 研究人员推出 Zeno:机器学习(ML) 模型行为评估框架
CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。
Zeno 包括 Python 的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno,用户可以更简单、更快速、更准确地进行行为评估。
机器学习系统可能存在社会偏见和安全问题,如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标,而忽视了对子群体或输入数据切片的模型输出模式的理解。因此,研究人员强调了进行行为评估的重要性。然而,目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。
Zeno 与其他系统合作,结合了其他方法的优点。它可以进行滑动测试和变形测试,适用于任何领域或任务。通过 Zeno 的 API,用户可以构建主要的行为评估和测试界面,实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。
Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置,然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写,使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上,用户可以从自己的设备上访问。此外,Zeno 已经在包含数百万实例的数据集上进行了测试,并且在大规模部署场景中应该能够良好地扩展。
研究团队进行了几个案例研究,展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明,行为评估框架可以在不同的数据和模型类型中发挥作用。
总的来说,Zeno 是一个灵活的平台,可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望,但其复杂性与其能力的增长速度相当。因此,我们需要强大的工具来支持基于行为的开发,并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。
抖音打击黑灰产通过AIGC造假等违规“涨粉养号”行为
抖音发布打击黑灰产违规“涨粉养号”行为的公告称,在日常巡查中发现,有黑灰产组织试图通过“AIGC造假”“盗取他人直播内容并加以剪辑”“以官方名义发布培训课程”等多种新型行为,批量发布低质同质甚至违法违规内容,试图借此使其账号快速涨粉、“养号”,不当获利。对此,平台予以了严厉打击。行为一:利用人工智能技术(AIGC)创建虚拟人物仿冒真人或批量发布低俗低质内容。0000努比亚新旗舰即将发布:35mm定制光学系统
努比亚即将发布一款影像新旗舰。据官方透露,该机将搭载35mm定制光学系统,效果超越一英寸镜头。此前,努比亚Z50相机采用了相同技术,在23mm镜头的基础上提升了像素密度,效果提升123%。此次新机搭载骁龙8Gen2处理器,配备UFS4.0闪存和LPDDR5X性能铁三角。具体规格和发布时间尚未公布。站长网2023-07-02 10:12:390001阿里可控视频生成框架DreaMoving开源
今天,阿里可控视频生成框架DreaMoving正式开源,从网友测试的效果来看,其对人物运动的控制还是比较理想的。据介绍,DreaMoving是基于扩散模型的可控视频生成框架,用于产生高质量定制的人类视频。DreaMoving允许用户生成具有高度自定义特征的人类视频,如在沙滩上微笑的女孩,中央公园跳舞的亚洲女孩等。站长网2023-12-21 10:44:040000谷歌发布Cloud TPU v5p和AI超级计算机:人工智能处理能力飞跃
**划重点:**1.💡**CloudTPUv5p亮点:**Google推出的最强大的张量处理单元,性能设计突出,每个pod搭载8,960个芯片,芯片之间的互联速度达到4,800Gbps,相较于前代v4,性能翻倍,高带宽内存(HBM)更是增加三倍。站长网2023-12-11 10:48:500000AI手机元年:三星梭哈,苹果跟注,华为坐庄
前不久,三星发布了新一代旗舰旗舰设备GalaxyS24系列,包括GalaxyS24、GalaxyS24和GalaxyS24Ultra。作为安卓机皇,GalaxyS24系列均采用定制版高通骁龙8Gen3Galaxy处理器,国行先行者版起售价格分别为5999元、7499元、10199元。站长网2024-02-01 18:15:240000