CMU 研究人员推出 Zeno:机器学习(ML) 模型行为评估框架
CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。
Zeno 包括 Python 的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno,用户可以更简单、更快速、更准确地进行行为评估。

机器学习系统可能存在社会偏见和安全问题,如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标,而忽视了对子群体或输入数据切片的模型输出模式的理解。因此,研究人员强调了进行行为评估的重要性。然而,目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。
Zeno 与其他系统合作,结合了其他方法的优点。它可以进行滑动测试和变形测试,适用于任何领域或任务。通过 Zeno 的 API,用户可以构建主要的行为评估和测试界面,实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。
Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置,然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写,使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上,用户可以从自己的设备上访问。此外,Zeno 已经在包含数百万实例的数据集上进行了测试,并且在大规模部署场景中应该能够良好地扩展。
研究团队进行了几个案例研究,展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明,行为评估框架可以在不同的数据和模型类型中发挥作用。
总的来说,Zeno 是一个灵活的平台,可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望,但其复杂性与其能力的增长速度相当。因此,我们需要强大的工具来支持基于行为的开发,并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。
AI视野:阿里妈妈上线AI直播;多家AI绘画网站集中关闭;Stability AI发布AI音乐生成工具Stable Audio
🤖📱💼AI应用StabilityAI发布AI音乐生成工具StableAudio伦敦初创公司StabilityAI发布StableAudio,使用AI从文本生成自定义音乐和音效。该系统使用基于扩散的模型,可以在几秒内生成长达90秒的专业音频。StableAudio的优势在于生成多风格音乐,提供友好界面,面向需要快速背景音乐的创意专业人士。要点:站长网2023-09-14 21:40:440001库克谈为何每年推出新iPhone:每年换机是很酷的事
近日,苹果公司首席执行官蒂姆库克在接受海外杂志采访时谈到了公司未来的规划。当被问到为什么苹果每年都要发布一款新的iPhone,而新iPhone几乎没有太大升级,这与苹果一直倡导的环保观念不符时,库克表示:“我认为对于那些想要(新手机)的人来说,每年都能买到一款iPhone是一件很酷的事情。”站长网2023-10-10 09:35:210000亚马逊宣布向Claude 母公司Anthropic投资高达40亿美金
据路透社报道,亚马逊宣布将向人工智能初创公司Anthropic投资高达40亿美元,以加强与竞争对手在云计算领域的竞争。作为交易的一部分,亚马逊的员工和云客户将尽早获得Anthropic的技术,并将其整合到自己的业务中。站长网2023-09-25 16:02:180001印度亚洲首富旗下公司4月推出本土版ChatGPT
印度本土的ChatGPT时代即将来临。近日,亚洲首富、印度著名企业家安巴尼(MukeshAmbani)旗下的信实工业,将在下月与印度八所顶尖高校研究院共同推出类似ChatGPT的本土化语言服务。这一名为“BharatGPT”的印度语言模型已在近日的技术峰会上首次公开亮相。其以印度教神话角色哈奴曼命名,通过11种印度本地语言,覆盖医疗、金融、教育等领域。站长网2024-02-22 10:40:180001微博已接入阿里云通义大模型 覆盖AI评论、明星陪聊等功能
站长之家(ChinaZ.com)5月18日消息:据阿里云官方消息,微博宣布已成功将阿里云的大模型技术融入其核心业务,开启了一个全新的智能互动时代。这一融合不仅覆盖了AI评论、AI明星陪聊、虚拟角色帐号、星座大模型,更在信息流广告创意生成等领域展现出了显著成效。站长网2024-05-18 10:10:220000