CMU 研究人员推出 Zeno:机器学习(ML) 模型行为评估框架
CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。
Zeno 包括 Python 的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno,用户可以更简单、更快速、更准确地进行行为评估。
机器学习系统可能存在社会偏见和安全问题,如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标,而忽视了对子群体或输入数据切片的模型输出模式的理解。因此,研究人员强调了进行行为评估的重要性。然而,目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。
Zeno 与其他系统合作,结合了其他方法的优点。它可以进行滑动测试和变形测试,适用于任何领域或任务。通过 Zeno 的 API,用户可以构建主要的行为评估和测试界面,实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。
Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置,然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写,使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上,用户可以从自己的设备上访问。此外,Zeno 已经在包含数百万实例的数据集上进行了测试,并且在大规模部署场景中应该能够良好地扩展。
研究团队进行了几个案例研究,展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明,行为评估框架可以在不同的数据和模型类型中发挥作用。
总的来说,Zeno 是一个灵活的平台,可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望,但其复杂性与其能力的增长速度相当。因此,我们需要强大的工具来支持基于行为的开发,并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。
国家新闻出版署公布新一批进口游戏版号 40款游戏获批
国家新闻出版署公布新一批进口游戏版号,40款新游获批。其中,完美世界《一拳超人:世界》、吉比特旗下雷霆网络《烛火地牢2》、中青宝《怪物火车》、恺英网络《关于我转生变成史莱姆这档事:新世界》等过审。0001微软加入 OpenAI 董事会 Sam Altman 正式重新担任CEO
11月30日,人工智能初创公司OpenAI宣布,联合创始人萨姆·奥尔特曼将正式重返CEO一职。此前,OpenAI董事会四名成员中有三名提议解雇奥尔特曼,导致公司高层在继任人选上意见分歧。站长网2023-11-30 09:27:260001vivo开源蓝心大模型BlueLM-7B系列 后续还将开源13B以及多模态7B-vl模型
近日,vivoAI正式开源了BlueLM-7B基础(base)模型和7B对话(chat)模型,同时开源了支持32K的长文本基础(base)模型和对话(chat)模型。具体特性如下:更大量的优质数据:高质量语料库进行训练,规模达到了2.6万亿的token数,该语料库包含中文、英文以及少量日韩数据;站长网2023-11-09 14:11:270002消费者滥用“七日无理由退货”被法院驳回:半年退货手机77次
近日,北京互联网法院审结了一起因滥用“七日无理由退货”规则而引发的网络购物纠纷案件。原告路先生在半年内通过电商平台购买并退货77次手机,其行为被法院认定违反了诚实信用原则。路先生在购买4台手机后,申请无理由退货被平台拒绝,随后他以低于购买价的价格在二手平台转卖手机,并要求电商平台赔偿差价损失。站长网2024-08-10 03:53:010000蚂蚁集团入股认知大模型研发公司智谱AI
天眼查显示,10月17日,北京智谱华章科技有限公司发生工商变更,新增股东为蚂蚁集团子公司上海云玡企业管理咨询有限公司。站长网2023-10-18 21:20:110000