CMU 研究人员推出 Zeno:机器学习(ML) 模型行为评估框架
CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。
Zeno 包括 Python 的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno,用户可以更简单、更快速、更准确地进行行为评估。
机器学习系统可能存在社会偏见和安全问题,如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标,而忽视了对子群体或输入数据切片的模型输出模式的理解。因此,研究人员强调了进行行为评估的重要性。然而,目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。
Zeno 与其他系统合作,结合了其他方法的优点。它可以进行滑动测试和变形测试,适用于任何领域或任务。通过 Zeno 的 API,用户可以构建主要的行为评估和测试界面,实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。
Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置,然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写,使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上,用户可以从自己的设备上访问。此外,Zeno 已经在包含数百万实例的数据集上进行了测试,并且在大规模部署场景中应该能够良好地扩展。
研究团队进行了几个案例研究,展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明,行为评估框架可以在不同的数据和模型类型中发挥作用。
总的来说,Zeno 是一个灵活的平台,可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望,但其复杂性与其能力的增长速度相当。因此,我们需要强大的工具来支持基于行为的开发,并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。
StoryBee:用AI生成儿童故事 提供多种风格
StoryBee是一款令人惊叹的人工智能平台,专注于生成儿童故事。通过先进的AI技术,该平台能够根据用户选择的故事类型、年龄段和章节数等参数,随时随地生成适合儿童的富有想象力的故事。地址:https://storybee.app/产品特色站长网2023-11-10 16:50:5900014600亿元回购股票!阿里巴巴回应史诗级操作:非常认真、严肃
快科技2月7日消息,阿里巴巴今晚发布2024财年第三财季财报:营收2603.5亿元,同比增长5%。与此同时,阿里还宣布将股份回购计划增加250亿美元,股份回购总规模增至650亿美元(约合人民币4676亿元),回购有效期将延长至2027年3月底。要知道,阿里巴巴目前美股总市值也就1955.75亿美元,650亿美元的股份回购,相当于要回购1/3的股票。0000数十家大公司限制员工使用ChatGPT 包括苹果、亚马逊等
亚马逊和苹果等大公司开始采取措施限制员工对OpenAI的ChatGPT进行访问,这些公司之所以限制内部使用ChatGPT及类似产品,是因为这些产品需要访问大量的数据,包括用户的个人信息、公司内部机密文件等。如果这些数据不断流入外部,就会导致数据泄露,从而对公司的安全造成严重影响。而且在AI网络中,可能存在未知的漏洞,黑客可通过这些漏洞获取企业重要的数据和信息。站长网2023-07-12 17:37:060001OpenAI CEO 在美国国会首秀:回应对 AI 的一切质疑,主动要求接受监管!
从最初只有十来个人的小团队,到如今的300人;从起步拿到10亿美元启动资金,到创造了估值约为300亿美元的AI独角兽“神话”,OpenAI用GPT系列、Whisper、DALL-E2不仅打开了AIGC的新大门,也让自己在AI领域站稳了脚步。然而,正所谓树大招风,因为在AI法律法规、规范标准还不完善的情况下,技术先行引发了很多部门以及竞争者的关注。站长网2023-05-18 09:36:140002Magi:可自动将漫画转录成文字 并自动生成剧本
划重点:📝Magi模型可以自动将漫画页转录成文字并生成剧本。📝功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。📝项目还包含Mangadex-1.5M数据集,旨在解决漫画页面自动理解和剧本生成问题。牛津大学工程科学系的视觉几何组开发了一款名为Magi的模型,可以自动将漫画页转录成文字并生成剧本。站长网2024-03-12 12:16:100004