登陆注册

CMU

  • CMU 研究人员推出 WebArena:为实用代理提供真实可复现的网络环境

    CMU研究人员推出WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena还嵌入了工具和知识资源作为独立的网站。WebArena引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于Web的交互。
    站长网2023-07-28 09:48:37
    0001
  • CMU 研究人员推出 Zeno:机器学习(ML) 模型行为评估框架

    CMU的研究人员开发了一种名为Zeno的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。Zeno包括Python的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过Zeno,用户可以更简单、更快速、更准确地进行行为评估。
    站长网2023-07-21 17:54:49
    0000