微软推大模型整合性工具库PromptBench
站长网2023-12-27 16:53:260阅
微软最近推出了一个专门用于评估大语言模型的整合性工具库,名为PromptBench。该工具库提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击等,以支持研究人员从不同方面对LLMs进行评估和分析。
项目地址:https://github.com/microsoft/promptbench
论文地址:https://arxiv.org/abs/2312.07910
PromptBench的主要特点和功能包括:
支持多种模型和任务,能够评估多种不同的大语言模型,如GPT-4,以及多种任务,比如情感分析、语法检查等。
同时,提供标准评估、动态评估和语义评估等不同的评估方法,以全面测试模型的性能。另外,实现了多种提示工程方法,如少量样本的思维链、情感提示、专家提示等。还集成了多种对抗性测试方法,用于检测模型对于恶意输入的反应和抵抗力。
还包括用于解释评估结果的分析工具,如可视化分析和词频分析。最重要的是,PromptBench提供了一个界面,允许快速构建模型、加载数据集,并评估模型性能。可以通过简单的命令安装和使用,方便研究人员构建和运行评估管道。
PromptBench支持多种数据集和模型,包括GLUE、MMLU、SQuAD V2、IWSLT2017等,并支持众多模型,如GPT-4、ChatGPT等。这一系列特点和功能使得PromptBench成为一个非常强大且全面的评估工具库。
0000
评论列表
共(0)条相关推荐
上海出台11条举措推动人工智能大模型创新发展
近日,上海市经信委、发改委等五部门联合制定并正式发布了《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》。文件提出11条举措,聚焦大模型创新能力、创新要素供给、大模型创新应用、创新环境四大方面,为上海市大模型创新发展指明方向。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-11-09 10:27:070000画一笔AI画整张图!AI实时作画方式被打开,颜色细节自动补全,一个脚本即可实现
现在用AI画画,完整草图都不需要了。每一笔落下,AI都会实时交上“新作业”细节、颜色、画布空白,它都自动补全。还能通过提示词来控制生成图像的内容和风格。比如加一句“一个穿长外套的男人站在海边“,AI立马调整了作画方向:最后成稿的作品如下,效果很奈斯。怪不得网友表示,自己惊掉的下巴已经找不到了。这就是最新火起来的AI实时作画项目,Reddit上的热度有1.8万。站长网2023-05-12 20:41:050000庄俊:年销1亿+品牌,在小红书做对了什么?
│前言│“怎么办?小红书笔记投了那么多,销量还是不好?”“入局小红书半年,总是没有抓对人群,聚光也有在投。”最近,这种声音时常在耳边响起,那我们明白什么?小红书从标记美好生活开始,到种草文化,再到现在努力完善自己的商业生态,最后形成种草闭环的生意。在这个过程中,每一年都有很多黑马品牌破圈,为品牌带来了销量曲线式增长。今天也依然有很多新兴品牌、传统品牌都在拥抱小红书。0000大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着Sora的爆火,人们看到了AI视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。站长网2024-03-04 19:32:370000报告发现,许多人工智能治理工具存在“错误修复”
划重点:🚨世界隐私论坛报告指出,超过三分之一的人工智能(AI)治理工具存在“缺陷修复”,对AI系统的公正性和可解释性评估存在问题。🤔一些由微软、IBM和谷歌等公司开发或传播的工具和技术也被发现存在问题,引发关注。🌐尽管存在缺陷,专家表示2024年有望通过国际组织和标准制定机构的合作取得人工智能治理工具的实质性改善。0000