微软推大模型整合性工具库PromptBench

站长网2023-12-27 16:53:260阅

微软最近推出了一个专门用于评估大语言模型的整合性工具库，名为PromptBench。该工具库提供了一系列工具，包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击等，以支持研究人员从不同方面对LLMs进行评估和分析。

项目地址:https://github.com/microsoft/promptbench

论文地址:https://arxiv.org/abs/2312.07910

PromptBench的主要特点和功能包括:

支持多种模型和任务，能够评估多种不同的大语言模型，如GPT-4，以及多种任务，比如情感分析、语法检查等。

同时，提供标准评估、动态评估和语义评估等不同的评估方法，以全面测试模型的性能。另外，实现了多种提示工程方法，如少量样本的思维链、情感提示、专家提示等。还集成了多种对抗性测试方法，用于检测模型对于恶意输入的反应和抵抗力。

还包括用于解释评估结果的分析工具，如可视化分析和词频分析。最重要的是，PromptBench提供了一个界面，允许快速构建模型、加载数据集，并评估模型性能。可以通过简单的命令安装和使用，方便研究人员构建和运行评估管道。

PromptBench支持多种数据集和模型，包括GLUE、MMLU、SQuAD V2、IWSLT2017等，并支持众多模型，如GPT-4、ChatGPT等。这一系列特点和功能使得PromptBench成为一个非常强大且全面的评估工具库。

微软推大模型整合性工具库PromptBench

0000

评论列表

共(0)条

相关推荐

站长资讯
实验证明，基于AI的干预帮助大学生通过STEM课程
**划重点:**1.📊研究发现:定期接收STEM课程成绩预测的学生更有可能获得及格分数。2.🤖AI介入:内布拉斯加大学的MohammadHasan领导的研究团队使用机器学习，通过学习数据中的模式进行预测，为STEM课程的学生提供干预。
站长网2023-11-13 21:44:50
0000
站长资讯
AI风投基金OpenAI Startup Fund额外筹集500万美元资金
划重点:⭐️OpenAIStartupFund融资额外5百万美元⭐️资金来自两位投资者，转入特殊目的实体OpenAIStartupFundSPVIII，L.P.⭐️OpenAIStartupFund已向至少16家初创公司投资，包括Harvey、AmbianceHealthcare和人形机器人公司FigureAI。
站长网2024-05-14 10:19:55
0000
专注Robotaxi，才是真正的Robotaxi第一股
2024年10月25日，自动驾驶公司文远知行成功登陆纳斯达克，成为今年中国公司最大的赴美IPO之一。开盘之后，文远知行一度大涨近30%，市值冲到380亿人民币。
站长网站长资讯2024-10-29 18:16:47
0000
站长资讯
AI智能硬件公司「未来智能」获数千万元Pre-A轮融资
据36氪报道，近日，安徽艾德未来智能科技有限公司（未来智能）宣布完成数千万元Pre-A轮融资，由天际资本领投。本轮融资资金将主要用于AI创新产品研发和市场扩张。他们的主打产品是iFLYBUDS系列会议办公耳机，可以在打电话、路演等场景中快速启动录音功能。该产品适配系统通话、网络电话以及市面上主流的会议APP，并支持边录音边转文字、外语实时翻译等多种功能。
站长网2023-09-07 14:30:33
0000
国庆节雷军演讲祝福祖国：现在全世界都在用中国科技产品！
在这个秋高气爽的金秋时节，我们隆重庆祝中华人民共和国成立75周年。据官方报道，小米创始人雷军发表致辞，深情缅怀祖国峥嵘岁月。他感慨万千地回忆起昔日校园生活，彼时拥有国外电子产品的同学会成为全校羡慕的对象。而如今，物换星移，中国科技产品已成为全球瞩目的焦点。雷军动情地表示，从建国之初的百废待兴，到如今中国科技产品远销世界各地，这其中凝结着无数先辈的汗水和心血。我们是见证少年中国成长的一代人。
站长网站长资讯2024-10-07 02:23:32
0000