智谱AI发布中文 LLM 对齐评测基准AlignBench
站长网2023-12-12 16:39:510阅
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。
AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。
为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。
开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。
体验地址:https://llmbench.ai/align
0000
评论列表
共(0)条相关推荐
强化学习之父萨顿入局AGI创业 放话不依赖大模型
要点:1、卡马克与强化学习之父萨顿联手创办AI创业公司KeenTechnologies,旨在2030年向公众展示通用人工智能的可行性。2、他们的目标是不依赖大模型,追求实时的在线学习,并相信AGI的源代码可以由一个人编写,只需几万行。3、卡马克和萨顿认为当前AGI发展受限于依赖大数据和大算力,他们计划采用模块化和分布式的架构,并注重持续的在线学习,而不是预训练后停止更新参数。站长网2023-10-08 16:21:080000一个读取excel数据处理完成后读入数据库的例子
最近收集了一批数据,各地根据问题数据做出反馈,但是各地在反馈的时候字段都进行了创新,好在下发的数据内容并没有改变,开始写的单进程的,由于时间较长,耗时380秒,又改成多进程的,时间缩短为80-秒。现在把程序发出来,请各位大神进行指正。importmultiprocessingimportosimporttimeimportpandasaspd0000特斯拉推送OTA升级 3大改变 车主狂喷:太傲慢 龟速进化
快科技8月5日消息,近日特斯拉推送了【2023.20.9】OTA软件版本升级。本次推送有三大更新:1、优化了拼音键盘功能2、大号文本适用所有支持的语言3、可以查看自上次维修以来的行驶里程数对此,不少车主表示毫无诚意:-这更新鸡肋中的鸡肋。雨刷问题、地图问题真就不管了?-龟速进化-我能去你们软件部上班吗?我最擅长摸鱼了有车主还指出了特斯拉当前存在的严重问题,包括:站长网2023-08-05 14:18:360000美国 SEC 调查 OpenAI 投资者是否被误导
据《华尔街日报》的报道,美国证券交易委员会正在审查OpenAI高管SamAltman的内部通讯,以调查该公司的投资者是否被欺骗。监管机构正在寻找ChatGPT的创建者和前高管任的内部记录,并在去年12月向公司发行了传票。在此之前,OpenAI董事会在去年11月决定解除了Altman最初的职责,并启动了其一直启动的董事会。站长网2024-02-29 16:43:060000车长接近5米8 特斯拉Cybertruck尺寸曝光 这长度市区能开?
快科技7月20日消息,近日,特斯拉官方公布了更多关于其首款电动皮卡Cybertruck的更多信息,并表示:车身长度低于19英尺,约5.8米、货箱长度超过6英尺,约1.83米”。照此看来,该尺寸要想在国内道路正常行驶,将存在不小的问题。站长网2023-07-21 01:58:150000