Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2
Refuel AI 最近宣布推出两个新版本的大型语言模型(LLM),RefuelLLM-2和 RefuelLLM-2-small,这两个模型专为数据标注、清洗和丰富任务而设计,旨在提高处理大规模数据集的效率。
RefuelLLM-2的主要特点包括:
自动化数据标注:能够自动识别和标记数据中的关键信息,如分类数据和解析特定属性。
数据清洗:自动检测并修正数据中的错误或不一致性,例如拼写错误和格式问题。
数据丰富:根据现有数据自动补充缺失信息或提供额外上下文,增加数据的价值和可用性。
高准确率:在约30项数据标注任务的基准测试中,RefuelLLM-2以83.82%的准确率优于所有其他最先进的大型语言模型,包括 GPT-4-Turbo 和 Claude-3-Opus。
两款模型的比较:
RefuelLLM-2:基于 Mixtral-8x7B 模型,支持高达32K的最大输入上下文长度,适合处理长文本输入。
RefuelLLM-2-small:基于 Llama3-8B 模型,提供一个成本更低、运行更快的选项,同时保持高性能,支持高达8K的输入上下文长度。
训练细节:
两款模型都在超过2750个数据集上进行训练,涵盖分类、阅读理解、结构化属性提取和实体解析等任务。
训练方法:包括两个阶段,第一阶段专注于指令调整训练,第二阶段则加入更长上下文的输入,以提高模型在复杂数据处理任务中的表现。
性能提升:
两阶段训练方法使得 RefuelLLM-2在基本数据处理任务中表现出色,并能有效处理长上下文输入。
质量评估:
在长上下文数据集和非公开数据集的评估中,RefuelLLM-2和 RefuelLLM-2-small 均展现出良好的性能和泛化能力。
在置信度分数质量方面,RefuelLLM-2和 RefuelLLM-2-small 显示出比其他模型更好的置信度分数校准。
Refuel AI 的这一创新为数据标注和清洗领域带来了新的解决方案,有助于自动化和优化大规模数据处理流程。
playground:https://labs.refuel.ai/playground
模型下载:https://huggingface.co/refuelai/Llama-3-Refueled
爱奇艺再向前一步
“无论影视行业还是互联网行业,最难的时候应该是过去了,接下来我们要高质量增长。”5月10日,爱奇艺创始人、首席执行官龚宇,在2023爱奇艺世界·大会上如是总结。站长网2023-05-14 09:43:440003京东双十一23日提前卖现货 全程价保覆盖超8亿商品
10月19日,在“京东11.11真便宜”发布会上,京东宣布,今年京东11.11将以最具诚意的价格、最有吸引力的商品,以及最贴心的服务,用实打实的真低价,为消费者带来真便宜、闭眼买的消费体验。今年京东11.11将于10月23日晚8点正式开启,不仅有预售,更有海量便宜好物“现货开卖”,消费者即买即得、不用等,更有全程价保覆盖超8亿商品。站长网2023-10-19 17:06:090000谷歌 I/O 2023 重点是 AI:Android 14 在主题演讲中仅被提及一次
谷歌I/O2023有一个非常明确的重点——人工智能。SundarPichai对AI的介绍包括有关PaLM2,Google相册中的新「魔术编辑器」等的公告。GoogleBard也有扩展,并在GoogleWorkspace产品(Docs,Gmail等)和搜索中预览生成AI。站长网2023-05-15 16:01:390001Redmi K60至尊版今日开售 售价2599元起
RedmiK60至尊版将在今天上午10点开售,这款手机搭载了联发科天玑9200处理器,最高可提供24GB1TB的存储组合,售价从2599元起。站长网2023-08-16 09:29:590000小米之家美女跳舞引围观 王腾否认三连:真不是我干的
快科技8月17日消息,最近,一段展示小米门店员工热情跳舞的视频在网络上广为流传,引起了众多网友的关注和讨论。这段视频的走红恰好发生在小米创始人雷军出差欧洲的时期,这巧合的时机让不少网友纷纷调侃并发表评论:雷总刚踏出国门,王腾就开始搞活了。”王腾表示:雷总和卢总都不在,大家继续奏乐,继续跳舞。”王腾豪言:优势在我,大庆三天。”对于这些调侃,王腾则是连续否认:真不是、我没有、别瞎说。”0000