Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2
Refuel AI 最近宣布推出两个新版本的大型语言模型(LLM),RefuelLLM-2和 RefuelLLM-2-small,这两个模型专为数据标注、清洗和丰富任务而设计,旨在提高处理大规模数据集的效率。
RefuelLLM-2的主要特点包括:
自动化数据标注:能够自动识别和标记数据中的关键信息,如分类数据和解析特定属性。
数据清洗:自动检测并修正数据中的错误或不一致性,例如拼写错误和格式问题。
数据丰富:根据现有数据自动补充缺失信息或提供额外上下文,增加数据的价值和可用性。
高准确率:在约30项数据标注任务的基准测试中,RefuelLLM-2以83.82%的准确率优于所有其他最先进的大型语言模型,包括 GPT-4-Turbo 和 Claude-3-Opus。
两款模型的比较:
RefuelLLM-2:基于 Mixtral-8x7B 模型,支持高达32K的最大输入上下文长度,适合处理长文本输入。
RefuelLLM-2-small:基于 Llama3-8B 模型,提供一个成本更低、运行更快的选项,同时保持高性能,支持高达8K的输入上下文长度。
训练细节:
两款模型都在超过2750个数据集上进行训练,涵盖分类、阅读理解、结构化属性提取和实体解析等任务。
训练方法:包括两个阶段,第一阶段专注于指令调整训练,第二阶段则加入更长上下文的输入,以提高模型在复杂数据处理任务中的表现。
性能提升:
两阶段训练方法使得 RefuelLLM-2在基本数据处理任务中表现出色,并能有效处理长上下文输入。
质量评估:
在长上下文数据集和非公开数据集的评估中,RefuelLLM-2和 RefuelLLM-2-small 均展现出良好的性能和泛化能力。
在置信度分数质量方面,RefuelLLM-2和 RefuelLLM-2-small 显示出比其他模型更好的置信度分数校准。
Refuel AI 的这一创新为数据标注和清洗领域带来了新的解决方案,有助于自动化和优化大规模数据处理流程。
playground:https://labs.refuel.ai/playground
模型下载:https://huggingface.co/refuelai/Llama-3-Refueled
“小程序短剧”狂飙:一周拍完、一月上线、一部财富自由
《哎呀!皇后娘娘来打工》24小时用户充值破1200万、《闪婚后,傅先生马甲藏不住了》24小时充值流水破2000万、《无双》上线八天投放消耗突破1亿……在“小程序短剧”的圈子里,总能看到这样的配图:花花绿绿的应季水果点缀四周,用户充值费破千万、破亿的大字在蛋糕正中央格外醒目。这是小程序短剧从业者的专属庆祝仪式,收到蛋糕,意味着项目成为了爆款,也意味着团队完成了一次“以小搏大”的突围。站长网2023-09-15 16:21:590000GitHub又火了一款AI工具 DUSt3R :2张图2秒钟3D 重建
划重点:⭐️一款名为DUSt3R的新工具火爆GitHub,能在2秒钟内通过2张图片完成3D重建。⭐️DUSt3R在单目/多视图深度估计以及相对位姿估计任务上表现出色。⭐️作者团队采用全新方法,无需相机校准或视点姿势先验信息,能在任意图像中完成3D重建。站长网2024-03-04 19:15:160004两周用户增长近百万,挺进美国社交应用榜Top5,这款反AI产品火了
在AI产品竞争白热化之际,一款反AI应用却逆势走红。今年6月,一个名为Cara的图片社区仅用了两周时间,就将用户基数从四万增长至近百万,一跃成为美国社交应用榜Top5,超过了X(前为“推特”)、Reddit、Discord、Linkedln和Messenger,出尽风头。站长网2024-07-04 17:13:150000迅速登顶 HackerNews!这款深圳团队开发的编程语言月兔(Moonbit)将重塑 WebAssembly 的未来生态?
知乎上有一个热门问题是:为什么中国出了这么多厉害的互联网公司,但没有自己设计过编程语言?评论区的用户对此众说纷纭,大部分答主的回答并不乐观,对中国编程语言的未来并不看好。站长网2023-08-28 09:09:480000Relevance AI:让每个团队都拥有自己的AI同事
澳大利亚初创公司RelevanceAI推出了一款低代码平台,旨在帮助企业建立自定义AI团队,提高生产力。该平台已成功筹集1000万美元的A轮融资,由KingRiverCapital领投,全球投资者PeakXV、GalileoVenture和InsightPartners等参与。站长网2023-12-12 10:19:050000