出门问问开放大模型“序列猴子”开源数据集
站长网2024-02-26 09:03:490阅
出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。
序列猴子,作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。
为了推动大语言模型技术的持续进步,出门问问决定将其部分训练数据集进行开源。这次开源的“序列猴子开源数据集1.0”包括中文通用文本语料、古诗今译语料以及文本生成语料,这些数据资源都经过精心挑选和整理,以确保其高质量和易用的数据格式。同时,公司采用了宽松的许可协议,为广大的开发者和研究人员提供了便捷的使用条件。
出门问问希望通过这一行动,吸引更多的人才和团队参与到大语言模型的研究与应用中来,共同推动这一前沿技术的持续进步。公司坚信,开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。
项目地址:https://github.com/mobvoi/seq-monkey-data
0000
评论列表
共(0)条相关推荐
Meta首席AI研究员指出OpenAI和DeepMind对AI看法过于乐观
🔍划重点:1.Meta的AI首席研究员YannLeCun警告称,过早的AI监管可能会强化科技巨头的主导地位,抑制竞争。他强烈支持开放源代码的AI开发,认为这有助于促进竞争并使更多人能够访问AI技术。2.LeCun认为,当前的AI被高估了,但他也强调了未来更强大的AI系统可能带来的潜在好处,如解决气候变化和疾病控制等挑战。他相信AI必将在大多数领域超越人类智能。站长网2023-10-20 10:12:220000微软和谷歌的AI领域投资经验:花钱才能赚钱
微软和谷歌表示,人工智能将为它们带来巨大回报,但在实现盈利之前,它们需要更深入的投资。微软表示,随着建设新的数据中心以支持人工智能,成本大幅上升,资本支出将继续增加,因为它购买来自英伟达等公司的芯片来为这些数据中心提供动力。站长网2023-07-26 14:30:340000国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题
【新智元导读】夸克,也下场大模型了。甫一问世,夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。最近的各大手机厂商和互联网公司,都在卯足了劲儿地发布大模型。而其中的一匹黑马,显得格外引人注目——千亿级在C-Eval和CMMLU两大权威评测中拿下双榜第一,百亿级在法律、医疗、问答等领域的性能评测中名列榜首。站长网2023-11-25 13:43:080000北京交管局回应小米汽车送车牌传闻:暂未收到相关通知
站长之家(ChinaZ.com)2月23日消息:近日,有传闻称,对于首批购买小米汽车的车主,如果没有北京牌照,可能会获得赠送的牌照。这一消息引起了广泛关注和猜测。据新浪科技报道,针对此事,截止发稿时,小米方面并未对此消息做出官方回应。站长网2024-02-23 14:46:480000Midjourney训练AI使用的艺术家数据库名单泄露引发争议
**划重点:**1.🎨Midjourney训练AI用的艺术家数据库泄露,包括知名艺术家如Banksy、DavidHockney等。2.📉泄露引发社交媒体批评,涉及超过16,000名艺术家,引发版权诉讼。3.💬Midjourney首席执行官DavidHolz确认使用4000多位艺术家的名字进行生成式AI训练。站长网2024-01-04 11:16:080000