HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
划重点:
- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。
- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。
- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。
HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。
数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。
Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。
为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。
数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
微软云服务已恢复 微软称将以最高优先级处理故障
今日,微软宣布其云服务在经历了一场全球性的服务中断之后,已经成功恢复。此前一天晚上,微软曾报告称,美国中部地区的用户可能面临Azure服务和微软365应用套件的使用困难,这些问题可能涉及服务管理、连接性或服务的可用性。站长网2024-07-20 03:30:390000AI视野:百度将发布AI互动式新搜索;OpenAI计划重磅更新;Character.AI推出AI群聊功能;谷歌人机验证已经拦不住AI
🤖📱💼AI应用百度将发布AI互动式新搜索百度世界2023即将发布AI互动式新搜索,具备听、会、看的能力,通过大模型和多轮交互提供个性化搜索体验。【AiBase提要】🔍百度新搜索整合语义检索技术和大语言模型,具备听、会、看能力。🔌百度建设AI新生态,吸引2万家开发者入驻插件平台,扩展大模型应用生态。站长网2023-10-12 15:43:490000AI透视眼!Wild2Avatar可逼真渲染视频中被遮挡的人物
**划重点:**1.🚀**挑战与解决方案**:面对现有研究在理想条件下渲染3D人物的局限性,Wild2Avatar专注于解决真实场景中摄像头视野被遮挡导致部分遮挡的问题。2.🔍**创新方法**:通过场景参数化,将场景分解为遮挡、人物和背景三个部分,并利用神经辐射场分别建模人物和遮挡/背景,以实现对被遮挡人物的准确渲染。站长网2024-01-04 15:34:440000福州一批重点实验室和众创空间免费开放
福州市科技活动周20日正式启动。记者21日从市科技局获悉,科技周活动期间,福州市遴选一批具有代表性的众创空间、国家或省级重点实验室对公众免费开放,让公众感受创新创业创造的活力,感受科研的魅力。免费开放的2家重点实验室分别是:福建省条码识别技术企业重点实验室(马尾区儒江西路1号)、福建省数字化支付安全重点实验室(马尾区儒江西路1号),开放时间为22日~26日9:00~17:00。0000王小川五季智能申请AI大模型“百川智能”商标
天眼查App显示,近日,五季智能(北京)科技有限公司申请注册多个“百川智能”商标,国际分类包括科学仪器、网站服务、通讯服务等,当前商标状态均为申请中。该公司成立于今年3月,法定代表人为王小川,由王小川、茹立云分别持股99%、1%。据悉,目前“百川智能”已经获得了5000万美元启动资金,已初步搭建起包括搜狗、百度等技术骨千在内的团队,目前已经开始训练500亿参数的模型。站长网2023-04-21 12:00:100000