四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元
Arxiv上所有论文转成Token,加起来不过14.1GB而已。
这是最新爆火开源计划亚历山大完成的壮举。
事实上,这还只是第一步。
他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。
一旦这样的数据集诞生,那岂不是为开发出GPT-4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!
消息一出,瞬间引发巨大关注。
网友们赞叹,史诗般的。
而这背后仅是四个平均年龄20岁的少年发起,目前Arxiv所有论文数据集已经发布,他们将于下周发布嵌入(Embedding)搜索平台。
从Arxiv上所有论文开始
超过400万个项目、6亿个token,30.7亿个向量维度。
这个名为亚历山大的开源计划,首先从Arxiv每篇论文上开始。
选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。
最经典的例子就是将原始图像表示为灰度像素。
这种技术最大的特点就是能够表示出人类感知到的语义相似性。
比如,当有10个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。
基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。
在测试各种模型之后,最终选择使用InstructorXL文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务(比如分类、检索、聚类、文本评估等)和领域(比如科学、金融、医学等)》
下周他们将发布Arxiv搜索。目前为止的流程是,首先对100篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。
最终目标是一整个互联网嵌入计划。
20岁少年的疯狂开源计划
之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。
一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。
另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元。
但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。
接下来他们还将开放更多的数据集,而这些均由这些用户自行选择。在官网上除了已公开的数据集,剩下的几个待开源项目开启了投票通道。
值得一提的是,背后是一群平均年龄仅为20岁的少年team完成的。
而他们的团队名字同样也很霸气,Macrocosm(宏观世界)联盟。
只要你放大到足够远,人类就会成为一个单一的生物。
就官方介绍,他们致力于为ChatGPT和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。
感兴趣的旁友可戳下方链接了解~
https://alex.macrocosm.so/download
参考链接:
[1]https://www.macrocosm.so/
[2]https://twitter.com/willdepue/status/1661781355452325889
[3]https://github.com/macrocosmcorp
[4]https://www.pinecone.io/learn/vector-embeddings/
—完—
浙大学霸创业,估值150亿,这家杭州独角兽即将IPO
继拉卡拉、银联商务、PingPong后,又一支付公司冲刺IPO。赴科创板上市计划搁浅两年后,国内数字支付解决方案提供商连连数字科技股份有限公司(以下简称“连连数字”)转而冲向港股,近期,连连数字再次更新港股IPO申报稿,中金、摩根大通为保荐人。站长网2024-01-27 07:52:41000050亿巨头紧急自救:ChatGPT正“杀死”自己
最近,美国教培上市公司Chegg公开表示:ChatGPT正在损害其业务增长。它的用户主要是学生。官方透露:今年3月以来,学生对ChatGPT的兴趣大增,对Chegg的产品兴趣则减少。在最新的财报电话会上,公司首席执行官DanRosensweig表示:3月份之前,ChatGPT对其影响不明显;3月份之后,影响显著上升。0000一夜入账350万,做偶像不如搞团播
“下海”团播,成为了内娱偶像的新出路。所谓的“团播”,即为团体直播,通常为多位男(女)主播同台进行直播,且伴有一位控场的主持人炒热气氛,早在虎牙、斗鱼等平台秀场直播兴盛时期便出现。站长网2024-08-27 18:00:340000视频号电商走出黑盒?
被称作腾讯「全场希望」的视频号,2023年开始释放商业能量。去年这个时候,视频号电商还处于一片浓雾之中。当时,还有很多基础工具等待补齐,模糊的客群画像需要更清晰,用户标签也需要时间沉淀。除了自带强大私域能力,大部分商家都像丈二和尚,摸不着头脑。一年过去,这个黑匣子逐渐可视化。这一年是视频号蓄力也是发力的一年。0000企业对私域人才有哪些招聘新要求?
-私域岗位正吸引更多人才加入,并仍然有大量基础岗位要求贴近实效、贴近转化和效果,而不是特别强调学历。-2023年,企业对私域岗位的能力要求,越来越注重对内容撰写、销售、客服、市场和营销能力的要求,也符合申请私域岗位的用户最后一份工作职能。-私域岗位对工作经验的要求不高,适合萌新入手,私域的普及运用,降低了初级岗位的求职门槛。0000