21岁SpaceX实习生用AI干出重大考古事件,斩获40000美元!
2000年前的古卷轴(赫库兰尼姆卷轴),终于被一个21岁计算机少年给破译了。
这个古卷轴可以说是极其的特殊——
在公元79年被一场火山爆发掩埋碳化,直到1752年才被挖掘出土。
而且由于古卷轴本身已经太脆弱了,数百年来没人敢动它,处理稍微不当就可能化作尘埃的那种。
(注:赫库兰尼姆城和著名的庞贝古城相距8公里,位于意大利那不勒斯东南的维苏威火山脚下;前者比庞贝古城更接近火山口。)
那么如何看到它上面记载了什么内容,就成了困扰科学家们数百年的老大难问题。
现如今,随着这位计算机少年成功的破译,使他成为了2000年来第一个从未打开卷轴,却“看”到了上面文字的人。
这项任务其实是来自一个叫做维苏威火山的挑战赛(Vesuvius Challenge):
要求参赛者在卷轴的4平方厘米区域内,至少找到10个字母。
这位少年作为完成任务的第一人,也被活动官方授予了40000美元的首字母奖(First Letters Prize)。
很多小伙伴肯定好奇,少年破译的文字到底是什么,不卖关子,直接揭晓谜底:
是古希腊语πορφυρας,意思是紫色染料或者紫色的衣服。
在结果出炉之后,比赛的赞助者、科技企业家Nat Friedman还手动at了马斯克,很骄傲地介绍这位少年:
他是你们SpaceX的实习生!
破解数千年古卷轴,AI立大功
这位少年名叫Luke Farritor(下文简称卢克),是一位计算机专业学生。
而在讲这位“屠龙少年”的故事之前,我们还需要铺垫一下关于这个比赛的背景。
早在2019年,肯塔基大学EduceLab的Brent Seales教授,便在粒子加速器中,对赫库兰尼姆卷轴进行了成像工作,并生成了分辨率高达4μm的3D CT扫描。
△Seales教授和团队在粒子加速器上扫描
这位教授的博士生Stephen Parsons,长期致力于使用机器学习模型检测CT扫描中的墨水。
于是他和他的团队扫描并拍摄了带有可见墨水的分离卷轴碎片,从而提供了一个ground-truth数据集。
△来自Stephen的博士论文:在ground-truch数据集上训练机器学习模型
这项研究成功引起了科技企业家Nat Friedman和Daniel Gross的注意;于是乎,在二人的赞助之下,便发起维苏威火山挑战赛。
他们在今年三月发起公开竞赛,设置总奖金为70000美元,目的就是加速破译古卷轴。
到了今年八月份的时候,一位叫做Casey Handmer的学者写了一篇博客,讲述了他所发现的看起来像墨水的“裂纹模式(crackle pattern)”。
这可以说是一个非常重要的突破进展,即使是Stephen,此前也只是在分离的碎片上看到过墨水的直接证据,但还没有在卷轴上看到过。
然后卢克在一场播客中,偶然听到了这个消息和挑战赛,也看到了Casey的裂纹模式在Discord上被广泛讨论。
这就引起了卢克非常大的兴趣,并开始利用晚上的时间,着手训练一个关于“裂纹模式”的机器学习模型。
在训练的过程中,他前前后后发现了几十个墨迹比划,还有一些完整的字母,卢克对它们做好了标记并作为训练数据。
△左:在纸莎草纤维背景下可以看到有裂纹的墨水;右:生成的二进制墨水标签。
没过多久,模型就露出了肉眼看不见的裂纹痕迹;这些痕迹成了最后形成字母和实际单词的线索。
下面这张图便是卢克向挑战赛提交的一个作品,隐约可以看到“ΠΟΡΦΥΡΑϹ”(porphyras)的单词形状,
当Seales教授和团队看到这张图的时候惊叹道:
尽管字母很模糊,但他们可以立即读出“porphyras”这个词。
这个单词在古代文献中也并不是很常见,但是也是经得起推敲,大概意思就是“紫色的”。
一位专家解释说:
序列πορφυ̣ρ̣ας̣ ,可能是πορφύ̣ρ̣ας̣(名词,紫色染料或紫色布)或πορφυ̣ρ̣ᾶς̣(形容词,紫色)。
由于缺少上下文,也布排除是 πορφύ̣ρ̣α ς̣κ[ 或 πορφυ̣ρ̣ᾶ ς̣κ[ 。
值得注意的是,古代的单词和现代不同,那时候的文本没有空格,因此单词的边界确定起来也是比较困难。
最终挑战赛官方认为,卢克值得获得首字母奖;而他本人在得知这一消息的时候也非常激动:
另一位研究生也有相同的发现
无独有偶,在Casey和卢克的工作激励之下,另一位参赛者,来自柏林Egyptian biorobotics的研究生Youssef Nader,采用了不同的方法也得到了相同的结果。
他筛选了Kaggle上墨水检测奖的获奖作品,该奖项的重点是改进Stephen Parsons在分离片段中进行机器学习的方法。
在此基础上,他采用了域转移技术使这些模型适应古卷轴:对卷轴数据进行无监督预训练,然后对片段标签进行微调。
使用Kaggle竞赛的这个修改模型,他设法找到了一些字母,尽管完全不依赖于Casey手动寻找裂纹的方法。然后,他将看起来像字母形状的东西注释到标签数据中。
△左:Youssef工作的最早的图像;右:他的第一组假设墨水标签。
在反复的优化之下,Youssef向官方提交的作品如下:
最终,Youssef获得了首字母奖的二等奖,10000美元。
专家们在看到Youssef的工作之后,更加确认了卢克发现的古卷轴中的文字。
他们甚至开始推测上面和下面的单词,可能是ανυοντα(实现)和ομοιων(类似)。
而就在前几天,Youssef的模型产生了更为惊人的结果:
在这张图中,你可以清楚地看到四列半的文本,用一定的边距隔开。
尽管并非所有字母都能被专家们立即辨认出来,但起码可以看到更多的字母了。
官方表示,专家们正在做进一步的调研,很快将会有新的结果。
特斯拉同意支付600万美元 结束一场有关太阳能电池的集体诉讼
据CNBC报道,特斯拉同意支付刚刚超过600万美元,以解决客户提起的集体诉讼,这些客户在同意在自己家中安装太阳能屋顶系统后,面临了2021年的突然价格上涨。特斯拉太阳能屋顶以前被称为特斯拉“太阳能玻璃”。首席执行官埃隆·马斯克于2016年首次推广该系统,作为一种屋顶太阳能产品,可以产生电量,为业主节省用电开支。站长网2023-07-12 16:23:460000微信视频号竞价广告上线
腾讯广告官方宣布,为了帮助广告主轻松实现单条广告投放到腾讯全生态,降低广告投放的人力投入、操作复杂度和管理难度,解决起量成本高等问题,腾讯广告全流量通投不断进化,将“微信视频号”纳入通投范畴。至此,单条广告可以同时投放到微信视频号微信朋友圈微信公众号与小程序腾讯平台与内容媒体(含QQ浏览器、QQ、腾讯音乐及游戏、腾讯新闻、腾讯视频)优量汇等广告版位,覆盖更多潜在用户,获取更好的投放表现。站长网2023-05-16 14:35:260000利用 Google 的 AI 能帮助航空公司将凝结尾迹大幅减少 54%
自喷气机时代开始以来,飞机尾迹——或称为飞机后方的冷凝云——已成为全球天空中熟悉的景象。然而,谷歌和美国航空公司的一个新实验表明,这些尾迹可能很快变得更少,这是一次小而重要的胜利,有助于减少航空排放。图片来自Google谷歌在周二晚上的一篇博文中称,使用人工智能模型选择不同的飞行高度的飞行员能够减少尾迹达54%,并预计进一步改进。站长网2023-08-10 10:03:530000抖音电商双11,他们在产业带源头找到新增量
10月21日,在长达六小时的直播后,@郝劭文的“小超市”完成了南通家纺的溯源直播。当日,直播间内爆品频频:一套价值399元的家纺套组卖出了3.5万件,另一套牛奶绒套组则卖出超2.4万套,还有标价299元的迪士尼磨毛14件套,几乎还没有多做介绍就被一抢而空。站长网2023-11-06 17:42:590000B站发布2024年Q2财报:毛利润同比增长49% 上半年实现24亿正向经营现金流
快科技8月22日消息,B站公布了截至2024年6月30日的第二季度未经审计的财务报告。第二季度,B站总营收同比增长16%,达61.3亿元人民币。其中,广告收入同比增长30%,游戏收入同比增长13%。随着高毛利的广告和游戏业务增长,二季度B站毛利润同比提升49%,毛利率连续8个季度环比提升至29.9%。此外,二季度B站实现17.5亿元正向经营现金流,上半年累计实现24亿元正向经营现金流。0000