12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场
没想到,自2012年 AlexNet 开启的深度学习革命已经过去了12年。
而如今,我们也进入了大模型的时代。
近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。
到目前为止,该帖子已经有63万 的浏览量。
在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过2012年 ImageNet/AlexNet 的时刻,以及它开启的深度学习革命。不过,可能很少有人知道,支持这次竞赛获胜作品的代码是由 Alex Krizhevsky 从头开始,用 CUDA/C 手工编写的。这个代码仓库叫做 cuda-convnet, 当时托管在 Google Code 上:
https://code.google.com/archive/p/cuda-convnet/
Karpathy 想着 Google Code 是不是已经关闭了 (?),但他在 GitHub 上找到了一些其他开发者基于原始代码创建的新版本,比如:
https://github.com/ulrichstern/cuda-convnet
“AlexNet 是最早将 CUDA 用于深度学习的著名例子之一。”Karpathy 回忆说,正是因为使用了 CUDA 和 GPU,AlexNet 才能处理如此大规模的数据 (ImageNet),并在图像识别任务上取得如此出色的表现。“AlexNet 不仅仅是简单地用了 GPU,还是一个多 GPU 系统。比如 AlexNet 使用了一种叫做模型并行的技术,将卷积运算分成两部分,分别运行在两个 GPU 上。”
Karpathy 提醒大家,你要知道那可是2012年啊!“在2012年 (大约12年前),大多数深度学习研究都是在 Matlab 中进行,跑在 CPU 上,在玩具级别的数据集上不断迭代各种学习算法、网络架构和优化思路。” 他写道。但 AlexNet 的作者 Alex、Ilya 和 Geoff 却做了一件与当时的主流研究风格完全不同的事情 ——“不再纠结于算法细节,只需要拿一个相对标准的卷积神经网络 (ConvNet),把它做得非常大,在一个大规模的数据集 (ImageNet) 上训练它,然后用 CUDA/C 把整个东西实现出来。”
Alex Krizhevsky 直接使用 CUDA 和 C 编写了所有的代码,包括卷积、池化等深度学习中的基本操作。这种做法非常创新也很有挑战性,需要程序员对算法、硬件架构、编程语言等有深入理解。
从底层开始的编程方式复杂而繁琐,但可以最大限度地优化性能,充分发挥硬件计算能力,也正是这种回归根本的做法为深度学习注入了一股强大动力,构成深度学习历史上的转折点。
有意思的是,这一段描述勾起不少人的回忆,大家纷纷考古2012年之前自己使用什么工具实现深度学习项目。纽约大学计算机科学教授 Alfredo Canziani 当时用的是 Torch,“从未听说有人使用 Matlab 进行深度学习研究......” 。
对此 Yann lecun 表示同意,2012年大多数重要的深度学习都是用 Torch 和 Theano 完成的。
Karpathy 有不同看法,他接话说,大多数项目都是在用 Matlab ,自己从未使用过 Theano,2013-2014年使用过 Torch。
一些网友也透露 Hinton 也是用 Matlab。
看来,当时使用 Matlab 的并不少:
知名的 GAN 之父 Ian Goodfellow 也现身说法,表示当时 Yoshua 的实验室全用 Theano,还说自己在 ImageNet 发布之前,曾为 Alex 的 cuda-convnet 编写了 Theano 捆绑包。
谷歌 DeepMind 主管 Douglas Eck 现身说自己没用过 Matlab,而是 C ,然后转向了 Python/Theano。
纽约大学教授 Kyunghyun Cho 表示,2010年,他还在大西洋彼岸,当时使用的是 Hannes SChulz 等人做的 CUV 库,帮他从 Matlab 转向了 python。
Lamini 的联合创始人 Gregory Diamos 表示,说服他的论文是吴恩达等人的论文《Deep learning with COTS HPC systems》。
论文表明 Frankenstein CUDA 集群可以击败10,000个 CPU 组成的 MapReduce 集群。
论文链接:https://proceedings.mlr.press/v28/coates13.pdf
不过,AlexNet 的巨大成功并非一个孤立的事件,而是当时整个领域发展趋势的一个缩影。一些研究人员已经意识到深度学习需要更大的规模和更强的计算能力,GPU 是一个很有前景的方向。Karpathy 写道,“当然,在 AlexNet 出现之前,深度学习领域已经有了一些向规模化方向发展的迹象。例如,Matlab 已经开始初步支持 GPU。斯坦福大学吴恩达实验室的很多工作都在朝着使用 GPU 进行大规模深度学习的方向发展。还有一些其他的并行努力。”
考古结束时,Karpathy 感慨道 “在编写 C/C 代码和 CUDA kernel 时,有一种有趣的感觉,觉得自己仿佛回到了 AlexNet 的时代,回到了 cuda-convnet 的时代。”
当下这种 "back to the basics" 的做法与当年 AlexNet 的做法有着异曲同工 ——AlexNet 的作者从 Matlab 转向 CUDA/C ,是为了追求更高的性能和更大的规模。虽然现在有了高级框架,但在它们无法轻松实现极致性能时,仍然需要回到最底层,亲自编写 CUDA/C 代码。
腾讯微信视频号拟限制数字人带货
站长之家(ChinaZ.com)6月18日消息:腾讯视频号近日宣布了对《视频号橱窗达人发布低质量内容实施细则》的修订,旨在加强内容质量监管,并拟禁止数字人直播带货。该修订于今年6月7日至6月13日公开征集意见。在最新修订中,视频号将“挂机录播”概念扩展为“非真实直播”内容,明确禁止在直播过程中使用非实时直播内容或道具来替代真实直播。相关违规示例包括使用插件、AI等工具生成虚拟形象进行直播。站长网2024-06-18 20:40:330000傅盛“追风”GPT,猎户星空春天来了?
GPT的横空出世,让冷清已久的商用服务机器人市场,又有了“新故事”。从技术底层逻辑而言,服务机器人受到这类新技术的影响会更为明显。因为抛开硬件,服务机器人的内核其实就是AI,GPT大模型的出现显然成了现阶段该产业进化的关键。猎户星空董事长傅盛更是这样形容到,“如果以前他是一个瞎子,现在他已经能看见。这意味着世界要变了。”0001苹果iPad Pro 2024售价曝光 采用全新OLED屏幕
根据最新的消息,苹果iPadPro2024已经开始批量生产,预计将在3月份正式发布。这款全新的iPadPro将提供11英寸和13英寸两种尺寸,但是其起售价将会大幅上涨。站长网2024-02-05 10:57:590000淘宝天猫集团回应取消p序列 改革方案还在调研中
电商巨头淘宝天猫集团计划取消P序列,改为14-28级,并逐渐分离层级与奖金的强绑定。这一改革是为了激励中下层级的员工,激发他们推动公司和自身发展的动力。站长网2023-07-14 16:01:170000凯文·凯利外滩大会分享对AI时代前瞻:“全球化劳动力”将出现
9月5日上午,2024Inclusion·外滩大会在上海黄浦世博园区开幕。著名未来学家、《连线》杂志创始主编、《5000天后的世界》作者凯文·凯利(KevinKelly)在开幕主论坛上的演讲中指出,当人工智能深刻影响经济和文化,必将涌现三大趋势:全球主义、创新加速和AI驱动生成。AI时代三大趋势:全球主义、创新加速和AI驱动生成站长网2024-09-06 16:25:480000