微软开发新型大模型压缩方法SliceGPT
SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达25%的模型参数(包括嵌入)。
这意味着使用SLICE GPT的模型可以在更少的GPU上运行,并且运行速度更快,无需任何额外的代码优化。在24GB的消费级GPU上,将LLAMA2-70B的总计算量减少到密集模型的64%;在40GB的A100GPU上减少到66%。
论文地址:https://arxiv.org/pdf/2401.15024.pdf
SLICE GPT的主要特点包括解决了大语言模型在存储和计算资源上的高需求问题,并提供了一种有效减轻这些资源需求的方法,同时保持或仅轻微牺牲模型性能,这对于推广大型模型的应用和降低运行成本具有重要意义。
具体来说,SLICE GPT能够减少大型语言模型的尺寸,通过在不损失显著性能的前提下,减少模型参数数量,SLICE GPT能够减少大型语言模型的尺寸。它还能提高模型在硬件上的运行效率,减少了所需的计算资源,并且能够在去除一定比例的模型参数的同时,保持模型的性能。此外,SLICE GPT不仅适用于特定的模型或架构,它的方法可以广泛应用于各种变换器网络模型。
SLICE GPT的工作原理基于一种新的后训练稀疏化方案,通过两个关键步骤来减少大型语言模型的计算和内存需求。首先是替换权重矩阵,通过将模型中的每个权重矩阵替换为一个更小的(密集的)矩阵来减少网络的嵌入维度,有效地缩减了模型的大小。
其次是维持计算不变性,SLICE GPT引入了变换器网络中的“计算不变性”概念,通过特定的变换操作,改变权重矩阵的形状,而不改变其在模型中的功能和影响,从而达到减少模型参数的目的,同时保持模型的性能。这种方法的核心优势在于,它允许模型在去除一定比例的参数后,仍然能够保持接近原始模型的性能,适用于资源受限的设备上部署大型模型,比如普通的个人电脑或者移动设备。
拜登、奥巴马穿“芭比粉”西装AI伪造图片疯传网络
最近,国外一些社交媒体上疯传美国总统拜登和前总统奥巴马身穿粉色西装,由于最近上映的《芭比娃娃》电影口碑良好,网友也用这种方式玩起了梗。毫无疑问,这些这些照片是通过AI伪造的,首发这些照片的网友本身也是以玩笑的方式分享的,而且一位动画专家告诉法新社,这些图片是由人工智能制作的。站长网2023-07-27 11:37:430000情绪价值还能这么用?5人团队在社群年收千万!
这个团队在私域做闺友社区,仅5人5年累计服务了4万高端用户,其中有部分用户1年消费能达10万元。整个项目从产品本身到服务方式都具有强情绪价值属性,团队特别注重给予用户陪伴和关注。甚至创始人和学员一起,在免费的学习社群内连续打卡了近3年。回头看“情绪价值”,从最初2023年的“多巴胺穿搭”出圈,到被各路媒体、博主反复作为创作主题进行大范围传播,以致于“情绪价值”成为当年最受热议的关键词之一。站长网2024-06-17 11:41:460002前沿科技她力量|中关村论坛科技女性创新论坛嘉宾风采展示
2023中关村论坛即将开幕。5月28日,由全国妇联、科技部、中国科协、北京市政府主办,北京市妇联承办的科技女性创新论坛作为平行论坛之一将举办,这是中关村论坛首次开设女性平行论坛。论坛以“前沿科技她力量”为年度主题,将邀请诺贝尔奖获得者、中国科学院院士在内的国内外前沿科技领域优秀女科技工作者,围绕人工智能、生命科学等热点议题展开讨论。今天起,“前沿科技她力量”专栏将陆续推出嘉宾介绍。站长网2023-05-24 06:59:230000Anthropic 控制台推出两大新功能:自动生成提示与变量功能
Anthropic近日为其控制台用户发布了两项重要的新功能:自动生成提示和变量功能。这些更新旨在提高用户的工作效率,同时为生成的提示内容带来更多的灵活性和个性化。站长网2024-05-11 12:05:240000DreamGenerator:一款集成Stable Diffusion 提示的AI相机
DreamGenerator是一款AI相机,它结合了生成式AI和微调技术,可以将拍摄的图像转换为新的主题,同时保留原始照片的基本元素。相机预设了30个主题,用户可以选择拍摄不同的世界,如天堂、地狱、中世纪、水下或外太空等。拍摄照片后,相机会立即将其转换为新的图像,新图像参考了原始照片的构图和姿势,并添加了富有想象力的元素。站长网2023-07-24 14:03:430000