登陆注册
14087

AI视野:Gemini即将登陆Pixel8Pro;GPT商店将于第一季度推出;聊天机器人Grok登陆X;阿里夸克大模型通过备案

站长网2023-12-08 16:07:390

📰🤖📢AI新鲜事

谷歌Gemini AI模型即将登陆Pixel8Pro

谷歌宣布Gemini AI模型首次亮相Pixel8Pro,旨在提升设备智能、加速反应速度,将逐步覆盖整个Android生态系统。

【AiBase提要:】

🚀 谷歌Gemini AI模型将首次登陆Pixel8Pro,推动设备智能革新。

💡 Gemini Nano是本地优先版本,加速反应速度,无需互联网连接。

📱 Pixel8Pro成为首款兼容Gemini Nano的手机,提供独特离线体验。

聊天机器人Grok登陆X

Elon Musk的xAI推出的聊天机器人Grok登陆X,以“一点机智”和“叛逆精神”自居,通过实时访问X数据提供更时效性的答案,面向Premium Plus订户。

【AiBase提要:】

🚀 Grok是xAI推出的ChatGPT竞争对手,以“一点机智”和“叛逆精神”为特色,主要服务X的Premium Plus订户。

🎙️ Grok通过实时访问X数据,相较于ChatGPT和Google's Bard,提供更时效性的答案,能回答其他AI系统拒绝的“辛辣问题”。

🌐 Grok计划改进底层模型以处理视频、音频等多模态数据,为X转型提高订阅吸引力,与广告商撤离形成对策。

OpenAI宣布GPT商店将于第一季度推出

OpenAI计划在2024年第一季度推出GPT商店,用户可在商店中出售他们创建的GPT。同时,董事会将从三人扩充至九人,加强AI峰会纽约的发展。此外,企业客户将有自助门户,通过信用卡支付服务费用。

【AiBase提要:】

🚀 GPT商店计划: OpenAI将在2024年第一季度推出GPT商店,用户可在商店中销售定制的GPT。

🤝 董事会扩充: OpenAI董事会将从三人扩充至九人,推动AI峰会纽约的发展。

🌐 企业客户门户: OpenAI计划推出企业客户自助门户,用户可通过信用卡支付服务费用。

谷歌承认Gemini AI模型演示视频不真实

谷歌刚发布的Gemini AI模型被指控在宣传视频中误导性陈述其性能,公司承认演示实际上使用了静态图像帧,引发争议。

【AiBase提要:】

🔍 误导演示视频: 谷歌Gemini发布后,被指责在演示视频中夸大其性能,实际使用静态图像帧而非实时操作。

🤖 官方回应: 谷歌回应称为简洁起见缩短了Gemini演示视频,并表示所有用户提示和输出是真实的,以激发开发者的灵感。

👀 争议背景: 此不是谷歌首次涉及争议性演示视频,引发对Gemini实际能力的质疑。

新一代酷睿Ultra处理器已适配超10款国内大模型

英特尔新一代酷睿Ultra处理器在联想举办的“AIPC产业创新论坛”上透露,已适配超过10款国内大型AI模型,强调对“尺寸适合”的模型进行全适配,加强与国内产业链合作。

【AiBase提要:】

🔄 英特尔酷睿Ultra处理器成功适配10款国内大模型。

🤖 英特尔承诺与模型厂商合作,将新模型快速移植到平台上。

🤝 合作伙伴联想集团宣布“AI PC先锋行动”推动AI PC的普及和落地。

谷歌推王炸级图像生成功能Generative Powers of Ten

Google发布了名为“Generative Powers of Ten”的图像生成功能,通过联合多尺度扩散采样方法,实现对生成图像的无限放大,能够在不同比例下创建深层次的缩放,是一项重要突破。

论文地址:https://arxiv.org/pdf/2312.02149.pdf

【AiBase提要:】

🌐 多尺度扩散采样方法: 采用联合多尺度扩散采样,保持不同尺度的一致性,比传统方法实现更深层次的缩放。

🚀 预训练扩散模型: 使用预训练的扩散模型去噪多个不同尺度的场景图像,实现对应清晰图像的估计。

🔬 突破性进展: 与其他生成缩放方法相比,该方法能够产生更深层次的缩放,并在不同缩放级别间保持一致性,是一项重要的技术突破。

ChatGPT在图灵测试中败给上世纪60年代的计算机程序ELIZA

加州大学圣迭戈分校的研究发现,ELIZA在图灵测试中成功率达27%,超过ChatGPT的14%,但GPT-4则表现更强大,成功率为41%。

【AiBase提要:】

📉 UC圣迭戈研究发现ELIZA在图灵测试中胜过ChatGPT,引发对OpenAI的尴尬评价。

🤯 ELIZA以27%的成功率模拟人类,而GPT-3.5仅为14%,但GPT-4成功率为41%。

🧐 有学者认为,ChatGPT并非为在图灵测试中表现良好而设计,而GPT-4在测试中表现更强大。

微软计划推出超越OpenAI的大模型

微软高管透露计划推出更多超越OpenAI的大语言模型,以满足企业客户的需求。微软强调其生成式 AI 应用及驱动这些应用的模型是安全可靠的,但专注于文本生成的公司能更快推进。

【AiBase 提要:】

微软计划推出更多超越 OpenAI 的大语言模型;

生成式 AI 应用是安全可靠的;

专注文本生成的公司能更快推进。

🤖📈💻💡大模型动态

Meta发布高效SAM模型EffcientSAM

Meta发布EfficientSAM模型,通过引入SAMI预训练成功降低SAM模型计算复杂性,实现20倍速度提升、参数减少20倍,性能仅损失约1.5mIoU。

项目地址:

https://yformer.github.io/efficient-sam/

在线demo地址:

https://6639e86fff1fc7b618.gradio.live

【AiBase提要:】

🚀 创新方法: EfficientSAM引入SAMI预训练,通过SAM图像编码器重建特征,有效提升视觉表示学习,在零样本实例分割任务上表现优越。

⚖️ 性能提升: 在多个视觉任务中,EfficientSAM在图像分类、目标检测、实例分割和语义目标检测等方面表现卓越,为SAM模型实际应用提供更广泛可能性。

🌐 新可能性: EfficientSAM的提出为SAM模型的应用提供新的可能性,特别在计算资源有限的实际场景中,通过SAMI预训练成功平衡性能和计算复杂性。

阿里夸克大模型通过备案

阿里智能信息事业群的夸克大模型已完成备案,将在通识、健康、创作等领域升级内容产品与智能工具,推出一系列AIGC创新应用。夸克大模型在搜索、生产力工具和资产管理等应用中展现出卓越性能,将全面升级,提升用户在学习、工作和生活上的效率。

【AiBase提要:】

🚀 技术备案完成: 阿里夸克大模型通过备案,即将在多领域升级内容产品与智能工具。

🌐 AIGC创新应用: 以生成式人工智能为基础,夸克大模型将在通识、健康、创作等领域推出创新应用。

🔍 全面升级用户体验: 阿里将借助大模型的能力,提升用户在学习、工作、生活中的整体体验。

Stability AI发布30亿参数语言模型StableLM Zephyr3B

最新发布的StableLM Zephyr3B是一款30亿参数的大语言模型,专为聊天应用场景进行了优化,包括文本生成、摘要和内容个性化。这款新模型是Stability AI早在今年四月首次提及的StableLM文本生成模型的较小、优化版本。

【AiBase 提要:】

🚀Stability AI 发布30亿参数语言模型 StableLM Zephyr3B,优化用于聊天应用,更小更快更节省资源。

🔍该模型通过直接偏好优化训练,结合优化数据集,在性能评估中表现出色。

🌐Stability AI 继续推动能力和工具的发展,致力于实现生成语言模型的民主化。

🤖📱💼AI应用

JetBrains推出中立供应商的新AI编码助手

JetBrains发布了一款新的AI编码助手,结合多个大型语言模型,实现供应商中立。该助手从开发者IDE获取信息,使用多个语言模型提供编码建议、代码重构和文档支持。开发者可根据任务选择不同模型,确保灵活性。服务目前仅对付费客户开放,但JetBrains计划将其推广到其他产品中。尽管只有17%的开发者愿将代码创作委托给AI,但有56%表示愿意让AI助手编写代码注释和文档。

【AiBase提要:】

🚀 供应商中立的AI编码助手: JetBrains发布了一款AI编码助手,使用多个大型语言模型,避免依赖单一AI平台,实现供应商中立。

💡 任务定制化选择模型: 开发者可根据任务选择不同模型,灵活应对编码建议、代码重构和文档支持需求。

💰 付费客户先行,拓展计划进行中: 服务目前仅对付费客户开放,计划将来推广到其他产品,提供更广泛的支持。

👨‍💻💡🎯聚焦开发者

ComfyUI推出最新插件workspace-manager,支持一键安装模型

ComfyUI的最新插件workspace-manager推出,用户可在界面上一键安装模型,实现便捷工作流管理,支持工作流程共享。

项目地址:https://github.com/11cafe/comfyui-workspace-manager

【AiBase提要:】

🚀 ComfyUI推出workspace-manager插件,用户可轻松在界面上切换工作流,省去本地保存和替换的步骤。

🔄 安装简便,只需将存储库克隆到ComfyUI根文件夹,即可享受轻松切换工作流、创建和重命名工作流程的功能。

🌐 未来计划包括一键模型安装和工作流程共享,提升用户体验,使得ComfyUI成为高效工作流管理的理想选择。

北大等发布智能体Jarvis-1

最近,北大、北邮、UCLA和BIGAI的研究团队合作发布了一款名为 Jarvis-1的智能体,引起了广泛关注。该智能体在开放世界游戏「我的世界」中表现出色,实现了多模态感知、记忆增强和多任务处理。

论文地址:https://arxiv.org/pdf/2311.05997.pdf

【AiBase提要:】

🚀 北大、北邮、UCLA和BIGAI联合发布的Jarvis-1在开放世界游戏「我的世界」中取得重大突破,采用多模态 记忆增强 多任务处理,表现卓越。

🎮 Jarvis-1通过多模态感知、记忆增强和终身学习,在游戏中展现近乎完美性能,成功完成复杂任务,标志通用智能体迈向更高学习水平。

🛠️ Jarvis-1的成功源于感知能力升级、多模态记忆应用以及自我指导和完善,为开放世界智能体的发展提供了重要经验和启示。

研究人员推视频运动控制器MotionCtrl

研究人员近日推出了名为MotionCtrl的视频生成技术,通过独立控制摄像机和物体的运动,实现了更精细和多样化的运动控制。MotionCtrl的两个模块,摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略,使其在生成视频时表现出较之前方法更为出色的性能。

论文地址:https://arxiv.org/pdf/2312.03641.pdf

【AiBase提要:】

🎮 MotionCtrl是一款视频生成技术,独立控制摄像机和物体运动,实现更灵活、精细的运动控制。

🌐 通过两个模块独立训练,MotionCtrl在有限数据集上展现出优异的性能。

📹 运动条件由摄像机姿态和轨迹决定,生成的视频保持物体自然外观,具有更真实感。

新视频编辑模型VideoSwap 可精细化替换视频主体

新加坡国立大学的VideoSwap框架采用语义点对应取得卓越效果,解决了传统视频编辑中形状变化挑战,实现源视频主体与目标主体的精细化替换。

论文网址:https://arxiv.org/pdf/2312.02087.pdf

项目网址:https://videoswap.github.io/

【AiBase提要:】

🔄 视频主体定制替换:VideoSwap框架通过语义点对应实现源视频主体与目标主体的形状变化替换。

🚗 形状变化挑战:传统基于扩散的视频编辑在处理形状变化时效果有限,VideoSwap引入语义点对应以应对这一挑战。

🌐 视频编辑革新:采用语义点对应的VideoSwap框架在自定义视频主体替换方面取得了卓越的效果,为视频编辑领域带来创新。

MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”

通过过度训练,中度Transformer模型展现出结构性泛化能力,被称为"结构顿悟",在捕捉句子层级结构方面表现优异。研究发现深度与泛化呈倒U形关系,中深度模型的泛化能力最强。

AiBase提要

😲 中度Transformer模型经过过度训练后展现出"结构顿悟",在泛化到新结构输入时捕捉句子层级结构更为有效。

📊 模型深度与结构顿悟呈倒U形关系,中深度模型在泛化能力上超过深度和浅度模型。

🤖 提前停止训练会低估泛化性能,中度深度的Transformer模型在泛化到新结构输入时具有显著优势。

大海捞针”实验验证RAG GPT-4Turbo模型卓越性能

通过“大海捞针”实验证明,RAG GPT-4Turbo模型在生成响应时表现卓越,仅需4%的成本,为大型语言模型领域带来重要突破。

【AiBase提要:】

🚀 性能飙升,低成本高性价比: RAG GPT-4Turbo在“大海捞针”实验中展现出卓越性能,仅需4%的成本,实现生成响应的高准确性。

🔍 超具体响应实现关键技术: 下一阶段的LLM重点在于通过上下文窗口填充、RAG和微调等技术,实现在不同使用情境下的超具体响应。

⚡️ RAG技术优越性: 在实验中,RAG模型以较低成本(仅为GPT-4Turbo的4%)表现出色,尤其在大规模上下文处理方面优于传统上下文窗口填充。

0000
评论列表
共(0)条