2023 年最重要的 3 项人工智能创新:多模态 AI、宪法 AI 和文本转视频技术
站长之家(ChinaZ.com) 12 月 22 日消息:2023 年,人工智能(AI)领域见证了重大进展,不仅公众对 AI 有了更深的理解,政府也开始认真对待 AI 风险。本年度的发展不仅是新技术和理念的出现,更是长期孕育后的集中爆发。
以下是过去一年中人工智能领域最重要的三项创新:
多模态 AI(Multimodality)多模态 AI 指的是 AI 系统处理各种不同类型数据的能力,不仅包括文本,还包括图像、视频、音频等。今年,公众首次获得了强大的多模态 AI 模型的访问权限。OpenAI 的 GPT-4 是其中的先锋,允许用户上传图像以及文本输入。例如,用户可以基于冰箱内容的照片询问 GPT-4 晚餐应该做什么。9 月,OpenAI 推出了用户通过语音以及文本与 ChatGPT 互动的功能。
宪法 AI(Constitutional AI)宪法 AI 尝试解决如何使 AI 符合人类价值观的难题。2022 年 12 月,顶尖 AI 实验室 Anthropic 的研究人员首次描述了宪法 AI,并在其 2023 年推出的聊天机器人 Claude 中使用了这一技术。该技术的核心是先撰写一份表达期望 AI 遵循的价值观的「宪法」,然后训练 AI 根据宪法评分响应,并激励模型输出得分更高的响应。这是一种 AI 反馈的强化学习方法,与人类反馈的强化学习相比,更精确控制 AI 行为,且需更少的人类标签。
文本转视频技术文本转视频工具的迅速崛起是今年投入 AI 领域的数十亿美元资金的显著成果。布鲁克林的 AI 视频初创公司 Runway 的最新模型 Gen-2 允许用户不仅根据文本生成视频,还能根据文本提示改变现有视频的风格。此外,另一家初创公司 Pika AI 正在使用其技术每周创建数百万新视频。这些免费工具试图改变用户生成内容的格局,可能在 2024 年发生,但由于文本转视频工具计算成本高,一旦风险资本用尽,它们可能开始收费。
直播电商走入深水区,如何穿越风暴?
2023年的双11已经过去,当消费者们纷纷收到商品的同时,直播电商行业也逐渐琢磨出了深藏在用户行为、行业脉动中的变化:头部直播间仍然火爆,但无论是消费者还是品牌主,对直播间的要求都更高了;新直播间很难崛起,今年双11京东采销的出圈背后有着巨大的资源投入以及舆论争议的推波助澜;“店播”在平台的猛推之下站到舞台C位,“达播”对于品牌的价值正在被全面重估,大批明星主播停播。站长网2023-11-17 17:55:470000斯坦福开发机器人学习框架UMI 可直接复制人类操作给机器人
UMI是斯坦福开发的一个机器人数据收集和策略学习框架,通过手持式夹持器和精心设计的接口进行数据收集。该框架能够将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务。UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。站长网2024-02-22 17:20:110003人工智能热潮加剧芯片竞争,英特尔竞相追赶三星、台积电等竞争对手
站长之家(ChinaZ.com)11月8日消息:美国芯片巨头英特尔公司(Intel)首席执行官PatGelsinger于周二在IntelInnovationDay上发表讲话,表示该公司最先进的芯片设计18A将于2024年第一季度进入测试生产阶段。站长网2023-11-08 16:22:080000新型AI框架FaceLit 可生成光线真实的3D合成人像
苹果公司和哥伦比亚大学的AI研究人员提出了一种新型的AI框架,可以让一张照片生成3D模型时拥有真实的光线。该框架结合了物理光照模型和神经体积渲染技术,通过使用球面谐波将光照和渲染过程解耦,实现了更逼真的图像生成。该方法在三个数据集上进行了测试,并取得了领先的FID分数,被认为是3D感知生成模型的最新进展。站长网2023-08-14 09:47:530000