谷歌研究团队宣布 AudioPaLM:一个能说能听的大型语言模型
大型语言模型(LLMs)近几个月一直备受关注。作为人工智能领域最重要的进展之一,这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型,它们成为人工智能在全球蔓延的最佳例证。
LLMs 在处理复杂交互和知识检索任务时表现出色,其中最著名的例子是由 OpenAI 开发的 ChatGPT 聊天机器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架构。除了文本生成外,还开发了像 CLIP(对比性语言图像预训练)这样的模型,用于图像生成,使得可以根据图像的内容生成文本。
为了在音频生成和理解方面取得进展,Google 的研究团队推出了 AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。AudioPaLM 结合了两个现有模型的优势,即 PaLM-2 模型和 AudioLM 模型,以产生一个统一的多模态架构,能够处理和生成文本和语音。这使得 AudioPaLM 可以处理各种应用,从语音识别到语音转文字。
虽然 AudioLM 在保持诸如说话者身份和语气信息方面表现出色,而以文本为基础的语言模型 PaLM-2 则专注于特定于文本的语言知识。通过结合这两个模型,AudioPaLM 利用了 PaLM-2 的语言专业知识和 AudioLM 的附加语言信息保存能力,从而更全面地理解和生成文本和语音。
AudioPaLM 使用一个联合词汇表,可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合,可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。
经过评估,AudioPaLM 在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力,也就是说,它可以准确地将从未遇到过的语言的语音翻译成文本,为更广泛的语言支持开辟了可能性。
AudioPaLM 还可以基于简短的口语提示在语言之间进行声音转换,并能捕捉并重现不同语言中的独特声音,实现语音转换和适应。
团队提到的 AudioPaLM 主要贡献包括:
AudioPaLM 利用了文本预训练模型 PaLM 和 PaLM-2 的功能。
在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果,并在自动语音识别基准测试中具有竞争力的表现。
该模型通过语音转换来进行声音转换,超越了现有方法在语音质量和声音保留方面的表现。
AudioPaLM 通过使用未见过的语言组合进行自动语音翻译,展示了零样本功能。
总而言之,AudioPaLM 是一个统一的大型语言模型,通过利用基于文本的语言模型的能力和整合音频提示技术,可以同时处理语音和文本,成为 LLM 列表中强有力的补充。
AudioPaLM Hugging Face 页面:https://huggingface.co/papers/2306.12925
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。AI视频赛道上,谷歌又再次放出王炸级更新!这个名为GoogleLumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。站长网2024-01-25 15:38:300000苹果公司或将禁止摇一摇跳转广告 要求移除陀螺仪权限
据时代财经报道,近日有互联网大厂内部人士透露,苹果公司已通知国内多家头部App要求移除陀螺仪权限,禁止摇一摇跳转广告。这意味着,这些App的新版本将不再具有摇一摇跳转广告的功能。站长网2023-11-14 08:24:010001腾讯QQ 25周年社交报告出炉 看看你哪一年注册的QQ号
本文概要:-腾讯QQ庆祝25周岁生日,推出“QQ25周年社交报告”。-报告详细展示用户QQ好友男女比例、地域分布、星座占比、许久未聊好友,以及加的第一位好友。-用户还可查看自己注册QQ的时间,精确到分钟,勾起往事回忆。腾讯QQ迎来25周岁生日,为庆祝这一重要时刻,官方推出了“QQ25周年社交报告”。用户可在手机QQ中搜索“25周年”或点击好友分享的链接即可查看这份独特的社交报告。站长网2024-02-10 10:55:030000美团以20.65亿人民币收购光年之外
6月29日消息,美团于香港联交所发布公告,称已完成光年之外境内外主体100%股权的收购,收购价约为20.65亿人民币。此前,光年之外联合创始人王慧文因身体原因,离岗就医及休养。美团在公告中对于并购的解释是,通过收购事项获得领先的AGI技术及人才,有机会加强其于快速增长的人工智能行业中的竞争力。站长网2023-06-30 08:40:240000英伟达收购人工智能初创公司 OmniML 押注边缘 AI
英伟达在今年2月悄悄收购了人工智能初创公司OmniML。OmniML的技术可以将机器学习模型小型化,使其能够在边缘设备上运行,而不依赖云端。一位发言人以及前OmniML员工的LinkedIn个人资料,他们现在都加入了英伟达。站长网2023-07-05 10:22:090001