谷歌研究团队宣布 AudioPaLM：一个能说能听的大型语言模型

站长网2023-06-25 23:41:101阅

大型语言模型（LLMs）近几个月一直备受关注。作为人工智能领域最重要的进展之一，这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型，它们成为人工智能在全球蔓延的最佳例证。

LLMs 在处理复杂交互和知识检索任务时表现出色，其中最著名的例子是由 OpenAI 开发的 ChatGPT 聊天机器人，它基于 GPT 3.5 和 GPT 4 的 Transformer 架构。除了文本生成外，还开发了像 CLIP（对比性语言图像预训练）这样的模型，用于图像生成，使得可以根据图像的内容生成文本。

为了在音频生成和理解方面取得进展，Google 的研究团队推出了 AudioPaLM，这是一个大型语言模型，可以处理语音理解和生成任务。AudioPaLM 结合了两个现有模型的优势，即 PaLM-2 模型和 AudioLM 模型，以产生一个统一的多模态架构，能够处理和生成文本和语音。这使得 AudioPaLM 可以处理各种应用，从语音识别到语音转文字。

虽然 AudioLM 在保持诸如说话者身份和语气信息方面表现出色，而以文本为基础的语言模型 PaLM-2 则专注于特定于文本的语言知识。通过结合这两个模型，AudioPaLM 利用了 PaLM-2 的语言专业知识和 AudioLM 的附加语言信息保存能力，从而更全面地理解和生成文本和语音。

AudioPaLM 使用一个联合词汇表，可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合，可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。

经过评估，AudioPaLM 在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力，也就是说，它可以准确地将从未遇到过的语言的语音翻译成文本，为更广泛的语言支持开辟了可能性。

AudioPaLM 还可以基于简短的口语提示在语言之间进行声音转换，并能捕捉并重现不同语言中的独特声音，实现语音转换和适应。

团队提到的 AudioPaLM 主要贡献包括：

AudioPaLM 利用了文本预训练模型 PaLM 和 PaLM-2 的功能。

在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果，并在自动语音识别基准测试中具有竞争力的表现。

该模型通过语音转换来进行声音转换，超越了现有方法在语音质量和声音保留方面的表现。

AudioPaLM 通过使用未见过的语言组合进行自动语音翻译，展示了零样本功能。

总而言之，AudioPaLM 是一个统一的大型语言模型，通过利用基于文本的语言模型的能力和整合音频提示技术，可以同时处理语音和文本，成为 LLM 列表中强有力的补充。

AudioPaLM Hugging Face 页面：https://huggingface.co/papers/2306.12925

谷歌研究团队宣布AudioPaLM一个能说能听的大型语言模型

0001

评论列表

共(0)条

相关推荐

读懂昆仑万维，一家中型大模型公司的野望和困境
一再洗牌的大模型牌桌上，昆仑万维是其中最特别的一家公司。和阿里、百度等一批市值千亿的大公司相比，昆仑万维仅仅算得上是一家中小企业。但在烧资源也烧人才的大模型赛道，昆仑万维不仅先在AI领域分到了一杯羹。两年过去，被质疑“跟风”的昆仑万维，也比大众的猜疑跑得更长久。
站长网站长资讯2025-01-15 18:20:50
0000
站长资讯
入门骁龙8 Gen 2机型选购指南 | 小米13，荣耀Magic5，一加11如何选？
文|小伊评科技目前市场上主流品牌所发布的入门款骁龙8Gen2手机主要以小米13，IQOO11，荣耀Magic5，一加11这四款机型为主（至于Moto，中兴，努比亚所推出的产品则相对较为小众，购买的人可能会较为有限，这里不再罗列）。那么这五款机型作为消费者该如何选择？他们都有哪些优缺点，本文就来给大家做一个详细的点评。
站长网2023-05-24 13:57:17
0004
站长资讯
百度发布2023年Q1财报：营收311亿元净利润大幅增长48%
快科技5月16日消息，百度发布截至2023年3月31日的第一季度财务报告。第一季度百度实现营收311亿元，同比增长10%；归属百度的净利润（non-GAAP）达57亿元，同比大幅增长48%，营收和利润双双超市场预期。
站长网2023-05-16 20:59:20
0003
站长资讯
百度李彦宏：小米、联想、蔚来接入文心大模型
快科技5月16日消息，今日，百度发布2024年第一季度财报，总营收315亿元，同比增长1%，归属百度的净利润70.11亿元，同比增长22%。据媒体报道，在财报电话会上，百度创始人李彦宏透露，继上季度与中国三星、荣耀合作后，本季度，小米、OPPO、vivo等手机厂商均接入文心大模型API。同时，大模型的合作领域还在从手机向PC和电动汽车领域拓展，联想和蔚来汽车也在季度内与达成合作。
站长网2024-05-17 08:16:09
0000
在小红书，为什么品牌知行合一有难度？
小红书种草，全网成交。这是长期以来，品牌默认的一个生意增长结果。只不过，这句话更像是一种感官或者印象描述，不是公式或数据验证。所以与认知并存的是，长期以来品牌和小红书都在各自做着关于商业化的同一道数据证明题。
站长网站长资讯2024-12-25 14:22:29
0000