谷歌研究团队宣布 AudioPaLM:一个能说能听的大型语言模型
大型语言模型(LLMs)近几个月一直备受关注。作为人工智能领域最重要的进展之一,这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型,它们成为人工智能在全球蔓延的最佳例证。
LLMs 在处理复杂交互和知识检索任务时表现出色,其中最著名的例子是由 OpenAI 开发的 ChatGPT 聊天机器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架构。除了文本生成外,还开发了像 CLIP(对比性语言图像预训练)这样的模型,用于图像生成,使得可以根据图像的内容生成文本。
为了在音频生成和理解方面取得进展,Google 的研究团队推出了 AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。AudioPaLM 结合了两个现有模型的优势,即 PaLM-2 模型和 AudioLM 模型,以产生一个统一的多模态架构,能够处理和生成文本和语音。这使得 AudioPaLM 可以处理各种应用,从语音识别到语音转文字。
虽然 AudioLM 在保持诸如说话者身份和语气信息方面表现出色,而以文本为基础的语言模型 PaLM-2 则专注于特定于文本的语言知识。通过结合这两个模型,AudioPaLM 利用了 PaLM-2 的语言专业知识和 AudioLM 的附加语言信息保存能力,从而更全面地理解和生成文本和语音。
AudioPaLM 使用一个联合词汇表,可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合,可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。
经过评估,AudioPaLM 在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力,也就是说,它可以准确地将从未遇到过的语言的语音翻译成文本,为更广泛的语言支持开辟了可能性。
AudioPaLM 还可以基于简短的口语提示在语言之间进行声音转换,并能捕捉并重现不同语言中的独特声音,实现语音转换和适应。
团队提到的 AudioPaLM 主要贡献包括:
AudioPaLM 利用了文本预训练模型 PaLM 和 PaLM-2 的功能。
在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果,并在自动语音识别基准测试中具有竞争力的表现。
该模型通过语音转换来进行声音转换,超越了现有方法在语音质量和声音保留方面的表现。
AudioPaLM 通过使用未见过的语言组合进行自动语音翻译,展示了零样本功能。
总而言之,AudioPaLM 是一个统一的大型语言模型,通过利用基于文本的语言模型的能力和整合音频提示技术,可以同时处理语音和文本,成为 LLM 列表中强有力的补充。
AudioPaLM Hugging Face 页面:https://huggingface.co/papers/2306.12925
京东健康发布医疗大模型“京医千询” 基于京东言犀大模型打造
基于京东言犀通用大模型,京东健康正式发布面向医疗健康行业的大模型“京医千询”,能快速完成在医疗健康领域各个场景的迁移和学习,从而实现产品和解决方案的全面AI化部署,能为远程医疗服务提供坚实的技术底座。据介绍,“京医千询”收集了超亿级的高质量医患对话数据和百万级规模的医学知识图谱,覆盖了线上140余个科室的医生、药师、营养师和心理医生,全程参与大模型的构造,提供专业的数据指导意见和评测的标准;站长网2023-07-14 20:07:460000调协大模型时代存算矛盾的HBM,如何入局其中寻找机会?
近日,HBM的热度不可谓不高,无论是相关半导体大厂“激进”扩产的计划,还是产品供不应求的消息,都将这个内存领域的“新”技术,推到了资本市场与相关投资者的眼前。在相关大厂的扩产方面,两大存储芯片巨头持续加码:三星、SK海力士拟将HBM产量提高至2.5倍的消息曝出,使得HBM概念股倍受市场关注。站长网2023-12-20 12:06:270001Llama-3公布基础训练设施,使用49,000个H100
3月13日,社交、科技巨头Meta在官网公布了两个全新的24KH100GPU集群(49,152个),专门用于训练大模型Llama-3。此外,Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。站长网2024-03-13 09:04:240001ChatGPT和视觉搜索,正在改变搜索市场格局
先来看一组与搜索相关的数据:ChatGPT的月活超过1亿,用户超过1.8亿,网站访问量在2023年5月达到19亿。根据小红书的数据,搜索已经成为用户最高频的使用行为之一,60%的日活用户会在小红书上主动搜索,日均搜索查询量接近3亿次。抖音搜索的月活在2021年就超过了5.5亿。百度截止到2022年第三季度,百度APP月活用户达到6.28亿。这些数据显示出搜索市场的新趋势。000070%生成式AI初创公司依赖谷歌云基础设施和AI功能
日前,Alphabet在其2023年第二季度财报电话会议强调了生成式人工智能在公司云和产品中带来的效益。首席执行官SundarPichai强调,超过70%的生成式AI初创公司依赖谷歌的云基础设施和AI功能。这表明了新兴公司对下一代技术的吸引力,这些公司希望构建由GoogleBard和其他模型支持的新服务。站长网2023-07-26 11:41:250000