谷歌研究团队宣布 AudioPaLM:一个能说能听的大型语言模型
大型语言模型(LLMs)近几个月一直备受关注。作为人工智能领域最重要的进展之一,这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型,它们成为人工智能在全球蔓延的最佳例证。
LLMs 在处理复杂交互和知识检索任务时表现出色,其中最著名的例子是由 OpenAI 开发的 ChatGPT 聊天机器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架构。除了文本生成外,还开发了像 CLIP(对比性语言图像预训练)这样的模型,用于图像生成,使得可以根据图像的内容生成文本。
为了在音频生成和理解方面取得进展,Google 的研究团队推出了 AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。AudioPaLM 结合了两个现有模型的优势,即 PaLM-2 模型和 AudioLM 模型,以产生一个统一的多模态架构,能够处理和生成文本和语音。这使得 AudioPaLM 可以处理各种应用,从语音识别到语音转文字。
虽然 AudioLM 在保持诸如说话者身份和语气信息方面表现出色,而以文本为基础的语言模型 PaLM-2 则专注于特定于文本的语言知识。通过结合这两个模型,AudioPaLM 利用了 PaLM-2 的语言专业知识和 AudioLM 的附加语言信息保存能力,从而更全面地理解和生成文本和语音。
AudioPaLM 使用一个联合词汇表,可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合,可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。
经过评估,AudioPaLM 在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力,也就是说,它可以准确地将从未遇到过的语言的语音翻译成文本,为更广泛的语言支持开辟了可能性。
AudioPaLM 还可以基于简短的口语提示在语言之间进行声音转换,并能捕捉并重现不同语言中的独特声音,实现语音转换和适应。
团队提到的 AudioPaLM 主要贡献包括:
AudioPaLM 利用了文本预训练模型 PaLM 和 PaLM-2 的功能。
在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果,并在自动语音识别基准测试中具有竞争力的表现。
该模型通过语音转换来进行声音转换,超越了现有方法在语音质量和声音保留方面的表现。
AudioPaLM 通过使用未见过的语言组合进行自动语音翻译,展示了零样本功能。
总而言之,AudioPaLM 是一个统一的大型语言模型,通过利用基于文本的语言模型的能力和整合音频提示技术,可以同时处理语音和文本,成为 LLM 列表中强有力的补充。
AudioPaLM Hugging Face 页面:https://huggingface.co/papers/2306.12925
字节回应收缩游戏业务:保留部分创新型游戏项目
据澎湃新闻报道,针对“大规模收缩游戏业务”一事,字节跳动旗下朝夕光年方面回应称,朝夕光年确实将进行大规模业务收缩:对已上线的且表现良好的游戏,会在保证运营的情况下寻求剥离;对还未上线的项目,除少量创新项目及相关技术项目外,均会关停。朝夕光年还表示,游戏业务确实会有方向和组织调整,将更加聚焦部分创新型游戏及相关技术的探索。但同时,也会做好已上线产品的持续运营,充分保障玩家的权益。站长网2023-11-27 14:17:450000AI大模型创业潮爆发,百度10亿惠生态
大模型创业到底有多火爆?从《大佬熬夜看论文,AI博士年薪500万,大模型搅动创业圈》《大模型创业潮:狂飙180天》《中国AI大模型竞速:机遇当头与人潮汹涌》这些新闻标题就能感知一二。越来越多的创业者,包括一些科技大厂的前高管们,都在跑步入场大模型赛道创业,资本市场闻风而动,VC连夜看项目,二级市场更是高度兴奋。百度李彦宏说:“大模型改变了人工智能,大模型即将改变世界。”站长网2023-06-01 21:37:470000小红书618活动规则发布 跨店每满300减50
618年中大促即将到来,小红书也正式发布618活动节奏及活动玩法。活动节奏方面,5月8日-5月23日为蓄水种草期,5月24日-5月31日为预热加购期,6月1日-6月18日为爆发转化期,6月19日之后为返场延续期。活动期间,平台出资,渗透搜索、笔记等各个场域,设计贴合社区用户「种草一拔草」路径的补贴玩法,小红书将从直播、搜索和商城三方面发力。站长网2023-05-23 12:03:120000扎克伯格、比尔盖茨等四位富豪因 AI 暴赚 1 万亿元
根据彭博统计的数据显示,2023年彭博富豪榜TOP10大部分来自于科技领域。由于AI技术的不断发展,美股在2023年年内出现了一波反弹,这使得科技领域的富豪们的总财富合计增加了超过4000亿美元(约合人民币28600亿元)。站长网2023-06-22 11:06:430000刘保中:短视频有助于建立更平等的代际关系
中国青年网北京5月22日电(记者牟昊琨实习记者李梦雨)“我们在社会学视角下理解青少年,代际比较是很重要的一个分析维度。”5月18日,在由中国社会科学院新闻与传播研究所主办的“短视频与青少年发展”研讨会上,中国社会科学院社会学研究所副研究员刘保中认为,在数字化社会,传统的代际关系模式正在表现出新的特点。0000