亚马逊发布其有史以来最大的文本转语音模型 BASE TTS
划重点:
⭐️ 亚马逊 AGI 团队发布了有史以来最大的文本转语音模型,具有最多的参数和最大的训练数据集。
⭐️ 新模型名为 BASE TTS,拥有980亿参数,使用了10万小时的录音数据进行训练,主要是英语。
⭐️ 该团队计划将 BASE TTS 用作学习应用,以改进文本转语音应用的人类声音质量。
亚马逊 AGI 的人工智能研究团队宣布开发了他们所描述的有史以来最大的文本转语音模型。所谓最大,是指拥有最多参数并使用最大训练数据集。他们在 arXiv 预印服务器上发布了一篇论文,描述了该模型的开发和训练过程。
与 ChatGPT 等大型语言模型(LLMs)因其人类化的智能回答问题和创建高水平文档的能力而备受关注不同,人工智能正在逐步应用于其他主流应用。在这一新尝试中,研究人员试图通过增加模型参数的数量和扩充训练基础来改进文本转语音应用的能力。
这一新模型被称为 Big Adaptive Streamable TTS with Emergent abilities(简称为 BASE TTS),拥有98亿参数,并使用了10万小时的录音数据进行训练,其中大部分是英语。该团队还为其提供了其他语言中已知短语的口语单词和短语示例,以使模型在遇到这些短语时能够正确发音,比如 “au contraire” 或 “adios, amigo”。
亚马逊团队还在较小的数据集上对模型进行了测试,希望了解模型何时会出现所谓的新兴特性,即人工智能应用,无论是 LLM 还是文本转语音应用,突然似乎突破到更高层次的智能。他们发现,对于他们的应用程序来说,新兴特性出现在拥有1.5亿参数时。
他们还指出,这种飞跃涉及一系列语言属性,例如使用复合名词,表达情感,使用外语词汇,应用语音附加语和标点,以及在句子中将重点放在正确的单词上提出问题。
该团队表示,他们不会向公众发布 BASE TTS,因为他们担心它可能被不道德地使用,而是计划将其用作学习应用。他们希望应用他们迄今为止所学到的知识,以改进文本转语音应用程序的人类声音质量。
论文网址:https://dx.doi.org/10.48550/arxiv.2402.08093
抖音将专项治理“非购物车锚点视频”违规行为
抖音发布了关于「非购物车锚点视频违规」的专项治理公告。通知称,部分创作者发布的引导进橱窗/店铺等“非购物车锚点视频”存在部分违规行为,违规视频内容包括进行虚假夸大描述、虚构商品来源或资质信息、使用国家级/最高级/最佳等绝对用语、虚假承诺、虚假描述商品/服务功效/效果、利用团队冲突/家庭矛盾/卖惨剧情表演炒作等违反《电商创作者管理总则》等平台规则的内容。站长网2023-06-17 23:47:280000谷歌推出新英语辅导工具挑战Duolingo
要点:谷歌推出新的英语辅导工具,旨在挑战Duolingo,并为语言学习者提供个性化的英语口语练习。该工具将在Android设备上的搜索中逐步推出,首批覆盖阿根廷、哥伦比亚、印度、印度尼西亚、墨西哥和委内瑞拉。该工具借助AI和机器学习技术,提供语法反馈、语义反馈和个性化练习,招募语言学家和教师参与内容创作。站长网2023-10-20 10:02:280003B站:将重点打击针对运动员人身攻击、造谣、抹黑等行为
B站发布《关于整治体育“饭圈”化的公告》称,部分体育明星的粉丝呈现“饭圈化”和非理性的行为,把关注焦点带离了竞技体育本身,污染网络环境,造成负面影响。根据中央网信办《关于进一步加强“饭圈”乱象治理的通知》的要求,在站内开展专项行动,截止目前,累计处置违规弹幕1284条,评论563条,从严封禁了14个账号。站长网2024-06-06 20:44:500000半年花8万,年轻人开始疯抢“捏捏”
年轻人又有了“烧钱”的新玩具。近期,“捏圈”火了,年轻人动辄花几百元、几千元买一款“捏捏”,半年累计花费上万的消息,冲上热搜。输入“捏捏”,各大社交媒体平台关于它的帖子高达十万以上。不少博主的“捏捏”开箱视频点赞量也在一万以上。什么是“捏捏”?站长网2024-06-04 15:43:020003携程客服官宣提前一个月回家过年:2025年春节可回乡办公48天
快科技5月7日消息,携程集团今天正式宣布,客服团队全面推行春节回乡办公政策,各客服团队可根据实际需求,实施该政策。以2025年春节为例,员工可申请2024年12月29日至2025年2月15日回乡办公,携程同步发布了与之匹配的员工申请和管理流程。在成为国内首家率先实施混合办公政策的企业之后,携程将混合办公延长至春节期间一个半月的超长时间。0000