Amazon Transcribe新一代语音基础模型驱动的ASR系统,支持100多种语言
# 划重点
1. 🎙️ **多语言支持:** Amazon Transcribe推出的新一代语音基础模型涵盖100多种语言,提供全面的自动语音识别(ASR)服务。
2. 🚀 **性能提升:** 利用语音基础模型,Amazon Transcribe在大多数语言中实现20%至50%的显著准确度提升,尤其在电话语音等挑战性领域中提高了30%至70%的准确度。
3. 🌐 **全面功能:** 新ASR系统支持多种特性,包括自动标点、自定义词汇、自动语言识别、说话人分离等,提供更准确的输出并有效嵌入语音技术。
亚马逊宣布推出全新一代语音基础模型驱动的ASR系统,将自动语音识别服务扩展到支持100多种语言。Amazon Transcribe是一项完全托管的ASR服务,使您能够轻松地将语音转换为文本,并在应用程序中添加语音到文本的功能。
新的语音基础模型是通过最先进的自监督算法训练而成,以学习跨语言和口音的人类语音的固有普遍模式。它经过数百万小时的未标记音频数据的训练,涵盖100多种语言。通过智能数据采样优化训练配方,平衡了不同语言之间的训练数据,确保传统上代表性不足的语言也能达到高准确度水平。
图源备注:图片由AI生成,图片授权服务商Midjourney
软件公司Carbyne是开发云端紧急呼叫响应解决方案的代表,通过Amazon Transcribe实现AI驱动的实时音频翻译,改善了对那些在家中使用非英语的6800万美国人以及每年访问该国的多达7900万外国游客的紧急响应。借助新的多语言基础模型,Carbyne将更好地实现紧急服务的民主化,确保每个人都能受益。
通过利用语音基础模型,Amazon Transcribe在大多数语言中实现了20%至50%的显著准确度提升。在电话语音等具有挑战性和数据稀缺领域,准确度提高了30%至70%。除了显著的准确度提升外,这一大型ASR模型还通过更准确的标点和大写提高了可读性。随着生成式AI的发展,成千上万的企业正在使用Amazon Transcribe从其音频内容中解锁丰富的见解。
新ASR系统提供了许多关键功能,涵盖100多种语言,包括使用方便、定制化、用户安全和隐私。这些功能包括自动标点、自定义词汇、自动语言识别、说话人分离、单词级置信度分数和自定义词汇过滤器。系统对不同口音、噪音环境和声学条件的支持扩展,使您能够产生更准确的输出,并有效地嵌入语音技术到您的应用程序中。
由于Amazon Transcribe在不同口音和噪音条件下的高准确性,支持多种语言,以及广泛的增值功能集,成千上万的企业将能够从其音频内容中解锁丰富的见解,提高其音频和视频内容在各个领域的可访问性和可发现性。例如,联系中心使用Amazon Transcribe转录和分析客户呼叫,以识别见解并随后提高客户体验和代理效率。内容制作者和媒体分销商使用Amazon Transcribe自动生成字幕,以提高内容的可访问性。
开始使用Amazon Transcribe非常简单,您可以使用AWS命令行界面(AWS CLI)、AWS管理控制台和各种AWS SDK进行批量转录,并继续使用相同的StartTranscriptionJob API从增强的ASR模型中获得性能优势,而无需在您的端口进行任何代码或参数更改。上传媒体文件到Amazon Simple Storage Service(Amazon S3)存储桶是第一步,该对象存储服务可从任何地方存储和检索任意量的数据。您可以选择将转录保存在自己的S3存储桶中,或者让Amazon Transcribe使用安全的默认存储桶。
Amazon Transcribe使用JSON表示其输出,提供两种不同的格式:文本格式和分项格式。根据创建转录作业时选择的功能,Amazon Transcribe创建转录结果的其他和丰富的视图。
在AWS的不断创新下,通过将Amazon Transcribe的语言支持扩展到100多种语言,我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性,还在全球范围内开辟了新的沟通和信息交流途径。要了解本文讨论的功能的更多信息,请查看功能页面和新功能帖子。
京东2023年度账单上线 还记得你2023“新年第一单”吗?
京东在2023年年底推出了一系列活动,包括2023年度账单和跨年活动。用户可以通过京东APP搜“年度账单”查收他们的2023年度账单,这是一个个人专属的年度手账,用户可以在其中记录和回顾自己的购物和消费情况,并许下2024年的新年心愿。同时,京东还在12月31日晚8点举办了跨年活动,分发千万份实物好礼和10亿红包。站长网2023-12-29 14:22:000000图片、视频直接生成3D高斯分布!免费体验,已正式商用
图源备注:图片由AI生成,图片授权服务商Midjourney知名3D扫描应用企业Polycam在官网宣布,结束对3DGAUSSIANSPLATS(以下简称“3DGS”)的测试,正式投入商业使用。站长网2023-11-12 10:39:0400011srf-attention:一个提高深度学习模型训练效率的注意力机制
注意力很有用,但计算成本很高。然而,一旦训练完成,通过一些微调计算,您可以减少SRF注意力并消除对序列长度的依赖,从而大大加快速度。srf-attention是一个PyTorch模块,用于替代传统的注意力机制,提供更高效的模型训练和推理。它的核心功能包括安装和使用简便、示例代码提供、适用于各种应用领域。这个模块有望为深度学习社区提供更高效的工具,帮助研究人员和开发者改进其模型的性能和效率。站长网2023-10-11 18:13:030000AI视频编辑器Wisecut获100万美元投资 拥有35万用户
AI驱动的自动视频编辑平台Wisecut宣布获得了知名投资人TimDraper的100万美元投资。该公司计划利用这笔资金扩展团队、加强研发工作、推出更多功能,并扩大市场范围。Wisecut的目标是通过使用生成式人工智能简化视频编辑流程,帮助企业进行市场营销视频编辑,协助教育机构转型为在线课程,以及帮助视频内容创作者制作更吸引人、简洁的视频内容。站长网2023-08-02 11:00:270000去哪儿与华为合作 涉及 AI 与智慧全场景等业务
去哪儿与华为在旅游领域的合作再次进一步。双方将通过华为终端云服务应用生态业务、浏览器与云空间业务以及AI与智慧全场景业务等方面的合作,为消费者创造更多的价值。合作内容涉及到了去哪儿的旅行预定、旅游攻略、景点门票等功能接入华为意图框架,以及优化终端服务页面布局、提升灵活切换城市功能等。站长网2023-08-07 16:01:190000