ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能
ElevenLabs近日发布了配音API,允许开发者在其产品中添加音频或视频翻译功能。利用该API,开发者可以将任意音频或视频翻译成29种语言,并且保留原始发言者声音的独特特征。为帮助开发者快速上手,ElevenLabs提供了Python教程和API参考,让他们可以轻松将API整合到主要编程语言中。
此前,ElevenLabs还发布了一款名为ElevenLabs Music的文本生成歌曲产品。该产品在音乐的多个方面表现出色,包括节奏感、和声、乐器搭配、情感表达、创意性以及风格的多样性,与领先产品Suno和Udio相媲美。其中,ElevenLabs Music在人声独唱部分表现出优势,其清晰度、拟人化和乐器融合度超过了竞争对手,得益于ElevenLabs在语音克隆领域的专业背景和海量语音数据积累。
ElevenLabs Music还展示了通过文本描述生成的多首音乐,如《伤透我的心》和《我的爱》,展示了其在不同音乐风格上的创作能力。
除了配音API和ElevenLabs Music外,ElevenLabs的主要产品还包括语音克隆、文本转语音和AI配音等解决方案。语音克隆服务允许用户上传样本音频,生成与原声相似的音频;文本转语音支持29种语言、120种不同类型的语音输出;而AI配音则提供了端到端的高保真音频解决方案,针对电影和长音频领域。
此外,ElevenLabs还提供了一个语音库,允许用户分享自己生成的音频或声音,并从中获得报酬。未来,通过ElevenLabs Music生成的音乐也可以通过该平台进行分享,为普通人实现成为“歌手”的梦想提供了新的途径,同时也为专业音乐人提供了创作灵感。
文档:https://elevenlabs.io/docs/api-reference/create-dub
示例:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/dubbing/e2e-example
听10秒语音就能判断糖尿病,这个AI大模型太硬核了!
加拿大的Klick科研人员在顶级健康杂志《梅奥诊所文集:数字健康》上发布了一个AI大模型,只需要听一段6—10秒的语音,就能诊断是否患有2型糖尿病(T2DM)。目前糖尿病的主要检测方式依赖于血糖测量,但这种方法需要获取血液样本对患者会造成创伤,同时还需要专业设备成本非常高。为了解决这一检测痛点,加拿大知名健康科技公司Klick科研人员提出了AI模型检测方法。站长网2023-11-13 21:47:360000董宇辉新账号与辉同行上线 此前个人工作室已成立
董宇辉新账号“与辉同行”正式上线,并获平台认证,认证信息为“与辉同行(北京)科技有限公司”。账号介绍为:这是真的,与辉同行。目前该账号仅发布了一条图文内容。此前,与辉同行(北京)科技有限公司成立,法定代表人董宇辉。注册资本1000万元,经营范围包含鲜肉零售、网络文化经营、演出经纪等。该公司注册地址与东方甄选关联公司东方优选(北京)科技有限公司为同一栋楼。站长网2023-12-26 20:09:330000大招频出,各大电商平台的商家争夺战已然升级
这场关于中小商家的争夺战,本质是市场竞争充分所致。此前在今年年初,京东方面便推出了“春晓计划”,宣布开放个人卖家入驻,并以12项举措助力商家减负增收。在付出了真金白银的补贴和大量扶持后,京东也收获不小,在第二季度新增商家数量就同比增长417%。站长网2023-10-09 11:06:170000英伟达的江山,还能坐多久?
当下的AI赛场上,英伟达无疑是最闪耀的一颗明星。十多年来,英伟达在生产能够执行复杂AI任务(如图像、面部和语音识别)的芯片方面,建立了几乎无法撼动的领先地位。然而,凡事总有变化。近期,随着谷歌、IBM等巨头开始在芯片方面一齐发力,GPU领域的竞争格局,开始有了些微妙的改变。最近,IBM推出一款全新的14nm模拟AI芯片,效率达到了最领先GPU的14倍。站长网2023-09-05 16:39:340000在线视频实例分割技术TCOVIS 可保持时间一致性
研究人员介绍了一种名为TCOVIS的在线视频实例分割技术,该技术注重时间一致性。实例分割是计算机视觉领域的一个热门研究课题,其目标是将视频帧中的每个独立实例进行识别和分割。站长网2023-09-26 17:16:290000