VSP-LLM:可通过观察视频中人的嘴型来识别唇语
VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。
VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。
项目地址:https://top.aibase.com/tool/vsp-llm
该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。
VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。
首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。
其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。
然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。
此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。
最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。
新型人工智能框架Rodin来了!可从多种输入源生成 3D 数字化身
Rodin是一个新颖的人工智能框架,可以从不同的输入源生成3D数字化身。该框架利用了扩散模型和生成模型来生成逼真的3D内容。与2D内容相比,生成3D内容面临着更多的挑战,包括内存和处理成本的限制。论文地址:https://arxiv.org/pdf/2212.06135.pdf站长网2023-07-27 09:58:580003AI歌手翻唱或涉多项侵权行为 生成式人工智能相关规范即将出台
据央视新闻报道,近期,由于人工智能(AI)的热潮,许多网友开始使用AI工具进行娱乐活动,例如最近非常受欢迎的“AI孙燕姿翻唱”。通过AI模型训练和后期处理,网友们可以模拟真人歌手的声音,然后用这个声音来翻唱其他歌曲。然而,专家提醒称,“AI歌手”可能存在多个侵权问题:根据民法典的规定,自然人的声音受到与肖像权类似的保护,不允许以伪造方式侵害他人肖像权。站长网2023-05-15 10:17:330000巴菲特股东大会:面对 AI 没有选择 必须要去接受它、应对它、使用它
伯克希尔哈撒韦公司年度股东大会日前在奥马哈正式开幕,92岁的巴菲特及多年老搭档99岁的芒格与数万名股东,其中包括数千名中国投资人面对面交流。在近六个小时的问答环节中,回答了各界投资人48个问题,涉及宏观经济、地缘政治、银行业危机、企业经营、家族传承等方方面面。站长网2023-05-08 09:10:260000腾讯视频推出弹幕引擎 “芯魔方” 实现弹幕效果画面内容高契合度
腾讯视频为《南海归墟》第10集的弹幕体验推出了全新版本的弹幕引擎“芯魔方”。这个弹幕引擎通过图像算法AI模型,可以实现弹幕效果和画面内容的高契合度,呈现模拟场景的效果。腾讯视频还推出了多种特效弹幕,如洋流弹幕、染血弹幕、攀登弹幕和PK弹幕,让用户可以在特定时间点进行体验。站长网2023-12-06 14:17:440001新研究称,利用AI创作者比人类更环保 碳排放更少
文章概要:-最新研究指出,人工智能系统如ChatGPT、BLOOM、DALL-E2和Midjourney完成的文学和艺术作品的碳排放比人类创作者要小得多。-该研究发现,人工智能可以在排放3至4个数量级更少的二氧化碳的同时产生有用的文本和图像。-然而,研究也承认,排放数据没有考虑到人工智能替代人类的影响。站长网2023-09-25 10:42:070000