VSP-LLM:可通过观察视频中人的嘴型来识别唇语
VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。
VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。

项目地址:https://top.aibase.com/tool/vsp-llm
该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。
VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。
首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。
其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。
然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。
此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。
最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。
一开发者用OpenAI 技术构建了个AI宣传机器,强调大规模生产的AI虚假信息危险性
文章概要:1.一国外开发者2个月内利用OpenAI工具打造AI宣传机器,每月运营成本低于400美元2.项目目的是展示AI大规模生产虚假信息的危险3.开发者没有将模型投入使用,因为它会推动假信息传播。站长网2023-09-04 12:16:010000同方知网推出CNKI AI学术研究助手
同方知网宣布推出CNKIAI学术研究助手,可以简化学术研究的检索和研究流程。用户可以通过自然语言提问,快速获取答案,并可以连续追问。站长网2023-08-30 17:36:080001Pirros获200万美元种子轮融资,用AI简化建筑设计
文章概要:1.Pirros是一家应用AI简化建筑设计绘图的初创公司,获得200万美元种子轮融资。2.Pirros通过提取和索引建筑信息模型Metadata,将设计图纸集中存储和管理。3.Pirros计划利用资金扩大团队,改进产品,扩大市场。站长网2023-09-01 10:47:460000成魔还是成佛?面对科技狂潮,内容行业要有一颗人文之心
“新的技术导致新的市场,而新的市场会改变我们每一个人的生活,而新的生活又将会带来新的人文……那么,科技将如何改写人类文明的未来?”12月1日,2023腾讯ConTech大会“新人文”分论坛上,科学作家、译者季燕江提出了一个现实且前沿的开放性议题。0000字节发布视频控制方式Boximator 比Runway运动笔刷更精确
字节研究院发布了一个名为Boximator的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。与Runway的运动笔刷相比,Boximator可以更精确地控制物体的运动结束位置。项目地址:https://top.aibase.com/tool/boximator站长网2024-02-06 09:31:250001