VSP-LLM:可通过观察视频中人的嘴型来识别唇语
VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。
VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。
项目地址:https://top.aibase.com/tool/vsp-llm
该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。
VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。
首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。
其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。
然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。
此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。
最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。
面壁智能宣布小钢炮模型 MiniCPM 免费商用
面壁智能宣布将面壁「小钢炮」MiniCPM免费商用,以表达他们对开源社区的信仰和热爱。MiniCPM-Llama3-V2.5是他们为开源社区准备的特别礼物。现在,MiniCPM和MiniCPM-V模型将对学术研究完全开放,并允许企业和个人在填写问卷登记后进行商业使用,但需要遵守Apache2.0和《MiniCPM模型社区许可协议》。站长网2024-06-05 16:45:080000SensorTower:《鸣潮》进入5月全球移动游戏下载增长榜前三
今日,SensorTower发布《2024年5月全球热门移动游戏下载量TOP10》。站长网2024-06-25 12:08:330000李楠旗下怒喵科技将推出生成式 AI 产品AngryMiao AI
近日,原魅族副总裁、怒喵科技创始人李楠宣布,生成式AI产品AngryMiaoAI即将发布,希望可以尽快和大家见面。据了解,怒喵科技(AngryMiao)成立于2019年,致力于给消费者带来未来科技,产品包括TWS和桌面产品无线化系列,同时围绕品牌IP生产潮玩等情感联结产品。站长网2023-05-04 09:31:070000前有小贝,后有密子君:难逃翻车的美食主播
又一个美食主播深陷负面舆论。4月7日,有网友曝光密子君直播带货的无骨鸡爪里有蟑螂,引发关注。而后,密子君道歉称,蟑螂来自于自熬的红油碗中。那碗红油由于储存过程中没有用保鲜膜密封保存,导致蟑螂爬入。涉事商家馋仙味表示,产品密封且无菌生产。@密子君微博截图站长网2023-04-19 20:59:080000AI视野:OpenAI开发者大会开放申请;微软在开发AI模型时泄露了38TB敏感数据;螺旋控制图像Illusion Diffusion爆火
👨💻💡🎯聚焦开发者OpenAI开发者大会正式开始接受申请2023年OpenAI开发者大会正式开始接受申请,计划于11月6日在旧金山举行,涵盖主题演讲、分组会议和晚间招待会。参会者需提交申请,门票费用为450美元,名额有限。主题演讲将通过直播方式提供。分组会议将涵盖API技术、AI产品开发最佳实践等内容。申请地址:https://devday.openai.com/站长之家提要:站长网2023-09-19 16:00:180000