VSP-LLM:可通过观察视频中人的嘴型来识别唇语
VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。
VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。
项目地址:https://top.aibase.com/tool/vsp-llm
该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。
VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。
首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。
其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。
然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。
此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。
最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。
AI背景调查工具Ferret AI 可协助客户获取网络背景信息
划重点:-FerretAI是一款自动监控多个信息来源的工具,用于帮助用户审查潜在客户、投资者和商业伙伴,包括报纸档案、法律记录和公司所有权记录。-该工具旨在帮助富裕个体筛选网络中的负面故事,并执行反洗钱检查,以确保他们不会无意中违反法律或玷污声誉。站长网2023-10-16 09:56:010000还没发布,小米汽车就被泄密了n次
“小米汽车被泄密,媒体或面临300万罚金”一事已经连续讨论两三天,不少人认为是营销,不过昨天和今天几方当事人都发了声明,披露了泄密细节。营销与否不重要,更重要的是应该正视保密协议,与思考抢发信息的准则。小米汽车遭泄密涉事媒体先后致歉一个发到朋友圈一个发给好友导致扩散0000电商平台用ChatGPT为用户提供购物辅助服务成趋势
在OpenAI的ChatGPT爆火之后,越来越多电商平台尝试使用该工具来提供购物辅助,包括记忆对话内容和话语能力,提供更加个性化和人性化的体验。在用例方面,包括日本二手市场Mercari推出购物辅助工具MerchatAI,帮助推荐产品。德国电商巨头Zalando推出类似的ChatGPT的工具,帮助消费者在提出时装问题或疑问后寻找相关物品。站长网2023-04-27 15:18:330000国内什么样的AI公司现在能拿到VC投资?
当下的大模型赛场,随着最初的热潮褪去,不少VC和投资人对大模型已经进入了一个冷静期,其投资标准,也变得理性、严谨了许多。既然如此,那么这一阶段能得到明星资本青睐的团队,都具有哪些特征呢?如前段时间,突然发布自身产品的神秘创业公司——月之暗面MoonshotAI,就给我们提供了一个参考。站长网2023-10-17 11:17:340004AI21 Labs 获得1.55亿美元融资,以推进企业生成式AI
文章概要:1)AI21Labs完成1.55亿美元C轮融资,估值14亿美元2)AI21专有的Jurassic-2模型被认为是世界上最大的LLM之一3)AI21最近与不同行业的客户合作,入选首个CBInsightsGenAI50榜单AI21Labs是一家以色列的大语言模型领先企业,日前宣布完成1.55亿美元的C轮融资,以加速其面向企业的基于文本的生成式人工智能服务的增长。站长网2023-08-31 09:48:160000