Meta AI 发布 MMCSG数据集:使用 Project Aria 捕获的 25 小时以上的双向对话
划重点:
- 💡 CHiME-8MMCSG 任务专注于通过智能眼镜录制的对话转录挑战,旨在帮助研究人员解决活动检测和说话者分离等问题。
- 💡 提出的模型利用多模态数据集 MSCSG 数据集,包括音频、视频和 IMU 信号,以提高转录准确性。
- 💡 通过整合各种技术来改善实时对话的转录准确性,包括目标说话者识别 / 定位、说话者活动检测、语音增强、语音识别和对话。
Meta AI 最近发布了 MMCSG 数据集,该数据集包含使用 Project Aria 录制的25小时以上的双向对话。CHiME-8MMCSG 任务的重点是转录使用智能眼镜录制的对话,这些眼镜配备了多个传感器,包括麦克风、摄像头和惯性测量单元(IMUs)。该数据集旨在帮助研究人员解决问题,如活动检测和说话者分离。该模型的目标是在实时转录中准确记录自然对话的两个方面,考虑到说话者识别、语音识别、对话和多模态信号的整合。
传统的对话转录方法通常仅依赖于音频输入,可能只捕获一些相关信息,尤其是在使用智能眼镜录制的对话等动态环境中。提出的模型利用多模态数据集 MSCSG 数据集,包括音频、视频和 IMU 信号,以增强转录准确性。
该方法整合了各种技术,以提高实时对话的转录准确性,包括目标说话者识别 / 定位、说话者活动检测、语音增强、语音识别和对话。通过整合来自多种模态的信号,如音频、视频、加速度计和陀螺仪,系统旨在提高传统音频系统的性能。此外,在智能眼镜上使用非静态麦克风阵列引入了与音频和视频数据中的运动模糊相关的挑战,该系统通过先进的信号处理和机器学习技术解决了这些挑战。Meta 发布的 MMCSG 数据集为研究人员提供了实际数据,用于训练和评估其系统,促进自动语音识别和活动检测等领域的进展。
CHiME-8MMCSG 任务解决了使用智能眼镜录制的对话的准确实时转录的需求。通过利用多模态数据和先进的信号处理技术,研究人员旨在提高转录准确性,并解决说话者识别和降噪等挑战。MMCSG 数据集的提供为在动态现实环境中开发和评估转录系统提供了宝贵资源。
论文网址:https://ai.meta.com/datasets/mmcsg-dataset/?utm_source=twitter&utm_medium=organic_social&utm_campaign=research&utm_content=image
苹果头显Vision Pro将于2月2日在美国上市 价格3499美元
苹果官网宣布,其混合现实头显VisionPro将于2月2日在美国上市。这款产品的预购已于太平洋时间1月19日早上5点(北京时间21:00)开始,起步版本配备256GB存储,售价3499美元(约合2.5万人民币)。为了提供更个性化的使用体验,苹果还提供了近视镜和老花镜的配套镜片,其中蔡司光学镜片(老花镜)售价99美元,蔡司光学镜片(处方镜)售价149美元。站长网2024-01-09 08:12:180000马斯克详解“星舰”爆炸:“龙卷风”、飞偏、人为引爆延迟
凤凰网科技讯北京时间5月1日消息,目前距离SpaceX“星舰”首飞爆炸已经过去一周多时间,但是其CEO埃隆马斯克(ElonMusk)似乎意犹未尽,在这个周末透露了更多不为人知的内幕。站长网2023-05-01 10:13:110000盒马回应线上订单加收包装费 业务调整所导致
据东方财经消息,近日,不少网友发现,在盒马线上平台进行购物时,开始被收取包装费。针对这一变化,盒马官方客服表示,这是由于业务调整所导致的。从2024年1月1日起,每单将收取1元的打包费。但如果在购买过程中没有使用到塑料袋,如大米、成箱水果等,可以与售后人员联系以处理相关费用。同时,有网友反映取消订单后,包装费并不退还。对此,工作人员回应称,他们会根据每个订单的实际情况进行相应的处理。0000英特尔再遭欧盟罚款逾4亿美元 滥用芯片市场主导地位
站长之家(ChinaZ.com)9月24日消息:欧盟反垄断监管机构欧盟委员会今日宣布,重新对芯片巨头英特尔处以约4.026亿美元的罚款。欧盟委员会认定英特尔在个人电脑CPU市场占主导地位期间,通过向PC厂商提供回扣等方式,不正当地排挤竞争对手AMD。这起罚款可以追溯至2009年,欧盟委员会当时曾做出类似裁决,并处以10.6亿欧元的创纪录罚款。站长网2023-09-24 09:57:090000目标是复制 ChatGPT?又一开源替代品来了
随着ChatGPT火爆出圈后,国内外企业也相继推出类ChatGPT产品,如百度文心一言、阿里通义千问,微软新Bing、GoogleBard,AdobeFirefly等等。站长网2023-04-27 21:28:380000