Magi:可自动将漫画转录成文字 并自动生成剧本
站长网2024-03-12 12:16:104阅
划重点:
📝 Magi 模型可以自动将漫画页转录成文字并生成剧本。
📝 功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。
📝 项目还包含 Mangadex-1.5M 数据集,旨在解决漫画页面自动理解和剧本生成问题。
牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的模型,可以自动将漫画页转录成文字并生成剧本。
该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。
除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。
通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。
论文:https://arxiv.org/abs/2401.10224
项目入口:https://top.aibase.com/tool/magi
0004
评论列表
共(0)条相关推荐
AI公司「卓视智通」获数千万Pre-B+轮融资 推进视觉大模型研发
据36氪消息,北京卓视智通科技有限责任公司近日完成了数千万元Pre-B轮融资,由中交资本和腾飞资本共同投资。卓视智通成立于2012年,是一家基于AI的视频融合感知及车路协同解决方案提供商。公司主要从路端切入,致力于交通场景的识别和应用落地。卓视智通已经推出了一系列的软硬件产品,包括交通事件检测及数字孪生公路系统、车辆多维特征识别及结构化识别系统、城市级交管大数据平台等。站长网2023-10-30 14:09:35000011.83亿元!顺丰向极兔转让丰网100%股权
快科技5月12日消息,今晚顺丰控股发布公告称,下属控股子公司深圳市丰网控股有限公司(以下简称丰网控股”)与极兔速递下属子公司深圳极兔供应链有限公司签署了《股权转让协议》。丰网控股拟以人民币11.83亿元转让全资子公司深圳市丰网信息技术有限公司(以下简称丰网信息)100%股权。深圳丰网速运有限公司是丰网信息下属全资子公司,在2020年正式成立,2020年9月丰网速运开始提供快递服务。站长网2023-05-13 09:15:320000微软CEO将于2月7日访问印度 将与多位AI创始人会面
微软公司首席执行官萨蒂亚·纳德拉将于2月7日和8日访问印度,这是他每年对该国的例行访问,2024年的主要主题是人工智能(AI)及其机遇。几周前,微软印度和南亚地区总裁普内特·钱多克在一封内部邮件中表示,纳德拉的访问强化了微软利用技术扩大该国机遇的承诺。邮件说:“AI在塑造‘印度科技十年’方面发挥着改变游戏规则的作用,将使印度和南亚成为技术领域最令人兴奋的市场之一。”站长网2024-01-29 16:40:400000阿里开源视频自动化剪辑工具FunClip 支持中文语音识别
阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频,大大提高了视频编辑的效率。项目地址:https://github.com/alibaba-damo-academy/FunClip站长网2024-05-13 17:52:020001李斌:蔚来手机是防御策略 第二代研发工作已经完成
蔚来汽车董事长李斌在近日于武汉举行的车主聚会上,为在场的车主们带来了蔚来品牌的最新动态。他透露,蔚来第二代手机的研发工作已经完成,并已顺利进入制造阶段,虽然距离正式发布尚需时日,但蔚来每年都将按计划推出一款新手机,而非多款。站长网2024-03-19 17:52:180000