Magi:可自动将漫画转录成文字 并自动生成剧本
站长网2024-03-12 12:16:104阅
划重点:
📝 Magi 模型可以自动将漫画页转录成文字并生成剧本。
📝 功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。
📝 项目还包含 Mangadex-1.5M 数据集,旨在解决漫画页面自动理解和剧本生成问题。
牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的模型,可以自动将漫画页转录成文字并生成剧本。
该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。
除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。
通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。
论文:https://arxiv.org/abs/2401.10224
项目入口:https://top.aibase.com/tool/magi
0004
评论列表
共(0)条相关推荐
AMD最新驱动程序曝光:锐龙8000系列要来了
快科技11月12日消息,根据相关爆料,最新的AMD芯片组驱动程序通过了WHQL认证,不过该驱动并不适用于当前的锐龙7000系列,而是支持尚未发布的锐龙8000系列。该驱动更新表明,AMD已经完成了其新锐龙8000APU的芯片组驱动程序开发,并且准备好了发布新APU。站长网2023-11-12 15:16:270000永辉门店将增设“正品折扣店” APP/小程序增设折扣专区
永辉近日表示,将在全国范围的门店中增设“正品折扣店”,并同步在线上APP/小程序增设折扣专区,提供食品、用品惊喜折扣价。据介绍,在折扣商品选择方面,区别于传统的临期商品折扣价的运营逻辑,永辉以提高商品效率为核心,通过自有供应商系统、YHDOS数字化系统等数字化手段,科学地对商品绩效进行评估。站长网2023-10-10 11:32:150000下月或停产的10款苹果产品:包括iPhone15Pro等 为新品让路
站长之家(ChinaZ.com)8月26日消息:据媒体报道,随着新一代iPhone的发布,苹果将按照惯例对部分产品线进行调整。下个月,预计将有10款产品面临停产,包括iPhone15Pro系列、iPhone14Plus、iPhone13,以及几款智能手表和耳机产品。站长网2024-08-27 18:00:300000B站第200亿条弹幕诞生“哈哈哈哈哈”
今日,B站宣布了一个令人振奋的里程碑——弹幕总数正式突破两百亿大关。这条具有历史意义的第两百亿条弹幕,由UP主@梦挽晴同学的一则游戏视频《从他身上我只看到了天赋和努力!》中诞生,内容为“哈哈哈哈哈”。站长网2024-06-18 18:25:240000新款iPad发布时间公布:最快本月发布 搭载M3芯片
知名科技记者马克·古尔曼(MarkGurman)近日为我们带来了令人振奋的消息。据他透露,苹果正在紧锣密鼓地筹备一场平板电脑的盛宴,计划于3月底至4月间推出全新的iPadPro和iPadAir系列平板电脑。这场盛宴不仅仅局限于平板本身,苹果还同步推出了专为iPad设计的新款妙控键盘和ApplePencil,以提供更加完善的用户体验。站长网2024-03-12 11:50:390000