Magi:可自动将漫画转录成文字 并自动生成剧本
站长网2024-03-12 12:16:104阅
划重点:
📝 Magi 模型可以自动将漫画页转录成文字并生成剧本。
📝 功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。
📝 项目还包含 Mangadex-1.5M 数据集,旨在解决漫画页面自动理解和剧本生成问题。
牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的模型,可以自动将漫画页转录成文字并生成剧本。
该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。
Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。
除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。
通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。
论文:https://arxiv.org/abs/2401.10224
项目入口:https://top.aibase.com/tool/magi
0004
评论列表
共(0)条相关推荐
网信办公布第二批深度合成服务算法备案信息 百度、腾讯、华为、抖音等在列
今日,国家互联网信息办公室发布了第二批深度合成服务算法备案信息。网信办表示,《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。请尚未履行备案手续的深度合成服务提供者和技术支持者尽快申请备案。站长网2023-09-01 16:45:380000Nvidia发布DLSS 3.5:加入AI光线重建技术 提升游戏画质
本文概要:1.Nvidia发布DLSS3.5,采用AI模型光线重建(RayReconstruction)技术,提高游戏中光线追踪的图像质量。2.光线重建取代传统去噪技术,使用超级计算机训练的神经网络分析光线追踪效果,重建逼真照明效果,提高细节保留。3.DLSS3.5将在多款游戏中推出,作为免费升级提升画质,Nvidia计划在此基础上进一步增强图形功能。站长网2023-08-23 12:45:330000自动驾驶汽车公司Aurora出售价值8.2亿美元的股票
AuroraInnovation已通过公开和同步私募股票筹集了8.2亿美元的资金。该公司预计交易将于周五完成,这些资金将用于支持该自动驾驶卡车公司的商业化进程。该公司计划在2024年推出自动驾驶卡车业务。站长网2023-07-21 17:54:500000当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩
如果你手机里有一些修图软件,你可能用过里面的「AI绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:这些动图来自X平台(原推特)网友@CoffeeVectors生成的一段视频。他把韩国女团BLACKPINK代表作《DDU-DUDDU-DU》的原版MV输入了一个AI工具,很快就得到了动漫版的MV。站长网2023-11-17 09:08:440000谷歌、康奈尔提出真实的图像补全技术RealFill
要点:1.谷歌和康奈尔提出的RealFill技术能使用少量参考图像实现真实的图像补全,保持场景的一致性和真实性。2.RealFill通过微调预训练的模型,并使用标准的扩散采样来填充目标图像的缺失区域,同时处理不同视角和光照条件。3.实验结果显示RealFill在场景保真度和与参考图像的一致性方面表现出色,相比其他方法更具优势。站长网2023-10-02 10:18:100000