Magi:可自动将漫画转录成文字 并自动生成剧本
站长网2024-03-12 12:16:104阅
划重点:
📝 Magi 模型可以自动将漫画页转录成文字并生成剧本。
📝 功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。
📝 项目还包含 Mangadex-1.5M 数据集,旨在解决漫画页面自动理解和剧本生成问题。
牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的模型,可以自动将漫画页转录成文字并生成剧本。
该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。
Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。
除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。
通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。
论文:https://arxiv.org/abs/2401.10224
项目入口:https://top.aibase.com/tool/magi
0004
评论列表
共(0)条相关推荐
京瓷改变战略退出消费类手机业务 继续面向企业客户
据日经新闻的一份报道,京瓷(Kyocera)宣布将退出消费者智能手机业务。该公司在公布财年财务业绩的电话会议上宣布了这一决定。京瓷总裁谷本英夫表示,公司决定退出消费者智能手机业务是因为缺乏利润。站长网2023-05-16 17:45:560000英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8Ttoken上完成了训练。值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。论文地址:https://arxiv.org/abs/2402.16819在7个评估基准上,与同等参数规模的模型相比,Nemotron-415B表现出色。甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。站长网2024-03-01 09:37:300000CNN算法“识粮”新方案 京都大学利用AI快速准确预测粮食产量
站长之家(ChinaZ.com)9月18日消息:近日,京都大学的研究人员利用卷积神经网络技术,基于水稻冠层照片快速准确预测粮食产量。这项研究成果发表在《植物表型学》杂志上。站长网2023-09-18 14:18:150000OPPO A2x 10月14日正式开售 搭载天玑6020处理器
OPPO今日宣布,OPPOA2x将在移动全球合作伙伴大会上亮相,并将在10月14日正式开售。OPPOA2x采用水滴屏设计,具有较窄的三边框和稍宽的下巴。后置摄像头采用竖排双环设计,但只配备了一颗后置摄像头,后置镜头模组采用了炫光设计,具有很高的辨识度。站长网2023-10-10 11:10:520000BIMlogic 推出革命性 AI 助手,Revit 将由自然语言人工智能驱动
澳大利亚的BIMlogic公司近日宣布了其最新的创新产品——BIMlogicCopilot,这是一款旨在彻底改变用户与Revit设计环境互动方式的AI助手。BIMlogicCopilot的推出,标志着在建筑信息模型(BIM)领域的一次重大突破。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-11-24 10:10:530001