Magi:可自动将漫画转录成文字 并自动生成剧本
站长网2024-03-12 12:16:104阅
划重点:
📝 Magi 模型可以自动将漫画页转录成文字并生成剧本。
📝 功能包括面板检测、文本块检测、角色检测、角色聚类、文本到说话者关联、阅读顺序排序。
📝 项目还包含 Mangadex-1.5M 数据集,旨在解决漫画页面自动理解和剧本生成问题。
牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的模型,可以自动将漫画页转录成文字并生成剧本。
该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。
Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。
除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。
通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。
论文:https://arxiv.org/abs/2401.10224
项目入口:https://top.aibase.com/tool/magi
0004
评论列表
共(0)条相关推荐
特斯拉Model 3、Y后轮驱动版涨价 售价26.14、26.64万元
特斯拉中国宣布,自即日起,Model3/Y后轮驱动版的售价将正式上调。具体而言,Model3后轮驱动版的售价将上涨1500元,现价为26.14万元;而ModelY后轮驱动版的售价将上涨2500元,现价为26.64万元。特斯拉表示,为了感谢客户的支持,他们还将在年底前为客户提供一系列优惠活动,包括1750元的抵扣、90天的EAP以及7000积分等。站长网2023-11-14 08:59:480000Bing聊天:将支持使用100种语言生成图像
继昨日宣布全面开放Bing和Edge的聊天功能后,今日Bing宣布,将在未来几周测试一些新功能,这些功能可能会进行临时试验。包括了优化聊天答案格式,以及支持使用100种语言生成图像。以下为具体内容:我们已经升级了聊天答案的格式支持,特别是对答案中丰富格式的支持。在创意模式下,您会更好地使用粗体、项目符号列表和表格,而且其表现会变得更加一致。站长网2023-05-06 08:58:590000梅西:逃得了敬酒,逃不过直播
这几天,球王梅西快被潮水般的流量薅秃了。按照行程安排,6月10球王梅西开启了自己的第七次中国行。6月15日,阿根廷与澳大利亚将有一场友谊赛。不过梅西还没出发,国内这边便热闹起来了,各种离谱的消息开始甚嚣尘上。“和梅西吃饭,30万一位,梅西会敬酒、合影”,这花式段子连小学生估计都很难骗过,主打就是一个蹭流量。如此漏洞百出的消息,你笑别人太疯癫,人家笑你看不穿,老营销号的伎俩了。站长网2023-06-13 23:54:090003阿里云将在11月开源通义千问720亿参数模型
在今日的2023云栖大会上,阿里云CTO周靖人宣布将在11月开源通义千问720亿参数模型。周靖人表示,通义千问72B将成为参数规模最大的中国开源大模型。此前,阿里云已先后开源通义千问70亿参数模型Qwen7B和140亿参数模型Qwen14B,模型累计下载量超过100万。周靖人称,目前国内外开源社区已经产生50多款基于通义千问开源模型训练的新模型和新应用。站长网2023-10-31 14:58:010000外包公司裁减数十名训练 OpenAI 的 ChatGPT 背后语言模型的派遣工
据一位熟悉此事的人士和内部沟通文件称,几十名帮助训练为ChatGPT提供能力的OpenAI语言模型的外包公司派遣工在3月被解雇了。根据内部Slack截图,截至3月16日,总部位于旧金山的公司InvisibleTechnologies解雇了31名派遣工。裁员是在OpenAI的ChatGPT风靡全球之时进行的,用户蜂拥而至,希望能让他们的生活和工作更轻松。站长网2023-04-23 12:04:020001