首页 > 业界 > 关键词  > Magi最新资讯  > 正文

机器学习工具Magi:自动为漫画生成文本 帮助视障读者更容易地阅读漫画

2024-03-18 14:30 · 稿源:站长之家

划重点:

⭐️ 研究团队在牛津大学开发了名为 Magi 的先进工具,可以帮助视障读者更容易地阅读漫画。

⭐️ Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块。

⭐️ 这项研究不仅突破了漫画可访问性的障碍,还展示了人工智能在提高可访问性方面的潜力。

站长之家(ChinaZ.com)3月18日 消息:在讲故事方面,日本漫画,即漫画,在全球范围内赢得了巨大的市场,以其复杂的情节和独特的艺术风格吸引着观众的注意。尽管它们具有全球吸引力,但一个重要的潜在读者群体却被忽视了:视障人士。对于他们来说,漫画的视觉中心性创造了一个无法访问的领域,尽管漫画中有丰富的叙事。

image.png

当前漫画之所以难以访问,主要挑战在于将视觉丰富的内容转化为视障人士可访问的格式。早期的漫画在很大程度上依赖于交织的视觉元素和文字,使体验固有地具有视觉性。这种视觉依赖意味着视障人士通常无法参与漫画艺术家创造的故事、人物和世界。

目前使漫画可访问的解决方案远非理想,主要是因为它们依赖于手动转录或音频描述,这种方法劳动密集且难以有效扩展。这种差距突出了需要更有效的自动化方法来使所有观众都能够欣赏漫画,无论其视觉能力如何。

牛津大学的研究团队开发了一种先进工具,名为 Magi,这标志着使漫画对视障读者更具可访问性的突破。Magi 是一个打开以往因视觉障碍而锁定的故事的通道,为所有读者提供了新的参与水平。

Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块,以及将对话与其相应的讲话者相关联,保持叙事的完整性。通过严格测试,Magi 展示了在检测和聚类人物以及将文本与正确的讲话者相关联方面的优越能力,超越了现有方法。这种效率展示了该工具的精确性,以及它改变漫画阅读为一种所有视障人士都可以享受的包容性活动的潜力。

这项研究和开发工作突显了辅助技术方面的重大进展。通过利用复杂的算法和机器学习,Magi 为无法看到的人打开了一个以前无法访问的漫画世界。这一创新的影响超越了漫画,它为技术如何弥合娱乐领域的鸿沟树立了一个先例,使其普遍可访问。

开发 Magi 有助于使文化和娱乐内容的获取更加民主化。它突显了向包容性转变的趋势,打破了享受乐趣的障碍,使故事变得普遍可访问。这项研究不仅突显了人工智能在提高可访问性方面的潜力,还号召进一步在这一领域进行创新。随着技术的发展,希望更多的大门会打开,让每个人无论身体上的限制如何,都能探索广阔多样的娱乐和文化景观。Magi 从概念到实施的历程揭示了通往一个更加包容的世界的道路,让故事的乐趣无限延伸。

产品入口:https://top.aibase.com/tool/magi

论文:https://arxiv.org/abs/2401.10224v1

举报

  • 相关推荐
  • 著名漫画家朱德庸:AI只会残害人类的灵魂 会让人更没有人性

    近期,当代著名漫画家朱德庸在访谈时抛出了:AI创作的画只是方程式,入侵如文化艺术,人类相当于灭亡的观点。朱德庸强调:AI根本不会帮助人类的,AI只会残害人类的灵魂,会让人更没有人性,会让人更没有办法,过到一个像人的生活。另在1995年,入选金石堂年度十大畅销男作家,在《High》发表作品《滚月族》;获评为《WittyWorld》当代最佳评论家”之一。

  • MAXHUB打造AI+电脑,让办公从“人适应工具”到“工具服务人”

    数字化转型趋势下,企业正在思考,如何用人工智能重塑办公效率,“AI PC”的概念也成为计算机行业的热门话题。 4 月 16 日,InfoComm China2025 现场,MAXHUB发布全新一代AI+电脑,以AI技术为支点,重构结构与应用,实现办公范式革新。AI+PC深度融合,打造更懂用户的办公电脑传统的办公流程中,用户被迫消耗大量精力应对设备操作与运维琐事——整理散乱文档、转换文件格式、切

  • 周鸿祎直言:机器人研发难度远超自动驾驶

    文章主要讲述了AI技术在医疗领域的应用与影响。AI被用于诊断、治疗、研究和预测,提高了医疗系统的效率和准确性。AI能够快速分析大量数据,辅助医生做出更精准的诊断,同时在药物开发、病理分析和个性化治疗方面展现出巨大潜力。文章指出,AI技术在医疗领域的发展虽然面临隐私和伦理挑战,但也为患者带来了更个性化的服务和治疗方案。整体而言,AI在医疗领域的应用仍然受到传统医疗体系的制约,但其优势在于能够处理大量复杂信息,促进医学研究的深入发展。

  • ChatGPT受限?这 8 款免费AI工具,也可以生成“吉卜力风格”图片

    自从OpenAI将其先进的图像生成器集成到GPT-4o中后,SNS、网络社区等平台上掀起了一股“吉卜力风格头像”风潮。但随着版权争议的加剧,OpenAI给这项“吉卜力风格化”的图像转化功能加了一点点的限制。这款在线工具可以让用户进行编辑、增强、放大图像、将图像转换为视频等多样的操作,只需注册便可使用。

  • 国产“保温杯”投弹机器人国外火了:自动锁敌还能合体 吓坏百万老外

    快科技4月29日消息,最近,一段国产投弹机器人的视频,吸引了百万老外的关注。他们的共同评论是:这是互联网上最恐怖的视频。这种外观长得像保温杯”机器人,能直接起飞,内置的NPU可以不用联网,就支持基础的AI功能。比如智能识别敌人的数量、武器装备,第一时间同步给你,帮助你了解敌情。而且,模块化的设计,支持拓展其它功能,一次可以携带三个大爆竹”,买一赠二。还能整个塞进35毫米刘丹发射器里,当炮弹直接发射出去。更离谱的是,它还能几个一起,组装成多旋翼无人机,给对面的朋友加倍送温暖。而且,它不是PPT,目前这种机器人?

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 董宇辉获人民文学奖 本人:荣誉属于每一个作家和读者

    快科技4月19日消息,今日,2024年度青花郎人民文学奖颁奖典礼在四川举行。据中国作家网消息,今年的奖项有颇多新意:长篇小说奖中增设长篇致敬奖,特殊文体奖授予了科幻题材的剧本,以及颁发与时俱进的传播贡献奖”。报道显示,传播贡献奖由董宇辉获得,组委会认为董宇辉他将文学一次次推向读者,唤起了无数热爱文学的人的内心热望。”未能来到现场领奖的董宇辉,以视频的方式发表获奖感言。他表示,这份荣誉属于每一个用文字照亮时代的作家和每一个用热爱温暖文学的读者。”据了解,2024年1月23日、2024年12月20日,董宇辉以直播间为舞台

  • 从清洁工具到家庭智能体,扫地机器人不仅仅需要机械臂!

    当行业还在为机械臂拖布、自动上下水等清洁模块不断狂卷时,扫地机器人正站在智能化跃迁的十字路口。这场从“被动清洁工具”到“主动家庭管理者”的进化,核心命题不只是更强的机械臂,更需要一双能看懂世界的“智能之眼”。二维感知的技术局限在清洁功能高度同质化的今天,扫地机器人陷入了“硬件军备竞赛”:从扫拖一体到自动集尘,从拖布自清洁到滚动恒压�

  • 擎朗智能正式发布“为服务而生的”人形具身服务机器人XMAN-R1,打造多形态具身服务机器人协作生态

    3 月 31 日,为了满足服务行业的更多复杂需求,全球领先的服务机器人企业—擎朗智能基于海量真实场景数据积淀,正式发布“为服务而生的”人形具身服务机器人XMAN-R1,打造多形态具身服务机器人协作生态。具人之形,为服务而生XMAN-R1 以“岗位化、亲和力、安全性”为设计理念,适配擎朗智能所深耕的服务行业场景。目前,XMAN-R1 已可完成服务场景内”点单-配餐-送餐-收餐

  • 以书为媒,赋能阅读新时代——学大教育金鑫出席第四届全民阅读大会

    第四届全民阅读大会在山西太原举办,以"培育读书风尚,建设文化强国"为主题,聚焦新时代全民阅读推广。大会设立多个论坛,围绕主题阅读、数字阅读、乡村阅读等议题展开交流。与会嘉宾提出要整体推进书香校园、书香家庭、书香社会建设,完善法规制度,健全全民阅读促进机制。活动期间还举办"阅读新时代"分享推广活动,通过好书刊、好故事激发全民阅读热情。学大教育集团打造的"句象书店"成为创新实践标杆,已在全国7个城市开设13家实体书店,2024年接待读者354万人次,图书借阅量突破55万册。书店通过"共享阅读+文化空间+阅读服务"模式,打造差异化阅读场景,并设立亲子共读区等特色区域。此外,学大教育还发起公益项目,向重点帮扶地区捐赠阅读资源,助力全民阅读推广。实体书店作为连接书本与读者的重要载体,正在经历深刻变革,为书香中国建设注入创新活力。