首页 > 业界 > 关键词  > Magi最新资讯  > 正文

机器学习工具Magi:自动为漫画生成文本 帮助视障读者更容易地阅读漫画

2024-03-18 14:30 · 稿源:站长之家

划重点:

⭐️ 研究团队在牛津大学开发了名为 Magi 的先进工具,可以帮助视障读者更容易地阅读漫画。

⭐️ Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块。

⭐️ 这项研究不仅突破了漫画可访问性的障碍,还展示了人工智能在提高可访问性方面的潜力。

站长之家(ChinaZ.com)3月18日 消息:在讲故事方面,日本漫画,即漫画,在全球范围内赢得了巨大的市场,以其复杂的情节和独特的艺术风格吸引着观众的注意。尽管它们具有全球吸引力,但一个重要的潜在读者群体却被忽视了:视障人士。对于他们来说,漫画的视觉中心性创造了一个无法访问的领域,尽管漫画中有丰富的叙事。

image.png

当前漫画之所以难以访问,主要挑战在于将视觉丰富的内容转化为视障人士可访问的格式。早期的漫画在很大程度上依赖于交织的视觉元素和文字,使体验固有地具有视觉性。这种视觉依赖意味着视障人士通常无法参与漫画艺术家创造的故事、人物和世界。

目前使漫画可访问的解决方案远非理想,主要是因为它们依赖于手动转录或音频描述,这种方法劳动密集且难以有效扩展。这种差距突出了需要更有效的自动化方法来使所有观众都能够欣赏漫画,无论其视觉能力如何。

牛津大学的研究团队开发了一种先进工具,名为 Magi,这标志着使漫画对视障读者更具可访问性的突破。Magi 是一个打开以往因视觉障碍而锁定的故事的通道,为所有读者提供了新的参与水平。

Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块,以及将对话与其相应的讲话者相关联,保持叙事的完整性。通过严格测试,Magi 展示了在检测和聚类人物以及将文本与正确的讲话者相关联方面的优越能力,超越了现有方法。这种效率展示了该工具的精确性,以及它改变漫画阅读为一种所有视障人士都可以享受的包容性活动的潜力。

这项研究和开发工作突显了辅助技术方面的重大进展。通过利用复杂的算法和机器学习,Magi 为无法看到的人打开了一个以前无法访问的漫画世界。这一创新的影响超越了漫画,它为技术如何弥合娱乐领域的鸿沟树立了一个先例,使其普遍可访问。

开发 Magi 有助于使文化和娱乐内容的获取更加民主化。它突显了向包容性转变的趋势,打破了享受乐趣的障碍,使故事变得普遍可访问。这项研究不仅突显了人工智能在提高可访问性方面的潜力,还号召进一步在这一领域进行创新。随着技术的发展,希望更多的大门会打开,让每个人无论身体上的限制如何,都能探索广阔多样的娱乐和文化景观。Magi 从概念到实施的历程揭示了通往一个更加包容的世界的道路,让故事的乐趣无限延伸。

产品入口:https://top.aibase.com/tool/magi

论文:https://arxiv.org/abs/2401.10224v1

举报

  • 相关推荐
  • 重现Mate 70经典圆形镜头!华为Mate 90外观实锤:年度最强Mate旗舰

    华为Mate 90系列将于9月份亮相,它直接对标同期发布的iPhone 18 Pro系列,两大顶流品牌的年度旗舰将迎来正面直接对垒。 博主超维界透露,华为Mate 90系列将延续Mate 70大受好评的实心圆设计语言,后摄模组的辨识度会延续之前Mate 70系列的独特风格。 回顾最近几代Mate旗舰的设计,Mate都是采用隔代传承的风格,Mate 60和Mate 80采用的都是同心圆后摄模组设计,而Mate 70则换用了实心�

  • 合十思维发布物界OS双脑架构具身系统及全尺寸双足人形机器人Humanoid-X 探索物理AI落地路径

    合十思维发布全尺寸双足人形机器人Humanoid-X及底层“物界OS双脑架构”,通过仿脑感知与智脑逻辑结合,以行为树(BTS)和脉冲神经网络(SNN)实现低算力、高泛化的物理认知,并具备语义控制能力。硬件采用差速锁齿轮结构控制成本。商业化方面,已通过物界OS赋能机场导览、清洁机器人实现8000万营收,并与HCR慧辰股份合作推进物流、制造等行业应用。公司定位“为服务而工作”,计划覆盖清洁、养老等场景,构建全栈通用具身操作系统平台。

  • AI日报:MiniMax发布M3 大模型;英伟达物理大模型Cosmos3发布;小红书已治理超120万个AI托管账号

    今日AI领域动态丰富:MiniMax发布M3+大模型,首创MSA架构并支持1M上下文,全面开源对标海外旗舰;英伟达联合行业巨头发布全球首款全开源全模态物理AI大模型Cosmos3,成立宇宙联盟;千问APP六一期间礼品选购咨询量增长260%,展现AI购物潜力;小红书治理超120万AI托管账号,处置18万篇AI造假笔记;抖音4月新增AI短剧超4.4万部,但爆款率仅0.6%;胡彦斌上线粉丝社区应用“彦火”,展示Vibe Coding潜力;LobsterAI推出图片视频大模型矩阵,整合四大主流模型;OpenAI重启机器人业务,奥特曼公开招募工程师,拓展具身智能布局。

  • AI日报:字节联合港科大发布MMProLong;腾讯ima宣布开放Copilot;红果短剧取消AI仿真人短剧保底政策

    本期AI日报聚焦八大热点:1. 字节跳动联合港科大发布MMProLong模型,显著提升长文档LMM训练效率;2. 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,实现边推理边行动;3. 腾讯ima全面开放Copilot并推出知识技能分享平台;4. 红果短剧取消保底政策,行业转向内容竞争;5. 面壁智能联合清华发布中国首个1.58-bit大模型BitCPM-CANN;6. xAI推出1.5万亿参数Grok V9-Medium,专注编程AI赛道;7. 高德“问店选址”Skill接入钉钉悟空,赋能商家开店决策;8. OpenAI斥巨资在新加坡建立首个海外AI实验室。

  • 华为MatePad Pro Max官宣6月1日发布

    华为MatePad Pro Max国行版已确认将在6月1日的发布会上登场,它不仅承载着华为首款Pro Max级别平板的定位,更带来了一组在纸面上相当激进的数据。 这款平板的机身厚度被压缩到了4.7毫米,重量控制在499克。在13英寸以上的大尺寸平板中,这组数字让它在轻薄维度上暂时没有对手,同时也通过了莱茵的轻薄抗弯认证。其背后的云隼架构对内部堆叠进行了系统性重塑,主板堆叠密�

  • 全球最薄平板!荣耀MagicPad3 Pro 12.3获UFCS融合快充认证 不挑充电器

    今日,FCA终端快充行业协会宣布,荣耀MagicPad3 Pro 12.3成功通过融合快速充电功能认证,获得UFCS功能认证证书。 该产品已通过符合性认证及兼容性测试,并获得UFCS商标授权。 充电方面,荣耀MagicPad3 Pro 12.3支持66W超级快充与27W反向快充,同时支持33W公有UFCS融合快充,可兼容大量第三方UFCS充电器。 对于用户来说,无论是在家中、办公室还是旅途中,只要使用符合标准的UFCS充电

  • 华为MatePad Pro Max发布:售价6199元起

    华为发布年度旗舰平板MatePad Pro Max,推出悦享版与高端标准版两大系列。悦享版搭载麒麟T93芯片,售价5999元起;高端版首发麒麟T93 Pro芯片,售价6199元起。配备13.2英寸超大屏、10400mAh电池及红枫影像系统,综合性能较上代提升45%。支持鸿蒙双桌面功能,一键切换至电脑模式,可运行PC级WPS和剪映专业版,搭配星跃键盘后整机仅重499g。此外,预装音悦家App,覆盖音乐创作全场景,联合上海音乐学院打造传统乐器音色库。

  • 一张表看懂:AI for security vs Security for AI

    企业布局AI安全需同时推进“AI赋能安全”与“安全保护AI”两大方向,而非二选一。前者通过智能系统主动防御,后者确保AI模型本身不被攻击。正确策略是先给AI上保险(锁好门),再让AI当保安(守好院)。青藤云安全提出五步闭环方案:盘点AI资产、加密数据与管道、接入SOC、纳入云安全态势管理、持续监控模型漂移。作为AI原生安全领军者,其产品体系覆盖全栈领域,已服务超千家客户。

  • 华为MatePad Pro Max正式开售,可限时享价值630元新机权益大礼包

    2026年6月1日,华为在成都发布MatePad Pro Max,这是首款Pro Max命名平板,主打极致轻薄(4.7mm厚、499g重)、3K柔性OLED屏、麒麟T93 Pro芯片,性能提升45%,并创新鸿蒙双桌面系统,支持教育空间和自研音乐创作软件“音悦家”。售价5999元起,即日开售。

  • 腾讯又双叒做了个“Marvis”: 6个AI牛马扎根你电脑,主打一个丝滑

    ​你的电脑桌面,是不是也长这样—— 文件堆成山,照片塞满盘,找份老板要的文档要翻半小时;C盘又红了,但完全不知道从哪里下手清理;系统设置里的选项像天书,想调个夜间模式都要百度搜教程;明明记得存过那份合同,但就是想不起文件名…… 而且有一个文件名叫“杂七杂八”。 如果你也是这种“把文件随手丢桌面、靠搜索栏苟活、系统设置从不点开”的典型P人,恭

今日大家都在搜的词: