首页 > 动态 > 关键词  > 阿里最新资讯  > 正文

阿里的追光者:每天为数亿张图片把脉 帮数十万盲人“听图”

2020-07-03 18:43 · 稿源: 快科技

听取顾客发来的评论意见、发布最新制作的商品介绍图片,这是淘宝店主小峰5年来每天起床后必做的两件事。

来自浙江的小峰自幼双目失明,2015年在淘宝开了一家专卖电子产品的店铺。通过“手耳并用”的方式,小峰可以和明眼人一样,毫无障碍地和众多买家进行沟通交流。

这一切得益于OCR(光学字符识别)技术。在阿里达摩院读光OCR团队的努力下,数十万盲人登陆淘宝时,只要手指划过相关页面和商品,手机就会准确地读出的信息 。

OCR技术的应用并不止于为视障人群修建“盲道”,小峰和数以百万计的商家每天会在淘宝发布超过1亿张商品图片。

广告发布是否违规?商品图片是否侵权?在每天为海量图片“把脉”的过程中,锻造了读光OCR强大的能力,这项原本只专注于商品治理的安全技术,逐渐进化为不同行业提供人工智能服务的全能识图产品。

不久前,阿里达摩院和阿里安全成立联合实验室,意味着“读光”这一高精尖技术将在更多场景落地,而在“新基建”快速发展的当下,数字技术将展示出前所未有的普惠性。

每天为数亿张图片把脉

每天在淘宝新增的商品图片达数亿张。

如果用相纸把这些图片打印出来,假设每张相纸厚度为0.2毫米,摞在一起的厚度超过20公里。

从这些图片中找出违规发布的商品和信息,依靠人的肉眼,即使每秒钟能查看一张图片,24小时内看完这些商品图,需要1158人团队不间断持续作业才能完成。

在商品图片内容丰富、场景复杂多样的状况下,读光OCR技术的出现大大提高了平台治理的效率。

读光OCR团队负责人、高级算法专家永攀介绍说,“读光”的前身是成立于2011年的“图像把脉团队”。

彼时,淘宝商品主要信息传递方式是图片,消费者搜索任何商品,映入眼帘的是首先是各个搜索结果的商品主图,这张图片传递的信息可以在很大程度上影响用户的购买判断。

当图片成为抢夺消费者注意力最直接的手段,很商家把商品主图和呈现文字做得异常夸张,就像电线杆上的“牛皮藓”广告。

为了改善淘宝的商品呈现,“图像把脉团队”上线治理“牛皮癣”的专项技术,判断商品图片中的文字以及整体图片是否违规。

对图片的识别、判定的意义并不只是是否美观和夸张。更重要的是,通过对商品发布图片的审核,可以及时发现销售假货侵权产品的商家。

今年2月2日,身在重庆的永攀在药店买口罩时,发现线下要点的口罩已经被抢购一空。永攀很快意识到,大量口罩购买需求涌入线上,很多不法商家也可能会趁机混水摸鱼。

与此同时,淘宝、天猫成立了“保卫口罩小分队”,他们的任务就是守住口罩商品上线的关口。

这一天,读光OCR团队紧急优化技术,确保有货源的商家能发布商品的同时,让疑似假冒伪劣的商品无法上线。

“由于口罩以前是个小众产品,突然爆发的需求和商品发布量,让图片扫描以及识别的工作量非常大。”永攀回忆说,这一仗把能调用的全部服务器都用上了。有了每天检测数亿张图片的磨砺,读光OCR在口罩保卫战这一役圆满的完成了任务。

在阿里安全图灵实验室负责人薛晖看来,读光OCR技术在知识产权保护领域的应用,不仅可以对商品发布进行检测,配合其他技术的应用,还能对制售假分子予以限制。

一名曾因店铺售假被淘宝关店,为再上淘宝开店,伪造了8次假身份,连户籍地址都配套换了8次。但每次都被系统识别拦截,无缘再上淘宝的他,终于选择放弃。

从管理到服务的有温度治理

2015年9月1日,新广告法开始执行,这为“读光团队”带来了巨大的挑战。

新广告法禁用“最佳”、“最优秀”、“世界级”、“独家”、“史上第一”等多种“极限词”表达。

淘宝的存量商品超过了15亿个,每个商品平均有17张描述图片,90%的商品描述都在图片中。由于很多商家并不具备专业知识,根本无法判断自己是否违反了广告法。

很多商家违法了但却不自知,不但面临处罚,还会遭遇恶意索赔团伙的敲诈勒索。

阿里安全在集团内部拉几支团队一起PK解决方案,最终“读光团队”接下了这个难题。

永攀回忆说,当时统计发现,淘宝存量商品图多达数百亿张,图片上的文本内容非常复杂,常用字体就有100多种,还有一些非常个性艺术创造的字体。此外,图片中经常会有各种透明半透明的背景,识别难度很高。

为了实现高效提速,“读光团队”做出了有别于市面通用的解决方案。

如果说外界当时处理一张主图需要3到5秒,处理复杂图需要1分钟的话,“读光团队”提出的解决方案可将识别图片的平均时间降到0.25到0.3秒。产品上线后,所有违规图片可以在24小时内被处理。

一年之内,“读光团队”将技术能力进化到了实时处理,让商家发布的违规图片根本无法上线。

“当我们的安全技术能力从单纯的管控变成风险服务,可以帮助到那些无意犯错的商家,让违反广告法的图片在没有产生任何影响的情况下就被拦截下线。”永攀说,通过技术打击作恶的坏人,而让无意犯错的商家“少踩坑”,这是“有温度治理”的应有之义。

为数十万盲人修建网络盲道

在数字经济时代,依托人工智能技术的治理模式和经验,不仅在解决商业问题上发挥作用,创造新的商业机遇,在参与社会治理和解决各类社会问题上,提供了更多的想象空间,为社会创造更多新价值。

从2011年开始,“读光团队”为视障群体提供文字识别服务。不过,很多盲人朋友反馈依然存在理解障碍和错误的情况。

永攀解释说,淘宝的图片版式包括了广告图、商品图、表格图、图文注解图等,不同页面的阅读方式差异很大,绝不仅是把所有文字从左到右、从上到下阅读一遍这么简单。这就需要研究将文字以合理的顺序进行组织后,为视障人士阅读,帮助他们正常理解。

团队一边与浙江大学、中国残联合作,共同研究商品图片无法被视力残疾人阅读的问题,一边邀请盲人测试者参与研发。

2019年,“读光团队”开始研发和落地版式分析和阅读顺序的深度学习技术,盲人商家小峰参加了无障碍工作组的测试,并以团队成员的身份参与到优化读光OCR的文本语序识别算法的工作中。

“对普通人来说,新兴互联网技术的发展很多时候发挥着锦上添花的作用,但对盲人而言,具备着雪中送炭的意义,实实在在的帮助我们回归社会、融入社会、参与社会。”小峰感慨。

截至2019年,数十万视障人士因为“读光”团队的努力,在淘宝享受着足不出户,购遍全球的互联网新生活。2019年双11期间,淘宝对“盲道”进行升级后,视障人士在实现无障碍购物的基础上,首次可以用手机在双11参加游戏互动体验,并得到更多实惠。

在数字时代主动寻找未来的光

2019年底,阿里达摩院与阿里安全成立联合实验室,读光团队与阿里安全图灵实验室实现了“握手”。

事实上,在日常平台治理的业务中,两个团队早已并肩战斗多年,联合实验室的负责人薛晖与永攀更是老相识了。

两人同毕业于浙江大学光电系,永攀是薛晖隔壁实验室的师妹,永攀所在的实验室为嫦娥四号探测器提供了的相机光学技术,让嫦娥四号向地球顺利传回世界上第一张近距离拍摄的月背影图像。

在隔壁实验室技术“上了天”的时候,薛晖正在阿里安全死磕AI图像识别技术,将其落地应用在线下新零售场景中,两人开玩笑地说这样的场景恰好印证了人工智能“上天入地”的说法。

如今,两人的愿景是让高精尖的视觉技术在更多场景中落地。

“这个联合实验室要在数字化浪潮下,开拓‘AI+办公’、‘AI+教育’等新模式,为新基建铸就城墙;在技术上要以建设高效、通用、安全的OCR系统为抓手,聚焦小样本学习、迁移学习与领域自适应、模型可解释性研究、对抗鲁棒性等课题,探索下一代人工智能技术,为新基建构建安全的技术底座,这也是阿里提出的新一代安全架构的核心理念。”薛晖为团队规划出了大的方向,接下来团队的重点将聚焦在图片、视频治理和办公数智化两个方面。

薛晖说,人们在日常看到的是清朗网络空间,这背后其实是安全算法团队与违法违规图片视频的持续对抗。而OCR技术具有非常强的办公属性,如财务票据报销、文件电子化、证件审核等,未来的办公数智化解决方案可以辐射金融、司法、教育、医疗等行业,将人们从机械的、重复性的工作中解脱出来。

“我们想要两条线推进,为OCR技术找到对业务、社会真正有价值的新方向。”永攀说,疫情中兴起的非接触式会议和教学已经证明,AI技术已经改变了传统的内容生成方式。

这也是“合并”赋予读光OCR团队的新意义:不仅要读光、追光,更要在数字。

举报

  • 相关推荐
  • 大家在看
  • DocTranslator:AI 文件翻译工具

    DocTranslator 是世界上最好的 AI 翻译工具,支持超过 100 种语言,可快速翻译大型 PDF、Word、Excel、PPT 文件。提供免费试用计划和存储计划,支持 MS Word、Excel 和 PDF 格式,保留原始格式和布局。价格从 0.005 美元 / 单词起,满足各种用户需求。

  • sourcenext:梦幻 AI 翻译机

    ポケトーク是一款梦幻的 AI 翻译机,可以让无法交流的人进行对话,具有高度实用性和便携性,是旅行、商务等场景的理想助手。

  • chichi-pui:AI 画像专用的投稿和生成网站

    chichi-pui(ちちぷい)是一家 AI 画像专用的投稿和生成网站,用户可以在此分享和生成 AI 插画、AI 照片等作品。该网站拥有丰富的 AI 画像投稿和生成内容,适合对 AI 艺术感兴趣的用户使用。用户可在网站上参与不同的活动和投稿企划,与其他用户分享作品并获取灵感。

  • Al Comic Factory:自动生成有情感、有故事性的漫画内容

    Al Comic Factory利用大型语言模型和SDXL技术自动生成有情感、有故事性的漫画内容。用户只需提供简单文本提示,AI Comic Factory即可生成包含人物对话和场景描述的漫画。支持多种配置、用户交互、多语言内容创建、批量生成漫画变体等功能。

  • Chatmind AI:AI 原生思维导图在线工具

    Chatmind 是一款由 Xmind 团队推出的免费在线 AI 思维导图和头脑风暴工具,通过 ChatGPT 技术,帮助用户在几分钟内创建思维导图。用户可以通过简单的文本描述生成思维导图,快速总结文档或 URL 链接为思维导图,与 AI 对话产生创意并整合到思维导图中,描述文本即可立即生成图像,轻松为任何主题创建视觉内容,自动保存文件历史以便跨设备访问,编辑文本和重新排列主题轻松自如,将思维导图转化为幻灯片展示只需一键,轻松以多种格式分享思维导图。

  • Scribble Diffusion:将您的草图转化为精致图像

    Scribble Diffusion利用人工智能将您的草图转化为精致图像。用户可以上传草图并获得优化后的图像。产品定位为为用户提供便捷的图像处理功能,提升设计效率。

  • Sider:AI 助手,集成多功能 AI 工具

    Sider 是一款 AI 助手,集成了 ChatGPT 3.5/4、Gemini 和 Claude 等多功能 AI 工具,能够帮助用户进行聊天、写作、阅读、翻译、解释、图像测试等操作。用户可在任何网页上使用 Sider,提供强大的 AI 支持。

  • joyland:沉浸式 AI 聊天平台,创造自己的冒险!

    joyland是一个沉浸式 AI 聊天平台,用户可以在其中进行基于角色的对话,创造自己的冒险故事。通过与虚拟角色互动,用户可以逃离现实生活的平凡,沉浸于充满乐趣和想象力的互动体验中。乐园的定价灵活多样,适合不同用户需求。

  • Charstar AI:虚拟 AI 角色交流平台

    Charstar AI 是一个基于最新开源 AI 技术支持的虚拟角色交流平台,用户可以与各种虚拟 AI 角色进行互动、发现新角色,并探索其潜在故事。通过与虚拟角色聊天,用户可以体验到独特的交流方式,为用户提供全新的虚拟角色交互体验。

  • FakeYou:深度伪造文本到语音生成器

    FakeYou Celebrity Voice Generator 是一款利用深度伪造技术生成喜爱角色说任何你想说的话的文本到语音生成器。用户可以免费使用该工具来创作独特的声音内容。

  • The StoryGraph:根据您的心情和偏好追踪和选择书籍。

    The StoryGraph 是一个帮助用户跟踪阅读进度并选择下一本书的平台。用户可以免费使用大部分功能,也提供付费的 Plus 计划获得更加个性化的体验。由 Nadia Odunayo 和 Rob Frelow 创办,始于 Nadia 的个人项目,致力于帮助用户管理阅读列表。用户可以在 App Store 和 Play Store 下载 The StoryGraph 的移动应用,并从 Goodreads 导入阅读数据。

  • Happy Scribe:音频转文字及视频字幕服务

    Happy Scribe 提供自动和人工转录服务,将音频转换为文本,准确率达到 85-99%,支持 120 多种语言和 45 多种格式。定位于为用户提供高效的音视频转录及字幕服务。

  • Product Hunt:发现科技领域最佳新品AI产品

    Product Hunt 是每天最佳新品的精选。发现最新的移动应用程序、网站和技术产品,人人都在谈论。

  • JanitorAI:NSFW虚构聊天机器人角色

    JanitorAI 是一个集合了各种有趣的聊天机器人的平台,用户可以与各种不同性格和故事背景的虚拟角色进行互动。平台定位于提供娱乐和交流的虚拟角色体验。用户可以选择不同的角色与之互动,体验多样化的聊天和故事情节。平台允许用户创建具有不同个性的NSFW虚构聊天机器人角色。该平台由大型语言模型驱动,包括OpenAI的GPT模型。

  • ComfyUI-SuperBeasts:用于增强图像动态范围和视觉吸引力的图像处理应用程序

    ComfyUI-SuperBeasts是一款用于增强图像动态范围和视觉吸引力的图像处理应用程序。它提供了一组可调整的参数,用于根据用户偏好微调HDR效果。该应用程序具有以下特点:调整阴影、高光和整体HDR效果的强度;应用伽马校正以控制整体亮度和对比度;增强对比度和色彩饱和度,使结果更加生动;通过在LAB颜色空间处理图像来保留颜色准确性;利用基于亮度的掩码进行针对性调整;将调整后的亮度与原始亮度进行混合,以实现平衡效果。

  • Liner:AI Copilot, 提升工作效率

    Liner 是由 GPT-4 提供支持,旨在提高您的生产力。通过摘要文章、生成代码和撰写电子邮件,优化工作流程。

  • Adobe GenStudio:跨渠道活动工具集,提升营销效率。

    Adobe GenStudio是一个基于生成式人工智能构建的跨渠道活动工具集,旨在帮助营销团队规划、制作、管理、发布并评估高品质品牌内容。核心功能包括创作、内容中心、活动管理、发布和数据洞察。产品定位于提升营销人员工作效率及品牌形象一致性。

  • Llanai:通过WhatsApp与AI进行聊天和语音学习

    Llanai是一个通过与AI进行聊天和语音交流来帮助学习语言的产品。它根据您的学习目标和兴趣创建个性化的学习计划,并提供即时反馈和纠正。您可以随时随地通过WhatsApp进行学习,提高口语和听力技能。

  • Ramban.AI:一站式AI平台,助力内容创作、多媒体制作和智能协作

    Ramban AI是一款集成了先进的人工智能能力的全能平台,可用于内容创作、多媒体制作和智能协作。它提供了AI文章生成器、智能编辑器、AI重写工具和抄袭检测器等AI驱动的内容创作工具,让您能够轻松高效地创建高质量、吸引人的内容。AI视频制作、AI图像生成和AI语音合成等功能可提升您的多媒体制作能力。此外,AI聊天、AI视觉、AI文件聊天和AI网页聊天等工具可实现实时团队协作和高效沟通。Ramban AI还提供AI代码助手和品牌声音功能,以简化编码过程并在所有渠道保持一致的品牌声音。用户友好的界面和易用性使所有技术背景的人都能轻松利用AI的力量。解锁无限可能,实现卓越创造力,与Ramban AI一起保持领先。

  • Knowt Ai:超过 1 百万学生信赖的 Quizlet 替代品

    Knowt 是一款免费的学习工具,受到超过 1 百万学生的信赖。用户可以通过导入 Quizlet 内容,使用无限的学习模式、匹配游戏等功能来学习。除了学生,教师也可以在 Knowt 上上传讲座,创建闪卡。定价策略为免费使用。

今日大家都在搜的词: