首页 > 业界 > 关键词  > 小米最新资讯  > 正文

小米自研新技术落地:能将图片中的表格转化成Excel文件

2022-09-03 21:40 · 稿源: 快科技

今天下午,小米创办人雷军介绍了小米自研的一套表格识别算法,该算法高效准确地将图片中的表格转化为可编辑的Excel文件,大幅提升使用体验。

表格识别是指将图片中的表格结构和文字信息识别成计算机可以理解的数据格式,在办公、商务、教育等场景中有着广泛的实用价值,也一直是文档分析研究中的热点问题。

围绕这个问题,小米研发了一套表格识别算法,该算法高效准确地提取图片中的表格,转化为可编辑的Excel 文件。目前算法已经成功落地于小米10S系列、MIXFold 2等旗舰机型,大家可以从相册-更多-表格识别,或者扫一扫进入体验。

小米表示,表格检测算法主要是从图片中准确的提取表格区域,并对表格进行矫正,得到平整的表格图片以便下一步的表格识别;

表格识别算法主要是从图片中提取表格结构和表格文字内容,然后将这些信息有效的结合在一起,输出可编辑的Excel表格。

表格检测有以下难点:一方面是手机上的算法和内存有限,另一方面是对表格检测结果要求非常高,表格周围往往包含其他文字,如果检测结果不准,会对后面的识别结果造成负面影响。

小米的表格检测算法会同时检测到表格区域和表格的四个角点,通过透视变换和我们自研的抗扭曲算法得到只有表格区域的平整表格,效果如图所示。

由于算法运行在手机端,需要保证运行速度和模型大小,小米采用了一个非常轻便的一阶段检测框架,backbone采用shuffleNetV2;

在检测出表格框的同时,回归出关键点信息,便于表格的透视矫正,并用Wing loss代替L1 loss让关键点回归更加准确;

数据方面,用算法低成本地从公开数据中挖掘大量表格检测数据,显著性地提高表格检测效果。最终模型大小为1M左右,顺畅地运行在小米手机上。

表格识别算法

表格识别算法在服务端运行,主要包含的模块有:文本检测、文本识别、表格结构预测、单元格匹配、对齐算法、Excel导出。

目前主流的方法是将表格用HTML的超文本表示,然后对HTML进行编码,预测HTML序列和对应的坐标信息。

该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML 的标签过多导致表格结构识别容易出错。

针对该方法的不足,我们对表格采用全新的编码方式,仅用四个标签就能表示任意结构的表格,极大地提高了表格结构识别准确率。

表格识别在部署过程中,采用Fastertransformer推理框架进行加速,官方称小米的推理速度提升了大约20倍,明显改善用户体验。

总结

该算法能高效方便地从图片中提取表格,极大地提高办公效率。小米表示,工程师们将持续提升小米手机中文档类图片的识别体验。

举报

  • 相关推荐
  • AI表格纷争,钉钉率先卷出千万热行

    ​又是一年双11。 人们总是习惯把双11当成消费现象来讨论,GMV、主播战报、尾款人段子,总能被讨论许久,但这场已经持续十余年的全民购物,其实还有一个总被忽视的关键角色:它是诸多对今天商业世界和人们日常生活至关重要技术的试炼场。 2009年第一个双11,支付宝核心数据库差点被巨量交易额击垮,催生了后来的自主数据库以及影响了整个云计算进程的去IOE运动,2013�

  • 为什么飞书多维表格成为了品牌进入AI时代的理想切口

    今年的双11已经进入正赛阶段,除了往年大家都会关心的优惠玩法、销量增长,AI在电商领域的大规模落地应用也成为一个焦点议题。 一个最直观的感受是,电商平台在这个双11开始大规模地推介自家的AI购物功能,向消费者展示更具创新性的购物体验,给到他们尝鲜机会。有用户和朋友体验过之后,在网上给出了「有用」的评价。虽然普及度依然有限,但AI导购走向大众已经�

  • 百利好车队强势出征,第72届澳门格兰披治大赛车震撼启幕!

    第72届澳门格兰披治大赛车今日开赛,全球顶尖车手齐聚东望洋赛道展开四日角逐。赛事始于1954年,已发展为世界顶级街道赛。本届包含电单车、四级方程式、TCR巡回赛及GT世界杯等核心赛事,赛程紧凑:首日为自由练习,次日进入排位赛争夺,第三日多场正赛与资格赛相继上演,最终日将决出各项冠军。百利好车队整装待发,在传奇赛道上迎接速度与技术的终极考验,为车迷献上精彩竞速盛宴。

  • 小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

    小米手表S4 eSIM版与S4 Sport版正式上线,用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放,其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接,并在手表设置中开启移动网络开关,待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中,未来将陆续开放服务。

  • 专业创作者之选:佳能R50V在视频、Vlog与直播领域的全能表现

    佳能R50V相机专为视频创作者设计,集专业视频制作、Vlog记录与高质量直播于一体。支持6K超采样4K视频录制,配备10-bit 4:2:2色彩与Canon Log3,保障画质细腻且后期空间大。机身仅323克,便携性强,优化自拍与竖拍操作,内置美颜与智能对焦功能。直播时可通过USB直连电脑,实现4K 60P高清输出。它融合专业性能与易用性,是应对多种创作需求的理想选择。

  • REDMI Watch 6支持小米澎湃OS 3:新增表端微信应用 手表直接回复

    Redmi Watch 6发布,售价599元。搭载小米澎湃OS 3,支持同步手机超级岛查看打车、外卖进度,后续更新将拓展更多场景。新增表端微信应用(需OTA更新),可直接收发消息、回复文字表情。覆盖出行、娱乐、学习等多场景,支持支付宝碰一碰、网易云音乐等主流App及小游戏。设备互联方面,可控制汽车、米家设备,支持SU7/YU7系列NFC车钥匙及多品牌车型联动,小米汽车用户还能查看电量、调节空调等。配备2.07英寸AMOLED屏,支持彩色AOD、水下心率监测,升级双L1天线定位更精准,内置550mAh电池,最高续航24天。

  • GEO指数上升代表什么?AI搜索时代的品牌健康信号

    本文解析GEO指数(生成式引擎优化指数)的核心价值:衡量品牌在AI搜索生态中的可见度与影响力,包含曝光频率、推荐排名和场景覆盖三大维度。指数上升意味着品牌在用户决策链前置、认知度提升、竞争优势扩大及内容策略见效。需通过建立基准线、选用自动化工具(如覆盖国产AI平台的AIBase)、定期分析趋势及对标竞品来持续监控。避免三个误区:过度追求绝对数值、被短期波动干扰、忽略业务相关性。GEO指数本质是品牌在AI时代的健康度信号。

  • 猪猪给小朋友表演才艺博得满堂彩 鼻转圈圈引孩童欢笑连连

    ​11月1日,在浙江金华的一场趣味活动中,一只特别的小猪成为了全场焦点。 它凭借一系列独特的才艺表演,尤其是用鼻子灵活转圈的绝技,成功赢得了在场小朋友们的阵阵热烈喝彩。

  • 双十一智能手表怎么选?这几款三星Galaxy Watch千万别错过

    双十一选购智能手表时,三星Galaxy Watch系列提供多样选择:Galaxy Watch8设计轻盈简约,适合日常佩戴;Watch8 Classic采用经典旋转表圈,风格优雅百搭;Watch Ultra则主打坚固耐用,专为户外运动设计。三款均搭载全面健康监测功能,包括睡眠分析、跑步教练指导及身体成分测量,帮助用户提升生活质量。根据个人审美与需求,可轻松挑选心仪款式。

  • 1299元起售!iPhone Pocket发布:采用3D 针织一体结构

    今日下午,苹果发文称,三宅一生携手苹果正式推出新配件iPhone Pocket。 其中短带款提供八种色彩外观:柠檬色、柑橘色、紫色、粉色、孔雀绿色、宝石蓝色、肉桂色和黑色。 长带款提供三种色彩外观:宝石蓝色、肉桂色和黑色。 短带款iPhone Pocket售价为1299元,长带款售价为1899元。

今日大家都在搜的词: