首页 > 业界 > 关键词  > 小米最新资讯  > 正文

小米自研新技术落地:能将图片中的表格转化成Excel文件

2022-09-03 21:40 · 稿源: 快科技

今天下午,小米创办人雷军介绍了小米自研的一套表格识别算法,该算法高效准确地将图片中的表格转化为可编辑的Excel文件,大幅提升使用体验。

表格识别是指将图片中的表格结构和文字信息识别成计算机可以理解的数据格式,在办公、商务、教育等场景中有着广泛的实用价值,也一直是文档分析研究中的热点问题。

围绕这个问题,小米研发了一套表格识别算法,该算法高效准确地提取图片中的表格,转化为可编辑的Excel 文件。目前算法已经成功落地于小米10S系列、MIXFold 2等旗舰机型,大家可以从相册-更多-表格识别,或者扫一扫进入体验。

小米表示,表格检测算法主要是从图片中准确的提取表格区域,并对表格进行矫正,得到平整的表格图片以便下一步的表格识别;

表格识别算法主要是从图片中提取表格结构和表格文字内容,然后将这些信息有效的结合在一起,输出可编辑的Excel表格。

表格检测有以下难点:一方面是手机上的算法和内存有限,另一方面是对表格检测结果要求非常高,表格周围往往包含其他文字,如果检测结果不准,会对后面的识别结果造成负面影响。

小米的表格检测算法会同时检测到表格区域和表格的四个角点,通过透视变换和我们自研的抗扭曲算法得到只有表格区域的平整表格,效果如图所示。

由于算法运行在手机端,需要保证运行速度和模型大小,小米采用了一个非常轻便的一阶段检测框架,backbone采用shuffleNetV2;

在检测出表格框的同时,回归出关键点信息,便于表格的透视矫正,并用Wing loss代替L1 loss让关键点回归更加准确;

数据方面,用算法低成本地从公开数据中挖掘大量表格检测数据,显著性地提高表格检测效果。最终模型大小为1M左右,顺畅地运行在小米手机上。

表格识别算法

表格识别算法在服务端运行,主要包含的模块有:文本检测、文本识别、表格结构预测、单元格匹配、对齐算法、Excel导出。

目前主流的方法是将表格用HTML的超文本表示,然后对HTML进行编码,预测HTML序列和对应的坐标信息。

该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML 的标签过多导致表格结构识别容易出错。

针对该方法的不足,我们对表格采用全新的编码方式,仅用四个标签就能表示任意结构的表格,极大地提高了表格结构识别准确率。

表格识别在部署过程中,采用Fastertransformer推理框架进行加速,官方称小米的推理速度提升了大约20倍,明显改善用户体验。

总结

该算法能高效方便地从图片中提取表格,极大地提高办公效率。小米表示,工程师们将持续提升小米手机中文档类图片的识别体验。

举报

  • 相关推荐
  • 科学家卡洛琳·卢格接受专访,畅谈如何培养青年科学家

    诺贝尔奖得主卡洛琳·卢格教授在专访中分享科研心得。她强调科学始于好奇心而非天赋,11岁时通过显微镜观察洋葱表皮细胞激发兴趣。她认为科研不是背诵知识,而是寻找答案的过程,鼓励年轻人敢于质疑、勇于表达。卢格指出,中国年轻科研者近年更积极提问,跨领域交流平台有助于打破壁垒。她建议女性科研者接受不完美、争取权益,并肯定中国在STEM领域的进步。科学的意义在于传承火种,未来将有更多突破来自中国。

  • 合格率从100%降到62.9%:光伏组件质量引发行业反思

    国家太阳能光伏产品质量检测中心数据显示,2019-2024年光伏组件合格率从100%断崖式跌至62.9%,超三分之一产品不合格。行业面临价格持续下行、质量滑坡、企业效益下滑的严峻局面,无序价格战和同质化竞争严重阻碍产业升级。劣质组件导致火灾、塌方等事故频发,成为下游电站开发商和整个产业链的重大困境。监管部门正逐步构建覆盖市场秩序与产品质量的协同治理体系,呼吁企业回归质量本质、聚焦长期价值。

  • 响应国家AI+号召,开放微表情SDK

    近日,上海步施网络科技宣布对外开放微表情识别SDK,响应国家推动人工智能与实体经济深度融合的号召。该技术原仅用于内部项目,现面向各行业开放,助力产业智能化升级。微表情识别可捕捉人类瞬间流露的真实情绪,在医疗、教育、安防、商业等领域具有广泛应用前景。公司提供多种合作模式,支持本地化部署,确保数据安全。此举将促进AI技术创新,推动行业智能化发展。

  • OPPO Watch S官宣:轻薄表皇

    OPPO宣布将于10月16日推出OPPO Watch S智能手表,主打“轻薄表皇”设计,厚度不足9mm,号称目前市面上最薄的智能圆表。搭载全新智能手表系统,操作体验媲美手机,健康配置亦有惊喜。同时具备“健身教练”功能,可自动识别运动并提供超100种运动模式,专业记录数据。此外,发布会还将推出OPPO Find X9和X9 Pro旗舰手机,首批搭载联发科天玑9500平台,出厂预装全新ColorOS 16系统。

  • 云栖大会|双AI平台公测首发,西门子Xcelerator携全栈智能方案亮相前沿应用馆

    在2025云栖大会上,西门子Xcelerator首发两大AI创新平台:AI知识库开发平台1.0基于RAG技术,助力企业快速构建智能知识库;工业AI智能体开发平台提供多行业场景模板与5300余款插件,支持零代码开发。现场通过产品矩阵与生态联合方案,展示AI如何赋能工业自动化、碳管理及建筑数字化,推动企业效率提升与低碳转型。

  • 企业级数据分析创新实战:基于表格交互与智能分析的双引擎架构

    文章探讨了企业数字化转型中数据协同的困境,指出传统Excel工具存在数据孤岛、协作困难、分析功能有限等问题,而专业BI工具虽功能强大但技术门槛高。提出通过SpreadJS与Wyn商业智能软件的协同架构,实现从数据采集到分析决策的无缝闭环,提升企业运营效率和竞争力。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 雷军:再次向李想本人表示崇高敬意 不少车企都是摸着理想过河

    9月26日,小米CEO雷军在年度演讲后接受采访,谈及与蔚来、理想等车企关系。他表示,顺为资本和小米很荣幸成为蔚来、小鹏的早期投资人,虽未投资理想,但双方合作紧密。雷军高度赞赏理想为新能源车行业做出的贡献,称其开创了大空间增程SUV路线,并公开称赞理想L9的冰箱彩电大沙发设计。他还建议消费者若不买小米SU7,可考虑特斯拉Model Y和理想L6。理想创始人李想随后回应,感谢雷军对理想产品的认可与推荐。

  • 网红直播时坠机身亡:飞机突然失控 网友纷纷表示震惊与悲痛

    9月27日,四川广元剑阁县发生了一起令人痛心的悲剧,当地知名网红“唐飞机”(本名唐正兴,55岁)在驾驶超轻型飞机进行网络直播时,飞机突然失控坠落并起火,导致其不幸身亡。 据多名网友发布的视频及现场目击者描述,当日“唐飞机”驾驶一架共轴双桨超轻型飞机,在山间空地起飞进行直播。画面中,飞机起初平稳飞行,然而在二次起飞仅几十秒后,机身突然剧烈倾�

  • 女博士捡到耳机通过知网找到失主 后者送水果以表谢意

    ​9月23日,在江苏徐州,发生了一桩暖心事。一位女博士在宿舍内意外捡到了一副耳机,她没有选择置之不理,而是决定积极寻找失主,让这副耳机能够回到真正的主人手中。 在给耳机充电后,女博士注意到耳机上显示了一个名字——任同学。凭借着这个线索,她灵机一动,想到了利用知网这一学术资源平台来查找失主。通过在知网上搜索任同学的相关文章,女博士逐渐拼凑

今日大家都在搜的词: