首页 > 传媒 > 关键词  > 中科院最新资讯  > 正文

CSIG携手金山办公举办“企业行”专场 探讨AI时代文档识别前沿技术

2023-05-09 11:41 · 稿源: 站长之家用户

5 月 7 日,由中国图象图形学学会(CSIG)主办、金山办公承办的“CSIG企业行”系列活动在珠海金山软件园成功举行。活动以“AI大模型时代文档识别和理解前沿技术探讨”为主题,特邀来自中科院、北京科技大学、华中科技大学、华南理工大学等院校的专家学者,与金山办公技术团队共同探讨文档识别领域的前沿技术研究及实践成果。

ChatGPT的问世,引发了大众对AI大模型技术的关注。金山办公副总裁姚冬在致辞中表示,金山办公自 2017 年就创立了AI团队,多年来持续深耕AI技术的研发和落地。目前的大模型技术不仅可以理解人类的语言,还可以进行推理甚至写代码等创意性工作,对传统技术领域带来了巨大挑战和机遇。金山办公不久前在产品中落地的部分新功能,正是源于对大模型技术的研究成果。

中国科学院自动化研究所副所长刘成林表示,大模型时代的开启为文档识别带来了新的机遇和挑战。从早期的单字识别到字符串整体识别,再到手写文档版面分析和自然场景、视频文本中的文本检测,文档识别目前已历经三个研究阶段。而近年来人工智能深度学习等技术的成熟,使大模型成为文档识别与理解的全新研究方向。

针对文字的识别技术,北京科技大学计算机与通信工程学院院长殷绪成表示,ChatGPT在问世后之所以表现出色,正是源于其积累了大批高质量的训练数据,而开放集模式识别,是文字识别未来的一条技术新路径。

华中科技大学白翔教授针对视觉与语言模型的研究做了详细介绍,他认为这几年多模态和跨模态对各个领域都带来非常深远的影响,各行各业围绕大模型去做定制化方案,包括对大模型本身进行调整,都有重要意义。

华南理工大学金连文教授分享了面向文档图像的篡改文本检测的最 新研究成果,金连文教授表示,SSL OCR 技术(使用SSL加密协议的OCR技术)、大模型与OCR结合、视觉大模型等是值得关注的技术方向。AI大模型技术无论是在垂直领域还是通用领域,均具备很大发展空间。

除前沿理论研究分享外,金山办公CV技术总监熊龙飞以扫描件PDF编辑为案例,分享了AI大模型时代文档识别技术的比较新实践成果:扫描件PDF编辑新模态。扫描件PDF因变成了图片,其排版、内容、字体、段落等信息丢失,还可能存在污染、变形、对象层叠等问题,解决这些挑战对算法和服务架构有非常高的技术要求,金山办公经过多年研发已经将该领域做到了令人耳目一新的效果。据了解,该功能已于 2023 年 3 月逐步上线,在未来还将持续迭代。

针对大模型技术的实际应用,姚冬表示,大模型技术不仅可极大提高办公软件的工作效率,同时此类软件庞大的基础用户量,又为不断改进大模型提供了数据支撑。“金山办公在这个领域扮演的角色就是落地应用,金山办公具备大量的功能API接口,通过结合大模型可以调动这些能力,实现很多对用户很便利的功能。这些API能力背后是金山办公 35 年来在文档处理和排版领域的技术积累。”

据悉,金山办公基于大语言模型的人工智能应用“WPS AI”,第 一站搭载在金山办公在线内容协作编辑产品轻文档上,未来WPS AI还将以用户体验为优先级,逐步嵌入金山办公全线产品。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • AI大模型费用计算器:新手如何避开工具选择的三大坑

    文章指出AI初学者常陷入三个陷阱:盲目选择昂贵工具、被华丽宣传迷惑、忽视隐藏成本。建议使用AIbase.cn等专业平台进行系统化评估,通过费用计算器对比主流模型成本,基于实际需求而非营销话术做决策。关键是要先对比分析再试用,找到真正契合业务需求的解决方案,避免资源浪费。

  • AI大模型费用计算器:新手如何不再为选择工具而头疼

    文章探讨了AI工具选择困境,推荐使用AIbase.cn导航站。该站通过分类筛选、标签过滤和对比功能,帮助用户快速找到合适工具,避免信息过载。强调技术应服务于人,好的工具应降低使用门槛,而非增加困惑。

  • 汪喵灵灵亮相亚宠论坛,AI大模型破解异宠医疗资源困局

    2025年亚洲宠物展“亚洲小宠生态论坛”近日举办,汪喵灵灵创始人Luke受邀出席,分享AI宠物医疗大模型如何解决行业资源短缺、推动服务普惠化。该平台覆盖20多种宠物诊疗,通过解析海量文献建立健康档案系统,提供免费问诊与科学养护建议,降低养宠门槛。2024年已通过国家算法备案,成为业内首个合规认证的宠物健康大模型,致力于让每只宠物享有平等医疗关怀。

  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • 聚焦制造业智能化转型 中国科学技术大学依托昇腾突破知识增强大模型关键技术

    中国科学技术大学宋骞团队基于昇腾平台开发了工业知识图谱构建框架和大模型增强推理技术。该研究通过融合领域小模型与大语言模型,构建了"初始识别-知识抽取-知识引导反思"三阶段框架,显著提升了知识抽取准确性。在智能运维系统应用中,团队采用ETL架构处理多模态数据,结合RDF语义网技术构建知识图谱,并研发故障智能预测诊断模块。同时创新性地提出知识增强与过滤框架,利用PLM嵌入空间降低计算负担,有效提升知识增强的灵活性。研究成果显著提升了工业设备智能运维水平,实现了核心技术的自主创新适配,为构建安全高效的现代工业体系提供关键技术支撑。

  • 如何精准计算AI大模型调用成本?复杂参数太多,预算总超支怎么办?

    文章探讨了AI模型调用成本管理的痛点,包括GPT-4等模型复杂的计费规则(如Token分级、上下文溢价、多模态叠加收费)导致实际成本常超预算40%。提出AIbase计算器三步解决方案:自动匹配场景参数、实时联动报价、明细成本拆解。通过跨境电商客服和高校实验室案例验证工具有效性,强调数据溯源、用量预警和预算缓冲功能,帮助开发者实现精准成本控制,告别手动制表与定�

  • 将AI大模型费用计算器作为战略工具:企业如何规避AI项目的成本陷阱

    AI项目规模化应用面临不可预测的运营成本挑战,尤其是大模型API调用费用难以精准预测,导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移,在项目可行性分析阶段引入AIbase等成本计算工具,实现成本可视化,支持技术选型和预算建模,从被动应对转向主动管理,提升AI应用的经济性和可持续竞争力。

今日大家都在搜的词: