大模型技术的发展和应用,预示着更加智能化、个性化未来的到来。在 7 月 4 日至 7 日召开的 2024 世界人工智能大会上,来自来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高校、研究机构及企业的专家代表就大模型技术在图像领域的发展、应用进行了深入研讨。其中,“百模大战”现象背后的中国大模型发展前景与堵点成为各界关注的焦点。
根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在 2026 年前耗尽所有“高质量语言数据”。 如何帮助大模型在信息的海洋中快速找准航向,在数据的荒漠中找到高质量的“水源”?合合信息在本次大会上展示了大模型“加速器”解决方案。
如果将大模型比喻为正在疾驰的科技列车,语料便是珍贵的“燃料”。对于中国的大模型企业而言,语料短缺问题很严峻。而高质量语料数据往往存在于书籍、论文、研报、企业文档等文档之中。
以法律专业为例,高质量语料数据往往存在于涉及复杂法律案例与细致法律条文的文档中。以“离婚案件”为例,经典判决书详细记录了离婚双方的诉求、证据及法院的裁决理由,包含丰富的法律逻辑与情感分析素材;专注于离婚法、家庭法领域的学术论文,深入探讨离婚制度的历史演变、司法实践中的争议点及解决策略等;法院等保障机构发布的关于离婚案件的司法解释、指导意见等语言准确、逻辑严密的文件,则是法律高质量语料的重要组成部分。这些资料往往具有复杂的面结构,制约了大模型的训练语料处理及大模型文档问答的应用能力。
在大模型训练的上游阶段,合合信息“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。
合合信息的文档解析引擎具备强大的“动能”,最快1. 5 秒可解析百页长文档中的文本、表格、图像等非结构化数据,也是当前市面上同类文档解析引擎中处理速度最快的产品之一;同时,引擎还具备优秀的文档“理解力”,可智能还原文档阅读顺序,加速了模型在预训练、开发、使用落地等多方面的流程。
合合信息大模型“加速器”还打通了针对图表类素材的识别、内容理解的障碍,能够实现对图表内容的深度“洞察”,完成对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行“还原”,巧妙转化大模型能够理解的markdown格式,使数据和图表的价值潜能充分释放。
值得一提的是,合合信息大模型“加速器”具备高准确性和稳定性,大幅提升了模型的理解力,并通过其强大的多语言识别、多类型支持能力,为多个行业提供了有效、准确、实用的文档解析服务。
合合信息智能创新事业部总经理唐琪提到,目前,大模型“加速器”已被多家大模型厂商应用于金融、医学、财经、媒体等多领域的文档的解析中,助力大模型更顺利地接轨“专业课”。未来,大模型加速器将陪伴更多行业级知识库的建立,让大模型的服务润泽社会各个角落,实现“智能触手可及”。
(推广)