首页 > AI头条  > 正文

Grab 自研语言模型解决亚洲语言识别难题

2025-11-04 13:51 · 来源: AIbase基地

新加坡超级应用程序公司 Grab 近日在其工程博客上分享了其自研语言模型的开发经历,指出现有的大型语言模型在理解东南亚语言时表现不佳。Grab 的超级应用程序提供打车、外卖、购物和金融服务等功能,覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等国家,这些地区的文档通常使用非拉丁字母的脚本。

AI机器人玩游戏

图源备注:图片由AI生成

在执行如客户身份验证等合规工作时,Grab 需要准确提取身份证、驾照和注册证书等信息。尽管尝试过光学字符识别(OCR)系统,但 Grab 发现这些技术在处理多样化的文档模板时效果不理想。

在2025年,Grab 开始探索是否可以利用大型语言模型来解决这一问题。尽管一些强大的商业模型具备能力,但在理解东南亚语言时常出现错误和延迟,而开源的视觉大型语言模型虽然更高效,但准确性仍不足。因此,Grab 决定自行构建一个视觉大型语言模型,该模型能将图像向量化,方便提取文本。

Grab 选择了阿里巴巴云的 Qwen2-VL2B 模型作为基础,因为它的体积适中,支持东南亚语言,并能动态处理不同分辨率的图像。随后,Grab 从 Common Crawl 中提取了东南亚语言的内容,并建立了内部合成数据管道,以生成各种字体和背景下的文本图像。团队采用低秩适配技术对 Qwen2-VL 进行微调,取得了在印尼文档处理上的良好效果。

尽管在泰语和越南语的识别上仍然存在挑战,Grab 最终决定进行完整参数微调。通过训练模型,使其学习东南亚语言的独特视觉模式,Grab 成功开发了一个轻量级的视觉大型语言模型,其表现超越了多种 OCR 工具和通用模型。Grab 表示,战略性地使用高质量数据,能够使小型专业模型实现高效与有效的结合。

未来,Grab 计划继续开发更多自有模型,以扩展其文档处理技术。

划重点:

📊 Grab 发现现有大型语言模型在东南亚语言识别上效果不佳,决定自研模型解决问题。  

🔍 自研的视觉大型语言模型在处理身份证和驾照等文档时取得了显著进展。  

🚀 Grab 将继续开发更多模型,以满足日益复杂的文档处理需求。  

  • 相关推荐
  • 从巴别鱼到技术突围:W4Pro以体验领先定义跨语言沟通新标杆

    时空壶W4Pro开放式AI同传耳机通过技术创新,将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破:响应延迟仅0.2秒,较行业平均提速75%;翻译延迟控制在3秒内,实测平均2.8秒,较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案,在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译,覆盖全球98%主流区域,新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流,打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用,综合续航达18小时,开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点,推动行业向"无感沟通"迈进。

  • 千匠福利商城解决方案:破解企业福利管理难题

    传统企业福利管理面临流程繁琐、成本高昂、难以满足个性化需求等痛点。千匠福利商城通过构建开放共享的数字化平台,实现企业、员工与供应商三方共赢:企业降低运营成本并优化税务结构,员工获得多样化福利选择提升满意度,供应商扩大市场覆盖。该方案以轻资产运营模式,为企业提供全流程数字化管理、数据分析决策支持和个性化福利配置,有效提升管理效能与人才吸引力。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 每天刷手机 青少年认知能力显著下降:高频互动或致语言记忆下滑

    加州大学研究团队在《美国医学会杂志》发表研究,追踪6500名9至13岁青少年社交媒体使用行为。研究发现,社交媒体使用时长增加与认知能力下降存在显著关联,尤其影响语言流畅度、工作记忆等核心功能。研究指出,社交媒体高频互动特性会切割注意力,干扰大脑深度信息处理能力。专家建议家长关注使用模式而非单纯限制时间,结合个体认知特点制定干预策略,引导青少年建立健康媒介使用习惯。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • 数智驱动,共赢跨境|RixDesk亮相ICBE 2025,重磅发布“跨屏全媒介广告投放解决方案”

    在ICBE2025深圳跨境电商博览会上,RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题,通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能,帮助品牌实现多平台高效投放,提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略,助力跨境品牌在复杂流量环境中精准获客与持续增长。

  • 燃爆蓉城!快手王者之战暨街霸6CPT亚洲白金赛圆满收官

    10月31日至11月2日,“快手王者之战VI暨CAPCOM PRO TOUR 2025亚洲白金赛”在成都成功举办。日本选手HINAO从566名选手中脱颖而出,决赛中以3:2逆转夺冠,成为CPT史上最年轻白金赛冠军。赛事汇聚全球顶尖选手,覆盖亚太多赛区,冠军直通CAPCOM CUP总决赛。快手通过独家内容策划与线上线下联动,打造“电竞+文旅”融合模式,结合成都本地文化,推动电竞赛事破圈传播,彰显游戏生态布局优势。

  • 首发3229元起 小米年度旗舰智能门锁M40 Pro开售:AI掌静脉识别 隔空刷掌开锁

    今日,小米智能生态官微宣布,小米年度旗舰智能门锁M40 Pro今晚8点开售。 小米智能门锁M40 Pro建议零售价3799元,首发到手价3229.15元。 据了解,该门锁支持12种开锁方式,除AI掌静脉、AI 3D人脸识别、AI指纹、长期密码、周期/一次性密码、远程开锁、手机蓝牙开锁、应急机械钥匙外,还支持小米手机、手表、手环、NFC门卡(均需加购)开锁。

  • 领星海外仓系统五个环节破解海外仓退货难题

    海外仓退货处理面临人力成本高、流程混乱、库存积压等痛点。领星海外仓系统通过五大核心方案实现智能化管理:标准化全流程操作降低人工错误率70%;PDA智能分拣提升准确率达99%;精细化质检与自动处置策略;自动化计费与实时数据同步;利润报表分析优化资金管理。系统帮助海外仓将退货流程转化为提升客户满意度和挖掘数据价值的新增长点。

  • 专注供应链单据识别 | 运小沓AI单证平台,单据识别提效500%

    供应链数字化进程中,单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错,通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理,覆盖全场景单证类型,支持无缝对接业务系统。实际应用显示:托书录入效率提升500%,错误率降至0.1%以下;报关草单制单效率提升300%,有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

今日大家都在搜的词: