首页 > 传媒 > 关键词  > 大模型最新资讯  > 正文

多模态数据趋势下,滴普科技助力AIGC实现高质量数据治理

2023-05-26 11:31 · 稿源: 站长之家用户

   在ChatGPT的带动下,大模型概念越来越火热,仅国内就有包括百度、阿里、腾讯、京东、科大讯飞在内的多家互联网、AI公司陆续宣布对大模型展开探索。不过,也有另外一种声音表示,虽然大模型在推进产业智能化升级中已表现出巨大潜力,但目前距离大规模产业应用依然存在诸多未知。

       回归大模型本身,其主要依赖算法、算力和数据的综合支撑,这三大要素缺一不可,特别是数据质量的高低,往往决定AI算法模型的性能上限。大模型训练一般需要经过预训练、强化学习、应用三个阶段,期间需要对数据进行获取、清洗、训练、调优、对齐等数据管理。因此,大规模原始数据的获取,高质量的数据清洗,对模型训练至关重要。

       湖仓一体作为一种新型的数据架构,为解决数据高质量问题提供了可能性。那么,大模型为什么需要湖仓一体架构的的数据平台来支撑呢?

       从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破,数据量极大,比如GPT- 1 是上亿规模的参数量,数据集就使用了 1 万本书的BookCorpus, 25 亿单词量,GPT- 2 参数量达到了 15 亿规模,GPT- 3 模型数据量更是超过百亿。如此巨大规模的数据量,必然面临数据质量参差不齐、有效数据难以抓取的问题。

       从数据类型上来看,除了语言之外,图像、视频、音频、语义文本等多模态数据的出现,对数据采集、数据处理的技术也提出了更高的要求。

       然而,大多数企业采用的数据仓库无法实现存算分离,数据湖的计算能力又明显不足,而湖仓一体结合了数据湖和数据仓库优势,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,且支持底层多种数据模型并存,支持异构数据的实时查询和分析,流数据分析、机器学习等,可以有效提升数据管理水平。

       目前,国内外各大厂商都在研发“湖仓一体”架构,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,赋能到各行业数据平台建设,实现海量、高维多源多模态的实时数据处理。。

       滴普科技实时湖仓平台FastData,采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,支持PB级多模数据存储与处理,并基于DLink Mesh架构扩展支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。

       特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,实时湖仓平台FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。

       作为 “Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新,逐渐构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。

       在此基础上,滴普科技在基础产业与垂直领域进行数据智能模型创新,探索产业大模型体系。滴普科技成立了专门的FastAGI产品线,通过将开源模型本地化,以及基于行业知识形成行业领域模型,赋能到客户的业务领域中。

       当前,大模型主要分为通用模型、垂直模型,如垂直的AI大模型就是针对某个特定领域或者场景,利用行业的数据和知识,提供更准确和有效的解决方案。未来,滴普科技也将继续发挥湖仓一体数据智能技术优势支持大模型发展,并提供业务垂直领域的数据智能模型创新服务,以模型+算力驱动企业数据智能决策。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看

今日大家都在搜的词: