首页 > 传媒 > 关键词  > 大模型最新资讯  > 正文

多模态数据趋势下,滴普科技助力AIGC实现高质量数据治理

2023-05-26 11:31 · 稿源: 站长之家用户

   在ChatGPT的带动下,大模型概念越来越火热,仅国内就有包括百度、阿里、腾讯、京东、科大讯飞在内的多家互联网、AI公司陆续宣布对大模型展开探索。不过,也有另外一种声音表示,虽然大模型在推进产业智能化升级中已表现出巨大潜力,但目前距离大规模产业应用依然存在诸多未知。

       回归大模型本身,其主要依赖算法、算力和数据的综合支撑,这三大要素缺一不可,特别是数据质量的高低,往往决定AI算法模型的性能上限。大模型训练一般需要经过预训练、强化学习、应用三个阶段,期间需要对数据进行获取、清洗、训练、调优、对齐等数据管理。因此,大规模原始数据的获取,高质量的数据清洗,对模型训练至关重要。

       湖仓一体作为一种新型的数据架构,为解决数据高质量问题提供了可能性。那么,大模型为什么需要湖仓一体架构的的数据平台来支撑呢?

       从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破,数据量极大,比如GPT- 1 是上亿规模的参数量,数据集就使用了 1 万本书的BookCorpus, 25 亿单词量,GPT- 2 参数量达到了 15 亿规模,GPT- 3 模型数据量更是超过百亿。如此巨大规模的数据量,必然面临数据质量参差不齐、有效数据难以抓取的问题。

       从数据类型上来看,除了语言之外,图像、视频、音频、语义文本等多模态数据的出现,对数据采集、数据处理的技术也提出了更高的要求。

       然而,大多数企业采用的数据仓库无法实现存算分离,数据湖的计算能力又明显不足,而湖仓一体结合了数据湖和数据仓库优势,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,且支持底层多种数据模型并存,支持异构数据的实时查询和分析,流数据分析、机器学习等,可以有效提升数据管理水平。

       目前,国内外各大厂商都在研发“湖仓一体”架构,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,赋能到各行业数据平台建设,实现海量、高维多源多模态的实时数据处理。。

       滴普科技实时湖仓平台FastData,采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,支持PB级多模数据存储与处理,并基于DLink Mesh架构扩展支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。

       特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,实时湖仓平台FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。

       作为 “Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新,逐渐构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。

       在此基础上,滴普科技在基础产业与垂直领域进行数据智能模型创新,探索产业大模型体系。滴普科技成立了专门的FastAGI产品线,通过将开源模型本地化,以及基于行业知识形成行业领域模型,赋能到客户的业务领域中。

       当前,大模型主要分为通用模型、垂直模型,如垂直的AI大模型就是针对某个特定领域或者场景,利用行业的数据和知识,提供更准确和有效的解决方案。未来,滴普科技也将继续发挥湖仓一体数据智能技术优势支持大模型发展,并提供业务垂直领域的数据智能模型创新服务,以模型+算力驱动企业数据智能决策。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • ChatGPT成人模式最快明年一季度上线!正测试年龄验证

    OpenAI的CEO Sam Altman此前多次暗示ChatGPT将开放成人内容,如今,相关功能的推出时间表变得更加清晰。 OpenAI应用主管Fidji Simo在近日一场关于GPT-5.2模型的简报中透露,她预计ChatGPT的成人模式”将在2026年第一季度推出。 Simo强调,在正式引入这项新功能之前,OpenAI的首要任务是确保年龄预测的准确性,目前,OpenAI正处于年龄预

  • 修图神器PS引入ChatGPT:用户一句话即可编辑

    Adobe正式宣布,在ChatGPT中推出Photoshop、Express和Acrobat的集成功能。 用户现可通过对话界面,直接在ChatGPT内调用这些工具进行创作、编辑与文档处理。 Adobe数字媒体总裁David Wadhwani表示,此次集成将Adobe的创意创新能力与ChatGPT的便捷交互相结合,助力更多人轻松实现创作。 这一发布基于Adobe在对话式人工智能和模型上下文协议(MCP)领域的持续创新。此前,Adobe已推出Acrobat Stud

  • ChatGPT全球服务突发中断 OpenAI紧急修复

    OpenAI的人工智能助手ChatGPT于12月2日至3日连续出现服务中断,导致部分用户无法正常使用。 此次故障主要影响网页版用户,许多人在通过浏览器访问时遭遇无响应或加载失败的问题,而Mac桌面客户端在此期间运行正常,未受影响。 故障发生后,OpenAI迅速采取缓解措施,并于2日2时37分开始监测恢复进展。至当日3时,服务已确认完全恢复正常。公司随后发布声明,解释此次中断

  • OpenAI奥特曼启动“红色警报”:全力改进ChatGPT 暂缓广告业务

    OpenAI首席执行官山姆奥特曼在内部备忘录中向员工宣布,公司将启动红色警报”紧急状态,以集中资源提升ChatGPT的核心能力,同时推迟广告业务等非核心项目。 备忘录显示,奥特曼将谷歌等竞争对手在生成式AI领域的技术突破视为直接威胁”,认为其快速迭代已对OpenAI构成严峻挑战。 为巩固市场地位,公司决定暂

  • OpenAI推出ChatGPT购物研究功能

    OpenAI于11月25日正式推出ChatGPT购物研究功能,旨在帮助用户快速精准地找到心仪电商产品。该功能通过自然语言理解与信息整合,突破传统推荐算法局限,能主动提问、智能筛选,深入挖掘用户真实意图,精准识别功能参数、使用场景及风格偏好。结合历史对话记忆功能,系统可纳入个人偏好与习惯,提供个性化购买指南,包括热门产品推荐、核心差异对比及优缺点分析,并附带可靠零售链接。未来还将接入即时结账功能,实现从研究、决策到购买的全流程闭环,显著简化购物流程。目前该功能正逐步向移动端与网页端用户开放,覆盖免费版、Plus、Pro等多个层级。

  • 软件工程智能化领航产品!Testin XAgent智能测试系统入选信通院2025创新应用案例

    12月12日,2025AI云产业发展大会在北京召开。大会聚焦云计算与人工智能融合,并发布了“软件工程智能化领航者”创新应用实践成果。Testin云测凭借其“Testin+XAgent智能测试系统”成功入选,该系统通过AI智能体技术重构软件测试流程,实现从需求分析到执行的全流程智能化,显著提升测试效率与覆盖率。该成果标志着以AI+智能体为核心的新一代软件质量保障体系正加速成为行�

  • 延锋国际 X 阿里云:全栈AI加速汽车产业智能升级!

    近日,延锋国际与阿里云签署全栈AI合作协议。双方将基于阿里云全栈AI能力与延锋在汽车行业的深厚经验,深化全球战略合作。合作聚焦三大领域:产品创新方面,依托通义千问大模型探索新一代智能座舱AI解决方案;制造领域,应用全栈云技术打造高效数字化生产体系,助力全球工厂提质增效;管理运营方面,携手提升数字化服务能力,构建一体化可扩展的数字组织体系。此次合作标志着双方共同迈入“AI+制造”融合发展新阶段。

  • 华为HMS for Car智行论坛落幕,赋能车企智能化转型与出海新征程

    11月28日,华为在深圳举办HMS for Car智行论坛,聚焦汽车智能化转型。论坛围绕构建差异化智能座舱体验展开讨论,华为HMS for Car依托“1+8+N”全场景战略,整合地图、语音、生态和网联四大核心能力,助力车企出海。目前,该方案已服务多家车企,通过AI Box、Service Box、Net Box和Map Box持续升级,提升语音交互精准度、本地化应用适配、网络稳定性及导航体验,实现更懂用户的本土

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

  • IBM宣布收购Confluent,构建面向企业级生成式AI的智能数据平台

    IBM宣布以约110亿美元现金收购数据流处理公司Confluent,旨在为企业客户提供端到端数据平台,连接、处理并治理AI应用和智能体使用的数据。交易预计于2026年完成,将提升IBM的调整后息税折旧摊销前利润,并在第二年增加自由现金流。Confluent基于Apache Kafka构建,其实时数据流处理能力与IBM的AI基础设施软件结合,将助力企业更快速部署生成式AI和AI智能体,消除数据孤岛,抓住数据爆炸与AI普及带来的市场机遇。

今日大家都在搜的词: