首页 > 传媒 > 关键词  > 正文

「探迹技术大讲堂」开讲,技术大神开课揭秘SaaS大数据架构

2023-09-21 13:45 · 稿源: 站长之家用户

时间已经来到ChatGPT引发中国AI热潮的第十个月,「AI+X」无疑是今年技术型企业里的当红命题,所谓外行看热闹、内行看门道,这阵风是否会彻底改变原有产品的技术架构,如何利用新技术、新趋势切入赛道甚至实现领跑才是泛科技领域的焦点。

作为中国智能销售SaaS的开创者,探迹科技目前已构建超1. 8 亿主体的企业全量知识图谱,为企业解决从线索挖掘、商机触达、客户管理到成单分析等一系列销售难题。面对如此巨量的数据,探迹的大数据架构是如何演变的,SaaS企业里的技术团队正在做哪些新的开发与探索?

9 月 16 日,「探迹技术大讲堂」在探迹科技总部开讲,探迹科技CTO陈开冉致开场辞,探迹科技高 级大数据开发专家邓楚健与云器科技CTO关涛分别带来各自的技术观点与案例经验,其中不乏探迹大数据架构核心技术解读,以及未来的数据算法引擎思考。

关涛:畅想「One Size Fits All」的数据架构

关涛毫无疑问是大数据领域专家中的专家。

早在 2006 年,关涛就加入微软亚洲研究院,参与构建微软第 一代分布式KV系统SearchRepository和Bing搜索的分布式存储后台Kirin Store。之后,关涛加入了微软美国云计算和企业事业部,主持和参与开发了Azure Datalake、Cosmos/Scope等多套超大规模分布式存储和计算平台,直至 2016 年回国加入阿里,负责阿里巴巴主线大数据平台飞天MaxCompute与Dataworks,之后又担任阿里和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长,直到 2021 年创立云器科技,担任首席技术官。

云器科技CTO关涛

关涛表示,哪怕经过多年的发展,国内「原创」数据平台技术依然偏少,但数据领域继续保持高速增长, 2023 年国内数据平台技术依旧大多是组装式数据架构,引擎数据语义均不统一,异构存储及多套元数据带来了极 高的开发成本、维护成本和大量的计算与存储冗余。

最关键的是,这类的组装式数据架构缺乏满足业务的灵活性。

关涛认为,应该有一个一体化数据分析引擎,实现统一接口、统一处理逻辑,提供多种优化指标的高覆盖度和灵活调整能力。此外,AI扩展了能够处理的数据类型,给结构化数据提供了新的处理能力,接下来将有全新的大数据架构,支持AI新计算范式。

那什么才是合理的解?

探迹同学向关涛请教

关涛的答案是,开放式湖仓一体架构是面向Data+AI融合场景的最 优选择,而具备多元独立、分析引擎一体化、BA+AI的数据平台才能最 大程度解放数据生产力。

当然,关涛认为「增量计算」也许是one size fits all实现的关键,这也是目前云器科技Lakehouse下一代架构的目标。

邓楚健:没有最 好的架构,只有最适合的架构

湖仓一体也是探迹科技的大数据架构团队在应用的技术之一。探迹高 级大数据开发专家邓楚健带来了他的分享。

邓楚健作为探迹大数据平台架构的高 级技术专家,一直专注于探迹的 PB 级大规模数据实时计算架构研发,在企业大数据及知识图谱技术方面有丰富的技术实践和成果积累。

探迹高 级大数据开发专家邓楚健

邓楚健介绍,探迹的数据来源和特点是大数据领域中别树一帜的,具有数据量大,多源多构半结构化数据,原始关联性弱,大规模随机更新等特点。如何从这种海量低价值密度数据中,提炼出有商业价值的部分,及时的呈现给客户,实现为客户建立商业链接的愿景,是探迹大数据架构面临的主要挑战。

当行业都在套标准化的数据包时,探迹选择搭建自己的大数据架构。探迹的目标很清楚,要做「全量知识图谱」,这是一条「开荒」的路子,也是目前中国 toB 销售真正需要的东西——商机往往就在这些数据信息里,缺一不可,晚一步触达都有可能错失机会。

邓楚健透露,探迹科技的大数据架构目前已经演进到第三代TDR(Tungee Data Refresh),该架构以存算分离、实时上新、数据治理为核心,极大满足了各行业各版本的数据迭代上新要求,为客户提供不可计量的商业价值。下一代,探迹大数据架构将朝着独 家数据引擎的方向迭代,即Tungee Data Engine。

探迹同学向邓楚健请教

此外,探迹大数据架构体验了传统数据库技术到大数据库,再到数据湖,目前正在应用湖仓一体、流批一体、智能调度、大语言模型引擎整合等技术。

探迹大数据的每代架构都解决了当时期的核心问题,都具有合理性。邓楚健认为,优秀的架构不是一蹴而就的,而是不断演化而来。没有最 好的架构,只有最合适的架构,而架构的发展过程,也是组织结构的发展过程。技术架构要贴合组织沟通结构,才能发挥出最 佳效果,顺应时代,与时俱进,不断地吸收新的技术和经验,不断迭代演进才是发展的根本。

本次探迹技术大讲堂中,探迹科技的技术团队与云器科技就大数据架构现状与趋势进行了深入交流,期待多元的技术思考与观点推动技术进一步创新,在不久的将来助力行业技术继续迭代升级、引领行业发展。

作为国内智能销售SaaS的开创者,探迹科技坚持创新为本、技术为先,立足各行业、企业真实销售场景需求,致力于用大数据与AI技术为企业提供全流程智能销售SaaS服务,用科技助力企业降本增效、斩获商机。在过去的七年里,探迹科技构建了超过1. 8 亿家主体的企业全量知识图谱,开辟了智能销售SaaS的新时代,先后荣获“专精特新”“高科技高成长企业”“全球独角兽”等荣誉,服务客户超过 20000 家,其中包括阿里巴巴、微软、亚马逊、戴尔等行业巨头。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Florence-2-base-ft:先进的视觉基础模型,支持多种视觉和视觉-语言任务

    Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集,包含54亿个注释,覆盖1.26亿张图像,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。

  • Tellers:将任何文本、文章或故事快速转化为视频

    Tellers是一个AI驱动的视频编辑平台,它允许用户将书面内容快速转化为视频,无需视频编辑专业知识。该平台通过使用机器学习和信号处理算法,为用户提供了一种创新和实用的方式来扩展内容的覆盖范围,提高SEO排名,触及新的社区,并提高内容的可访问性。Tellers还提供了商业版,支持企业整合和定制化服务,满足数据隐私和内部软件集成的需求。

  • MyTrainingPlan:个性化马拉松训练计划

    MyTrainingPlan是一个提供个性化马拉松和半程马拉松训练计划的网站。它通过AI技术根据用户在Strava上的活动历史和当前健康状况来创建定制的训练计划。用户可以轻松调整计划以适应变化,并与之前的训练周期进行比较,以保持动力。此外,网站还提供里程统计、配速计算器和比赛倒计时等工具,帮助用户更好地准备比赛。

  • Licode:无需编码,快速构建AI驱动的网页应用

    Licode是一个无代码平台,为构建者、企业和创业者提供了一个原生由AI驱动的网页应用创建环境。它允许用户无需编码即可轻松构建SaaS、门户、仪表板、CRM、聊天应用和表单应用。Licode内置了AI功能,用户可以随时随地在应用中启用AI提示,赋予用户即开即用的AI能力。此外,Licode还提供了预构建的UI组件、内置的认证和用户管理系统、与Stripe集成的账单管理、安全的数据库存储以及自定义业务逻辑的动作创建功能。

  • SEOJuice:AI驱动的内部链接工具,简化SEO工作

    SEOJuice是一个AI驱动的内部链接工具,旨在简化SEO工作,通过自动化创建内部链接,帮助网站提升在搜索引擎中的排名。由Vadim个人开发,以解决手动添加内部链接的繁琐和耗时问题。SEOJuice通过AI扫描网站内容,找到合适的上下文链接和关键词,并自动添加,从而提升整个网站的SEO性能。作为一个自筹资金、独立运营的项目,SEOJuice不依赖外部投资,以用户订阅费用为运营资金。

  • Florence-2-large-ft:先进的视觉基础模型,支持多种视觉和视觉-语言任务。

    Florence-2-large-ft是由微软开发的高级视觉基础模型,使用基于提示的方法来处理广泛的视觉和视觉-语言任务。该模型能够通过简单的文本提示执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集,包含54亿个注释,覆盖1.26亿张图像,实现多任务学习。模型的序列到序列架构使其在零样本和微调设置中均表现出色,证明其为有竞争力的视觉基础模型。

  • 豆包 MarsCode:智能开发工具,一触即发

    豆包 MarsCode 是一款即将发布的智能开发工具,旨在通过AI技术激发开发者的创造力。它将为编程工作带来革命性的改变,提高开发效率,降低技术门槛。

  • Florence-2-base:先进的视觉基础模型,支持多种视觉和视觉-语言任务。

    Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集,精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色,证明其为有竞争力的视觉基础模型。

  • Florence-2-large:先进的视觉基础模型,支持多种视觉和视觉-语言任务

    Florence-2-large是由微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。

  • Multi:多人协作,提升软件开发效率

    Multi是一款专为软件开发团队设计的协作工具,它通过多人协作、共享控制、即时通讯和自动记录等功能,帮助团队成员更高效地沟通和工作。产品基于Zoom的高质量音视频基础设施,提供低延迟的共享控制体验,并通过AI技术自动生成会议摘要和行动项,进一步加速团队的软件开发流程。

  • 智能编码助手通义灵码:智能编码助手,提升开发效率

    通义灵码是一款专为开发者设计的智能编码助手,支持多种开发环境,包括JetBrains IDEs、Visual Studio Code、Visual Studio等。它通过集成先进的AI技术,帮助开发者快速完成编码任务,提高编码效率和质量,适用于各种编程语言和开发场景。

  • MOFA-Video:通过生成运动场适应实现单图像动画化

    MOFA-Video是一种能够将单张图片通过各种控制信号动画化的方法。它采用了稀疏到密集(S2D)运动生成和基于流的运动适应技术,可以有效地使用轨迹、关键点序列及其组合等不同类型的控制信号来动画化单张图片。在训练阶段,通过稀疏运动采样生成稀疏控制信号,然后训练不同的MOFA-Adapters来通过预训练的SVD生成视频。在推理阶段,不同的MOFA-Adapters可以组合起来共同控制冻结的SVD。

  • Duix:AI数字人智能交互平台

    DUIX是一个开源的AI数字人智能交互平台,由硅基智能打造。它允许开发者接入多种大模型和语音能力,实现数字人实时交互,并支持在Android和iOS多终端一键部署。DUIX适用于多种场景,包括地铁、银行、政务等,具有低成本快速部署、小网络依赖和功能多样化的特点。

  • SuperSonic:下一代BI平台,融合Chat BI和Headless BI。

    SuperSonic是一个集成了由大型语言模型(LLM)驱动的Chat BI和由语义层驱动的Headless BI的下一代商业智能(BI)平台。它确保Chat BI能够访问与传统BI相同的经过策划和治理的语义数据模型。此外,这两种范式的实现都从集成中受益:Chat BI的Text2SQL通过从语义模型中检索上下文得到增强;Headless BI的查询接口通过自然语言API得到扩展。SuperSonic提供了一个Chat BI界面,使用户能够使用自然语言查询数据,并以适当的图表可视化结果。要实现这种体验,唯一需要的就是通过Headless BI接口构建逻辑语义模型(定义指标/维度/标签及其含义和关系)。同时,SuperSonic被设计为可扩展和可组合的,允许使用Java SPI添加和配置自定义实现。

  • DB-GPT:AI原生数据应用开发框架

    DB-GPT是一个开源的AI原生数据应用开发框架,利用AWEL(Agentic Workflow Expression Language)和代理(agent)技术,简化了大型模型应用与数据的结合。它通过多模型管理、Text2SQL效果优化、RAG框架优化、多代理框架协作等技术能力,使企业和开发者能够以更少的代码构建定制化应用。DB-GPT在数据3.0时代,基于模型和数据库,为构建企业级报告分析和业务洞察提供了基础数据智能技术。

  • OpenAgents:一个开放平台,用于日常使用的语言代理。

    OpenAgents是一个开放平台,旨在使用户和开发者能够在日常生活中使用和托管语言代理。该平台已经实现了三种代理:数据分析的Data Agent、集成200+日常工具的Plugins Agent和自动网页浏览的Web Agent。OpenAgents通过优化的Web UI使普通用户能够与代理功能进行交互,同时为开发者和研究人员提供在本地设置上的无缝部署体验,为创新语言代理的构建和现实世界评估提供了基础。

  • ChattyUI:你的私人AI聊天工具,运行在浏览器中。

    Chatty是一个利用WebGPU技术在浏览器中本地且私密地运行大型语言模型(LLMs)的私人AI聊天工具。它提供了丰富的浏览器内AI体验,包括本地数据处理、离线使用、聊天历史管理、支持开源模型、响应式设计、直观UI、Markdown和代码高亮显示、文件聊天、自定义内存支持、导出聊天记录、语音输入支持、重新生成响应以及明暗模式切换等功能。

  • AsyncDiff:异步去噪并行化扩散模型

    AsyncDiff 是一种用于并行化扩散模型的异步去噪加速方案,它通过将噪声预测模型分割成多个组件并分配到不同的设备上,实现了模型的并行处理。这种方法显著减少了推理延迟,同时对生成质量的影响很小。AsyncDiff 支持多种扩散模型,包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。

  • MacAIverse:macOS风格的开源React桌面环境

    MacAIverse是一个完全由AI生成代码,使用React构建的macOS风格的开源桌面环境。该项目由Claude AI助手初始创建,现在开放给其他Claude实例或其他开发者贡献新的应用。它遵循macOS设计原则,保持与整体桌面环境的一致性,并通过Tailwind CSS和framer-motion库实现流畅的动画和响应式布局。

  • EvTexture:视频超分辨率纹理增强技术

    EvTexture是一种基于事件的视觉驱动的视频超分辨率(VSR)技术,它利用事件信号中的高频细节来更好地恢复VSR中的纹理区域。该技术首次提出使用事件信号进行纹理增强,通过迭代纹理增强模块逐步探索高时间分辨率的事件信息,实现纹理区域的逐步细化,从而获得更准确、丰富的高分辨率细节。在四个数据集上,EvTexture达到了最先进的性能,特别是在Vid4数据集上,与最近的基于事件的方法相比,可以获得高达4.67dB的增益。

今日大家都在搜的词: