首页 > 业界 > 关键词  > StarVector最新资讯  > 正文

多模态SVG生成模型StarVector 视觉质量显著增强

2023-12-21 11:26 · 稿源:站长之家

站长之家(ChinaZ.com)12月21日 消息:StarVector是一种多模态SVG生成模型,该模型有效地集成了代码生成大型语言模型(CodeLLM)和视觉模型,使得能够生成准确表示图像像素的不受限制的SVG。

StarVector利用CLIP图像编码器从基于像素的图像中提取出视觉表示模块,然后通过适配器将其转换为视觉标记。这些视觉标记预先添加到SVG标记嵌入中,而StarCoder模型使用下一个标记预测对序列进行建模,从而有效地学习对齐标记和代码标记。

image.png

论文地址:https://arxiv.org/pdf/2312.11556.pdf

为了评估StarVector的性能,论文引入了SVG-Bench,这是一个用于跨多个数据集和相关指标评估SVG方法的综合基准。在此基准测试中,引入了新颖的数据集,包括SVG-Stack训练(真实世界SVG示例的大型数据集),并使用它来预StarVector作为SVG的大型基础模型。

结果表明,与当前方法相比,视觉质量和复杂性处理有有了显著的增强,引起SVG生成技术的显着进步。因此,StarVector为SVG生成技术带来了新的突破,为网页开发和图形设计领域带来了更多可能性。

举报

  • 相关推荐
  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • 文远知行斩获美国以外首张城市级L4 Robotaxi商运牌照,中东规模化布局提速

    11月10日,文远知行获阿联酋政府批准,取得全球首张城市级L4自动驾驶商业化运营牌照,可在阿布扎比开展无安全员的Robotaxi服务。这标志着其在中东实现纯无人运营落地。服务将通过Uber等平台上线,计划2026年车队扩至千台,2030年达数万台。凭借近百万公里数据与政府支持,公司将在阿布扎比实现单车盈亏平衡,并以此为起点推动全球智慧交通发展。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • vivo WATCH GT 2已支持开通移动/联通eSIM服务

    vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务,提供一号双终端和独立终端两种模式,售价699元。配备2.07英寸大屏、2400nits峰值亮度,续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式,搭载自研蓝河操作系统3.0与智能助手,可跨设备连接vivo和iPhone,实现双机通知同步。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

今日大家都在搜的词: