11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH,填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式,破解了数据采集成本高、仿真数据迁移难等痛点,为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据,覆盖10余种核心场景全链路任务。它石还�
2025年12月19日,“创新领军·情报先行”主题活动暨中国科学技术情报学会创新情报专业委员会2025年度工作总结会在深圳举行。活动聚焦创新情报数智化转型,发布H-Tech Data高质量数据集,并启动创新情报可信数据开放社区倡议。数据集覆盖人工智能、生物医药等多个前沿领域,具备数据时效性强、技术赋能突出、场景适配性高等优势,旨在破解行业数据壁垒,构建协同创新生态。同时,倡议书呼吁共建安全可信、开放协同的数智化生态,推动创新情报从“单点赋能”向“系统赋能”升级,为我国在全球创新竞争中抢占情报先行优势提供关键支撑。
《2025中国跨境电商+产业带数据报告》正式发布,全面覆盖全国22省、5自治区、4直辖市及300多个地级市产业带。报告系统呈现全国产业带分布、优势与跨境机遇,包含成功出海案例、趋势分析及政策解读。通过"产业带地图"帮助卖家精准匹配货源,工厂高效对接全球市场。结合AI技术实现智能选品、市场分析及运营优化,助力跨境电商与产业带深度融合,推动行业从"拼运气"转向"拼数据、拼供应链"的高质量发展。
视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。
标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。
文章探讨了AI时代高质量数据的重要性及数据治理的关键作用。指出80%的AI项目因数据质量问题失败,低质、分散、标准不一的数据成为AI落地的主要障碍。提出数据治理应从"数据可用"到"数据好用"构建全链路能力,包括明确治理目标、搭建管理平台、持续改进质量三大核心动作。以亿信华辰为例,介绍其通过"标准-质量-资产-安全"四大模块的数据治理平台,帮助客户提升AI项目效率60%以上。强调数据治理已成为企业智能转型的必选项,需要建立专业组织和运营机制,持续挖掘高价值数据,为AI提供精准供给。
谷云科技ETLCloud社区版8周年庆推出会员权益升级计划:即日起至2025年6月18日,购买VIP/SVIP会员可享多重福利,包括免费组件(200积分内任选1个)、组件8折+流程9折优惠。VIP会员299元/年解锁45条流程数、2次技术支持等权益;SVIP会员3999元/年享60条流程数、无限次资料下载等增值服务。活动期间开通会员还可享一年内组件8折+流程9折特惠。周年庆限时福利不容错过,助力用户高效玩转数据集成。
本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。
今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。
全球AI领导者英伟达开源了,用于实体机器人和自动化驾驶的超大训练数据合集——NVIDIAPhysicalAIDataset。这个数据集一共15T,涵盖了超过320,000个机器人训练轨迹,以及多达1,000个通用场景描述包括一个SimReady集合。英伟达表示,未来将继续扩展PhysicalAIDataset,将其建设成世界最大、统一的开源数据集,可用于AI模型、医疗、自动化驾驶等不同领域,加速AI、实体机器人的训练效�