11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。
文章探讨了AI时代高质量数据的重要性及数据治理的关键作用。指出80%的AI项目因数据质量问题失败,低质、分散、标准不一的数据成为AI落地的主要障碍。提出数据治理应从"数据可用"到"数据好用"构建全链路能力,包括明确治理目标、搭建管理平台、持续改进质量三大核心动作。以亿信华辰为例,介绍其通过"标准-质量-资产-安全"四大模块的数据治理平台,帮助客户提升AI项目效率60%以上。强调数据治理已成为企业智能转型的必选项,需要建立专业组织和运营机制,持续挖掘高价值数据,为AI提供精准供给。
本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。
今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。
全球AI领导者英伟达开源了,用于实体机器人和自动化驾驶的超大训练数据合集——NVIDIAPhysicalAIDataset。这个数据集一共15T,涵盖了超过320,000个机器人训练轨迹,以及多达1,000个通用场景描述包括一个SimReady集合。英伟达表示,未来将继续扩展PhysicalAIDataset,将其建设成世界最大、统一的开源数据集,可用于AI模型、医疗、自动化驾驶等不同领域,加速AI、实体机器人的训练效�
今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资,其估值也从去年的12.5亿美元翻倍至33亿美元。
近日, 2025 年苏州市“人工智能+”创新发展推进大会暨人工智能赋能新型工业化深度行(苏州站)圆满落幕,会上发布一批苏州人工智能大模型及创新要素。阿丘机器人科技(苏州)有限公司(以下简称“阿丘科技”)凭借自主研发的“PCB缺陷检测视觉大模型”与“AQ工业基础材料加工缺陷数据集”,分别入选“苏州市级培育人工智能大模型”及“苏州市首批行业高质量数据集”两大�
年末大礼包,稚晖君他又双叒来开源了!百万真机数据集开源项目AgiBotWorld,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。该项目由稚晖君具身智能创业项目智元机器人,携手上海AILab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。百万真机全量数据将陆续开源;千万仿真数据同步推送,支持更泛化和更通用的大模型训练;�
苹果最新杀入开源大模型战场比其他公司更开放。推出7B模型,不仅效果与Llama38B相当一次性开源了全部训练过程和资源。就像他提供的这张图,以GPT-4omini为代表的小模型整体比右侧价格更低。
使用大模型合成的数据,就能显著提升3D生成能力?来自上海交大、香港中文大学等团队还真做到了。他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。