首页 > 热点 > 关键词  > 正文

出门问问开放大模型“序列猴子”开源数据集

2024-02-26 08:43 · 稿源:站长之家

站长之家(ChinaZ.com) 2月26日 消息:出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。

序列猴子,作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。

微信截图_20240226084508.png

为了推动大语言模型技术的持续进步,出门问问决定将其部分训练数据集进行开源。这次开源的“序列猴子开源数据集1.0”包括中文通用文本语料、古诗今译语料以及文本生成语料,这些数据资源都经过精心挑选和整理,以确保其高质量和易用的数据格式。同时,公司采用了宽松的许可协议,为广大的开发者和研究人员提供了便捷的使用条件。

出门问问希望通过这一行动,吸引更多的人才和团队参与到大语言模型的研究与应用中来,共同推动这一前沿技术的持续进步。公司坚信,开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。

项目地址:https://github.com/mobvoi/seq-monkey-data

举报

  • 相关推荐
  • 沪港深资本市场双料加冕,出门问问成AI产业价值风向标

    出门问问(02438.HK)凭借生成式AI技术突破和多场景商业化能力,入选"沪港深资本市场优秀案例"并斩获"新质生产力TOP"奖项。

  • 大模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据集

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 酒仙桥论坛 | 大模型 “燃料荒” 如何破?可信数据打造智能时代新底座

    · 首届酒仙桥论坛, 6 天 11 场分论坛“AI 马拉松”持续热跑中,聚焦人工智能“产业创新应用、生态发展和数智未来”,政、产、学、研多方力量共议AI黄金发展期的机遇与挑战,搭建务实对话桥梁,加速科技创新和产业创新融合。4月17日上午,酒仙桥论坛可信数据服务专场顺利召开。在这场以“可信数据服务”为焦点的分论坛上,产学研专家从行业洞察与业务实践出发,围�

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 时空AI专家路新江:用创新时间序列编织智慧未来

    文章介绍了时空AI技术在智慧城市建设中的创新应用。通过分析历史交通数据,AI能提前15分钟预测主干道拥堵节点,并与智能信号灯协同优化通行效率;在地质监测站,毫米级土壤位移数据被转化为时间序列,AI模型能提前40分钟预警滑坡灾害;在城市规划方面,AI结合人口迁徙和卫星数据,可模拟20年后城区扩展形态。中国学者路新江提出创新性D3VAE框架,结合能量模型和变分自编码器,首创"生成式时序预测"模式,显著提升预测性能。他还开发了基于大语言模型的Table-to-Text方法,推动结构化数据处理。这些技术已应用于雄安新区规划、风力发电预测等多个领域,为城市数字化转型提供重要支撑。

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�

  • 大模型时代的智能营销,从“玩具”到“工具箱”

    百度在Create大会上强调AI应用创造真正价值,发布智能营销一体化应用"客悦·ONE"。李彦宏指出,没有应用场景的芯片和模型毫无价值。百度智能云升级后整合文心、DeepSeek等大模型能力,实现从数据洞察到智慧触达的闭环营销体系。该产品在金融等行业已落地见效,自助解决率达93%以上,支持多模态交互和全渠道管理。百度通过全栈自研AI架构降低开发成本,推动行业智能化转型。