智源开源中英文语义向量模型训练数据集MTP

2023-09-18 09:05 · 稿源：站长之家

站长之家（ChinaZ.com）9月18日消息:近日，智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。

这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，希望推动解决中文模型训练数据集缺乏问题。

微信截图_20230918090913.png

据介绍，MTP（massive text pairs）中文记录达1亿条，英文数据达2亿条。MTP 是目前为止开源的最大规模中英文关联文本对数据集，为训练中英文语义向量模型提供了重要的基础。

该数据集包含了各种不同的数据源，包括 wudao、cmrc2018、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据，如社区问答、新闻和文献等。

智源研究院表示，数据对大模型训练起着至关重要的基础作用，开源亦是人工智能发展的关键推动力量。作为中国大模型开源生态圈的代表机构，智源持续进行包括数据在内的大模型全栈技术开源，推动人工智能协同创新。

MTP数据集链接:

https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型链接:

https://huggingface.co/BAAI

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

（举报）

相关推荐

关键词：

“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

10月3日，“新生万物”中国非遗与当代设计展暨“你好BOE”品牌巡展在米兰开幕。BOE（京东方）作为首席显示技术合作伙伴，通过透明屏、万境屏等前沿产品，生动呈现茶酒论、唐人宫乐图等非遗文化，展现科技与艺术的深度融合。展览正值中意建交55周年，成为两国文化交流的重要见证，体现BOE以创新科技推动文化传承、拓展全球品牌影响力的战略实践。

中国非遗当代设计展 BOE(京东方)
荐没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
山西潇河新城万达锦华酒店国庆邀您共赴“岛集萌宠节”与“暄和万集”双主题嘉年华

2025年国庆黄金周期间，山西太原潞河新城酒店群将于10月1日至6日举办为期六天的“岛集萌宠节”暨“的禾万集”双主题嘉年华活动。活动融合萌宠互动、非遗体验、趣味游戏、主题市集与美食盛宴，设有多个主题区域，包括宠物障碍赛、变装走秀及羊驼、梅花鹿等温顺动物互动环节。现场还提供宠物相亲、周边售卖及游乐区，传递爱心与责任。同期举办非遗市集，宾客可体验投壶、套圈等传统游戏及拓印、漆扇等手作，完成闯关任务可兑换礼品。每日有民谣乐队、川剧变脸等表演，营造浓厚节日氛围。活动旨在为宾客带来欢乐温情的独特假期体验。

文章搜索核心标签中秋国庆
考拉悠然开源悠然无界大模型BLM-1.0，以空间智能引擎驱动产业变革

9月28日，在成都举行的“2025天府人工智能产业生态大会”上，考拉悠然宣布其自主研发的“悠然无界大模型BLM-1.0”完成迭代升级并全面开源，同时发布基于该模型的UU Holo Glass O1 AR工业眼镜。此举标志着公司以“技术开源+场景落地”双轮驱动策略，推动空间智能产业生态共建。BLM-1.0突破传统模型局限，具备跨空间、跨任务、跨本体的“三跨”统一能力，在空间理解、推理与执行三大核心能力上刷新行业纪录。配套AR眼镜深度融合空间感知与多模态交互，实现工业运维、安装巡检等场景的全程自动化与智能辅助，显著提升效率并降低成本。

人工智能开源大模型空间智能
2025数贸会 | 每日互动：大数据+大模型，重塑营销价值

9月26日，全球数字生态大会在杭州举行，聚焦AI与大数据如何重塑营销价值。每日互动朱晓鸣提出，企业需转变思维，从数据中洞察价值而非仅追求数据量，并介绍了“大数据联合计算模式”以平衡合规与营销增效。大会还推出AI营销产品AITA助手，结合大数据与行业经验，为品牌提供智能策略，助力降本增效，推动营销新纪元。

全球数字生态大会 AI变革营销范式转移
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型

今日大家都在搜的词：

热文

3 天
7天

智源开源中英文语义向量模型训练数据集MTP

“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

荐没想到，音频大模型开源最彻底的，居然是小红书

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

山西潇河新城万达锦华酒店国庆邀您共赴“岛集萌宠节”与“暄和万集”双主题嘉年华

考拉悠然开源悠然无界大模型BLM-1.0，以空间智能引擎驱动产业变革

2025数贸会 | 每日互动：大数据+大模型，重塑营销价值

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

京东双11今晚开启：现货开卖官方直降低至一折

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

站长商机