首页 > 业界 > 关键词  > 正文

智源联合共建单位开源可信中文互联网语料库CCI

2023-11-29 13:50 · 稿源:站长之家

站长之家(ChinaZ.com) 11月29日 消息:智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),旨在为大数据和人工智能行业提供安全、可靠的语料资源。

该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。首期开放的数据规模为104GB,时间跨度为2001年至2023年。

人工智能 AI 数字人

图源备注:图片由AI生成,图片授权服务商Midjourney

智源研究院表示,将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源。

同时,智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。

下载地址:

  • 智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI

  • HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data

举报

  • 相关推荐
  • 从乌镇出发,驶向数字未来——每日互动用“数智力量”点亮互联网之光

    2025年世界互联网大会乌镇峰会于11月6日开幕。每日互动公司(股票代码:300766)在创业20周年之际,携多款战略产品亮相,展示“数据要素+AI”融合创新成果。其核心产品“个知·智能工作站”聚焦办公场景,通过会议纪要、写作助手等功能提升效率;“发数站”作为数据基础设施,推动公共与产业数据融合,已在交通、医疗等领域落地应用,助力产业升级。此外,云深AI机器�

  • 零一万物联合开源中国推出OAK平台,目标打造Agent世界的“生态适配器”

    在GOT C 2025全球开源技术峰会上,零一万物CEO李开复博士发表演讲,强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK,支持对接多种开源大模型,旨在打破生态绑定限制,助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能,未来将逐步推出四大核心模块,推动开放协作的AI Agent生态发展。

  • YOUMAGIC舒立缇与北京清华长庚医院联合启动单极射频多适应症临床研究

    10月27日,YOUMAGIC舒立绯与北京清华长庚医院联合启动射频技术临床研究计划。双方将开展单极射频设备在面部年轻化及痤疮治疗领域的有效性与安全性评估,聚焦轻中度皱纹合并痤疮的临床应用。通过前瞻性自身对照研究设计,结合标准化治疗方案,推动技术临床标准化与循证医学证据积累,为医企协同创新提供实践范本,助力行业高质量发展。

  • 九号公司联合海淀区多部门开展安全科普活动

    11月6日,北京海淀区东升镇举办电动自行车新国标安全科普活动,主题为"践行新标准+乐享安心行"。活动由市场监管部门指导,九号公司承办,旨在普及2025年实施的GB17761-2024新国标。现场通过科普集市、趣味问答、免费检修等形式,将安全知识转化为实用技巧,提升市民安全意识。多部门协同参与,构建全链条科普体系,推动新国标顺利落地,筑牢出行安全防线。

  • 全球开源技术峰会GOTC 2025 圆满落幕

    11月2日,为期两天的全球开源技术峰会GOT C2025在北京圆满落幕。本届峰会聚焦开源与人工智能深度融合,汇聚全球顶尖专家、行业领袖与数千开发者,共同探讨开源驱动的AI未来蓝图。现场吸引超3000人次参与,线上直播观看量突破500万,全网曝光超6亿次。大会设立十二大专题论坛,覆盖大模型应用、AI编程、云原生AI等前沿领域,并发布Open AgentKit等关键项目。通过“论坛+市集�

  • 共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

    10月28日,AtomGit平台在北京国家会议中心举行升级发布会,正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞,强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源,打造开放中立的基础设施,计划于11月21日正式上线。华为、百度等企业代表分享了开源实践,多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 下一代企业 AI 基础设施要来了?云天励飞与金蝶共建融合新范式

    11月4日,云励飞与金蝶在2025全球创见者大会上签署战略合作协议。双方将以企业数字化软件生态与国产AI算力底座为双引擎,打通“算力-软件-场景”全链路,推动AI推理能力融入企业数字化全流程,打造国内首个算力与软件生态深度融合标杆。未来计划联合推出软硬件一体化方案,共建实验室,聚焦技术攻关与行业创新,优化AI在企业管理中的应用体验,助力政企数字化智能化转型,为国产算力规模部署提供实践路径。

  • 体育用品产业创新联合体发布天玑攻坚计划 布局九大科技攻坚领域

    10月31日,第二届体育用品产业创新联合体大会在京举行。会上发布“无氟安踏膜技术”和“六度芯保暖科技”两大高性能材料成果,推出行业首个AI创新平台,并签约21家新成员。联合体同时公布“天工·高性能材料攻关计划”,旨在突破高端材料技术垄断。安踏集团发布“AI365战略”,推动AI全链条应用,并推出行业首个AI设计大模型“灵龙”。联合体成立一年来成员单位从13家增至34家,致力于构建开放协同的产业创新网络,助力中国体育用品产业高质量发展。

  • 万源共振,智构未来,全球开源技术峰会GOTC 2025在京开幕

    11月1日,全球开源技术峰会GOTC+2025在北京亦庄开幕,以“万源共振,智构未来”为主题,汇聚全球开源与AI领域专家。峰会探讨开源与人工智能深度融合的技术前景与生态建设,发布Open AgentKit平台及天翼云开源OpenTeleDB等成果。现场超2000人参会,直播观看超300万,展现中国开源生态活力与创新潜力,推动数字经济发展。

今日大家都在搜的词: