首页 > 业界 > 关键词  > GLM130最新资讯  > 正文

不输ChatGPT 国产AI大模型开测:为中文优化、支持国产CPU训练

2023-03-15 09:30 · 稿源: 快科技

ChatGPT今天升级了GPT-4模型AI能力更加强大,国内在这方面也在迅速追赶,有国歌国产版ChatGPT问世了,现在清华大学教授唐杰宣布由该校AI成果转化的ChatGLM开始内测。

据介绍,对话机器人 ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话功能的千亿中英语言模型, 并针对中文进行了优化,现已开启邀请制内测,后续还会逐步扩大内测范围。

不输ChatGPT 国产AI大模型开测:为中文优化、支持国产CPU训练

与此同时,继开源 GLM-130B 千亿基座模型之后,我们正式开源最新的中英双语对话 GLM 模型: ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。

经过约 1T 标识符的中英双语训练,辅以监督微调、 反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。

ChatGLM 参考了 ChatGPT 的设计思路,在千亿基座模型 GLM-130B1中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。

ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。

2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型 GLM-130B1,该模型有一些独特的优势:

双语:同时支持中文和英文。

高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。

高精度(中文):在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。

快速推理:首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。

可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现。

跨平台:支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B 是亚洲唯一入选的大模型。

在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错(下图)。

不输ChatGPT 国产AI大模型开测:为中文优化、支持国产CPU训练

图1. 斯坦福大学基础模型中心对全球 30 个大模型的评测结果(2022年11月)

举报

  • 相关推荐
  • 大家在看
  • AI Notebook:构建你的AI驱动的第二大脑。

    AI Notebook是一款AI驱动的笔记应用,旨在通过智能摘要、灵活捕捉以及各种样式来提升用户的生产力和学习效率。它能够无缝地组织文本、图片甚至音频,提供强大的笔记体验。AI Notebook通过AI助手提升生产力和学习,用户可以通过上传音频、文本、照片和YouTube链接来提问或使用AI进行头脑风暴。它还具备高质量的音频录制和实时转录功能,以及AI生成的摘要和模板,以及自动生成的闪卡和测验,帮助用户高效地创建、组织和复习所学内容。

  • AR2R:AI助手,解放人类创造力,提高生产力

    AR2R是一款旨在解放人类从日常琐事中,通过人工智能技术提高生产力和创造力的AI助手。它通过自然语言用户界面、定制训练的AI协调器以及一系列专业AI代理,为用户提供日程管理、决策支持、在线活动组织、任务提醒、详细跟进和流程自动化等功能。由拥有超过50,000名专家信赖的AI平台团队开发,AR2R致力于帮助用户专注于他们热爱的事情,而不是工作。

  • Rupt:防止账户共享,提高用户转化率

    Rupt是一个专注于防止账户共享的服务,它使用先进的AI算法来精确识别共享账户的行为,并将这些共享者转化为付费用户。该服务通过简单的SDK和集成,快速检测账户共享,提供个性化的用户体验,以确保用户在享受服务的同时,不会受到干扰。Rupt还提供了详细的分析和洞察,帮助企业优化产品并增加收入。

  • BypassAI:AI文本人性化工具,转换AI生成文本为人类风格。

    Bypass AI是一个AI到人类文本生成器工具,它创建类似人类的内容,确保看起来像是真人编写的,同时保持高原创性标准。它旨在通过先进的人性化技术避免AI检测并提高可读性。

  • Milvus:开源向量数据库,适用于开发者构建通用AI应用。

    Milvus是一个为开发者设计的开源向量数据库,专门用于大规模高维向量的相似性搜索。它支持pip安装,可以与流行的AI开发工具一起使用,并且能够扩展到数十亿个向量。Milvus以其高效的向量相似性搜索能力,帮助开发者构建强大且可扩展的图像检索系统,无论是管理个人照片库还是开发商业图像搜索应用程序,Milvus都提供了一个强大的基础,帮助开发者发掘图像集合中的潜在价值。

  • InstaDrag:快速高质量的基于拖拽的图像编辑技术

    InstaDrag 是一种快速高质量的基于拖拽的图像编辑技术,利用视频中的信息进行训练,能够在大约 1 秒内实现像素级控制。通过消除梯度导向等耗时操作,提高了编辑速度和准确性。该技术能够广泛应用于图像编辑领域。

  • Scale Leaderboard:AI模型性能评估平台

    Scale Leaderboard是一个专注于AI模型性能评估的平台,提供专家驱动的私有评估数据集,确保评估结果的公正性和无污染。该平台定期更新排行榜,包括新的数据集和模型,营造动态竞争环境。评估由经过严格审查的专家使用特定领域的方法进行,保证评估的高质量和可信度。

  • No-Code Scraper:无需编码即可从任何网站提取数据。

    No-Code Scraper是一个无需编码即可从任何网站提取数据的工具。它利用大型语言模型简化数据提取过程,使每个人都能轻松使用。该平台能够适应任何网站的变化,提供最简单和最快的网络抓取体验。

  • Biofy:一站式社交媒体链接管理平台

    Biofy是一个多功能的社交媒体链接管理平台,它允许用户通过一个链接整合所有社交媒体和在线内容,包括链接到应用商店、YouTube深层链接、URL缩短、QR码生成和分析等。Biofy特别适用于内容创作者、品牌和企业,帮助他们更有效地管理和推广自己的在线存在。

  • AI-Powered Sleep Story Generator:个性化AI助眠故事生成器,助你安然入梦

    AI-Powered Sleep Story Generator是一款创新的AI驱动工具,旨在帮助用户进入深度而宁静的睡眠。用户可以描述自己理想的睡眠场景,AI将利用最新技术制作出舒缓而沉浸式的音频故事,安抚心灵,帮助用户放松进入梦乡。该工具将个性化提升到新水平,根据用户的特定偏好和需求定制每个故事,无论是轻柔的自然声音、舒缓的叙述,还是两者的结合,AI技术都能确保完美适应用户的睡前例程。

  • Tap4 AI:提供免费 AI 工具目录,汇集各类 AI 工具并为用户提供最佳选择。

    Tap4 AI Directory 是一个提供免费 AI 工具目录的工具,旨在收集所有 AI 工具并为用户提供最佳选择。用户可以在 Tap4 AI 目录中找到各类 AI 工具,助力工作效率和创意。

  • Carteisa Sonic:低延迟语音模型,生成逼真语音

    Sonic是由Carteisa团队开发的低延迟语音模型,旨在为各种设备提供逼真的语音生成能力。该模型利用了创新的状态空间模型架构,以实现高分辨率音频和视频的高效、低延迟生成。Sonic模型的延迟仅为135毫秒,是同类模型中最快的。Carteisa团队专注于优化智能的效率,使它更快、更便宜、更易于访问。Sonic模型的发布,标志着实时对话式AI和长期记忆的计算平台的初步进展,预示着未来AI在实时游戏、客户支持等领域的新体验。

  • ViViD:视频虚拟试穿技术

    ViViD是一个利用扩散模型进行视频虚拟试穿的新框架。它通过设计服装编码器提取精细的服装语义特征,并引入轻量级姿态编码器以确保时空一致性,生成逼真的视频试穿效果。ViViD收集了迄今为止规模最大、服装类型最多样化、分辨率最高的视频虚拟试穿数据集。

  • xinsir:深度学习、表示学习、细粒度分类

    xinsir (qi) 是一个关于深度学习、表示学习和细粒度分类的产品。它提供了强大的功能和技术,具有主要优点和背景信息。该产品具有多个模型可供选择。

  • 腾讯元宝:是一个多功能工具,帮助用户轻松工作和享受多彩生活。

    腾讯元宝是一款集成了多种实用工具和服务的生产力工具,旨在提高用户工作效率和生活品质。其背景信息是由腾讯公司推出,定位为全面满足用户工作和生活需求的综合性工具。腾讯元宝提供了丰富的功能和服务,包括日程管理、文件存储、社交聊天、视频会议等,用户可以在一个平台上完成各种任务。

  • GPTResearcher:AI助力的快速洞察和全面研究助手

    GPT Researcher是一个领先的自主研究代理,专为多代理框架设计,提供实时、准确和事实性的结果。它能够简化数据收集,通过一个函数调用提供可信赖、聚合和策划的结果。它支持超过100种不同的大型语言模型(LLMs),并且可以与任何搜索引擎协作,从Google到DuckDuckGo。用户可以轻松搜索本地文档和文件,并生成超过2000字的长篇报告,支持多种格式的导出,如PDF、Word、Markdown、JSON和CSV。

  • DenserRetriever:先进的AI检索器,用于RAG。

    DenserRetriever是一个开源的AI检索模型,专为RAG(Retrieval-Augmented Generation)设计,利用社区协作的力量,采用XGBoost机器学习技术有效结合异构检索器,旨在满足大型企业的需求,并且易于部署,支持docker快速启动。它在MTEB检索基准测试中达到了最先进的准确性,并且Hugging Face排行榜上也有其身影。

  • Groqbook:使用Groq和Llama3快速生成整本书

    Groqbook是一个基于Streamlit的应用程序,它利用Llama3在Groq上从一行提示快速构建书籍。它适用于非小说类书籍的创作,并能在几秒钟内生成每一章节。该应用程序混合使用Llama3-8b和Llama3-70b模型,利用较大的模型生成结构,较小的模型创造内容。目前,模型仅使用章节标题的上下文来生成章节内容。未来,这将扩展到书籍的完整上下文,以允许Groqbook生成高质量的小说书籍。

  • MusePose:虚拟人物生成的图像到视频框架

    MusePose是由腾讯音乐娱乐的Lyra Lab开发的一款图像到视频的生成框架,旨在通过姿势控制信号生成虚拟人物的视频。它是Muse开源系列的最后一个构建块,与MuseV和MuseTalk一起,旨在推动社区向生成具有全身运动和交互能力的虚拟人物的愿景迈进。MusePose基于扩散模型和姿势引导,能够生成参考图像中人物的舞蹈视频,并且结果质量超越了当前几乎所有同一主题的开源模型。

  • Codestral-22B-v0.1:一款支持80+编程语言的AI代码生成模型

    Codestral-22B-v0.1是由Mistral AI Team开发的大型语言模型,它经过了80多种编程语言的训练,包括Python、Java、C、C++、JavaScript和Bash等。该模型能够根据指令生成代码,或对代码片段进行解释、重构等。它还支持Fill in the Middle (FIM)功能,用于预测代码中的中间部分,特别适合软件开发工具的插件使用,如VS Code。该模型目前没有内容审查机制,但开发团队正在寻求社区合作,以实现在需要内容审查的环境中部署。

今日大家都在搜的词: