首页 > 业界 > 关键词  > 李开复最新资讯  > 正文

胜率达94.08%!李开复Yi-34B成绩超过LLaMA2等主流大模型

2023-12-11 14:31 · 稿源:站长之家

要点:

  • 李开复的Yi-34B-Chat模型在多个评测中取得显著成绩,胜率达94.08%,超越主流大模型如LLaMA2和ChatGPT。

  • 该模型在加州大学伯克利分校主导的LMSYS ORG排行榜中以1102的Elo评分追平GPT-3.5,展现强大性能。在中文能力评测中,Yi-34B-Chat在SuperCLUE排行榜上以31.82%的对战胜率仅次于GPT4-Turbo。

  • Yi-34B-Chat的成功得益于零一万物团队的AI Alignment团队采用创新对齐策略,包括轻量化指令微调方案、多能力融合、对数据的关注等。

站长之家(ChinaZ.com)12月11日 消息:近期,李开复的Yi-34B-Chat模型在多个评测中大放异彩。其94.08%的胜率超越了LLaMA2和ChatGPT等主流大模型,尤其在加州大学伯克利分校主导的LMSYS ORG排行榜中,以1102的Elo评分追平了GPT-3.5。此外,在中文SuperCLUE排行榜上,Yi-34B-Chat以31.82%的胜率仅次于GPT4-Turbo。

通过对话场景实测,Yi-34B-Chat在不同对话场景中展现出优越的实力。从对Transformer模型结构的发展方向到生成小红书文案,Yi-34B-Chat的回答均显示其有理有据,符合当前主流风格。在中文理解方面,Yi-34B-Chat在复杂的中文理解问题上也展现了出色的精准性。

image.png

项目地址:https://huggingface.co/01-ai

Yi-34B-Chat模型的卓越表现不仅仅源于其强基座系列,还得益于人工智能对齐团队的创新对齐策略。采用轻量化指令微调方案,单项能力提升和多项能力融合两个阶段的创新训练方式,以及关注数据质量和指令多样性等方面的独特设计,使Yi-34B-Chat在各方面均有出色表现。

Yi-34B模型开源首月表现亮眼,在Hugging Face社区下载量高达16.8万,魔搭社区下载量也达到1.2万,GitHub上获得超过4900个Stars。多家知名公司和机构基于Yi模型基座推出的微调模型,如猎户星空公司的OrionStar-Yi-34B-Chat模型、IDEA研究院的SUS-Chat-34B等,性能表现优异。在GPU加速大模型的实验中,Yi-6B成为范例项目。

开发者Eric Hartford提出Yi模型使用了与LLaMA模型相同的架构,引发了一场关于“抄袭”的质疑。零一万物团队意识到问题,及时在各开源平台重新提交模型及代码,完成了版本更新。然而,这一小问题在国内被曲解,引发了一场舆论风暴。团队强调,他们是从零开始打造Yi系列模型,重新命名仅为对比实验需求。

这一系列的成绩和问题共同勾勒出Yi-34B-Chat模型的成功轨迹,尽管受到一些质疑,但其在技术创新和用户体验方面的表现仍然备受瞩目。

举报

  • 相关推荐
  • 2025上海车展:BBA等八成主流车企已接入豆包大模型

    2025年4月23日,第二十一届上海国际车展开幕。本届车展以"新能源"和"智能化"为核心主题,吸引近千家中外汽车企业参展,展出车辆超千辆,其中新能源车占比超七成。奔驰、奥迪、长安马自达等品牌展示了基于豆包大模型的智能座舱系统,交互效率提升50%,唤醒速度仅0.2秒。火山引擎与多家车企达成战略合作,共同推进AI大模型在智能驾驶、数字座舱等领域的�

  • Intel压力山大!AMD服务器市场收入份额狂飙近40%、桌面端也34.4%

    AMD在2025年第一季度在服务器市场的收入份额达到了39.4%,几乎占据了市场的四成,而其桌面端的收入份额也达到了34.4%……

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 华为nova 14 Pro发布:Mate同款红枫影像加持 3499元起

    华为nova 14 Pro于5月19日正式发布,5月23日开售,提供羽砂黑、凝霜白、冰晶蓝和冰晶粉四种配色。256GB版3499元,512GB版3799元,昆仑玻璃版3999元。配备6.78英寸120Hz全面屏,后置5000万像素RYYB可变光圈主摄(F1.4-F4.0)+1200万像素长焦+800万超广角+150万红原色光谱镜头,前置5000万+800万双摄。5500mAh电池支持100W快充。影像系统升级显著,搭载Mate同款红原色光谱镜头,能精准还原真实色彩。支持北斗卫星消息功能,可编辑发送图文信息,无地面网络时仍可通信。

  • 低成本、高速度、1080p高清 可灵2.1打造视频大模型新标杆

    快手可灵AI推出全新2.1系列视频生成模型,包含标准版(720p)和高品质版(1080p),主打高性价比与高效生成。大师版则提供更卓越的运动表现和语义响应,分辨率提升至1080p。新模型在成本控制方面优势明显,5秒视频生成仅需20-35灵感值,速度不到1分钟,处于行业领先水平。模型质量全面提升,动态细节更丰富、物理模拟更真实、提示词响应更精准。目前可灵AI全球用户突破2200万,累计生成超1.68亿视频,商业化进程加速,2025年Q1营收超1.5亿元。新系列将满足从短视频创作到专业影视制作的多场景需求。

  • 超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录

    过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力……

  • 超过人类平均水平!AI 大模型将如何改造智能客服?

    本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出,传统智能客服存在"答非所问"问题,主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解,精准把握客户意图,实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级:1)精准理解应答;2)更自然的沟通方式;3)主动挖掘需求和销售转化;4)自动构建决策模型;5)实现营销服务一体化应用。高志成认为,随着AI技术发展,智能客服水平将超越人工客服平均水平,不仅能处理售前咨询,还能部分解决售后问题。企业需构建完善的知识库体系,将商品信息、活动信息等单独做成知识库,通过数据标注构建更立体的用户画像。最终,智能客服将向"售前+售后"全能型发展,承担更大责任。

  • 李想:理想VLA司机大模型 就是从动物进化到人类

    预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  • 魅族21 PRO Flyme钛好用版发布:国补价3499

    魅族21 PRO Flyme钎好用版正式发布,主打旗舰配置与AI系统升级。新机采用24K纯金灵动环设计,搭载第三代骁龙8芯片,配备16GB+1TB存储组合,内置5050mAh电池支持80W快充。系统方面原生搭载Flyme AIOS2,接入阿里云通义千问大模型,Aicy助手迎来重大升级。新增UWB数字钥匙和"超会寻车"功能,6.79英寸2K屏幕支持120Hz LTPO自适应刷新率。国补后售价3499元起,性价比突出。

  • AI大模型客服赋能电商企业,轻松应对618流量高峰

    618大促期间,电商客服系统面临三大挑战:咨询量暴增300%、多渠道服务协同难、服务质量保障压力大。智能联络中心通过五大核心能力应对:1)AI智能分流处理80%常见咨询;2)语音识别+情感分析实现多模态交互;3)人机协同提升座席效率300%;4)全渠道数据整合实现服务无缝衔接;5)弹性云架构支持每秒10万级并发。以米糠云为代表的解决方案已帮助电商企业实现客服响应速度提升5倍,人力成本降低40%,客户满意度达98%,在物流、医疗等多行业落地验证。AI大模型的应用使企业在流量高峰中保持服务稳定性与用户体验的平衡。