首页 > 传媒 > 关键词  > 大模型最新资讯  > 正文

零一万物API正式上线:支持输入30万汉字,看不懂《百年孤独》的人有救了

2024-03-14 15:02 · 稿源: 站长之家用户

2024年,大模型领域的一个趋势越来越清晰:重视优化,面向应用。

在去年的百模大战中,科技巨头、创业力量你追我赶,将大模型技术卷到了一个新的高度。有了强大的模型之后,更重要的是将这些能力输出到现实中的应用场景,提升用户体验、构建生态。

正因此,大模型厂商们或是开源,或是推出模型 API,都是希望让成果为开发者所用,以此为基础设施构建起繁荣的大模型生态

国内的大模型独角兽公司零一万物,也在今天正式发布了 Yi 大模型 API 开放平台。

零一万物 API 开放平台

此次 API 开放平台提供以下模型:

Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。

Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。

Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

实际上,在半个月前,零一万物已经启动了 Yi-34B-Chat-0205和 Yi-34B-Chat-200K 两个模型的邀测,很多开发者早就上手体验过一波了。

我们围观了一下,发现了几个亮点:

首先,200K 上下文确实强。就拿专业书翻译这件事来说吧,前 HuggingFace 员工、Transformer 核心贡献者 Stas Bekman 写过一本名为《机器学习工程》的电子书。调用 Yi-34B-Chat-200K 之后,知乎知名技术作者「苏洋」一天之内就完成了长达264页的书籍翻译工作。

图源:使用零一万物200K 模型和 Dify 快速搭建模型应用

其次,在 Yi-34B-Chat-0205、Yi-34B-Chat-200K 之外,零一万物开放平台此次同期上新全新的多模态大模型 Yi-VL-Plus。

Yi-VL-Plus 支持文本、视觉多模态输入,面向实际场景大幅增强。多位用户反馈:「中文体验超过 GPT-4V。」

GPT-4V 连招牌都没看明白。

此外,零一万物 Yi 大模型 API 开放平台和 OpenAI API 是兼容的,迁移方案时的体验应该也非常丝滑。

当然,Yi 大模型 API 到底能不能与 GPT-4Turbo、Gemini1.5、Claude3这些模型的表现一较高下,还需要更多开发者一起考察。

Yi 大模型 API 名额目前限量开放,零一万物会为新用户免费赠送60元,感兴趣的开发者不妨申请体验一下。

200K 上下文的大模型,有多能打?

在此前的内测中,最令人印象深刻的不外乎具有超长上下文窗口的 Yi-34B-Chat-200K。

对于大模型的落地应用,上下文窗口是一项非常关键的因素。过去一年里,各家大模型的上下文窗口都在飞速扩展:OpenAI 把 GPT-4的32K 直接提到 GPT-4Turbo 的128K。谷歌的 Gemini1.0还是32K,Gemini1.5Pro 马上就升级到了100万 Token。

前不久,Claude3将大模型 API 的上下文长度纪录一下提到了200K,还宣称有能力开放100万 Token 的上下文输入(尽管目前限制特定客户)。

要完成更复杂的现实任务,模型需要能够处理长篇的上下文。更广阔的上下文窗口能显著提升模型的理解深度,在生成内容或解答问题时实现更高的准确性和相关性。这是因为模型能够「回忆」并参照较长的文本历史,面对长文章、书籍的章节、复杂对话或其他需长期累积上下文的情境时,这种能力格外关键。

Yi-34B-Chat-200K 能够处理大约30万个中英文字符。我们可以拿文学类书籍来类比,32K 就像是一篇2万字的短篇小说(比如《潜伏》原著),128K 大概是一部中篇小说的体量(比如《人间失格》),而200K 则相当于《呼啸山庄》、《百年孤独》、《骆驼祥子》这类长篇著作了。

以下是 Yi-34B-Chat-200K 对经典文学作品《呼啸山庄》的归纳总结,这部作品中文字数约30万字,人物关系错综复杂,但 Yi-34B-Chat-200K 仍能准确地梳理和总结出人物之间的关系。

从行业应用的角度看,Yi-34B-Chat-200K 适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等,为各行各业应用提供了便利。金融分析师可以用它快速阅读报告并预测市场趋势、律师可以用它准确解读法律条文、科研人员可以用它有效提取论文要点等,应用场景非常广泛。

有开发者对比了 Yi-34B-Chat-200K 和某同类模型,从下图我们能看出,对于「请在18万字报告中找到地缘政治风险」这一 Prompt,Yi-34B-Chat-200K 给出了正确答案「英国脱欧导致索尼总部搬迁,导致索尼欧洲业务连续性受影响」,而另外一个模型则表示「无地缘政治风险」,未能完成任务。

在另一项任务中,开发者要求某个大模型帮忙「撰写文献综述」,结果,交上来的活只干了一半:

切换到 Yi-34B-Chat-200K 之后,刚才卡住的任务马上成功执行,篇幅控制、翻译准确度、标注格式都符合要求。

实验数据进一步印证了开发者内测过程中的直观感受:在零一万物针对其进行的「大海捞针」测试中,Yi-34B-Chat-200K 的性能提高了10.5%,从89.3% 提升到99.8%。

拼中文体验,这次赢的显然是 Yi-VL-Plus

大语言模型的持续进步往往也会为多模态大模型注入新的发展生机,尤其近几个月以来,多模态领域迎来「井喷」,大家的目光再次聚焦到了多模态大模型的发展上来。

谷歌 Gemini 原生多模态、Anthropic Claude3首 次支持多模态能力,随之而来的是,多模态大模型对图像(包括其上文字)、表格、图表、公式的识别、理解能力已经在整体上了一个新台阶。自然而然,这对其他大模型厂商提出了更高的多模态能力需求。

对于零一万物来说,这既是挑战,也是机遇。自成立以来,零一万物在大模型多模态能力上的探索一直在推进,尤其中文场景表现亮眼。

1月22日,零一万物 Yi-VL 多模态语言大模型正式开源,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本,其中34B 版本在针对中文打造的 CMMMU 数据集上的准确率紧随 GPT-4V 之后,在开源多模态模型中处于领先位置。

现在,Yi-VL-Plus 多模态模型在原有 Yi-VL 基础上迎来全方位升级,进一步提高了图片分辨率,支持1024*1024分辨率输入,不仅对图片中文字、符号的识别、理解和概括能力得到比较罕见的加强,在部分中文场景的实际体验更是超越了 GPT-4V。眼见为实,我们来详细对比一下开篇提到的这个图文对话示例。

可以看到,Yi-VL-Plus 的回答言简意赅,准确无误,验证了它对图片中文字超强的识别能力;而 GPT-4V 看似回答了一大堆内容,实则废话连篇,除了「羊肉汤烩面」这个招牌之外,它给出的食物显然是基于一般常识推理出来的,并不是它准确看到的。二者高下立判。

在更准确地搞定一般中文场景的图片识别之外,此次 Yi-VL-Plus 的一大特点是大幅增强了对实际生产力场景的支持,既提高了图表(Charts)、表格(Table)、信息图表(Inforgraphics)、屏幕截图(Screenshot)中文字和数字 OCR 的识别准确性,让模型「看得准」;又支持了复杂的图表理解、信息提取、问答以及推理,让模型「答得透」。

我们同样发现,在这些偏生产力场景的任务中, Yi-VL-Plus 的实际体验依然要比 GPT-4V 更好。

我们来看下面这个中文「财务报表数据提取」任务,Yi-VL-Plus 没有被不同部门的数据所迷惑,比较准确无误定位并提取到了销售部门各个季度的数据;而 GPT-4V 显然被复杂的表格和柱状图数据难倒了,给出的数据中出现多达三处错误。

在另外一个中文「图表理解场景」中,Yi-VL-Plus(左)在准确性方面同样击败了 GPT-4V(右),后者混淆了电商零售与本地生活服务的概念。

论「火眼金睛」,Yi-VL-Plus还是更强一点的。

当然,不止中文场景,Yi-VL-Plus 也能轻松处理英文「图表信息提取」任务,在答案准确性方面依然要强于 GPT-4V。

到了「临门一脚」,GPT-4V还是出错了。

在充分把握图表信息的基础上,Yi-VL-Plus 还能释放其他多模态能力,比如将图表转化为其他格式,诠释了「技多不压身」。

而在下面涉及专业知识学习与解读的案例中,Yi-VL-Plus 同样能给出有模有样的专业回答。可以看到,Yi-VL-Plus 能够结合历史病历和图片信息(脱敏数据),较好地完成对青少年心理健康水平解读。

至此,我们大可以得出这样的结论:中文社区终于迎来了一个性能强大的多模态大模型。尤其是对于普通用户而言,在生产力场景下足功夫的 Yi-VL-Plus 能够成为他们分析图表、分类知识、汇总数据的绝 佳辅助工具,对工作效率的提升显而易见。

写在最后

当今,大模型厂商想要在激烈的竞争中胜出,靠的不再只是炫「冷冰冰」的榜单数据,还要不断降低模型使用门槛,为用户「减负」。自然而然,开放 API 成为了很多厂商的选择。

从成立至今,零一万物一方面坚持向公众开源 Yi 系列模型,为开源社区贡献自己的技术力量;另一方面又希望通过开放 API 让包括开发者在内的更多人用上强大的对话、多模态大模型,或用来创作或用于工作,这样反过来又将促进这些模型在更多应用场景中的落地,形成双赢局面。

此前,零一万物 CEO 李开复博士曾表示,零一万物将在 Yi 系列大模型的基础上打造更多 To C 超 级应用。此次在开放对话、多模态模型 API 的同时,还强调了开发者工具对促进大模型应用创新的作用,双管齐下,为实现这一目标做好了充足的准备。

零一万物表示,近期将为开发者提供更多更强模型和 AI 开发框架。主要亮点包括:

- 推出一系列的模型 API,覆盖更大的参数量、更强的多模态,更专业的代码/数学推理模型等。

- 突破更长的上下文,目标100万 tokens;支持更快的推理速度,显著降低推理成本。

- 基于超长上下文能力,构建向量数据库、RAG、Agent 架构在内的全新开发者 AI 框架。旨在提供更加丰富和灵活的开发工具,以适应多样化的应用场景。

显然,零一万物在自家大模型的发展方向上已经有了成熟的思路,未来也势必会走得更远。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 小米超级小爱AI大模型推出随心修图功能

    小米宣布超级小爱AI大模型推出随心修图功能,用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式:在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求:超级小爱需v7.8.50及以上,相册编辑功能需v2.1及以上,相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级,支持全局多模态交互和自然语音搜索,提升使用体验。

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • 突破大模型对齐瓶颈,北大团队携手昇腾打通产业应用通路

    北大杨耀东团队研发Align-Anything多模态对齐框架,以RLHF为核心解决传统反馈信息有限问题,覆盖文本、图像、音频等全模态数据。该框架集成专用评估工具Eval-Anything,已在昇腾平台实现智慧医疗、网络安全等领域规模化落地。通过构建安全治理体系,显著提升大模型安全水位,同时保持通用能力。团队联合推出课程培养人才,深化产学研协同,为多模态大模型发展提供关键技术支撑。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 百度搜索推出“百度猎户座”AI引擎,涵盖基座模型、搜索AI API、 MCP、垂类优势能力

    2025年11月13日,百度发布“百度猎户座”AI引擎,全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力,基于多智能体架构统一连接信息、工具、服务与模型,融合搜索技术优势与全网MCP生态资源。即日起对外开放,支持企业快速接入打造专属AI应用。同时,文心助手上线个性化记忆功能,视频生成推出“参考生成”玩法,AI短剧创作平台免费提供超30万部IP资源及全流程工具。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 大模型+反诈+算力三重突破 腾讯云三项成果闪耀金融科技应用场景大赛

    10月30日,2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力,从全国89家机构的280个项目中脱颖而出,双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势,获专家团高度认可。大赛自2021年启动,已成为金融科技领域极具影响力的赛事平台。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

今日大家都在搜的词: