天津大学大模型评测报告：GPT-4和百度文心一言显著领先

2023-08-15 08:25 · 稿源：站长之家

站长之家（ChinaZ.com）8月15日消息:8月12日，天津大学和信创海河实验室举办了一次大模型技术与评测研讨会，会上发布了首份大模型评测报告。

该报告对国内外14个大语言模型进行了中文综合能力评测，结果显示，GPT-4和百度文心一言相对于其他模型综合性能领先。

在此次评测中，GPT-4对参评模型的主观题回答进行了打分，结果显示，GPT-4认为文心一言生成的中文内容质量更高。相比人工评价，在基于 GPT-4的自动评测中，文心一言的总得分超过了 GPT-4，位居榜首。

微信截图_20230815082645.png

天津大学表示，大模型有望重塑人工智能的发展模式，国产大模型正在迎头赶上国际类似模型，并在某些指标上实现了超越。百度文心一言在评测中展现了强大的实力，具备了在相关行业落地的技术基础。

百度表示，百度在大模型生态的构建上具备先发优势，目前已经有15万家企业申请接入文心一言测试。

（举报）

相关推荐

关键词：

2025年手机影像评测报告：5000元档成谁比较强？

2025年拍照手机推荐：vivo X300Pro凭借2亿像素蔡司超级长焦主摄、行业顶级CIPA5.5级防抖系统及萤石玻璃镜片，实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段变焦闪光灯覆盖24-85mm经典人像焦段，通过光斑融合技术实现均匀补光，夜拍告别死黑过曝。DXOMARK评分有望突破177，支持4K60fps电影人像视频。配合荣耀Magic7 Pro的真实色彩模式、小米17Pro的徕卡复古风格，为5000元预算用户提供多元选择，其中vivo X300Pro以全能旅拍体验成为闭眼入标杆。

拍照手机 vivo X300Pro
2025年手机影像评测报告：5000元档成谁比较强？

2025年拍照手机推荐：vivo X300Pro凭借2亿像素蔡司超级长焦主摄、CIPA5.5级防抖及萤石玻璃镜片，实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段闪光灯覆盖24-85mm人像焦段，夜景光线自然层次丰富。DXOMARK评分有望突破177，支持4K60fps电影人像视频。荣耀Magic7Pro以真实色彩见长，小米17Pro主打徕卡复古胶片风格。预算5000元首选vivo X300Pro（预估国补优惠4799元起），堪称旅拍闭眼入的标杆之作。

拍照手机 vivo X300Pro
我国首个政务大模型安全国家标准发布百度深度参与制定

日前，我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》（下称《规范》）正式发布。百度作为核心参编单位，凭借其在人工智能安全及政务服务领域的深厚积累，深度参与了该标准的制定工作，为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头，联合百度等国内领先企业共同制定�

政务大模型安全国家标准百度参编
六项第一！百度文库再获国家工信安全中心认证，持续领跑智能PPT行业

国家工信安全中心发布《大模型赋能智慧办公评测报告》，对8款主流AI生成PPT产品进行综合评估。百度文库在生成质量、排版美化等六项指标中全部位列第一，持续领跑智能PPT行业。报告显示当前产品已基本满足日常需求，但专业度和时效性仍有提升空间。百度文库依托海量专业文档资源，在产业研究、教育培训等场景表现突出，月活用户超9700万，智能PPT功能月访问量全球第一。

大模型智慧办公 PPT生成
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
荐AI日报：小红书发布对话合成模型 FireRedTTS-2；百度文心新模型登顶Hugging Face榜首；xAI将裁员500人

AI日报今日聚焦七大热点：小红书发布FireRedTTS-2语音合成模型，显著提升自然度；百度文心ERNIE-4.5登顶Hugging Face榜单；谷歌Gemini应用登顶美国免费榜；马斯克xAI裁员500人并战略转型；OpenAI拟大幅降低与微软分成比例；DeepMCPAgent开源框架提升AI代理生产力；蚂蚁发布AI开源全景图2.0；北京1400多所中小学推行人工智能通识课程。

AI 对话合成模型小红书
荐没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成

今日大家都在搜的词：

热文

3 天
7天

天津大学大模型评测报告：GPT-4和百度文心一言显著领先

2025年手机影像评测报告：5000元档成谁比较强？

2025年手机影像评测报告：5000元档成谁比较强？

我国首个政务大模型安全国家标准发布百度深度参与制定

六项第一！百度文库再获国家工信安全中心认证，持续领跑智能PPT行业

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

荐AI日报：小红书发布对话合成模型 FireRedTTS-2；百度文心新模型登顶Hugging Face榜首；xAI将裁员500人

荐没想到，音频大模型开源最彻底的，居然是小红书

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

京东双11今晚开启：现货开卖官方直降低至一折

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

站长商机