首页 > 业界 > 关键词  > 正文

天津大学大模型评测报告:GPT-4和百度文心一言显著领先

2023-08-15 08:25 · 稿源:站长之家

站长之家(ChinaZ.com)8月15日 消息:8月12日,天津大学和信创海河实验室举办了一次大模型技术与评测研讨会,会上发布了首份大模型评测报告。

该报告对国内外14个大语言模型进行了中文综合能力评测,结果显示,GPT-4和百度文心一言相对于其他模型综合性能领先。

在此次评测中,GPT-4对参评模型的主观题回答进行了打分,结果显示,GPT-4认为文心一言生成的中文内容质量更高。相比人工评价,在基于 GPT-4的自动评测中,文心一言的总得分超过了 GPT-4,位居榜首。

微信截图_20230815082645.png

天津大学表示,大模型有望重塑人工智能的发展模式,国产大模型正在迎头赶上国际类似模型,并在某些指标上实现了超越。百度文心一言在评测中展现了强大的实力,具备了在相关行业落地的技术基础。

百度表示,百度在大模型生态的构建上具备先发优势,目前已经有15万家企业申请接入文心一言测试。

举报

  • 相关推荐
  • 2025年手机影像评测报告:5000元档成谁比较强?

    2025年拍照手机推荐:vivo X300Pro凭借2亿像素蔡司超级长焦主摄、行业顶级CIPA5.5级防抖系统及萤石玻璃镜片,实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段变焦闪光灯覆盖24-85mm经典人像焦段,通过光斑融合技术实现均匀补光,夜拍告别死黑过曝。DXOMARK评分有望突破177,支持4K60fps电影人像视频。配合荣耀Magic7 Pro的真实色彩模式、小米17Pro的徕卡复古风格,为5000元预算用户提供多元选择,其中vivo X300Pro以全能旅拍体验成为闭眼入标杆。

  • 2025年手机影像评测报告:5000元档成谁比较强?

    2025年拍照手机推荐:vivo X300Pro凭借2亿像素蔡司超级长焦主摄、CIPA5.5级防抖及萤石玻璃镜片,实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段闪光灯覆盖24-85mm人像焦段,夜景光线自然层次丰富。DXOMARK评分有望突破177,支持4K60fps电影人像视频。荣耀Magic7Pro以真实色彩见长,小米17Pro主打徕卡复古胶片风格。预算5000元首选vivo X300Pro(预估国补优惠4799元起),堪称旅拍闭眼入的标杆之作。

  • 我国首个政务大模型安全国家标准发布 百度深度参与制定

    日前,我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》(下称《规范》)正式发布。百度作为核心参编单位,凭借其在人工智能安全及政务服务领域的深厚积累,深度参与了该标准的制定工作,为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头,联合百度等国内领先企业共同制定�

  • 六项第一!百度文库再获国家工信安全中心认证,持续领跑智能PPT行业

    国家工信安全中心发布《大模型赋能智慧办公评测报告》,对8款主流AI生成PPT产品进行综合评估。百度文库在生成质量、排版美化等六项指标中全部位列第一,持续领跑智能PPT行业。报告显示当前产品已基本满足日常需求,但专业度和时效性仍有提升空间。百度文库依托海量专业文档资源,在产业研究、教育培训等场景表现突出,月活用户超9700万,智能PPT功能月访问量全球第一。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • AI日报:小红书发布对话合成模型 FireRedTTS-2;百度文心新模型登顶Hugging Face榜首;xAI将裁员500人

    AI日报今日聚焦七大热点:小红书发布FireRedTTS-2语音合成模型,显著提升自然度;百度文心ERNIE-4.5登顶Hugging Face榜单;谷歌Gemini应用登顶美国免费榜;马斯克xAI裁员500人并战略转型;OpenAI拟大幅降低与微软分成比例;DeepMCPAgent开源框架提升AI代理生产力;蚂蚁发布AI开源全景图2.0;北京1400多所中小学推行人工智能通识课程。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

今日大家都在搜的词: