首页 > AI头条  > 正文

​科研界的“幻觉杀手”:OpenScholar 模型诞生,引文准确率比肩人类专家

2026-02-05 09:07 · 来源: AIbase基地

针对AI模型在学术领域普遍存在的“编造论文”难题,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队带来了突破性解决方案——正式发布开源人工智能模型OpenScholar。该模型在整合前沿研究时表现卓越,不仅引文准确率大幅提升,其生成内容的质量甚至得到了过半数人类专家的青睐。

长期以来,即便是 GPT-4o 这样的顶尖模型,在处理学术引用时也面临高达 78% 至 90% 的“幻觉”率。为了攻克这一痛点,OpenScholar 另辟蹊径,建立了一个包含 4500 万篇学术论文的庞大检索库。通过先进的检索增强生成(RAG)技术,该模型能够实时查阅最新发表的文献,并以标准规范的引用格式输出答复,彻底告别了“一本正经胡说八道”的尴尬。

在严格的 ScholarQABench 基准测试及专家双盲评审中,OpenScholar 的表现令人惊艳。测试结果显示,在 51% 的测试案例中,科学家们更偏向于选择 OpenScholar 生成的答复而非人类专家撰写的内容。如果将其引用机制与 GPT-4o 结合,专家的偏好率更是直线飙升至 70%。

目前,OpenScholar 的代码、数据集及演示版本均已向社会开放,不仅为科研人员提供了强有力的工具,也为构建透明、可靠的学术 AI 生态树立了新标杆。该团队表示,未来还将继续迭代,推出支持多步骤检索与信息聚合的新模型,进一步赋能科学研究。



  • 相关推荐
  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • 世界顶尖科学家协会发布OPENSCI项目:探索开放科学基础设施的未来路径

    世界顶尖科学家协会近日发布开放科学基础设施项目OPENSCI,旨在利用区块链与人工智能技术,构建一个去中心化的全球科研协作网络。该项目计划于2026年迪拜世界顶尖科学家峰会期间正式推出,致力于实现科学知识的长期保存、可信验证与跨学科合作。OPENSCI将支持科研成果、假说与数据集的记录与验证,形成透明、可追溯的知识基础,为全球科研提供可持续支撑。

  • AI日报:宇树开源UnifoLM-VLA-0大模型;腾讯“元宝派”内测截图泄露;Clawd更名为OpenClaw

    本期AI日报聚焦具身智能与AI应用新动态。蚂蚁集团发布LingBot-VLA模型,实现双手机器人通用操控;宇树开源UnifoLM-VLA-0模型,为机器人注入物理常识。开源AI助手OpenClaw更名后受关注,强调隐私安全。商汤开源SenseNova-MARS模型,在多个榜单超越GPT-5.2。腾讯“元宝派”社交功能内测截图泄露,整合微信与QQ好友,支持同步观影听歌。马斯克计划明年推出高度个性化AI生成游戏与影音内容。Anthropic因涉嫌大规模盗版遭音乐出版商起诉,索赔30亿美元。字节与阿里在春节前后发布新一代大模型,争夺云端主导权。

  • 50亿,新年最大融资诞生

    ​AI圈依旧震撼。 投资界获悉,阶跃星辰正式完成超50亿人民币B+轮融资,一举刷新过去12个月中国大模型赛道单笔最高融资纪录。参与机构包括上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资人,腾讯、启明、五源等老股东进一步跟投。 外界可能不知道,2023年阶跃星辰成立于上海,至今已发布超30款大模型,被外界视为“�

  • 只花0.99元3分钟就能诊断抑郁症 专家:切勿轻信

    在互联网公司工作的李先生花了0.99元购买了一套测试题,3分钟答完100道题后确认”自己得了轻度抑郁症。 在电商平台上,搜索抑郁症测试题”就能看到多家店铺在销售类似的题目,电子版价格通常不到1块钱,店家声称该测试题能自测焦虑、抑郁症等等。 对此,专家提醒,区分情绪问题是否正常,仅靠

  • 阶跃星辰发布最强开源基座模型 Step 3.5 Flash,多家头部芯片厂商已完成适配

    阶跃星辰发布新一代开源Agent基座模型Step 3.5 Flash。该模型面向实时Agent工作流场景,兼顾推理速度、智能水平与使用成本,在单请求代码类任务上,最高推理速度可达每秒350个token。模型采用稀疏MoE架构,每个token仅激活约110亿参数,显著提升推理效率,为Agent应用提供更高效、可负担的底层模型选择。多家芯片厂商已完成适配,通过底层联合创新提升模型适配性和算力效率,有效降低推理成本与应用门槛,加速大模型在实际场景中的落地。

  • AI日报:混元图像3.0图生图模型发布;开源AI助手Clawdbot一夜爆火;京东JoyGlance正式登陆乐奇AI眼镜

    本期AI日报聚焦多领域AI新动态:腾讯发布混元图像3.0,实现语义驱动的精准修图;开源AI助手Clawdbot单日获9000星,具备物理级执行力;京东购物智能体JoyGlance登陆Rokid眼镜,简化购物流程;苹果Siri将整合谷歌Gemini核心,预计2月发布;腾讯“元宝派”开启内测,探索AI深度融入社交场景;百度文心助手推出5亿现金红包活动,结合春节习俗;中国团队SeaArt用户破5000万,实现创意到变现闭环;上海交大发布光学垂直大模型Optics GPT,重塑光学研发模式。

  • 900亿,中国最大零食店IPO诞生

    港交所再现震撼一幕。 今日(1月28日),湖南鸣鸣很忙商业连锁股份有限公司(简称“鸣鸣很忙”)挂牌上市,成为港股“量贩零食第一股”。此次IPO基石投资者集结腾讯、淡马锡、贝莱德、富达等十余家国际顶级机构,开盘大涨80%,市值超900亿。 也许很多人还记得,2023年11月零食很忙和赵一鸣零食官宣合并,鸣鸣很忙由此诞生。但可能鲜少有人清楚,作为合并前赵一鸣零食�

  • mo幻奇旅双载同行| 长白山万达Momoland酒店两周年庆,诚邀“预备魔法师”共赴奇幻之旅

    2026年1月5日,长白山万达Momoland酒店迎来开业两周年。酒店以“MO幻奇旅双载同行”为主题,打造沉浸式魔法世界。从外观到内部,星空穹顶、全息互动投影、旋转楼梯等细节充满奇幻色彩。主题客房全新升级,推出Momo魔法主题房及森林主题房等,配备特色软包与投影设备。餐饮体验同样别出心裁,Fancy Yard花园餐厅提供魔法森林披萨等主题美食,下午茶造型如古老魔法书。酒店还推出Momo魔法市集剧场,客人可化身魔法师参与剧情任务,连洗衣房也被赋予“净化咒语修习室”的趣味设定。酒店以独特魔法主题,为家庭与年轻客群创造难忘度假记忆。

  • 对话AI NEWS平台Ancher:曾经信息流产品的胜利者,如今却决定颠覆它

    ​如果一定把“00后”作为AI浪潮的原著民,那么Ancher创始人Vincent Wu 显然不是最“典型”的AI创业者。 他是经历了从报纸到网站,再到移动客户端,美国三代媒体平台系统性变革的“老兵”。在长期以白人为绝对主导的美国新闻业态里里,顶着一张同样“非典型”的亚洲面孔,成为了极少数打入西方新闻业核心圈层的华人: 他担任过美国最大的本地资讯平台NewsBreak COO,更早之

今日大家都在搜的词: