首页 > 业界 > 关键词  > GPT最新资讯  > 正文

研究发现,GPT 和其他 AI 模型无法分析 SEC 备案文件

2023-12-20 14:23 · 稿源:站长之家

划重点:

- 📌 大型语言模型在分析 SEC 备案文件方面存在困难,常常无法正确回答问题。

- 📌 AI 模型经常会产生虚构的数字和事实,或者拒绝回答问题。

- 📌 AI 模型的性能必须更高才能在金融等受监管行业的大公司中实际应用。

站长之家(ChinaZ.com) 12月20日 消息:一家名为 Patronus AI 的初创公司的研究人员发现,大型语言模型在分析美国证券交易委员会(SEC)备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置 OpenAI 的 GPT-4-Turbo,当给予几乎整个备案文件的阅读能力和相关问题时,仅有79% 的问题回答正确。Patronus AI 的创始人告诉 CNBC,这些所谓的大型语言模型有时会拒绝回答问题,或者会 “产生幻觉”,出现备案文件中不存在的数字和事实。

Patronus AI 的联合创始人 Anand Kannappan 表示:“这种性能水平完全不能接受。要想实现自动化和投入生产使用,性能必须更高。” 这些发现凸显了 AI 模型在大公司中应用的一些挑战,尤其是在金融等受监管行业。这些公司希望将先进技术应用于客户服务或研究,但 AI 模型面临一些困难。

机器人阅读读书

图源备注:图片由AI生成,图片授权服务商Midjourney

快速提取重要数字并对财务陈述进行分析被认为是聊天机器人最有前景的应用之一,自去年底发布 ChatGPT 以来一直备受关注。SEC 备案文件中充满着重要的数据,如果一个机器人能够准确地概括这些文件或快速回答相关问题,它可以使用户在竞争激烈的金融行业中占据优势。

在过去的一年里,彭博社开发了自己的金融数据 AI 模型,商学院教授研究了 ChatGPT 是否可以解析财经头条新闻,摩根大通正在开发一个基于 AI 的自动投资工具。根据 CNBC 之前的报道,生成式 AI 预计每年可以为银行业带来数万亿美元的收益。

然而,GPT 进入该行业并不顺利。微软首次推出使用 OpenAI 的 GPT 的必应聊天时,其主要示例之一是使用聊天机器人快速概述盈利新闻稿。观察人员很快就意识到微软示例中的数字是错误的,一些数字完全是虚构的。

Patronus AI 的联合创始人表示,将大型语言模型应用于实际产品的挑战之一是,它们是非确定性的,不能保证每次给出相同的输出。这意味着公司需要进行更严格的测试,以确保它们的模型运行正确,不会偏离主题,并提供可靠的结果。

该公司的创始人在 Facebook 的母公司 Meta 公司相识,他们在该公司从事与理解模型生成答案的问题以及使其更加 “负责任” 方面的 AI 问题。他们成立了 Patronus AI,该公司已从 Lightspeed Venture Partners 获得种子资金,旨在通过软件实现对大型语言模型的自动化测试,以便公司可以确保其 AI 机器人不会以离题或错误的答案令客户或员工感到惊讶。

Patronus AI 致力于编写一套由主要上市公司的 SEC 备案文件中提取的10,000多个问题和答案,该数据集被称为 FinanceBench。数据集包括正确答案,以及在任何给定备案文件中准确查找答案的位置。并非所有答案都可以直接从文本中提取,有些问题需要轻微的数学或推理。

Patronus AI 测试了四个语言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用该公司生成的150个问题的子集进行测试。他们还测试了不同的配置和提示方式,例如将 OpenAI 模型在问题中给出与答案相关的确切源文本的 “Oracle” 模式。在其他测试中,模型被告知底层 SEC 文件存储的位置,或者在提示中包含 “长上下文”,即几乎完整的 SEC 备案文件与问题一起提供。

GPT-4-Turbo 在该公司的 “闭卷” 测试中失败,该测试不允许其访问任何 SEC 源文件。它在被问到的150个问题中,未能回答88% 的问题,只有14次给出了正确答案。当获得对底层备案文件的访问权限时,其性能有了显著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情况下正确回答问题,但仍然在15% 的情况下给出了错误答案。然而,这种测试方式并不现实,因为它需要人工输入以找到备案文件中确切的相关位置,而这正是许多人希望语言模型能够解决的问题。

Meta 开发的开源 AI 模型 Llama2在获得各种底层文件的访问权限时,产生了一些最糟糕的 “幻觉”,错误回答的比例高达70%,仅有19% 的回答正确。Anthropic 的 Claude2在提供 “长上下文” 的情况下表现良好,可以回答75% 的问题,21% 的回答错误,仅有3% 的问题未能回答。GPT-4-Turbo 在长上下文测试中表现也不错,79% 的问题回答正确,17% 的回答错误。

在进行测试后,Patronus AI 的创始人对模型的表现感到惊讶,即使在指导答案所在位置的情况下,它们的表现仍然很差。“即使答案在上下文中,模型拒绝回答的频率也非常高,而人类是可以回答的。”Qian 说道。然而,即使模型表现良好,仍然不够好,Patronus AI 发现。“即使模型在20次中回答错误1次,这个错误率对于受监管的行业来说仍然不可接受。”Qian 说道。

然而,Patronus AI 的创始人认为,像 GPT 这样的语言模型在金融行业中有巨大的潜力,无论是分析师还是投资者,如果 AI 技术继续改进。“我们确实认为结果可能非常有希望。”Kannappan 表示,“随着时间的推移,模型将会变得更好。我们非常有希望在长期内,很多工作可以实现自动化。但是现在,你肯定需要至少一个人参与来支持和引导你的工作流程。”

举报

  • 相关推荐
  • 大家在看
  • twitterbio.io:使用AI生成你的Twitter个人简介

    Twitter Bio Generator是一个利用人工智能技术帮助用户创建个性化Twitter个人简介的网站。它通过用户输入的职业或爱好,以及选择的氛围,快速生成具有吸引力的个人简介。这项技术的重要性在于它能够节省用户编写简介的时间,同时提供创意和个性化的内容。该产品由Mixtral和GPT-3.5提供支持,适合需要在社交媒体上建立专业形象的用户。目前,该产品是免费提供的,已经生成了超过96,434个个人简介。

  • PDFtoChat:与您的PDF文件进行对话

    PDFtoChat是一个允许用户与PDF文件进行对话的平台。它通过AI技术分析PDF内容,让用户能够以提问的方式获取信息,极大地提高了处理文档的效率。该产品背景信息显示,它是由Together AI和Mixtral提供支持的,并且是开源的,源代码可在GitHub上找到。PDFtoChat的主要优点包括免费使用、易于上手、能够处理复杂的文档内容,并且支持开源社区的贡献。

  • TurboSeek:一个由Together.ai驱动的开源AI搜索引擎。

    TurboSeek是一个创新的AI搜索引擎,它通过结合Bing搜索API和先进的大型语言模型(LLMs)如Mixtral 8x7B和Llama-3,为用户提供快速、准确的搜索结果。该搜索引擎的特点是能够理解和处理自然语言查询,返回更加相关和深入的信息。它的重要性在于能够提高用户获取信息的效率,尤其是在需要处理大量数据和复杂查询时。TurboSeek的开发背景是受到Perplexity等先进搜索引擎的启发,旨在为用户提供一个更智能、更高效的搜索工具。目前,该产品是免费使用的,主要面向技术爱好者和需要处理大量信息的用户。

  • CogView3-Plus-3B:文本到图像生成模型,支持高分辨率图像生成

    由清华大学团队开发的文本到图像生成模型,开源,在图像生成领域有广泛应用前景,有高分辨率输出等优点。

  • aicommits:命令行工具,AI 自动生成 Git 提交信息

    是命令行工具,利用 AI 生成 Git 提交信息,减少工作量,支持多种规范和自定义选项,免费,面向开发者。

  • Flux Ghibsky Illustration:生成融合宫崎骏风格和新海诚氛围的梦幻风景图

    Flux Ghibsky Illustration 是一个基于文本生成图像的模型,它结合了宫崎骏动画工作室的奇幻细节和新海诚作品中的宁静天空,创造出迷人的场景。该模型特别适合创造梦幻般的视觉效果,用户可以通过特定的触发词来生成具有独特审美的图像。它是基于Hugging Face平台的开源项目,允许用户下载模型并在Replicate上运行。

  • MM1.5:多模态大型语言模型的优化与分析

    MM1.5是一系列多模态大型语言模型(MLLMs),旨在增强文本丰富的图像理解、视觉指代表明和接地以及多图像推理的能力。该模型基于MM1架构,采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中不同数据混合的影响。MM1.5模型从1B到30B参数不等,包括密集型和混合专家(MoE)变体,并通过广泛的实证研究和消融研究,提供了详细的训练过程和决策见解,为未来MLLM开发研究提供了宝贵的指导。

  • Easy Anime Maker:AI动漫生成器,将文本或照片转换成动漫风格。

    Easy Anime Maker是一个基于人工智能的动漫生成器,它使用深度学习技术,如生成对抗网络,将用户输入的文本描述或上传的照片转换成动漫风格的艺术作品。这项技术的重要性在于它降低了创作动漫艺术的门槛,使得没有专业绘画技能的用户也能创造出个性化的动漫图像。产品背景信息显示,它是一个在线平台,用户可以通过简单的文本提示或上传照片来生成动漫艺术,非常适合动漫爱好者和需要快速生成动漫风格图像的专业人士。产品提供免费试用,用户注册后可以获得5个免费积分,如果需要更多生成需求,可以选择购买积分,无需订阅。

  • 图改改:在线AI图片文字编辑器,简单快速修改图片中的文字

    图改改是一个在线AI图片文字编辑器,它通过人工智能技术,让用户能够轻松地在图片上修改、添加或删除文字。用户无需具备专业的P图技能或使用复杂的软件,只需点击图片中的文字即可进行修改。图改改支持多种图片格式,如JPG、PNG、JPEG等,并且支持最大2560x2560尺寸的图片处理。产品界面友好,操作简单,支持电脑端和手机端使用,适合需要快速编辑图片文字的用户。图改改提供免费服务,并且注重用户数据的安全性。

  • Yaelokre OC Maker:在线创作个性化原创角色的平台

    Yaelokre OC Maker是一个在线平台,允许用户轻松创建和个性化他们的原创角色。该平台强调定制化、用户友好的设计和社区参与,用户可以创建反映个人风格的特色角色。它提供了逼真的视觉效果、用户友好的界面、角色多样性、社区参与和24/7客户支持等特点。此外,它还提供了快速开始的模板,同时保留了定制每个细节的灵活性。

  • 投资策略模拟器:模拟不同投资策略的表现,辅助投资决策。

    投资策略模拟器是一个在线工具,它通过模拟不同的股价模型和投资策略,帮助用户理解各种投资策略在不同市场条件下的表现。该产品使用几何布朗运动模型来模拟股价的连续随机波动,适合相对稳定的大盘股。用户可以设置不同的投资周期和策略,比如买入持有、定投等,来观察投资收益的变化。这个工具的主要优点是简单易懂,能够帮助投资者在不承担实际风险的情况下,学习和比较不同的投资策略。它适合心态平和、不为短期波动所动的长线投资者。目前,该产品是免费的,主要面向教育和娱乐目的,不构成实际的投资建议。

  • Kolors Virtual Try On.org:免费在线AI服装试穿体验

    Kolors Virtual Try On是一个利用先进AI技术提供在线虚拟试衣服务的平台。它通过虚拟建模帮助用户在真实环境中可视化服装产品,减少因尺码不合或款式不满意导致的退换货成本。用户可以随时随地试穿服装,做出更明智的购物选择。该平台兼容多个平台,提供个性化推荐,并且支持移动设备使用。Kolors Virtual Try On的隐私政策确保用户数据安全,所有上传的照片在处理后会被安全删除。

  • Easy Sticker Maker:在线AI贴纸生成器,快速创建个性化贴纸

    Easy Sticker Maker是一个基于人工智能的在线贴纸生成器,它利用深度学习和生成对抗网络等技术,根据用户的文字描述生成具有视觉吸引力的定制贴纸。该产品支持多语言,易于使用,无需专业技能,适合个人和商业项目使用。它提供了一个免费试用,并有多种定价计划供用户选择。

  • Hot Tattoo AI:AI纹身生成器,创造个性化纹身设计

    Hot Tattoo AI是一个革命性的AI纹身生成器,它允许用户轻松创建自定义纹身设计。无论是为男性还是女性寻找完美的纹身设计,该平台都能激发独特且个性化的艺术作品,满足您的个人风格和偏好。该技术的主要优点包括直观易用、设计丰富多样、能够快速生成纹身设计,并且支持与纹身艺术家的协作创作。此外,它还提供了对当前流行趋势的洞察,帮助用户和艺术家保持最新。

  • Pic Pic AI:一体化AI照片编辑器,创造惊艳照片。

    Pic Pic AI编辑器是一个强大的AI图片编辑工具,它提供了多种功能,如照片增强、背景去除、物体移除等,使用户能够轻松地对照片进行专业级别的编辑。该产品以用户友好的界面和高效的AI技术为依托,旨在简化图片编辑流程,提高编辑效率,同时保证输出的图像质量。Pic Pic AI编辑器适合各种水平的用户,无论是社交媒体用户、电商卖家还是专业摄影师,都能通过这个平台提升他们的图像处理能力。

  • AI论文助手:智能论文写作辅助工具,助力学术创作。

    AI论文助手是一个专注于学术写作的在线平台,它利用人工智能技术帮助用户快速生成论文大纲和初稿,支持多种论文类型和学科领域。该产品通过简化论文写作流程,提高写作效率,降低学术写作的难度,特别适合需要撰写毕业论文、期刊论文等学术文档的用户。产品背景基于当前学术界对高效写作工具的需求,定位于教育和学术研究领域,价格方面提供了免费试用和付费服务。

  • Image Describer:AI工具,自动生成图像详细描述

    Image Describer图像描述生成器是一款利用人工智能技术,通过上传图像并根据用户需求输出图像描述的工具。它能够理解图像内容,并生成详细的描述或解释,帮助用户更好地理解图片含义。这款工具不仅适用于普通用户,还能辅助视障人士通过文本转语音功能了解图片内容。图像描述生成器的重要性在于它能够提升图像内容的可访问性,增强信息的传播效率。

  • 算了么suanleme:探索AI解卦,开启心灵之旅

    算了么是一个结合了AI技术与传统文化的趣味网站,它通过AI算法为用户提供卦象解读,旨在为用户带来心灵上的指导和慰藉。产品背景信息显示,算了么旨在通过现代科技与传统智慧的结合,为用户提供一种新颖的探索自我和世界的方式。目前产品提供免费试用,具体价格信息未在页面中给出。

  • WPS Office:AI驱动的免费办公套件,兼容MS Office

    WPS Office是一款集成了文字处理、表格计算、演示制作和PDF阅读功能的办公软件。它以轻量级、兼容性强、操作简便和智能化为特点,提供了包括AI拼写检查、AI翻译、AI内容生成和智能图片编辑在内的多种智能功能。WPS Office支持多平台使用,包括Windows、Mac、Android、iOS和Linux系统,满足不同用户在不同设备上的办公需求。作为一款免费且功能全面的办公软件,WPS Office在全球拥有超过2亿用户,是微软Office软件的有力竞争者。

  • GitHub Readme Generator:一键生成个性化GitHub个人资料README

    GitHub Readme Generator是一个在线工具,它允许用户快速生成个性化的GitHub个人资料README文件。这个工具的重要性在于它简化了创建README的过程,使得用户可以轻松地展示他们的项目、技能和个人成就。它主要面向开发者和开源贡献者,帮助他们更有效地在GitHub上展示自己。该工具是免费的,易于使用,并且可以自定义多种样式和颜色。

今日大家都在搜的词:

热文