研究发现，GPT 和其他 AI 模型无法分析 SEC 备案文件

站长网2023-12-20 15:00:470阅

划重点:

- 📌 大型语言模型在分析 SEC 备案文件方面存在困难，常常无法正确回答问题。

- 📌 AI 模型经常会产生虚构的数字和事实，或者拒绝回答问题。

- 📌 AI 模型的性能必须更高才能在金融等受监管行业的大公司中实际应用。

一家名为 Patronus AI 的初创公司的研究人员发现，大型语言模型在分析美国证券交易委员会（SEC）备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置 OpenAI 的 GPT-4-Turbo，当给予几乎整个备案文件的阅读能力和相关问题时，仅有79% 的问题回答正确。Patronus AI 的创始人告诉 CNBC，这些所谓的大型语言模型有时会拒绝回答问题，或者会 “产生幻觉”，出现备案文件中不存在的数字和事实。

Patronus AI 的联合创始人 Anand Kannappan 表示:“这种性能水平完全不能接受。要想实现自动化和投入生产使用，性能必须更高。” 这些发现凸显了 AI 模型在大公司中应用的一些挑战，尤其是在金融等受监管行业。这些公司希望将先进技术应用于客户服务或研究，但 AI 模型面临一些困难。

图源备注：图片由AI生成，图片授权服务商Midjourney

快速提取重要数字并对财务陈述进行分析被认为是聊天机器人最有前景的应用之一，自去年底发布 ChatGPT 以来一直备受关注。SEC 备案文件中充满着重要的数据，如果一个机器人能够准确地概括这些文件或快速回答相关问题，它可以使用户在竞争激烈的金融行业中占据优势。

在过去的一年里，彭博社开发了自己的金融数据 AI 模型，商学院教授研究了 ChatGPT 是否可以解析财经头条新闻，摩根大通正在开发一个基于 AI 的自动投资工具。根据 CNBC 之前的报道，生成式 AI 预计每年可以为银行业带来数万亿美元的收益。

然而，GPT 进入该行业并不顺利。微软首次推出使用 OpenAI 的 GPT 的必应聊天时，其主要示例之一是使用聊天机器人快速概述盈利新闻稿。观察人员很快就意识到微软示例中的数字是错误的，一些数字完全是虚构的。

Patronus AI 的联合创始人表示，将大型语言模型应用于实际产品的挑战之一是，它们是非确定性的，不能保证每次给出相同的输出。这意味着公司需要进行更严格的测试，以确保它们的模型运行正确，不会偏离主题，并提供可靠的结果。

该公司的创始人在 Facebook 的母公司 Meta 公司相识，他们在该公司从事与理解模型生成答案的问题以及使其更加 “负责任” 方面的 AI 问题。他们成立了 Patronus AI，该公司已从 Lightspeed Venture Partners 获得种子资金，旨在通过软件实现对大型语言模型的自动化测试，以便公司可以确保其 AI 机器人不会以离题或错误的答案令客户或员工感到惊讶。

Patronus AI 致力于编写一套由主要上市公司的 SEC 备案文件中提取的10，000多个问题和答案，该数据集被称为 FinanceBench。数据集包括正确答案，以及在任何给定备案文件中准确查找答案的位置。并非所有答案都可以直接从文本中提取，有些问题需要轻微的数学或推理。

Patronus AI 测试了四个语言模型:OpenAI 的 GPT-4和 GPT-4-Turbo，Anthropic 的 Claude2和 Meta 的 Llama2，使用该公司生成的150个问题的子集进行测试。他们还测试了不同的配置和提示方式，例如将 OpenAI 模型在问题中给出与答案相关的确切源文本的 “Oracle” 模式。在其他测试中，模型被告知底层 SEC 文件存储的位置，或者在提示中包含 “长上下文”，即几乎完整的 SEC 备案文件与问题一起提供。

GPT-4-Turbo 在该公司的 “闭卷” 测试中失败，该测试不允许其访问任何 SEC 源文件。它在被问到的150个问题中，未能回答88% 的问题，只有14次给出了正确答案。当获得对底层备案文件的访问权限时，其性能有了显著改善。在 “Oracle” 模式下，GPT-4-Turbo 在85% 的情况下正确回答问题，但仍然在15% 的情况下给出了错误答案。然而，这种测试方式并不现实，因为它需要人工输入以找到备案文件中确切的相关位置，而这正是许多人希望语言模型能够解决的问题。

Meta 开发的开源 AI 模型 Llama2在获得各种底层文件的访问权限时，产生了一些最糟糕的 “幻觉”，错误回答的比例高达70%，仅有19% 的回答正确。Anthropic 的 Claude2在提供 “长上下文” 的情况下表现良好，可以回答75% 的问题，21% 的回答错误，仅有3% 的问题未能回答。GPT-4-Turbo 在长上下文测试中表现也不错，79% 的问题回答正确，17% 的回答错误。

在进行测试后，Patronus AI 的创始人对模型的表现感到惊讶，即使在指导答案所在位置的情况下，它们的表现仍然很差。“即使答案在上下文中，模型拒绝回答的频率也非常高，而人类是可以回答的。”Qian 说道。然而，即使模型表现良好，仍然不够好，Patronus AI 发现。“即使模型在20次中回答错误1次，这个错误率对于受监管的行业来说仍然不可接受。”Qian 说道。

然而，Patronus AI 的创始人认为，像 GPT 这样的语言模型在金融行业中有巨大的潜力，无论是分析师还是投资者，如果 AI 技术继续改进。“我们确实认为结果可能非常有希望。”Kannappan 表示，“随着时间的推移，模型将会变得更好。我们非常有希望在长期内，很多工作可以实现自动化。但是现在，你肯定需要至少一个人参与来支持和引导你的工作流程。”

研究发现GPT和其他AI 模型无法分析SEC备案文件

0000

评论列表

共(0)条

相关推荐

站长资讯
小米 Redmi Book Pro 14/16 2024 笔记本接入澎湃 OS
小米官方宣布，将在2月22日晚间揭晓RedmiBookPro2024笔记本的神秘面纱。这款新品被誉为“小米笔记本业务的崭新篇章”，它充分整合了小米在手机领域的产业能力，并将全面融入小米澎湃OS，为用户提供更为丰富的生态体验。
站长网2024-02-20 10:54:10
0000
全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力
AI的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元(TPU)。据不完全统计，目前全球超过140款AI加速器，用于开发和部署深度学习时代的机器学习模型。EpochAI带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。除了传统硬件厂商英伟达、AMD等纷纷推出加速卡，一些新兴势力开始「造芯」，算力持续提升。
站长网站长资讯2025-02-16 10:10:49
0000
站长资讯
闯入美榜Top100，昔日网文王者的短剧APP终于还是杀出来了？
不久前，一款名为DreameShort的产品闯入美国iOS畅销总榜Top100，刷新近30天在美榜的最高排名。6月20日，DreameShort来到美国iOS畅销总榜Top100
站长网2024-07-04 09:21:13
0000
站长资讯
华为 7 月 7 日将发布直接对标 ChatGPT 的「盘古 Chat」多模态千亿级大模型
继百度的「文心一言」、商汤的「日日新SenseNova」大模型体系，以及阿里巴巴的「通义千问」等之后，华为也加入AI大模型的行列。
站长网2023-06-05 19:28:27
0000
站长资讯
Meta AI 负责人：当前的 ChatGPT 等人工智能还不如狗聪明
当前的人工智能系统（如ChatGPT）并没有人类级别的智能，甚至不如狗聪明。这是Meta的AI负责人在关于这种快速发展技术危险的论坛中表示的。ChatGPT是由OpenAI开发的，它基于所谓的大型语言模型。这意味着该AI系统经过大量的语言数据训练，用户可以通过问题和请求与其进行对话，而聊天机器人则用我们能理解的语言回答。
站长网2023-06-16 16:45:18
0000