研究发现,GPT 和其他 AI 模型无法分析 SEC 备案文件
划重点:
- 📌 大型语言模型在分析 SEC 备案文件方面存在困难,常常无法正确回答问题。
- 📌 AI 模型经常会产生虚构的数字和事实,或者拒绝回答问题。
- 📌 AI 模型的性能必须更高才能在金融等受监管行业的大公司中实际应用。
一家名为 Patronus AI 的初创公司的研究人员发现,大型语言模型在分析美国证券交易委员会(SEC)备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置 OpenAI 的 GPT-4-Turbo,当给予几乎整个备案文件的阅读能力和相关问题时,仅有79% 的问题回答正确。Patronus AI 的创始人告诉 CNBC,这些所谓的大型语言模型有时会拒绝回答问题,或者会 “产生幻觉”,出现备案文件中不存在的数字和事实。
Patronus AI 的联合创始人 Anand Kannappan 表示:“这种性能水平完全不能接受。要想实现自动化和投入生产使用,性能必须更高。” 这些发现凸显了 AI 模型在大公司中应用的一些挑战,尤其是在金融等受监管行业。这些公司希望将先进技术应用于客户服务或研究,但 AI 模型面临一些困难。
图源备注:图片由AI生成,图片授权服务商Midjourney
快速提取重要数字并对财务陈述进行分析被认为是聊天机器人最有前景的应用之一,自去年底发布 ChatGPT 以来一直备受关注。SEC 备案文件中充满着重要的数据,如果一个机器人能够准确地概括这些文件或快速回答相关问题,它可以使用户在竞争激烈的金融行业中占据优势。
在过去的一年里,彭博社开发了自己的金融数据 AI 模型,商学院教授研究了 ChatGPT 是否可以解析财经头条新闻,摩根大通正在开发一个基于 AI 的自动投资工具。根据 CNBC 之前的报道,生成式 AI 预计每年可以为银行业带来数万亿美元的收益。
然而,GPT 进入该行业并不顺利。微软首次推出使用 OpenAI 的 GPT 的必应聊天时,其主要示例之一是使用聊天机器人快速概述盈利新闻稿。观察人员很快就意识到微软示例中的数字是错误的,一些数字完全是虚构的。
Patronus AI 的联合创始人表示,将大型语言模型应用于实际产品的挑战之一是,它们是非确定性的,不能保证每次给出相同的输出。这意味着公司需要进行更严格的测试,以确保它们的模型运行正确,不会偏离主题,并提供可靠的结果。
该公司的创始人在 Facebook 的母公司 Meta 公司相识,他们在该公司从事与理解模型生成答案的问题以及使其更加 “负责任” 方面的 AI 问题。他们成立了 Patronus AI,该公司已从 Lightspeed Venture Partners 获得种子资金,旨在通过软件实现对大型语言模型的自动化测试,以便公司可以确保其 AI 机器人不会以离题或错误的答案令客户或员工感到惊讶。
Patronus AI 致力于编写一套由主要上市公司的 SEC 备案文件中提取的10,000多个问题和答案,该数据集被称为 FinanceBench。数据集包括正确答案,以及在任何给定备案文件中准确查找答案的位置。并非所有答案都可以直接从文本中提取,有些问题需要轻微的数学或推理。
Patronus AI 测试了四个语言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用该公司生成的150个问题的子集进行测试。他们还测试了不同的配置和提示方式,例如将 OpenAI 模型在问题中给出与答案相关的确切源文本的 “Oracle” 模式。在其他测试中,模型被告知底层 SEC 文件存储的位置,或者在提示中包含 “长上下文”,即几乎完整的 SEC 备案文件与问题一起提供。
GPT-4-Turbo 在该公司的 “闭卷” 测试中失败,该测试不允许其访问任何 SEC 源文件。它在被问到的150个问题中,未能回答88% 的问题,只有14次给出了正确答案。当获得对底层备案文件的访问权限时,其性能有了显著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情况下正确回答问题,但仍然在15% 的情况下给出了错误答案。然而,这种测试方式并不现实,因为它需要人工输入以找到备案文件中确切的相关位置,而这正是许多人希望语言模型能够解决的问题。
Meta 开发的开源 AI 模型 Llama2在获得各种底层文件的访问权限时,产生了一些最糟糕的 “幻觉”,错误回答的比例高达70%,仅有19% 的回答正确。Anthropic 的 Claude2在提供 “长上下文” 的情况下表现良好,可以回答75% 的问题,21% 的回答错误,仅有3% 的问题未能回答。GPT-4-Turbo 在长上下文测试中表现也不错,79% 的问题回答正确,17% 的回答错误。
在进行测试后,Patronus AI 的创始人对模型的表现感到惊讶,即使在指导答案所在位置的情况下,它们的表现仍然很差。“即使答案在上下文中,模型拒绝回答的频率也非常高,而人类是可以回答的。”Qian 说道。然而,即使模型表现良好,仍然不够好,Patronus AI 发现。“即使模型在20次中回答错误1次,这个错误率对于受监管的行业来说仍然不可接受。”Qian 说道。
然而,Patronus AI 的创始人认为,像 GPT 这样的语言模型在金融行业中有巨大的潜力,无论是分析师还是投资者,如果 AI 技术继续改进。“我们确实认为结果可能非常有希望。”Kannappan 表示,“随着时间的推移,模型将会变得更好。我们非常有希望在长期内,很多工作可以实现自动化。但是现在,你肯定需要至少一个人参与来支持和引导你的工作流程。”
哈佛大学发布人工智能在课堂使用指南
文章概要:1.哈佛艺术与科学学院向教授发布了第一份关于在课程中使用生成式人工智能的指南。2.指南建议三种不同的人工智能使用政策,强调教授应清楚传达课程政策。3.指南建立在保护数据隐私的基础上,不鼓励使用AI检测工具。最近,人工智能尤其是ChatGPT的兴起使其在教育界的应用备受关注。为哈佛大学最大的学院艺术与科学学院今年夏天向教授发布了第一份关于在课程中使用生成式人工智能的指南。站长网2023-09-01 18:17:240000万店规模,年入70亿,谁在县城小镇闷声发财?
回山西河津创业的二毛,两年间感受到众多新消费品牌涌入到这座县级市。一条街上,七八十家奶茶店密集铺开,瑞幸、库迪咖啡的商战已经打到乡镇,仅隔着200米先后开业。在零食集合店庞大的SKU中,仅用50元就可以买到各式各样的零食。广袤的县域市场,正诞生越来越多的“隐形小巨头”,包括7000家门店的甜啦啦、5000余家门店的塔斯汀汉堡、3000家门店的零食很忙、2000家门店的赵一鸣零食。站长网2023-10-12 17:57:340000智源研究院开源JudgeLM 可评测各类大模型并输出评分
智源研究院开源了一种名为JudgeLM的裁判模型,可以高效准确地评判各类大模型。与GPT-4相比,JudgeLM仅需1/120的成本,就能达到90%以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。站长网2023-11-13 21:44:480000损失过亿!唯品会崩溃遭P0级故障:负责人被免职
快科技6月5日消息,今年3月29日,唯品会崩了”登上热搜,由于崩溃时间太长,影响了很多消费者无法正常下单,唯品会官方对此回应称,因系统短时故障,主站加购”等功能或出现异常。今日,唯品会发布关于329机房宕机故障处理公告”,公告称,3月29日(00:14-12:01)南沙IDC冷冻系统故障,导致机房设备温度快速升高宕机,造成线上商城停止服务。站长网2023-06-06 10:35:340000竹间智能发布“1+4”大模型产品体系 帮助企业构建专属大模型
竹间智能最近推出了一套“14”大模型产品体系,旨在推动企业数智化转型。其中,“1”代表大型模型训练调优平台EmotiBrain,“4”则包括KKBot、BotFactory、EmotiCoach、MagicWriter和KnowledgeFactory等四种核心产品,分别涵盖对话、对练培训、写作助手和知识管理四个方面的产品。站长网2023-06-21 16:47:440002