AI初创公司Galileo推新工具，可解释AI大模型的幻觉现象

站长网2023-09-20 11:42:152阅

文章概要:

1. 美国AI初创公司Galileo发布新工具，帮助用户更好地理解和解释大型语言模型（LLMs）的输出，特别是幻觉现象。

2. Galileo Studio现在具备实时监测功能，允许用户评估输入和输出，提供新指标和防护措施以优化LLMs的性能。

3. Galileo还引入了"接地性"指标，用于确定模型输出是否与训练数据相关，以区分幻觉和模型输出的真实性。

在人工智能领域，特定生成型人工智能模型（LLMs）产生幻觉现象的问题一直令人困惑。然而，旧金山的AI初创公司Galileo正在努力解决这一问题，并为用户提供了一系列新的监测和指标功能，以帮助他们更好地理解和解释LLMs的输出。

Galileo Studio是该公司旗下的工具，最新更新使用户不仅可以评估输入和上下文，还可以实时观察输出。这些新的监测功能使Galileo能够更好地解释为什么模型会产生特定的输出，并提供新的指标和防护措施来优化LLMs的性能。

图源备注：图片由AI生成，图片授权服务商Midjourney

Galileo的联合创始人兼CEO Vikram Chatterji在接受VentureBeat的独家采访中表示:“最近几个月的真正新功能是我们添加了实时监测，因为现在您实际上可以观察到出了什么问题。这已经成为一个端到端的产品，用于不断改进大型语言模型应用。”

LLMs通常依赖于应用程序向LLM发出API调用以获取响应。Galileo拦截了这些API调用，包括输入和生成的输出。通过拦截这些数据，Galileo能够向用户提供关于模型性能以及输出准确性的准实时信息。

当我们讨论生成的AI输出的事实准确性时，通常会涉及到幻觉现象，即生成了与事实不符的输出。Chatterji解释说，LLM实际上是在尝试预测下一个单词应该是什么，但它还有关于下一个备选单词的想法，并为所有这些不同的标记或不同的单词分配概率。

Galileo通过与模型本身连接，使其能够准确了解这些概率，然后提供额外的指标来更好地解释模型输出并理解为什么会出现特定的幻觉现象。通过提供这些见解，Galileo的目标是帮助开发人员更好地调整模型和微调以获得最佳结果。

除了幻觉问题，LLM基础应用程序提供的响应可能会引发一些问题，如不准确、不当的语言或机密信息泄露。为了解决这些问题，Galileo Studio还引入了新的"防护措施"指标。对于AI模型，防护措施是关于模型可以生成的信息、语气和语言的限制。

对于金融服务和医疗保健等领域的组织来说，存在与信息披露和语言使用相关的监管合规性问题。通过防护措施指标，Galileo用户可以设置自己的防护措施，然后监控和测量模型输出，以确保LLMs不会偏离正轨。

此外，Galileo还跟踪一项被称为"接地性"的指标，用于确定模型的输出是否符合其提供的训练数据的范围。如果一个模型在抵押贷款文件上进行训练，但提供了与这些文件完全无关的答案，Galileo可以通过接地性指标检测到这一情况。这使用户可以知道响应是否与模型的训练背景相关。

Galileo为用户提供了一套全面的指标，使他们能够更好地理解模型的输出并解释其真实性。这些指标不仅有助于发现幻觉现象，还以可视化的方式解释了模型在每个单词基础上的困惑，有助于开发人员优化模型以获得最佳结果。同时，通过防护措施和接地性指标，Galileo还帮助开发人员确保LLMs的输出不会引发问题，如不准确或不合规的响应。

AI初创公司Galileo推新工具可解释AI大模型的幻觉现象

0002

评论列表

共(0)条

相关推荐

DeepMind联合创始人：GPT-5正在训练中比当前模型大100倍
快科技9月3日消息，DeepMind联合创始人Suleyman近日在采访中表示，GPT-5仍在秘密训练中，未来将会比现在的GPT-4大100倍。其实，OpenAICEOSamAltman此前曾否认训练GPT-5的这一说法。有消息人士表示，OpenAI可能给它起了一个新名字，所以他们才说没有训练GPT-5。
站长网站长资讯2023-09-03 17:04:42
0000
站长资讯
外卖霸王餐刷单，到底苦了谁
通过外卖霸王餐，商家虽然得到了销量和好评，但不少商家给陆玖商业评论算了一笔账，表示钱都被刷单的赚走了。吃外卖霸王餐，不被打还能返利?近期，在社交平台上，涌现很多推荐外卖“霸王餐”APP的帖子，这些APP中充斥着“满25减20”“满12减10”的大额返利活动，甚至还有满10减10的免费外卖餐，俘获了一众消费者的心。
站长网2023-10-16 09:20:13
0000
站长资讯
大模型应用，必须警惕“速成幻觉”
我们知道，大模型会编造不正确的答案，产生“幻觉”。其实，在应用层面，还存在一个更隐蔽的“幻觉”，就是创业公司忽略了大模型落地所需要的长周期、重基建和工程化难度，带来的“速成幻觉”。随着“百模大战”拉开序幕，大模型过剩带来的市场挤压，也给整个大模型生态带来了行业洗牌的风险。越来越多的人有了共识，基础通用大模型竞争激烈，注定是少数人的游戏。创业公司随时可能倒掉，造成项目烂尾。
站长网2023-07-26 12:18:34
0000
站长资讯
抖音测试“顺手价”功能深化布局本地生活市场
据新浪科技报道，抖音本地生活近期正在内测"顺手价"功能，为用户提供更多优惠选择，同时为商家带来新的流量机会。据抖音内部人士确认，该功能目前正在测试阶段。"顺手价"功能将在用户完成团购订单支付后，在订单页面推荐1公里范围内的其他团购商品，价格低于常规团购价。这一功能被官方称为"顺路消费，专享优惠"。
站长网2024-07-16 14:28:39
0001
站长资讯
拼多多双11战报:百亿补贴订单量同比增长107% 用户突破6.2亿
拼多多“11.11迎来真香”收官，参与平台大促的品牌、商家以及商品数量均创新高，农货、国货以及全球好物等超40个细分类目实现翻倍增长。另外，百亿补贴订单量同比增长107%，秒杀频道为超10万个中小商家提供增量引擎，百亿补贴用户突破6.2亿。
站长网2023-11-13 21:44:49
0000