谷歌Gemini1.5新功能揭秘:上下文挑战重现准确性
站长网2024-02-21 09:26:370阅
近日,Google Gemini1.5推出了一项令人瞩目的技术突破,该版本引入了一个拥有高达一百万个令牌的上下文窗口功能。这项新功能旨在处理完整的书籍甚至电影,其准确性关注。
尽管Gemini1.5的上下文窗口容量庞大,但可能仍存在不准确再现信息的可能性。在“海底捞针”测试中,该系统需要提取多达100条特定信息,但平均准确度仅在60%至70这项任务相对于复杂文档的摘要撰写而言仍然要简单一些。
值得一提的是,在谷歌对维克多·雨果的《悲惨世界》进行的更复杂的测试中,他们提出了100个问题,共涉及710,000个标记,并使用“归因于已识别来源”的方法进行答案评估。结果显示,在人工评估中,80% 的答案可归因于源文档,而在机器评估中则有91% 的答案可归因于源文档。然而,这一基准倾向目前的权威及其与原著作者之间存在细微的差异。
在“大海捞针”测试中,模型必须在上下文窗口中找到一条信息。这与LLM的实际应用场景关系不大。 |图片:谷歌
尽管社交媒体上对Gemini1.5的积极评价络并不绝,但即将对其准确性进行更深入的评估。大多数评论焦点于功能测试,缺乏对源材料的深入了解。如果信息检索的可信度不高,即使在复杂的查询下,巨大的上下文窗口可能仍然存在问题。
可见, Gemini1.5Pro 提供了令人印象深刻的技术突破,但在实践中,提取复杂的信息仍然是一个挑战。如果其可靠性低于90%,那么实际中的巨大容量的上下文窗口运用中可能并不具备专业的帮助。
0000
评论列表
共(0)条相关推荐
谷歌 I/O 大会为安卓开发者推出 AI 编程机器人 Studio Bot
在谷歌年度I/O开发者大会上,AndroidStudio向谷歌产品组合中的众多产品一样,获得了人工智能的升级。即将推出的AndroidStudioHedgehog版本将第一个添加对AI的支持,这是一种新的AndroidStudio会话体验,旨在帮助开发者编写代码、修复错误和回答更多的常见编程问题。站长网2023-05-11 15:07:380000这届年轻人可以不谈恋爱,但必须要找搭子
“上班无话不谈,下班无话可说。”你以为这是在说某个坚强的打工人,其实讲的是职场摸鱼搭子的相处模式。搭子,一种互联网新型垂直社交关系,主打的就是“陪伴感”。不仅有上班时间的摸鱼搭子,还有口味相投的饭搭子,互相监督的减肥搭子,日常“瑞”一下的咖啡搭子(指一起喝瑞幸),拼多多帮忙砍一刀的穷搭子……只要聊得来,万物皆可“搭”。站长网2023-04-27 13:57:340000智能驾驶升级!小米SU7宣布推送城市领航辅助先锋版:全国都能开
快科技8月30日消息,今日,小米汽车宣布小米SU7城市领航辅助先锋版开始推送,号称实现城市NOA全国都能开”。据介绍,城市领航辅助先锋版对路口通行、灵活绕行能力进行了优化,并新增小路通行能力。路口通行能力优化后,复杂路口也可精确规划通行轨迹,灵活绕行能力优化后,可及时避障,适时超车。新增的小路通行能力可实现跨线避让、车道内避让、借道避让、超车变道等驾驶行为。站长网2024-08-31 16:53:330001发改委等部门:在新一代信息技术、人工智能等重点行业深度推进产教融合
发改委等部门日前印发《职业教育产教融合赋能提升行动实施方案(2023—2025年)》。站长网2023-06-13 14:24:250001斗地主AI曝光!胜率高达82.7% B站播放超30万次
斗地主,这个家庭常见的扑克牌游戏,一直以来都是考验玩家智谋和运气的经典。然而,如今,随着人工智能技术的不断发展,这个游戏也迎来了一场数字化的变革。站长网2023-10-31 14:13:150003