谷歌Gemini1.5新功能揭秘:上下文挑战重现准确性
站长网2024-02-21 09:26:370阅
近日,Google Gemini1.5推出了一项令人瞩目的技术突破,该版本引入了一个拥有高达一百万个令牌的上下文窗口功能。这项新功能旨在处理完整的书籍甚至电影,其准确性关注。
尽管Gemini1.5的上下文窗口容量庞大,但可能仍存在不准确再现信息的可能性。在“海底捞针”测试中,该系统需要提取多达100条特定信息,但平均准确度仅在60%至70这项任务相对于复杂文档的摘要撰写而言仍然要简单一些。
值得一提的是,在谷歌对维克多·雨果的《悲惨世界》进行的更复杂的测试中,他们提出了100个问题,共涉及710,000个标记,并使用“归因于已识别来源”的方法进行答案评估。结果显示,在人工评估中,80% 的答案可归因于源文档,而在机器评估中则有91% 的答案可归因于源文档。然而,这一基准倾向目前的权威及其与原著作者之间存在细微的差异。

在“大海捞针”测试中,模型必须在上下文窗口中找到一条信息。这与LLM的实际应用场景关系不大。 |图片:谷歌
尽管社交媒体上对Gemini1.5的积极评价络并不绝,但即将对其准确性进行更深入的评估。大多数评论焦点于功能测试,缺乏对源材料的深入了解。如果信息检索的可信度不高,即使在复杂的查询下,巨大的上下文窗口可能仍然存在问题。
可见, Gemini1.5Pro 提供了令人印象深刻的技术突破,但在实践中,提取复杂的信息仍然是一个挑战。如果其可靠性低于90%,那么实际中的巨大容量的上下文窗口运用中可能并不具备专业的帮助。
0000
评论列表
共(0)条相关推荐
9块9特卖,上线淘宝首页
文|王崭淘宝的首页悄悄改了版。在一些消费者的手机上,淘宝首页第一屏的聚划算被一个名为“99特卖”的板块取代,主打便宜划算还包邮。一位近淘宝相关人士表示,99特卖频道可以理解为之前天天特卖的升级,正在从一个需要搜索的隐藏入口变成了首页频道入口,预计将在本月底全面上线。站长网2023-04-25 12:08:530000微软必应聊天将非Edge浏览器的文本输入量提升至4000个
微软近日对非Edge浏览器访问必应聊天的字符数限制进行了放宽,将用户输入的文本数量从2000个提升至4000个,但每个主题对话依然仅限5轮。这意味着用户在每个主题下的对话仍然需要在5轮以内完成,这可能会对一些用户造成不便。然而,微软可能会根据用户反馈和市场需求进一步增加对话轮次的限制。站长网2023-10-27 15:27:520000司乘聊天被弹窗提醒?滴滴回应:纯属谣言
昨日,滴滴出行发布了一份《关于司乘聊天被弹窗提醒"的澄清说明》,针对近期网络上流传的视频,声称车内和司机聊收入会被滴滴弹窗提醒"的传闻进行了回应。滴滴表示,经过与司乘双方核实及对系统后台的仔细排查后,证实这一传闻纯属谣言。在该行程中,滴滴App并未出现所谓的弹窗提醒,更未就司乘交流内容有任何语音播报或提醒。目前该谣言的原发作者已删除不实内容。站长网2023-11-15 18:08:510000斯坦福推新AI模型 可快速找出图片中位置,准确率92%
一群斯坦福大学研究生发布了一个新项目,他们的AI模型经过了10万个随机位置、50万个街景图片以及其他图片的训练。这个模型能够快速准确地找出图片中的位置,目前的准确率达到了92%。论文地址:https://arxiv.org/pdf/2307.05845.pdf站长网2024-01-10 14:23:540001包装水战,未见终局
水饮市场今年的焦点,除了无糖茶,还有包装水。作为最大的细分软饮市场、一个基础民生品类,包装水产品的生命周期超长且极其同质化、不存在口味差异,一直都是巨头的游戏,行业格局也较稳定。这里的巨头游戏,指的是行业玩家需要同时具备强品牌心智、强渠道建设能力和强产品营销能力。不管这些能力是全国性的还是区域性的,这都是基本门槛。站长网2024-08-15 23:31:140001