谷歌Gemini1.5新功能揭秘:上下文挑战重现准确性
站长网2024-02-21 09:26:370阅
近日,Google Gemini1.5推出了一项令人瞩目的技术突破,该版本引入了一个拥有高达一百万个令牌的上下文窗口功能。这项新功能旨在处理完整的书籍甚至电影,其准确性关注。
尽管Gemini1.5的上下文窗口容量庞大,但可能仍存在不准确再现信息的可能性。在“海底捞针”测试中,该系统需要提取多达100条特定信息,但平均准确度仅在60%至70这项任务相对于复杂文档的摘要撰写而言仍然要简单一些。
值得一提的是,在谷歌对维克多·雨果的《悲惨世界》进行的更复杂的测试中,他们提出了100个问题,共涉及710,000个标记,并使用“归因于已识别来源”的方法进行答案评估。结果显示,在人工评估中,80% 的答案可归因于源文档,而在机器评估中则有91% 的答案可归因于源文档。然而,这一基准倾向目前的权威及其与原著作者之间存在细微的差异。
在“大海捞针”测试中,模型必须在上下文窗口中找到一条信息。这与LLM的实际应用场景关系不大。 |图片:谷歌
尽管社交媒体上对Gemini1.5的积极评价络并不绝,但即将对其准确性进行更深入的评估。大多数评论焦点于功能测试,缺乏对源材料的深入了解。如果信息检索的可信度不高,即使在复杂的查询下,巨大的上下文窗口可能仍然存在问题。
可见, Gemini1.5Pro 提供了令人印象深刻的技术突破,但在实践中,提取复杂的信息仍然是一个挑战。如果其可靠性低于90%,那么实际中的巨大容量的上下文窗口运用中可能并不具备专业的帮助。
0000
评论列表
共(0)条相关推荐
AI时代新风口!吴恩达亲授智能体四大设计模式
【新智元导读】吴恩达认为,智能体的发展将会成为AI时代重要的力量,甚至比基础模型还要重要。工作之余,「吴老师」连发多篇博客,向大家介绍了AI智能体的四大设计模式。AI时代的风口在哪里?吴恩达认为,AIAgent将在今年推动人工智能的大规模进步。——甚至,有可能超过下一代基础模型所带来的影响。他希望所有从事人工智能工作的人,都能关注AI智能体的发展。站长网2024-04-19 14:08:170002行业首家!抖音上线反网暴法律咨询服务
据抖音官方消息,今天,抖音上线了一个新功能——反网暴“法律咨询”。这项功能由抖音与中国法律咨询中心合作推出,目的是为疑似已遭受网暴的用户,免费提供法律咨询服务。用户在抖音APP首页右上角搜索关键词“网暴”“网络暴力”等关键词,点击“维权指引”,即可看到相关内容,也可通过抖音“安全中心”板块逐步进入。此前,平台已上线了一键防暴、一键举报等一系列功能,并主动发起反网暴知识推广和反网暴倡议。站长网2023-12-18 14:41:330000谷歌 AI 聊天机器人 Bard 全面开放使用:升级为 PaLM 2 语言模型
Google宣布为其人工智能聊天机器人Bard添加一系列新功能,包括支持新的语言(日语和韩语),更容易地将文本导出到Google文档和Gmail中,视觉搜索和深色模式。站长网2023-05-11 08:47:140000Midjourney新网站上线 新增灯光模式、灯箱功能等
Midjoureny经过一番努力,终于上线了全新版本的网站,使用体验得到了极大的提升。首先,最令人瞩目的改进是图片搜索速度的大幅提升,从网站显示到图片生成都将变得迅捷高效。一旦一切正常运行,这个新网站将很快取代现有的网站。体验地址:https://beta.midjourney.com/home这次更新的亮点包括:站长网2023-10-26 14:41:360000谷歌推扩散模型变种UFOGen 真正实现一步文生图
要点:1.谷歌研究团队提出了一种名为UFOGen的扩散模型变种,只需要一步就能生成高质量的图片。2.UFOGen通过改变生成器的参数化方式和重构损失函数的计算方式,理论上可以实现一步生成。3.UFOGen的生成器和判别器都是由StableDiffusion模型初始化,这样可以最大限度地利用StableDiffusion的内部信息。站长网2023-11-20 14:54:030001