谷歌Gemini1.5新功能揭秘:上下文挑战重现准确性
站长网2024-02-21 09:26:370阅
近日,Google Gemini1.5推出了一项令人瞩目的技术突破,该版本引入了一个拥有高达一百万个令牌的上下文窗口功能。这项新功能旨在处理完整的书籍甚至电影,其准确性关注。
尽管Gemini1.5的上下文窗口容量庞大,但可能仍存在不准确再现信息的可能性。在“海底捞针”测试中,该系统需要提取多达100条特定信息,但平均准确度仅在60%至70这项任务相对于复杂文档的摘要撰写而言仍然要简单一些。
值得一提的是,在谷歌对维克多·雨果的《悲惨世界》进行的更复杂的测试中,他们提出了100个问题,共涉及710,000个标记,并使用“归因于已识别来源”的方法进行答案评估。结果显示,在人工评估中,80% 的答案可归因于源文档,而在机器评估中则有91% 的答案可归因于源文档。然而,这一基准倾向目前的权威及其与原著作者之间存在细微的差异。
在“大海捞针”测试中,模型必须在上下文窗口中找到一条信息。这与LLM的实际应用场景关系不大。 |图片:谷歌
尽管社交媒体上对Gemini1.5的积极评价络并不绝,但即将对其准确性进行更深入的评估。大多数评论焦点于功能测试,缺乏对源材料的深入了解。如果信息检索的可信度不高,即使在复杂的查询下,巨大的上下文窗口可能仍然存在问题。
可见, Gemini1.5Pro 提供了令人印象深刻的技术突破,但在实践中,提取复杂的信息仍然是一个挑战。如果其可靠性低于90%,那么实际中的巨大容量的上下文窗口运用中可能并不具备专业的帮助。
0000
评论列表
共(0)条相关推荐
谁在小红书上占卜?
“我和他之间的感情,到底有没有结果?”小颜(化名)与男友已经在一起一年了,但两人总是时不时地因为一些小事情吵架,这让小颜开始怀疑两人是否真的有未来。某天夜里,躁郁不安,经历着心理斗争的小颜,打消了疑虑,将问题连带着自己的姓名、生辰八字以及168元算命费,一起发给了刚添加的“大师”。很快,她便收到了回复,说两人的感情会有一些波折,但最终会走到一起。这让小颜无比欣慰,这个结果正是她想要听到的。站长网2023-04-19 11:38:130000Adobe 为 Premiere Pro 加入 AI 驱动的基于文本的视频编辑功能
在4月15日至4月19日举行的2023年NAB展会之前,Adobe宣布对其部分CreativeCloud应用进行更新,包括PremierePro和AfterEffects。Adobe表示,新的PremierePro是迄今为止「最快和最可靠的版本」,具有后台自动保存、系统重置选项、额外的GPU加速等更多功能。站长网2023-04-14 10:34:090001郭明錤:苹果可能在 2024 年斥资 47.5 亿美元购买人工智能服务器
站长之家(ChinaZ.com)10月24日消息:据苹果分析师郭明錤预测,苹果预计将在2024年投入数十亿美元用于硬件以支持其人工智能(AI)的开发。郭明錤预计,苹果将在2023年至少投入6.2亿美元用于服务器,并在2024年投入47.5亿美元用于服务器。站长网2023-10-24 23:32:390000AI杀入协同办公,谁能拿到安全牌?
大模型落地的第一场交锋,精准落在协同办公。最早具备先发优势的是微软,凭借与OpenAI的资本关系,微软先是在2月份将GPT接入搜索Bing,3月份又甩出一张王炸,Office全家桶接入GPT-4,推出Microsoft365Copilot。微软公司董事长兼CEO纳德拉将这个动作视为一个重要分水岭,「这将从根本上改变我们的工作方式,并开启新一波生产力增长。」这股旋风很快刮到国内。站长网2023-05-05 11:10:190001AI视野:苹果文生图大模型MDM亮相;GPT-3.5参数量仅有200亿;Midjourney在版权案中获胜;苹果M3芯片炸场
🤖📈💻💡大模型动态苹果文生图大模型MDM亮相苹果发布了俄罗斯套娃式扩散模型(MDM),用于生成高分辨率图像和视频,通过嵌套UNet架构和多分辨率损失提高训练效率和质量。论文地址:https://arxiv.org/pdf/2310.15111.pdf【AiBase提要:】👉苹果发布了MDM,支持高分辨率图像生成。站长网2023-10-31 15:33:360000