苹果研究人员提出MAD-Bench基准,克服多模态大语言模型中幻觉和误导性提示
**划重点:**
1. 🧠 MLLMs在处理误导性信息时存在脆弱性,苹果提出MAD-Bench基准解决问题。
2. 📊 MAD-Bench包含850个图像提示对,评估MLLMs在文本提示和图像之间处理一致性的能力。
3. 🚀 研究表明GPT-4V在场景理解和视觉混淆方面表现更好,为提高AI模型鲁棒性提供了战略性提示设计方案。
在人工智能领域,多模式大语言模型(MLLMs)在推动进步方面发挥了巨大作用,但它们面临处理误导性信息的挑战,可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。
最近的研究探讨了使用MLLMs进行视觉指导调整、引用和基础、图像分割、图像编辑以及图像生成的方法。像GPT-4V和Gemini这样的专有系统的推出进一步推动了MLLM研究。关于MLLM中的幻觉的研究主要集中在通过提示工程和模型增强来缓解问题。MLLM中的各种幻觉包括描述不存在的对象、误解空间关系以及错误计数对象等。这些挑战突显了当前人工智能能力中的重大差距。
苹果的研究人员提出了MAD-Bench,这是一个经过策划的基准,包含850个图像提示对,用于评估MLLMs在文本提示和图像之间处理一致性的能力。受评估的包括GPT-4V等热门MLLMs以及开源模型如LLaVA-1.5和CogVLM,揭示了MLLMs在处理误导性指令方面的脆弱性。
数据集包括六类欺骗:对象计数、不存在的对象、对象属性、场景理解、空间关系和视觉混淆。视觉混淆类别使用欺骗性的提示和图像,包括3D绘画、视觉错位摄影和镜面反射。使用GPT-4生成了误导性提示,并使用COCO数据集的地面真实标题手动过滤以确保符合欺骗性标准并与相关图像相关。
结果显示,GPT-4V在场景理解和视觉混淆类别中的表现更好,准确率超过90%。支持边界框输入和输出的模型在处理不存在的对象时可能更好地服务于基准。此外,GPT-4V对视觉数据有更复杂的理解,不容易受到不准确信息的误导。不正确响应的常见原因包括错误的对象检测、冗余对象识别、对非可见对象的推断以及不一致的推理。研究强调,通过战略性的提示设计,可以增强AI模型对试图误导或混淆它们的尝试的鲁棒性。
这项研究揭示了MLLMs对误导性提示的脆弱性问题,并提出了一个有望解决这一问题的解决方案,即MAD-Bench基准。该基准提高了模型的准确性,为未来研究开发更可靠、值得信赖的MLLMs铺平了道路。作为一个不断发展的领域,解决这些挑战对于在现实应用中部署MLLMs至关重要。
论文地址:https://arxiv.org/abs/2402.13220
一小时爆卖3万只,卖空上百吨!它在今年火出圈
今年中秋国庆假期,来自新疆的“冰川雪蟹”火了,成为不少长三角家庭餐桌上的网红时鲜。9月上旬,一则#新疆大螃蟹发货了#的微博热搜曾引发网友围观。据中新社,新疆阿勒泰地区,今年的第一批螃蟹被打捞上岸,送往浙江、上海等地,比阳澄湖等内地产区还要早上10天左右。站长网2023-10-06 09:57:510000百度网盘云一朵文件助手上线 转发文章即可生成简洁文章摘要
百度网盘宣布云一朵文件助手上线。云一朵文件助手是百度网盘的企业微信号,通过先进的自然语言处理和机器学习技术,能对文章的主题、内容和结构进行快速准确的分析,然后生成简洁明了的摘要。使用云一朵文件助手可以帮助用户快速提取文章的核心内容,并进行分段总结,提高阅读效率。站长网2023-09-07 16:38:080001清华发布SmartMoE:支持用户一键实现 MoE 模型分布式训练
清华大学计算机系PACMAN实验室发布了一种稀疏大模型训练系统SmartMoE,该系统支持用户一键实现Mixture-of-Experts(MoE)模型的分布式训练,并通过自动搜索并行策略来提高训练性能。论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf站长网2023-08-08 12:00:010000AI图形设计工具Recraft完成1200万美元A轮融资,将构建自有基础模型
划重点:🎨Recraft获得1200万美元A轮融资,由KhoslaVentures领投🚀Recraft专注于为专业人士提供图形设计生成工具🤖利用自有基础模型实现一致设计元素生成,已吸引30多万用户AI生成图像在世界各地引发争议,即便AI生成图像在选举中的使用在本周世界经济论坛上引起了关注,初创公司仍在推动为创作者提供的AI工具领域不断前行。站长网2024-01-18 14:54:470004开源艺术二维码生成器QRBTF 支持多种样式和SVG下载
QRBTF是一个开源的二维码美化生成工具。它提供了多种艺术二维码样式,支持参数调整和SVG下载。使用QRBTF这款开源艺术二维码生成器工具时,需要先登录你的discord账号。它使用的核心二维码生成库是davidshimjs/qrcode和cozmo/jsQR。官网:https://qrbtf.com/GitHub:https://github.com/ciaochaos/qrbtf站长网2023-08-22 21:43:030001