AI日报:阿里开源文档模型DocOwl 1.5;Midjourney图像编辑器新功能下周上线;Viggle AI推对口型功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR,高效“读懂”文档!
阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型,无需OCR即可理解文档内容,在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性,提出“统一结构学习”来提升MLLM性能。
【AiBase提要:】
🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容,在视觉文档理解基准测试中领先。
📊 强调结构信息对于文档理解的重要性,提出“统一结构学习”来提升MLLM性能。
🔗 提供了开源代码、模型和数据集,取得了在多个下游任务中的最先进性能。
详情链接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
2、Midjourney图像编辑器新功能下周上线
Midjourney的创始人David Holz宣布,一款全新的图像编辑器即将上线,该编辑器利用上传图像的深度信息生成新图片,保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度,为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量,最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用,预示着Midjourney在图像编辑工具方面的重大进步。
【AiBase提要:】
✨ 利用上传图像的深度信息生成新图片,保留原始构图和内容,彻底改变纹理、颜色和细节。
🎨 Midjourney致力于通过AI技术提升图像生成质量,最新v6.1模型进一步优化图像清晰度和准确性。
💡 新编辑器的加入将拓宽AI在创意领域的应用,为设计师和艺术家提供更灵活的图像操控和修改方式。
3、Viggle AI再推新功能 可通过录制声音让角色说话
Viggle AI推出了令人兴奋的新功能,用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式,无论是唱歌还是跳舞,都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注,利用先进的JST-1视频3D基础模型,用户可以轻松创造和混合视频内容。
【AiBase提要:】
🎤 角色说话功能:用户可以通过录制声音让角色说话,实现口型同步。
🎭 角色替换功能:用户可以将任何角色置入视频场景,创造个性化沉浸式体验。
🔄 静态图像动画化:用户可以将静态照片转化为动态影像,增加视频趣味性和互动性。
详情链接:https://viggle.ai/home
4、即使是顶尖AI模型也难以应对复杂旅行规划,OpenAI o1-preview也犯难
最新研究表明,即使是先进的AI语言模型,如OpenAI最新的o1-preview,在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳,且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可,但在更复杂的TravelPlanner任务中表现不佳。
【AiBase提要:】
🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳,GPT-4o成功率仅7.8%。
📉 大多数模型在BlocksWorld中表现尚可,但在TravelPlanner上难以达到理想效果。
🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。
详情链接:https://github.com/hsaest/Agent-Planning-Analysis
5、开源工具Vulnhuntr可发现Python零日漏洞,巧妙利用Claude AI
Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同,能够追踪用户输入到服务器输出的完整调用链,提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞,即将在GitHub上发布供开发者使用。
【AiBase提要:】
🌟 Vulnhuntr是开源工具,利用Claude AI发现Python零日漏洞。
🛠️ 工具工作方式不同于静态分析,能追踪完整调用链。
🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞,即将在GitHub上发布。
6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目
字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应,确认实习生恶意干扰研究项目模型训练,但未影响正式商业项目和线上业务。公司指出传闻严重夸大,已辞退实习生并通报相关机构。事件暴露安全管理问题,公司计划大力投资AI技术。
【AiBase提要:】
🔍 实习生恶意干扰大模型训练,未影响商业项目和线上业务。
🔒 公司确认传闻夸大,已辞退实习生并通报相关机构。
💡 事件暴露安全管理问题,公司计划大力投资AI技术。
7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪,这个 AI 语言模型有点强!
SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型,能够自由混合文本和语音,理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务,只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。
【AiBase提要:】
⚙️ SPIRIT-LM 是多模态基础语言模型,能混合文本和语音,理解情感。
🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务。
💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。
详情链接:https://arxiv.org/pdf/2402.05755
8、颠覆 Stable Diffusion!智源重磅发布 Emu3,图像、文本、视频全拿下!
Emu3团队发布了一套全新的多模态模型Emu3,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练,实现了多模态任务的统一,超越了特定任务模型,甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向,也为实现AGI带来了新的希望。
【AiBase提要:】
🚀 Emu3基于下一个token预测进行训练,颠覆了传统模型架构,取得了最先进的性能。
💡 Emu3实现了多模态任务的统一,无需依赖扩散或组合架构,超越了特定任务模型和旗舰模型。
🔗 Emu3团队开源了关键技术和模型,为多模态智能领域的进一步研究提供支持。
详情链接:https://github.com/baaivision/Emu3
9、Perplexity AI 寻求90亿美元估值
Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元,当前估值为30亿美元。公司面临抄袭指控,但坚决否认。在激烈市场竞争中努力提升技术和服务水平。
【AiBase提要:】
🌟 Perplexity AI 计划将估值提高至90亿美元,吸引大量投资者关注。
💰 公司自今年初以来进行了三轮融资,迅速发展。
📰 面临抄袭指控,公司坚决否认并保护知识产权。
10、前OpenAI CTO重磅打造新AI公司,融资目标高达1亿美元
Mira Murati正筹集超过1亿美元的风险投资,准备创办新的AI创业公司。她离开OpenAI希望进行个人探索,而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。
【AiBase提要:】
✨ Mira Murati正筹集超过1亿美元的风险投资,打造新AI公司。
🚀 Murati离开OpenAI希望进行个人探索,未透露具体计划。
📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。
11、苹果AI发展滞后两年,计划未来两年全线设备引入Apple Intelligence
在今年的WWDC大会上,苹果展示了AI新特性,但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能,尽管起步较晚,但有信心迎头赶上。
【AiBase提要:】
📅 苹果在AI发展上落后竞争对手约两年,正努力追赶行业标准。
💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。
📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。
12、北京市新增12款生成式AI服务备案,累计达94款
北京市最近新增了12款生成式人工智能服务备案,使得累计备案数量达到了94款,为用户带来更多选择与便利。已上线的AI应用需公示备案情况,包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。
【AiBase提要:】
📈 北京市新增12款生成式AI服务备案,累计达94款
🔍 已上线AI应用需公示备案情况,包括模型名称和备案编号
📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像
天涯社区回应被申请破产:还在为重启做努力和准备
站长之家(ChinaZ.com)2月28日消息:近日,天涯社区网络科技股份有限公司新增一则破产审查案件,引发广泛关注。据悉,该案件申请人为张鑫,经办法院为海南省海口市中级人民法院。与此同时,天涯社区官网也显示“无法访问”,令众多网友感到惋惜。站长网2024-02-28 15:30:23000018亿播放的“剧王”,谁在闷声赚钱?
屏幕里,范闲气势十足地对着镜头说:“我回来了。”屏幕外,这部耗时5年制作的剧集《庆余年2》掀起了现象级的观影热潮:上线首日播放量近3000万,截至收官,累计正片播放量达到18亿,相关微博话题阅读量超过26.3亿。《庆余年2》的热度一路传导至IP衍生品领域——各种“庆余年同款”服饰在淘宝涌现,如“二皇子同款戒指”“长公主同款耳环”等,有新品上架24小时内就吸引了超过100人购买。站长网2024-06-17 19:05:500001小米汽车全新车载单品智能底盘氛围灯上线:支持六色灯效
小米汽车今日宣布其全新车载单品——智能底盘氛围灯正式上线,并将于今日10点在小米汽车APP商城正式开售。这款氛围灯的独特设计令人瞩目,安装在车辆底部,车身一周均能展现出发光效果,支持六色灯效,部分底盘颜色甚至能与车身颜色同步,营造出极具科技感的驾驶氛围。站长网2024-06-28 22:30:250000教师节不仅送音乐VIP!网易宣布有道词典会员老师免费领
快科技9月9日消息,9月10日是我国第40个教师节,近日网易云音乐发放100万份教师节大礼包,其中包含网易云音乐黑胶VIP270天卡、网易云音乐有声书畅听270天会员等会员。今日,网易发文称,前几天的百万教师节福利活动,非常火爆,所以,我们想再添上一把火”,加码教师节福利,送给所有老师有道词典会员季卡。据了解,有道词典会员季卡领取时间为2024年9月9日10:00-10日24:00,数量有限。站长网2024-09-10 13:43:290000曝特斯拉Cybertruck将在国内亮相:三种版本可供选择
快科技1月14日消息,据微博博主透露,特斯拉正在筹备Cybertruck电动皮卡于国内亮相,预计亮相时间为今年一季度。作为特斯拉最受关注的一款车型之一,该车已于2023年12月1日在美国得克萨斯州奥斯汀超级工厂开启交付。该车共分为三款车型可选,分别是单电机后驱版,双电机四驱版以及三电机赛博野兽版。站长网2024-01-14 20:35:030000