首页站长资讯AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

站长网2024-10-21 16:00:510阅

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR，高效“读懂”文档!

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型，无需OCR即可理解文档内容，在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性，提出“统一结构学习”来提升MLLM性能。

【AiBase提要:】

🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容，在视觉文档理解基准测试中领先。

📊 强调结构信息对于文档理解的重要性，提出“统一结构学习”来提升MLLM性能。

🔗 提供了开源代码、模型和数据集，取得了在多个下游任务中的最先进性能。

详情链接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布，一款全新的图像编辑器即将上线，该编辑器利用上传图像的深度信息生成新图片，保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度，为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量，最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用，预示着Midjourney在图像编辑工具方面的重大进步。

【AiBase提要:】

✨ 利用上传图像的深度信息生成新图片，保留原始构图和内容，彻底改变纹理、颜色和细节。

🎨 Midjourney致力于通过AI技术提升图像生成质量，最新v6.1模型进一步优化图像清晰度和准确性。

💡 新编辑器的加入将拓宽AI在创意领域的应用，为设计师和艺术家提供更灵活的图像操控和修改方式。

3、Viggle AI再推新功能可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能，用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式，无论是唱歌还是跳舞，都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注，利用先进的JST-1视频3D基础模型，用户可以轻松创造和混合视频内容。

【AiBase提要:】

🎤 角色说话功能:用户可以通过录制声音让角色说话，实现口型同步。

🎭 角色替换功能:用户可以将任何角色置入视频场景，创造个性化沉浸式体验。

🔄 静态图像动画化:用户可以将静态照片转化为动态影像，增加视频趣味性和互动性。

详情链接:https://viggle.ai/home

4、即使是顶尖AI模型也难以应对复杂旅行规划，OpenAI o1-preview也犯难

最新研究表明，即使是先进的AI语言模型，如OpenAI最新的o1-preview，在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳，且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可，但在更复杂的TravelPlanner任务中表现不佳。

【AiBase提要:】

🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳，GPT-4o成功率仅7.8%。

📉 大多数模型在BlocksWorld中表现尚可，但在TravelPlanner上难以达到理想效果。

🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。

详情链接:https://github.com/hsaest/Agent-Planning-Analysis

5、开源工具Vulnhuntr可发现Python零日漏洞，巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同，能够追踪用户输入到服务器输出的完整调用链，提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞，即将在GitHub上发布供开发者使用。

【AiBase提要:】

🌟 Vulnhuntr是开源工具，利用Claude AI发现Python零日漏洞。

🛠️ 工具工作方式不同于静态分析，能追踪完整调用链。

🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞，即将在GitHub上发布。

6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应，确认实习生恶意干扰研究项目模型训练，但未影响正式商业项目和线上业务。公司指出传闻严重夸大，已辞退实习生并通报相关机构。事件暴露安全管理问题，公司计划大力投资AI技术。

【AiBase提要:】

🔍 实习生恶意干扰大模型训练，未影响商业项目和线上业务。

🔒 公司确认传闻夸大，已辞退实习生并通报相关机构。

💡 事件暴露安全管理问题，公司计划大力投资AI技术。

7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪，这个 AI 语言模型有点强!

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型，能够自由混合文本和语音，理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务，只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

【AiBase提要:】

⚙️ SPIRIT-LM 是多模态基础语言模型，能混合文本和语音，理解情感。

🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务。

💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

详情链接:https://arxiv.org/pdf/2402.05755

8、颠覆 Stable Diffusion!智源重磅发布 Emu3，图像、文本、视频全拿下!

Emu3团队发布了一套全新的多模态模型Emu3，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练，实现了多模态任务的统一，超越了特定任务模型，甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向，也为实现AGI带来了新的希望。

【AiBase提要:】

🚀 Emu3基于下一个token预测进行训练，颠覆了传统模型架构，取得了最先进的性能。

💡 Emu3实现了多模态任务的统一，无需依赖扩散或组合架构，超越了特定任务模型和旗舰模型。

🔗 Emu3团队开源了关键技术和模型，为多模态智能领域的进一步研究提供支持。

详情链接:https://github.com/baaivision/Emu3

9、Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元，当前估值为30亿美元。公司面临抄袭指控，但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

【AiBase提要:】

🌟 Perplexity AI 计划将估值提高至90亿美元，吸引大量投资者关注。

💰 公司自今年初以来进行了三轮融资，迅速发展。

📰 面临抄袭指控，公司坚决否认并保护知识产权。

10、前OpenAI CTO重磅打造新AI公司，融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资，准备创办新的AI创业公司。她离开OpenAI希望进行个人探索，而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

【AiBase提要:】

✨ Mira Murati正筹集超过1亿美元的风险投资，打造新AI公司。

🚀 Murati离开OpenAI希望进行个人探索，未透露具体计划。

📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。

11、苹果AI发展滞后两年，计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上，苹果展示了AI新特性，但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能，尽管起步较晚，但有信心迎头赶上。

【AiBase提要:】

📅 苹果在AI发展上落后竞争对手约两年，正努力追赶行业标准。

💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。

📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服务备案，累计达94款

北京市最近新增了12款生成式人工智能服务备案，使得累计备案数量达到了94款，为用户带来更多选择与便利。已上线的AI应用需公示备案情况，包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

【AiBase提要:】

📈 北京市新增12款生成式AI服务备案，累计达94款

🔍 已上线AI应用需公示备案情况，包括模型名称和备案编号

📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像

AI日报阿里开源文档模型DocOwl1 5 Midjourney图像编辑器新功能下周上线ViggleAI推对口型功能

0000

评论列表

共(0)条

相关推荐

站长资讯
太平洋电脑网PConline宣布将关停论坛
太平洋电脑网（PConline）宣布将于2023年5月20日关闭太平洋电脑网论坛入口。太平洋知科技APP正常运营，不受影响。具体下线时间安排如下:1、2023年5月20日，关闭入口。2、2023年8月31日，停止运营。届时太平洋电脑网论坛将无法访问、登录、发布内容、查看已发布的内容。
站长网2023-05-15 15:24:33
0001
【白皮书速览】人工智能医疗器械关键技术——感知技术
来源：【中国医药报】人工智能医疗器械是指基于“医疗器械数据”，采用人工智能技术实现其预期用途（即医疗用途）的医疗器械。感知技术是人工智能医疗器械的关键技术之一。基于医疗器械采集产生客观数据是最主要的感知方式医疗器械使用目的在于能够对某些疾病起到预防、诊断、治疗和监护的作用，对人体样本进行检测等，最终辅助医生更好地治疗病患，直接或间接地作用于人体，采集人体信息，产生具有医疗用途的客观数据。
站长网站长资讯2023-05-23 16:32:24
0000
2024春节档：没有大片，只有悬念
“破1亿，创近三年春节档新片预售票房最快破亿速度”。这是预售第一天开启后，灯塔数据发布的2024春节档战报。随着龙年除夕进入倒计时，电影春节档的战争也拉开帷幕，刘德华、张艺谋陆续走进“与辉同行”直播间，开始直播买票。成绩也还不错，由刘德华主演的《红毯先生》一小时卖出了60万张票。张艺谋执导的《第二十条》开播20分钟后24万张电影优惠劵直接抢空，一场下来总计卖出82万张。
站长网站长资讯2024-02-05 09:20:29
0001
5G网络为何面临“叫好不叫座”局面邬贺铨：用户感知差运营商回报低
快科技4月20日消息，中国工程院院士邬贺铨最近在演讲中指出，6G对于5G/5G-A而言不仅仅是技术的简单叠加，更是整体架构平台的彻底变革。他强调，5G网络所具备的大带宽eMBB、大连接mMTC、高可靠低时延uRLLC三大特性将在5G-A和6G中继续得到加强。同时，6G还将引入5G阶段所不具备的特性，比如通感融合、内生智能，以及支持沉浸式体验等。
站长网站长资讯2024-04-20 10:08:59
0001
微信开了扇任意门
浇灌了京东、美团、拼多多等交易平台之后，微信终于把流量引入了自家电商。除夕夜，微信送礼物新增“群礼物抽奖”功能。初一，马化腾就给这新功能站了台。大年初一，马化腾在腾讯员工群里给员工们发红包，除了常规的微信红包，还有“礼物抽奖”，礼物包括护肤品等。微信送礼物功能上线初期，步子迈得相当谨慎，在微信里无明显入口，也无法在群聊中使用。
站长网站长资讯2025-02-05 23:28:41
0000