AI视野:英伟达推文生图模型ConsiStory;高度可控AI试衣OOTDiffusion;开发者推SoraWebui开源项目;Groq最快AI推理芯片成本推算高得离谱
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
🤖📱💼AI应用
英伟达推出免训练,可生成连贯图片的文生图模型ConsiStory
【AiBase提要:】
⭐️ 多数文生图模型使用随机采样模式,导致生成图像不连贯
⭐️ AI生成连贯图像连环画难度大,现有模型效果有限
⭐️ ConsiStory是一种免训练连贯文生图模型,可提升图像一致性和连贯性
论文地址:https://arxiv.org/abs/2402.03286
OOTDiffusion:一个高度可控的虚拟服装试穿AI工具
【AiBase提要:】
⭐️ 高度可控的虚拟服装试穿工具
⭐️ 按性别和体型自动调整,与模特身形贴合
⭐️ 支持半身模型和全身模型,试穿效果自然逼真
项目地址:https://top.aibase.com/tool/ootdiffusion
试玩地址:https://ootd.ibot.cn/
Sora还没正式开放 有开发者已经搞出了SoraWebui
【AiBase提要:】
🚀 Sora因视频生成效果惊艳火爆出圈,但仍在内测阶段,多数用户只能看。
🛠️ SoraWebui开源项目提前研究,模拟API接口字段实现,为未来上线做准备。
🔗 开源项目支持Vercel一键部署,便于开发者使用和测试。
项目地址:https://top.aibase.com/tool/sorawebui
Adobe推类ChatGPT助手AI Assistant 并集成到PDF中
【AiBase提要:】
⭐ Adobe推出生成式AI助手AI Assistant
⭐ AI Assistant类似于ChatGPT,提供摘要、核心见解
⭐ 用户可通过AI生成引擎验证答案来源,提升Reader和Acrobat的商业价值
谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
【AiBase提要:】
⭐️GoogleAI团队推出了ScreenAI,一个视觉语言模型。
⭐️ScreenAI在多个任务上表现出色,包括图形问答和摘要生成。
⭐️发布了三个新数据集,为未来研究提供更多资源。
论文地址:https://arxiv.org/abs/2402.04615
FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法
【AiBase提要:】
⭐️支持多个条件、架构和检查点同时进行控制生成
⭐️通过结构和外观引导,实现对生成图像的控制
⭐️展示了 T2I 扩散模型进行可控生成的定性结果
项目网址:https://top.aibase.com/tool/freecontrol
Comfyui更新Stable Cascade 7个模型整合为两个模型文件
【AiBase提要:】
⭐ 简化操作流程,用户只需选择C和B阶段的模型文件
⭐ 提高用户便利性,更新后生成的图片质量和美观度显著提升
⭐ 但更新带来伪影问题,期待官方修复,提升用户体验
项目地址:https://top.aibase.com/tool/stable-cascade
工作流及模型下载:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/
Reddit大佬开发GLIGEN GUI 可指定图像大小、位置等
【AiBase提要:】
⭐️ GLIGEN GUI让用户可以控制生成图像的大小、位置和元素之间的空间关系
⭐️ GLIGEN可以根据自然语言描述生成高质量的图像
⭐️ GLIGEN提供灵活性和创造性,让用户创造惊人的图像作品
GLIGEN GUI项目地址:https://top.aibase.com/tool/gligen-gui
GLIGEN项目地址:https://top.aibase.com/tool/gligen
目标检测跟踪模型YOLOv8能快速识别和定位多个对象
【AiBase提要:】
⭐ YOLOv8是一种先进的目标检测跟踪模型
⭐ 支持多种格式部署,提高了模型的可用性和兼容性
⭐ 适用于多种领域,包括安防监控、医疗图像分析、自动驾驶等
项目地址:https://top.aibase.com/tool/yolov8
FiT:一种全新的Transformer架构图像生成模型 分辨率和高宽比不受限制
【AiBase提要:】
⭐ FiT将图像视为一系列可变大小的图像块(Token)
⭐ FiT在处理不同分辨率的图像方面表现出卓越性能
⭐ FiT为生成不受限制的图像提供新的解决方案
项目地址:https://top.aibase.com/tool/fit
AnyGPT:实现任意模态输入到任意模态输出
【AiBase提要】
⚙️ 采用离散表示技术,实现多模态输入的统一处理
🔄 灵活性: 可稳定训练并轻松集成新模态
🎭 实用性: 生成大规模多模态指令数据集,实现任意多模态对话
产品入口:https://top.aibase.com/tool/any-gpt-
📰🤖📢AI新鲜事
Groq最快AI推理芯片成本推算高得离谱 运行LIama2得1171万美元
【AiBase提要:】
⚙️ Groq公司推出AI芯片与英伟达GPU性价比对比
💰 运行LIama2所需成本高达1171万美元
🔎 分析师评估成本效益,Groq需面对英伟达竞争
项目入口:https://top.aibase.com/tool/groq
马斯克X平台与Midjourney正商谈合作 致力于生成式AI项目
【AiBase提要】
⚙️ Elon Musk的X与Midjourney商谈合作,可能推动生成式人工智能项目。
🧠 可能合作在选举前识别X平台上的GenAI内容,推动人工智能技术应用。
🌐 Midjourney的生成式AI计划可根据自然语言描述生成图像,与其他项目类似。
B站UP主让AI修习春山学 视频播放量近200万
【AiBase提要:】
⭐️ 央视春晚《上春山》引发热议,UP主让AI修习春山学。
⭐️ AI识别节目表演者面部情绪,实时显示在视频中。
⭐️ AI情绪识别技术或带来更多便利和乐趣。
三星因机密信息泄露禁止 OpenAI 的 ChatGPT、Google Bard、Bing AI
在三星可能面临的机密信息泄露问题近一个月后,这家韩国科技巨头禁止员工使用流行的生成式人工智能工具。出于安全考虑,三星电子已禁止员工使用ChatGPT、GoogleBard和Bing等流行的生成式AI工具,正准备推出内部工具。公司内部备忘录显示,三星电子担心传输到生成式AI平台的数据被存储在外部服务器上,导致其难以被追回和删除,并可能最终被泄露给其他用户。站长网2023-05-02 15:47:180000消息称苏宁易购全品类商品将接入百度电商
据36氪消息,苏宁易购全品类上百万款商品将接入百度电商,双方以618为契机达成合作,合作内容涉及搜索、直播、视频、商城等。后续双方或将共同探索智能电商领域。今年5月,百度电商正式推出电商新品牌“百度优选”,该品牌作为搜逛推一体的智能电商平台的一部分,将深度链接和交互用户与场景,并在搜索、直播、视频和商城四个场域中实现人找货和货找人的深度融合,促进交易。站长网2023-06-13 14:58:470000直播电商换挡,谁来领路?
自去年双十一不再公布总成交额过后,今年的双十一似乎还要宁静一些。各大电商平台依旧非常努力:淘天集团把“全网最低价”定为了核心KPI,京东主打“真便宜”,拼多多喊出了“天天真低价”。但这些努力并没能激发用户群体足够的消费欲望,这个每年最大的促销节点已然诱发了观众的“审美疲劳”。站长网2023-11-23 15:51:080000Ollama支持多模态模型使用
Ollama最新版本支持多模态模型使用了,只需输入“ollamarunllava”并运行即可。在下载llava-7B模型后,只需拖放图像输入问题即可。Ollama是一款命令行工具,可以在macOS和Linux上本地运行Llama2、CodeLlama和其他模型。目前适用于macOS和Linux,并计划支持Windows。站长网2023-12-14 17:22:4800019仍有5亿人坚持用QQ 腾讯回应:具备多项实用功能
近日,微博热搜上出现了一则引人关注的话题——“仍有5亿人坚持用QQ”,引发了广大网友的热烈讨论。这一话题的兴起,源于一篇题为《QQ真的不行了吗?》的文章的发布。文章指出,尽管微信功能丰富,但仍有不少人更偏爱使用QQ。站长网2024-03-12 08:22:590000