AI视野:OpenAI推新模型GPT-4-0125-preview;阿里Qwen-VL升级更新;苹果播客新增转录功能;AI写真项目InstantID在GitHub爆火
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
🤖📱💼AI应用
OpenAI不服GPT-4被Bard反超 推出最新模型GPT-4-0125-preview
【AiBase提要:】
😲 Bard搭载了新版大模型Gemini Pro-scale
😠 网友质疑混合在线和离线大模型
🔄 模型GPT-4-0125-preview已入场竞技场
Finalframe即将推出适用于AI生成视频的剪辑界面
要点:
⭐ Finalframe支持文本转视频和图像转视频
⭐ 支持创建、打开、保存项目,以及导出完整时间轴
⭐ 即将推出的新功能让视频剪辑方式更直观方便
官网地址:https://top.aibase.com/tool/finalframe
WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录
【AiBase提要:】
😃Argmax公司将WhisperKit作为首个项目。
😃WhisperKit以MIT许可证的形式开源。
😃WhisperKit实现了实时语音转文本。
项目入口:https://top.aibase.com/tool/whisperkit
苹果iOS17.4更新:播客应用新增转录功能
【AiBase提要:】
⭐ 转录功能自动生成播客节目文字稿
⭐ 初期支持英语、法语、德语和西班牙语
⭐ 转录文本不包含动态插入音频和音乐歌词
Mistral-Medium意外泄露 神秘新模型“Miqu”击败GPT-4之外的所有大模型
【AiBase提要:】
🤔 Mistral-Medium模型意外泄露,引发AI社区热议,与名为"Miqu"的新模型有关。
🔥 Miqu在EQ-Bench基准上表现强大,与Mistral-Medium相近,但发布者身份神秘。
💥 Miqu身份存疑,是否Mistral-Medium早期版本或Llama70B。
开源地址:https://top.aibase.com/tool/miqu-1-70b
Vary-toy:具有高级视觉词汇视觉语音模型
【AiBase提要:】
📌 挑战与潜力: 大型视觉语言模型在计算机视觉和自然语言处理任务表现出色,但在图像感知能力方面仍有潜力待发。
📌 模型结构: LVLMs采用图像标记作为前缀或交叉注意力进行特征融合,效率受视觉词汇网络的限制。
📌 解决方案: MEGVII Technology的研究人员提出Vary-toy,用于提高LVLMs的图像感知能力。
项目入口:https://top.aibase.com/tool/vary-toy
阿里巴巴多模态模型Qwen-VL升级更新 推出这2个版本
【AiBase提要:】
⭐ Qwen-VL-Plus和Qwen-VL-Max版本推出
⭐ 在多模态任务上与GeminiUltra和GPT-4V相当
⭐ Qwen-VL-Max在视觉推理方面展现卓越能力
试用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max
AI实时对话系统WhisperFusion:集成大模型,与AI无缝语音对话
【AiBase提要:】
1. 🎙️ 实时语音转文本:利用OpenAI WhisperLive实现即时将口语转换为文本。
2. 🧠 大型语言模型整合:集成Mistral大型语言模型,提升对转录文本的理解和上下文把握。
3. ⚙️ TensorRT优化:LLM和Whisper均经过TensorRT引擎优化,确保高性能和低延迟处理。
📰🤖📢AI新鲜事
Midjourney使用1.6万名艺术家数据库进行训练遭批判
【AiBase提要:】
📌 艺术家反应:艺术家指责公司侵权
📌 法律诉讼:涉及多方提起集体诉讼
📌 艺术家作品未经许可被用于训练AI程序
Open AI否认报告称ChatGPT泄露了用户密码
【AiBase提要:】
😡 OpenAI否认ChatGPT泄露密码
😡 Ars Technica报道泄露工单及网站登录凭证
😡 ChatGPT遭指控为漏洞百出
AI写真项目InstantID在GitHub引爆热潮
【AiBase提要:】
⭐ AI写真项目InstantID在全网刷屏
⭐ 项目背后是来自小红书的 InstantX 团队
⭐ InstantID出图速度快,不需模型训练,支持多种风格
项目地址:https://top.aibase.com/tool/instantid
微软等公司财报低于预期 美股AI相关巨头市值一夜蒸发1900亿美元
【AiBase提要:】
📉 微软、Alphabet和超微公布季度业绩低于预期。
💻 与AI相关的公司市值一夜蒸发1900亿美元。
📉 英伟达的股价在1月份上涨了27%,但在盘后交易中也回落了2%以上。
美国点评网站Yelp将加强AI功能 部分功能已在iOS版上线
【AiBase提要:】
👉 Yelp的新功能包括AI生成的摘要和首页重新设计
👉 AI生成的摘要将简洁地介绍商家的特色和服务
👉 摘要功能已在iOS上推出,未来会扩展到Android和网页
MIT最新研究:纯文本模型也能训练出视觉表征 用代码就能作画
【AiBase提要:】
👁️ 纯文本模型训练视觉概念表征的新可能性
💻 语言模型无法直接处理像素形式的视觉信息
🌈 语言模型在生成复杂场景方面表现出色
论文地址:https://arxiv.org/pdf/2401.01862.pdf
首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
【AiBase提要:】
🤔 Mementos测试的关键目的是测试多模态大语言模型的推理能力。
😟 对于GPT-4V和Gemini等模型,在图像序列推理中表现不足20%。
🤯 Mementos测试发现模型容易产生对象幻觉和行为幻觉。
项目地址:https://mementos-bench.github.io/
200GB!AutoMathText:专注数学文本的超大规模数据集
【AiBase提要:】
1. AutoMathText是一个庞大的数学文本数据集,总体规模达到200GB,汇聚了来自多个来源的数据,适用于多种应用场景。
2. 数据集包含10亿到100亿的数据量级,提供丰富的资源供大规模模型训练。
3. AutoMathText提供了详细的领域标签,涵盖数学推理、推理、微调等方面。
高效机器人学习软件SERL25分钟学会一个任务
【AiBase提要:】
⭐ 机器人学习软件SERL通过更少的尝试快速学会新任务
⭐ SERL可执行多种复杂任务,如组装电路板、布线或移动物体
⭐ 这一软件工具包已经教会机器人执行多种任务,包括组装电路板、布线或移动物体到新位置
项目地址:https://top.aibase.com/tool/serl
一个算命准确度高达78%的AI,让网友都当上了赛博阎王
咱中国人爱算命这事,是刻在骨子里的执念。出门前要看看黄历、办公室要讲风水、就连谈恋爱换工作也要算算领导和对象的星座和八字合不合适。算命姿势也是无奇不有,用八字星座塔罗牌已属过去式,寺庙求签不够潮。这不,有位中国人就在ChatGPT上训练了一个“算命专用AI”——然后迅速成为GPTs中文榜排名第一的应用。站长网2023-12-22 16:23:030000比特币超白银 成全球市值第八大资产
在加密货币市场近期持续走强的背景下,比特币价格于3月11日成功站上71000美元大关,并呈现出稳步上升的态势。这一强势表现使得比特币的市值也达到了新的高度,以1.41万亿美元的新市值超越了白银,成功跻身全球市值第八大资产的行列。站长网2024-03-12 11:56:040000大模型难掩AI制药的悲伤:越过山丘,无人等候
美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。但面对如此热闹的场景,6月27日向港交所递表的AI制药公司英矽智能则没有掀起什么水花。同一天,英矽智能还宣布已经开始AI“研制”的药物——INS018_055的首批人体试验,推进至二期临床试验验证阶段。站长网2023-07-04 00:15:590000国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队
【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评,其中GPT-4、Cluade3是当之无愧的王牌,而在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。站长网2024-04-19 18:24:330000互联网大厂,花名不能停
网友夏机智在抖音分享了自己入职阿里后艰难的“取花名”经历:“在起花名的入职流程卡了两天,正常的不正常的名字全试了,还是取不出来。”作为最早开创花名文化的大厂,阿里至今仍保留着入职需要取花名的传统。时至今日,阿里已经拥有超过20万名员工。此前那些人尽皆知的武侠宗师的名号早已轮不上普通员工,即使是一个相对普通的花名,可能也已被人捷足先登。站长网2024-02-27 14:09:120000