AI视野:百度Apollo开放平台9.0发布;OpenAI公布ChatGPT安全框架;Etched AI推AI推理加速芯片Sohu;美图云修Pro版正式发布;Runway上线文字生成语音功能
📰🤖📢AI新鲜事
百度Apollo开放平台9.0发布
百度发布Apollo开放平台9.0,全面升级自动驾驶开发领域,包括工程、算法和工具三方面,重构12万行代码,新增20万行。工程框架拆分成小软件包,提高灵活性;算法优化感知算法,支持4D毫米波雷达;工具升级包括高精地图、传感器标定等,提升Dreamview 效率。
【AiBase提要:】
🚗 工程框架全面升级,模块拆分提高灵活性;
🔍 算法优化感知算法,支持4D毫米波雷达;
🧰 工具升级包括高精地图、传感器标定,提升效率。
OpenAI公布ChatGPT安全框架
OpenAI发布ChatGPT安全框架,采用风险“记分卡”衡量潜在危害,雇佣跨领域专家团队监测技术,与第三方合作测试技术,与竞争对手Anthropic的政策形成差异。
【AiBase提要:】
🔒 安全框架发布:OpenAI推出ChatGPT安全框架,采用风险“记分卡”评估潜在危害,不断完善框架以确保AI安全。
🌐 跨领域专家团队:雇佣AI研究、国家安全、政策专业人员组成“应对”团队,监测技术风险并提供预警。
🤝 开放合作与竞争对手对比:允许第三方测试技术,与Anthropic的政策形成鲜明对比,展现出框架的灵活性。
Etched AI推AI推理加速芯片Sohu
美国芯片初创公司Etched AI成功开发了一项技术,将Transformer架构直接嵌入芯片,创造出专为Transformer推理的超强服务器Sohu,可运行万亿参数模型,挑战英伟达。
官网地址:https://www.etched.ai/
【AiBase提要】
🔥 Etched AI成功将Transformer架构“烧录”到芯片,创造强大服务器Sohu。
🚀 技术支持实时语音代理、高级解码等多项功能。
💡 服务器配备144GB HBM3E,支持MoE和转换器变体,为高性能提供有力支持。
百度数字人生成专利公布
百度公布一项数字人生成专利,专利涉及人工智能技术领域,通过计算机视觉、自然语言处理和深度学习等技术,实现对数字人赋予不同人格。
【AiBase提要:】
😊 多人格数字人生成专利: 百度公布一项数字人生成专利,通过语言模型训练和三维建模,使数字人具备不同人格。
😃 应用领域广泛: 该专利涉及计算机视觉、自然语言处理和深度学习,可应用于元宇宙等场景,提升数字人的交流与互动自然度。
😎 赋予情感与意识: 生成的数字人可像人类一样表达情感和意识,为人机交互提供更丰富、自然的体验。
OpenAI官方发布Prompt工程指南
OpenAI官方发布的Prompt工程指南分享了六个策略,帮助用户优化ChatGPT等大型语言模型的输出,包括写清楚指令、提供参考文本、拆分复杂任务等。
指南地址:https://platform.openai.com/docs/guides/prompt-engineering
【AiBase提要:】
📌 写清楚指令: 用户需明确、详细指导模型,减少猜测,提高满意度。
📚 提供参考文本: 使用参考文本帮助模型减少错误输出,指导回答问题。
🧩 拆分复杂任务: 将任务分解为简单子任务,降低错误率,提高整体性能。
Adobe终止200亿美元收购Figma
Adobe和Figma宣布终止200亿美元的合并交易,因欧洲监管机构强烈反对,认为该交易将损害竞争,导致用户面临更高的价格和更少的选择。
【AiBase提要:】
💔 Adobe和Figma终止200亿美元的合并交易,欧洲监管机构认为交易将损害竞争,不予批准。
💼 Adobe首席执行官表示尽管相信合并的好处,但由于欧洲监管无法获得批准,共同同意终止交易。
💰 根据合同规定,Adobe需支付Figma10亿美元的终止费,反映科技行业监管日益严格。
Mistral AI CEO宣布于2024年开源GPT-4级别模型
法国初创公司Mistral AI计划于2024年开源GPT-4级别模型,最近获得4.15亿美元融资,推出基于MoE架构的8X7B模型,同时推进多语言模型Mistral Medium的开发。
【AiBase提要:】
🚀 Mistral AI首席执行官Arthur Mensch宣布公司将于2024年开源GPT-4级模型,引起行业广泛关注。
💰 公司最近获得4.15亿美元融资,估值20亿美元,推出基于MoE架构的8X7B模型,同时推出API服务“La Plateforme”。
🌐 Mistral AI正在开发支持多语言的Mistral Medium模型,在标准基准测试中表现优异,预计将于2024年发布。
🤖📱💼AI应用
美图云修Pro版正式发布
美图公司旗下的美图云修正式推出Pro版,搭载全新图像处理引擎,实现实时预览,为商业摄影提供即时修图解决方案。同时,智能修图API服务也正式开放,支持多端应用,助力快速出图。数据显示,美图云修已拥有超过百万用户和3万余家商业摄影机构使用,年修图量超过5亿张,有效提升修图效率和生产力。
美图云修官网:https://yunxiu.meitu.com/home
【AiBase提要】
🚀 Pro版亮点: 全新图像处理引擎,实时预览,适用于约拍和旅拍等即时修图场景。
💡 API服务开放: 美图云修智能修图API服务全面开放,支持多端应用,实现“即拍即修”。
📈 数据亮点: 超过百万用户、3万余家商业摄影机构使用,年修图量超5亿张,提升修图效率。
Runway上线文字生成语音功能
Runway最近悄悄上线了文字生成语音功能,初次尝试英文效果惊艳,但中文语音仍带有外国口音,可能需要解决。
体验地址:https://app.runwayml.com
【AiBase提要】
🔊 语音功能惊艳登场:Runway最新推出的文字生成语音功能,在英文表达方面展现出惊人的自然丰富情感。
🌐 多模型选择,点数消耗低:该功能提供多种语音模型,仅需右上角点数即可生成长时间可用的语音。
🌐 中文语音仍存问题:尽管英文效果惊艳,中文语音仍存在外国口音问题,可能需要解决。
超强小说生成工具Midreal AI 情节有逻辑还具有互动能力
小说生成工具Midreal AI强于其他LLM直接生成的小说,以内存跨越技术和长篇写作能力为特色,用户可在关键节点选择剧情走向,获得具有逻辑和互动能力的小说。
体验地址:discord.gg/ReKvgchE3P
【AiBase提要:】
🧠 内存跨越技术:Midreal AI采用内存跨越技术,实现几乎无限的记忆保留,确保长期无缝连接的游戏体验。
📝 长篇写作能力:具备长篇写作能力,保持叙事连贯和引人入胜,为用户提供高质量的阅读体验。
🌐 中英文支持:Midreal AI支持中文和英文,为喜爱阅读和写作的用户提供全新的创作体验。
CSM ai推实时草图转3D功能
CSM AI最新推出的实时绘图工具进化,用户可通过简单草图生成3D模型,并导出至3D软件,在儿童游戏和专业3D创意工作中具备广泛应用。
体验地址:https://3d.csm.ai/canvas
【AiBase提要】
🎨 实时草图转3D: CSM AI推出的工具允许用户通过简单的草图实时生成3D模型。
🔄 导出至3D软件: 生成的3D模型可直接导出到其他3D软件中进行进一步编辑和应用。
🌐 免费体验功能: 用户可以通过访问体验地址免费尝试这一功能,为创意设计提供便利。
🤖📈💻💡大模型动态
谷歌推视觉语言模型PixelLLM
通过与加州大学圣迭戈分校合作,谷歌AI研究团队推出PixelLLM,实现了细粒度定位和视觉-语言对齐。该模型通过在语言模型的每个输出单词与像素位置建立密集对齐,成功解决了大语言模型在定位任务中的挑战。
项目体验网址:https://top.aibase.com/tool/pixelllm
论文网址:https://arxiv.org/abs/2312.09237
【AiBase提要:】
🧠 PixelLLM采用密集对齐策略,成功解决了大型语言模型在细粒度定位任务中的挑战。
🌐 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM表现出卓越性能,取得最先进的结果。
📈 通过引入新的视觉-语言模型,PixelLLM为实现更精确的视觉-语言对齐和定位提供了新的可能性。
元象开源高性能大模型XVERSE-65B-2底座版
元象宣布开源XVERSE-65B-2底座版,强化代码和数学能力,保持生成创作、角色扮演等能力,为生态贡献“文理兼修、大有可为”的大模型。
【AiBase提要:】
🚀 XVERSE-65B-2通过综合优化器状态和学习率策略进行Continual Pre-Training,总训练token量达3.2万亿。
🌐 模型支持40多种语言,上下文窗口为16K,在六个维度11项标准中八成超越GPT3.5。
💡 XVERSE-65B显著提升大模型的理解、生成、逻辑和记忆等能力,是国内最早开源的650亿参数免费商用模型。
项目地址:
Github:https://github.com/xverse-ai/XVERSE-65B
Hugging Face:https://huggingface.co/xverse/XVERSE-65B-2
ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-65B-2
UIUC清华联手发布全新代码大模型Magicoder
UIUC和清华合作推出的Magicoder是一款在代码生成领域表现出色的大型语言模型,仅使用了7B参数,并以全面开源的方式分享了其代码、权重和数据。
论文地址:https://arxiv.org/pdf/2312.02120.pdf
【AiBase提要:】
🚀 模型介绍: UIUC和清华合作推出的Magicoder,在代码生成领域以不到7B参数媲美顶级模型,并全面开源其代码、权重和数据。
🛠️ OSS-INSTRUCT方法: Magicoder采用OSS-INSTRUCT方法,从开源代码中获取灵感,生成多样、真实和可控的编码指令数据,注重真实性对于指令调整的重要性。
📈 性能表现: 在Python、其他编程语言以及数据科学库领域,Magicoder表现出色,在DS-1000dataset上改善了8.3个百分点,展现了在实际用例中的潜力。
音乐生成深度学习模型StemGen
字节跳动AI研究团队推出StemGen项目,采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,在音频质量和音乐与上下文协调性方面取得竞争性成果。
项目网址:https://julian-parker.github.io/stemgen/
论文网址:https://arxiv.org/abs/2312.08723
【AiBase提要】
🤖 革新性方法: StemGen采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,突破传统抽象条件的模型。
🌐 模型效果验证: 采用标准指标和主观测试证明StemGen模型在音频质量和音乐与上下文的强大协调性方面表现出竞争性。
🚀 技术进步: 结合图像和语言处理技术,以端到端方式推动深度学习音频生成,提出非自回归、基于Transformer的架构训练模型的新范例。
👨💻💡🎯聚焦开发者
创新3D技术Gaussian-SLAM 通过分析视频重建逼真的3D场景
通过分析视频流中的图像,Gaussian-SLAM技术能够实时渲染并重建逼真的3D模型,为自动驾驶、机器人导航、增强现实等领域提供新的可能性。
【AiBase提要:】
🌐 光学真实的渲染: Gaussian-SLAM以高度真实的方式重建和渲染真实世界和合成场景。
🔄 高斯斑点场景表示: 使用高斯斑点作为场景的表示单位,与传统的点云或网格表示不同。
📷 适用于单目RGBD输入: 针对单目RGBD输入数据进行优化,适用于多种场景。
论文地址:https://ivi.fnwi.uva.nl/cv/paper/GaussianSLAM.pdf
项目地址:https://github.com/VladimirYugay/Gaussian-SLAM
演示地址:https://vladimiryugay.github.io/gaussian_slam/
阿里巴巴:蚂蚁拟回购约7.6%股份 考虑是否参与
阿里巴巴公告称,蚂蚁集团将召开股东大会,以批准(除其他事项外)蚂蚁集团向其全体股东回购不超过7.6%股份的议案。拟议股份回购价格代表蚂蚁集团估值金额约为5671亿元人民币(约784.8亿美元)。据了解,此次回购的股份将转入蚂蚁集团公司员工激励计划。阿里巴巴集团正在考虑是否参与拟议的股份回购。站长网2023-07-10 15:59:450000印度政府批准投入130亿元 用于AI、网络安全发展
本文概要:1.印度政府计划投资1,490.3亿卢比(约合130.7亿人民币)用于人工智能、网络安全和数字技能的发展。2.政府将建立三个卓越中心,推动人工智能研究和创新,重点关注医疗、农业和可持续城市发展。3.印度计划在国家超级计算机任务下增加九台超级计算机,用于人工智能建模和天气预报。站长网2023-08-19 15:28:200000魅族21手机今日开售 售价3399元起
魅族21将在今日上午10:00迎来全渠道首销,售价3399元起。魅族21搭载了最新的Flyme10.5系统,配备Aicy灵动环等设计,正面采用6.55英寸极窄四等边直屏,边框仅1.74mm。性能方面,魅族21搭载了骁龙8Gen3处理器,内置4800mAh电池,支持80W快充。影像方面,魅族21前置32MP自拍摄像头,后置200MP主摄12MP超广角5MP景深人像三摄组合。站长网2023-12-05 09:15:460000粉丝光看不买?我学会了瑜大公子的促单成交术!
“我们需要随时审视我们所处的商业环境,在困境中寻找突破。”如果问直播电商从业者:现在的直播行业,是红海还是蓝海?我相信99.99%的回答不会是蓝海!从2016年蘑菇街上线视频直播开始,直播电商从新兴事物到品牌宠儿,从强势破圈到万亿市场,在过去的几年时间,整个行业经历了自我发展的冷静期。站长网2023-08-21 20:33:230000一键消除视频人物!南科大发布视频分割模型TAM 支持动态物体追踪
特效师的救星来了!近日,南科大发布视频分割模型TAM,可轻松追踪视频中的任意物体并消除,操作简单友好。TAM的出现为解决传统视频分割模型需要人工标记培训数据和初始化参与数据的问题提供了之前提供,将改变CGI行业的游戏游戏规则。TAM可应用于视频编辑、虚拟现实、增强现实等领域,具备广泛的应用前景。TAM的出现也将促进视频内容的真实性和可信度,减少一些虚假信息的传播。站长网2023-05-04 18:11:380000