首页站长资讯AI日报：SD 3宣布开源；中文语音AI天花板ChatTTS官网上线；Veo支持单图生成视频；ElevenLabs推多样化AI音频模型

AI日报：SD 3宣布开源；中文语音AI天花板ChatTTS官网上线；Veo支持单图生成视频；ElevenLabs推多样化AI音频模型

站长网2024-06-03 20:16:390阅

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、抖音：将打击使用AI技术P图侮辱他人等行为

抖音发布公告表示严厉打击网络暴力行为，已处置162件网暴舆情，警示教育施暴者近70万个。建立网络暴力线索反馈机制，提供一键防网暴功能保护用户安全。用户可申请法律咨询服务保护自身权益。

【AiBase提要:】

🚫 严厉打击网络暴力行为，处理162件网暴舆情，警示教育施暴者近70万个

🔒 建立网络暴力线索反馈机制，与公安机关合作打击违法犯罪行为

🛡 提供一键防网暴功能保护用户安全，用户可申请法律咨询服务维护权益

2、Stability AI开源SD 3：6月12日可下载不可商用

我对Stability AI宣布Stable Diffusion3 Medium开放发布日期为6月12日的消息感到兴奋。这款20亿参数的SD3 Medium模型具有照片真实感、优秀的排版效果和高性能，适合消费者系统和企业工作负载。Stable Diffusion3 Medium是Stability AI最新推出的产品，预计将为用户带来更加稳定和高效的使用体验。

【AiBase提要:】

⭐️ 照片真实感: 克服手和脸上的常见工件，提供高质量的图像，无需复杂工作流程。

⭐️ 排版优秀: 在排版上获得健壮的结果，优于更大的最先进的模型。

⭐️ 高性能: 优化的大小和效率，非常适合消费者系统和企业工作负载。

详情链接:https://stability.ai/stablediffusion3

3、英伟达发布数字人AI技术NVIDIA ACE 提升角色互动体验

NVIDIA最近推出了名为Avatar Cloud Engine （ACE）的先进数字人AI技术，旨在提升游戏和虚拟世界中角色的互动体验。该技术将游戏中的NPC赋予智能对话能力，实现自然、智能的交流，提升角色生动性和真实感。ACE技术可灵活部署在云端或本地设备，保证流畅高质量的互动体验，同时优化神经网络以减少延迟，确保实时互动。这一技术有望在游戏开发和虚拟现实领域带来革命性变革，拓展至客户服务、教育和娱乐领域，提供更自然智能的表现。

【AiBase提要:】

🗨️ 智能对话能力: ACE技术赋予游戏NPC真实对话能力，超越预设台词模式。

🎤 语音和面部动画生成: ACE利用AI技术生成真实回复，增强角色生动性和真实感。

🚀 灵活部署和低延迟: ACE可在云端或本地设备部署，确保流畅高质量互动体验，减少延迟影响。

4、Claude 3全系已支持函数调用工具Tool use

Claude 3现在支持函数调用工具Tool use，使其能够与外部工具和API进行交互，提供更动态和准确的响应。这项技术的发展展示了AI在提高工作效率和创新服务方式方面的巨大潜力。

【AiBase提要:】

🛠️ 从非结构化文本中提取结构化数据，减少手动输入工作量。

🔍 自然语言请求转换为结构化API调用，简化自助服务流程。

⏰ 协调多个Claude子代理执行细化任务，如自动协调会议时间。

详情链接:https://docs.anthropic.com/en/docs/tool-use

5、英伟达推AI游戏助手G-Assist

G-Assist是英伟达的游戏AI助手，通过语音查询回答游戏问题并个性化指导玩家。它能优化PC设置、提出游戏性能建议，甚至超频GPU。Nvidia展示的G-Assist展示了AI助手未来的可能性，尽管仍需谨慎态度。

【AiBase提要:】

⭐ G-Assist是英伟达的游戏AI助手，可指导玩家完成游戏并配置最佳设置。

⭐ 该助手可以通过语音查询回答游戏中的问题，并根据屏幕上的情况进行个性化指导。

⭐ 不仅可以优化和调整PC设置，还可以为游戏性能提出建议，并甚至超频GPU。

6、DeepMind视频生成模型Veo支持从单个参考图像生成视频片段

Google DeepMind的Veo模型是一项创新的视频生成模型，可以根据单个参考图像生成视频剪辑，并通过文本提示调整视觉风格。该模型为创意产业和视频制作领域带来新可能性，但也提醒用户注意不要分散注意力。

【AiBase提要:】

🔑 Veo模型支持从单个参考图像生成视频片段，并可调整视觉风格。

🌟 应用包括实验性工具VideoFX，用户可体验部分Veo模型功能。

💡 Veo模型具有潜力根据图像内容和文本提示生成符合用户要求的视频剪辑。

详情链接:https://blog.google/technology/ai/google-labs-video-fx-generative-ai/

7、一上线就爆火出圈！中文语音AI天花板ChatTTS官网上线

ChatTTS是一款备受关注的中文语音AI项目，上线不久就引起轰动。用户可以通过ChatTTS实现文字转语音、实时语音对话等功能，同时具有多语言支持和细粒度控制等特点。该项目适用于多种场景，包括电商直播、自媒体、在线教育和客服服务等。

【AiBase提要:】

🔊 文字转语音、实时语音对话功能

🎤 多语言支持和中英文混合表现

👥 多说话人支持和大规模训练数据应用

详情链接:https://chattts.com/

8、ControlNet作者推新项目Omost 一句话变构图小作文

Omost是一个革新性的图像生成项目，通过简单的提示词就能生成详细且准确的图像，极大地简化了图像描述的过程。用户只需输入简单提示词，即可获得高质量、符合预期的图像。同时，Omost具有自动扩展提示词、高灵活性和图像位置编码等优点，为图像生成提供了强大的工具支持。

【AiBase提要：】

⭐ 很短的提示词就可以生成非常详细并且空间表现很准确的图片

⭐ 高灵活性，保留图像布局，一句提示词即可修改元素

⭐ 提供详细描述，支持复杂图像生成，应用于AI绘画、广告创意等领域

项目页:https://top.aibase.com/tool/omost

试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

9、ElevenLabs推出创新AI音频模型

ElevenLabs最近推出了一款创新的AI音频模型，可以通过文本提示生成各种音效、短乐器曲目、音景和角色声音，为内容创作者、视频游戏开发者和电影电视制片厂带来巨大福音。这项技术极大简化了音频内容创作过程，提高创作效率，拓展创意空间。

【AiBase提要:】

🔊 文本到音频转换: 用户输入文本提示，AI生成相应音效和音乐。

🎶 多样性: 能生成各种音效满足不同场景需求。

🎭 角色声音生成: 为动画、游戏或影视作品中不同角色创造独特声音。

详情链接:https://top.aibase.com/tool/elevenlabs-text-to-sound-effects

10、PixVerse发布运动笔刷功能Magic Brush 比Runway更方便和直观

PixVerse最新推出的运动笔刷功能Magic Brush极大提升了产品的可用性和用户体验，为动画和动态图像创作带来了灵活性和高效性。用户可以通过手绘箭头自定义图像区域的运动方向和距离，实现更精确的动态效果控制。操作简便直观，无需复杂学习曲线，提高了创意表达空间和工作效率。

【AiBase提要:】

✨ 自定义运动方向和距离，精确控制动态效果

🎨 操作简便直观，提升用户友好度和创意表达空间

⏱️ 简化动画制作流程，提高工作效率和创作速度

详情链接:https://top.aibase.com/tool/pixverse

11、Nvidia发布GeForce RTX增强版，为AI PC数字助手提供支持

Nvidia在Computex展会上推出了新的RTX技术，为新的GeForce RTX AI笔记本电脑提供动力，同时推出Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助。此外，Nvidia ACE数字人物平台首次亮相，为数字人物提供支持。这些技术加速了500多个PC应用和游戏以及200多个OEM笔记本设计，为超过1亿的RTX AI PC用户带来下一代AI动力体验。

【AiBase提要:】

⭐ Nvidia推出新的RTX技术，为GeForce RTX AI笔记本电脑提供动力

⭐ Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助

⭐ Nvidia ACE数字人物平台首次亮相，为数字人物提供支持

12、麦肯锡调查显示：生成式AI应用大中华区增长最快

生成式AI应用在大中华区和亚太地区蓬勃发展，65%受访者经常使用生成式AI并已开始产生商业价值。企业主要通过使用现成产品、与AI厂商合作微调模型或自主开发产品三种方式应用生成式AI。应用场景主要包括文本、代码、音频、视频、图片等生成能力，随着多模态大模型的出现，应用场景将进一步扩大【AiBase提要:】

⚙️ 生成式AI应用增长：大中华区和亚太地区成为增长最快地区，原生数字人口使用频繁是主要原因。

💼 企业应用方式：现成产品使用、与AI厂商合作微调模型、自主开发产品三种方式。

🔍 应用场景扩大：生成式AI功能与应用场景挂钩，包括文本、代码、音频、视频、图片等生成能力，随着多模态大模型出现，应用场景将进一步扩大。

13、字节跳动旗下 AI 助手豆包推出PC客户端、浏览器插件版本

作为字节跳动旗下 AI 助手豆包推出PC客户端和浏览器插件版本，为用户提供了更多便捷的AI功能体验。用户可以通过豆包实现快捷划词翻译、AI搜索、一键常驻桌面等功能，同时还支持网页与视频总结、写作和文本修改等功能。豆包的AI大模型系列涵盖了多种功能模型，为用户提供全面的AI辅助服务。

【AiBase提要:】

🔍 豆包PC客户端版本支持快捷划词翻译、AI搜索、一键常驻桌面等功能

📚 插件版提供一键总结网页与视频、写作和文本修改等功能

💡 豆包大模型系列包括豆包通用模型Pro、角色扮演模型、语音合成模型等，提供多样化的AI功能

14、沙特阿美投资中国AI初创企业智谱AI

这篇文章报道了沙特阿美旗下的Prosperity7 投资了中国生成式人工智能初创企业智谱AI，使其估值达到 30 亿美元。这一投资不仅为智谱AI带来了资金支持，也有助于其在国际市场上拓展。智谱AI在人工智能领域的发展势头强劲，受到国际资本关注。

【AiBase提要:】

🌐 智谱AI获得沙特阿美旗下Prosperity7 的 4 亿美元投资，估值达 30 亿美元。

💡 智谱AI是清华大学计算机系技术成果转化公司，由唐杰教授领衔，在生成式人工智能领域取得显著成就。

💰 智谱AI曾获得超过 25 亿元人民币融资，参与方包括多家知名机构和公司。

AI日报SD 3宣布开源中文语音AI天花板ChatTTS官网上线Veo支持单图生成视频ElevenLabs推多样化AI音频模型

0000

评论列表

共(0)条

相关推荐

站长资讯
科大讯飞董事长回应买蔚来原因：性能出色加速快
近日，蔚来汽车迎来了其发展历程中的又一重要时刻——第50万台量产车成功下线，这一荣誉被蔚来旗舰车型ES8所摘得。而更为引人瞩目的是，科大讯飞董事长刘庆峰成为了这台具有里程碑意义车型的车主。
站长网2024-05-09 23:07:12
0000
站长资讯
微软宣布Bing Chat 和 Bing Search 新增深色模式
微软方面表示，BingChat和BingSearch将向所有用户开放深色模式。对于桌面端的用户，可以打开Bing.com网站，点击右上角的汉堡菜单，然后选择“外观”设置选项，最后选择“深色”选项来启用深色模式。
站长网2023-07-27 11:16:47
0001
站长资讯
雷军穿上“雷军班”班服：瞬间感觉年轻了
快科技12月10日消息，今日晚间，雷军在社交平台发布视频称，穿上雷军班”的班服，瞬间感觉年轻了。REDMI品牌总经理王腾随后评论称：老板太帅了！”雷军表示，前几天，武汉大学雷军班”到小米科技园来参观，并和他们举办了一次面对面的交流。他们每个人都是万里挑一天之骄子”，雷军还透露，雷军班的学生还送了几份礼品，其中一件就是雷军班”同款的班服。有网友问能不能送自己一件，雷军笑称：我也只有一件”。
站长网2024-12-10 22:03:59
0000
站长资讯
Reddit因API接口收费遭用户抵制但似乎对流量影响不大
Reddit用户正在抵制必须付费才能访问该平台的API，该平台对API收费决定则与生成式人工智能和不良行为者使用该网站构建AI模型有关。Reddit今年4月宣布，将开始向第三方收取其API的访问费用，该API自2008年以来一直免费。该平台希望使用其数据训练人工智能模型的科技公司为此付费。
站长网2023-06-26 12:31:55
0000
站长资讯
特斯拉中国：目前没有与任何第三方人力资源公司合作进行生产一线相关岗位招聘
特斯拉发布《关于提醒应聘者谨防招聘诈骗的声明》称，近日，发现有第三方人力资源公司或个人假借本公司名义或假冒特斯拉合作供应商身份，在未得到特斯拉公司授权的情况下，发布特斯拉生产一线相关岗位的虚假、不实招聘信息，违规进行招聘活动。此类行为严重损害特斯拉的声誉及合法权益，也对求职者造成误导及权益损害。对此，特斯拉郑重声明:
站长网2023-05-29 14:32:56
0000