CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型
MFTCoder 是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder 具备高效训练特征,包括高效的数据 Tokenization 模式和支持 PEFT 微调,能提升微调训练速度并降低资源需求。
MFTCoder 在 v0.3.0版本中进行了重磅升级。
首先,它支持了 Mixtral 等更多的主流开源 LLMs 模型,如 Mistral、Deepseek-coder、Chatglm3等。这些模型经过 MFTCoder 微调后,在代码能力上有了显著的提升。
其次,新版本适配了最新的 transformers v4.36.0和 FlashAttention2v2.3.6,使得 MFTCoder 可以更好地利用最新的 Attention 实现,如 sliding_window Attention,进一步提升模型性能。
第三,MFTCoder-accelerate 框架在原有支持 Accelerate DeepSpeed 的基础上,增加了对 FSDP 的支持,提供了更多的选择。
最后,MFTCoder 引入了 Self-Paced Loss 作为新的收敛均衡技术,可以调整不同任务的权重,控制不同任务的收敛速度,实现多任务同时收敛。
通过多任务微调,CodeFuse-Mixtral-8x7B 在各种语言的 Pass@1评测中的性能得到了显著提升,达到40.9% ->52.8%。这使得 CodeFuse-Mixtral-8x7B 成为当前开源的非代码大模型中代码能力领先的模型之一。
项目地址:https://github.com/codefuse-ai/MFTCoder/tree/main/mftcoder_accelerate
理想MEGA开放预订 订金5000元
理想MEGA现已在官网开放预订,消费者需支付5000元预定金。该车型的正式售价将在2023年12月的发布会上公布。预订时间为2023年11月17日9:40至2024年1月12日23:59,消费者需在此期间预订。订单确认定购的截止时间是2024年1月31日23:59,按照预定金的支付时间顺序,厂商将安排生产和交付。站长网2023-11-17 10:26:030000谷歌云AIGC大提升!Vertex AI提供Claude 2等第三方模型,PaLM 2升级
文章概要:1.谷歌正在扩展其云AI产品,提供第三方模型如Meta的Llama2和Anthropic的Claude2。2.谷歌宣布PaLM2现已支持38种语言和32K上下文窗口,提升性能。3.谷歌还扩展了AI模型自定义offerings,如PaLM2支持微调,Imagen支持“风格调优”。站长网2023-08-30 10:45:150000苹果下一代Vision Pro至少还要18个月才会推出
2月19日的消息显示,苹果已正式进军头显市场并开启了全新产品线,这得益于VisionPro在1月19日凌晨5点开始在美国市场接受预订,并于2月2日正式上市。随着VisionPro在美国市场的成功推出,公众对其何时拓展至更多市场以及下一代产品的推出时间充满了期待。站长网2024-02-21 11:19:570000抖音开展“风险地点”类内容专项治理 打击危险区域探险等行为
抖音发布关于开展“风险地点”类内容专项治理的公告称,当前全国已进入暑期和汛期,旅游高峰期也同时到来。为此,平台将启动为期两个月的“风险地点”专项治理行动,并在暑期结束后保持常态化治理。对发现的风险内容,平台将采取添加标注、内容下架等方式进行处理,对于高危且多次违规的账号平台也会采取账号禁言、封禁等手段治理。此次治理行动将重点关注以下内容:站长网2024-07-19 11:07:120000日本制定AI准则应对过度依赖AI技术和数据偏见
🔍划重点:1.🌐日本政府制定AI准则,旨在减少过度依赖AI技术,并解决数据偏见问题。2.📜政府将在年底前敲定准则,包括10项基本原则,以确保AI公司遵循公平、透明和人权保护原则。3.🤖AI开发者、服务提供商和用户将共同承担责任,开发者需确保数据准确性和防止未经授权的访问,提供商需警告用户有关个人信息,并保证服务的有限使用。站长网2023-10-24 23:46:570000