依星源码资源网,依星资源网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

【好消息,好消息,好消息】VIP会员可以发表文章赚积分啦 !
查看: 14|回复: 0

下一代轻量级多模态混合专家模型,支持文本、图像、音频和文档理解

[复制链接] 主动推送

1万

主题

1万

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
19601
发表于 前天 12:17 | 显示全部楼层 |阅读模式
下一代轻量级多模态混合专家模型,支持文本、图像、音频和文档理解
下一代轻量级多模态混合专家模型,支持文本、图像、音频和文档理解。专为研究和实际应用设计,可在单个RTX 4090上运行,并通过高级内存优化扩展至70B参数。
特性
  • 多模态: 统一支持文本、图像、音频和文档输入
  • MoE架构: 高效的混合专家模型,参数从0.5B到70B可扩展
  • 轻量级: 0.5B基础模型可在消费级GPU(24GB VRAM)上运行
  • 现代Transformer: RMSNorm、RoPE、分组查询注意力等
  • 极致适应性: QLoRA、4位量化、LoRA适配器、梯度累积
  • 一键式工作流: 所有管理通过python manage.py完成(见下文)
安装与环境
  • Python: 推荐3.9–3.11
  • CUDA: 11.8+ (用于GPU训练/推理)
  • 依赖项: 所有必需的包都列在requirements.txt中
快速设置
  1. python manage.py setup
复制代码
这将自动创建虚拟环境并安装所有依赖项。
命令行使用
所有命令通过python manage.py <command>管理。如需帮助:
  1. python manage.py help
复制代码
主要命令[td]
命令描述
setup环境设置和依赖安装
train训练模型(支持--distributed分布式训练)
infer使用训练好的模型进行推理
check检查GPU和依赖项
monitor系统监控(GPU/CPU/内存)
download下载训练数据集
arrowArrow/JSON数据集转换
quantize将模型量化为4/8位以提高效率
benchmark运行性能基准测试
help显示帮助信息

示例
  1. python manage.py download
  2. python manage.py train
  3. python manage.py infer --ckpt ckpt/model.pt --prompt "你好!"
复制代码
模型架构与配置[td]
模型大小层数隐藏层大小注意力头数MoE专家数参数规模上下文长度( tokens)
0.5B12102484~0.5B10M
1.5B2430723216~1.5B10M
7B3240963232~7B10M
32B4866565264~32B10M
64/70B80819264128~70B10M
  • 多模态集成: CLIP ViT-L/14(视觉)、AST Base(音频)、LayoutLMv3(文档),具有统一的嵌入空间
  • MoE: Top-2路由,高效专家加载
数据集会自动下载并缓存。支持以下数据集:
数学与推理
  • NuminaMath-CoT (AI-ModelScope/NuminaMath-CoT): 带思维链的数学推理数据集
中文语言
  • Llama3-Chinese-Dataset (zhuangxialie/Llama3-Chinese-Dataset): 中文语料库
  • Chinese-DeepSeek-R1 (liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT): 中文指令微调数据
网络与通用知识
  • OpenWeb888K (prithivMLmods/OpenWeb888K): 网络爬取数据
图像理解
  • ShareGPT-4o-Image (FreedomIntelligence/ShareGPT-4o-Image): 图像对话对
  • coco_captions_small_slice (modelscope/coco_captions_small_slice): COCO图像标题
  • LAION-SG (AI-ModelScope/LAION-SG): 语义图数据集
音频处理
  • AudioSetCaps_350k (lmms-lab/AudioSetCaps_350k_converted): 音频标题生成
  • Libri2Mix_8k (modelscope/Libri2Mix_8k): 音频混合数据集
  • Clotho (OmniData/Clotho): 音频标题生成
代码与编程
  • ultrachat_200k (HuggingFaceH4/ultrachat_200k): 基于对话的指令微调
  • CodeAlpaca_20K (HuggingFaceH4/CodeAlpaca_20K): 代码指令微调
  • codeparrot_github-code (jablonkagroup/codeparrot_github-code-chemistry-python): Python代码语料库
文档理解
  • DocVQA (swift/DocVQA): 文档视觉问答
  • PubLayNet (OpenDataLab/PubLayNet): 文档布局分析
  • VQAv2 (swift/VQAv2): 视觉问答
通过以下命令自动下载和缓存数据集:
  1. python manage.py download
复制代码
在24GB GPU上训练70B模型[Beta]
支持在单个24GB GPU上训练/微调70B模型,使用QLoRA、4位量化、LoRA适配器和梯度累积技术。
70B QLoRA训练示例单GPU

  1. python manage.py train \
  2.   --model_size 70B \
  3.   --force_quant \
  4.   --force_lora \
  5.   --batch_size 1 \
  6.   --accum 32 \
  7.   --seq_len 512
复制代码

多GPU分布式训练
  1. python -m torch.distributed.launch --nproc_per_node=4 tools/train.py \
  2.   --model_size 70B \
  3.   --distributed \
  4.   --force_quant \
  5.   --force_lora \
  6.   --batch_size 1 \
  7.   --accum 8
复制代码
  1. python manage.py train \
  2.   --model_size 70B \
  3.   --force_quant \
  4.   --force_lora \
  5.   --batch_size 1 \
  6.   --accum 32 \
  7.   --seq_len 512
复制代码
  • 4位量化:显著减少内存占用(QLoRA论文)
  • LoRA适配器:高效参数微调
  • 梯度累积:模拟大批次训练
  • 混合精度:进一步节省内存
  • 无精度损失:QLoRA+LoRA达到接近全精度的结果(QLoRA深度解析)



链接:https://pan.quark.cn/s/4f7bc3c7b3bb
提取码下载 :
文件名称:提取码下载.txt 
下载次数:0  文件大小:16 Bytes  售价:59金钱 [记录]
下载权限: 不限 [购买VIP]   [充值]   [在线充值]   【VIP会员6折;永久VIP4折】
安全检测,请放心下载




相关帖子

扫码关注微信公众号,及时获取最新资源信息!下载附件优惠VIP会员6折;永久VIP4折
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
1、本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与商业和非法行为,请在24小时之内自行删除!
2、本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,请勿任何商业目的与商业用途。
3、若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
4、论坛的所有内容都不保证其准确性,完整性,有效性,由于源码具有复制性,一经售出,概不退换。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
5、用户使用本网站必须遵守适用的法律法规,对于用户违法使用本站非法运营而引起的一切责任,由用户自行承担
6、本站所有资源来自互联网转载,版权归原著所有,用户访问和使用本站的条件是必须接受本站“免责声明”,如果不遵守,请勿访问或使用本网站
7、本站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本站不承担任何责任。
8、凡以任何方式登陆本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
9、本站以《2013 中华人民共和国计算机软件保护条例》第二章 “软件著作权” 第十七条为原则:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。若有学员需要商用本站资源,请务必联系版权方购买正版授权!
10、本网站如无意中侵犯了某个企业或个人的知识产权,请来信【站长信箱312337667@qq.com】告之,本站将立即删除。
郑重声明:
本站所有资源仅供用户本地电脑学习源代码的内含设计思想和原理,禁止任何其他用途!
本站所有资源、教程来自互联网转载,仅供学习交流,不得商业运营资源,不确保资源完整性,图片和资源仅供参考,不提供任何技术服务。
本站资源仅供本地编辑研究学习参考,禁止未经资源商正版授权参与任何商业行为,违法行为!如需商业请购买各资源商正版授权
本站仅收集资源,提供用户自学研究使用,本站不存在私自接受协助用户架设游戏或资源,非法运营资源行为。
 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
售前咨询热线
312337667

微信扫一扫,私享最新原创实用干货

QQ|免责声明|小黑屋|依星资源网 ( 鲁ICP备2021043233号-3 )|网站地图

GMT+8, 2025-7-29 11:15

Powered by Net188.com X3.4

邮箱:312337667@qq.com 客服QQ:312337667(工作时间:9:00~21:00)

快速回复 返回顶部 返回列表