利用机器学习编译技术(MLC-LLM)在任意硬件上高效部署大语言模型,支持 CPU/GPU/移动端/浏览器。
核心功能:
- ML 编译优化:算子融合 / 内存规划 / 硬件映射
- 无需服务器,在浏览器中运行 LLM(WebGPU)
- iOS / Android 移动端本地部署
- 支持 Llama / Qwen / Mistral / Phi 等主流模型
- CUDA / Vulkan / Metal / WebGPU 多后端
- INT4 / INT8 量化,7B 模型仅需 4GB 内存
- 预编译量化的模型可直接下载使用
- TVM Unity 编译栈,硬件亲和优化
技术栈:TVM / Unity / CUDA / Metal / WebGPU / WASM
详细描述:由 TVM 之父陈天奇主导开发,代表了通用 LLM 部署的最前沿。在苹果 M2 Pro MacBook Pro 上运行 70B Qwen 模型达到每秒 10+ tokens。WebGPU 后端让用户可以在浏览器中运行一个完全本地的大模型,所有数据不离开设备。
游客,本帖隐藏的内容需要积分高于 20 才可浏览,您当前积分为 0 |