开源AI音视频与多媒体处理
本帖精选推荐AI音视频处理与多媒体工具,涵盖视频下载、音频处理、AI图像生成等,是多媒体开发的核心工具集。
- AUTOMATIC1111/stable-diffusion-webui — 162K★ | Python | Stable Diffusion Web UI,图片生成界面,LoRA/ControlNet/高分辨率修复,本地部署最流行方案
- yt-dlp/yt-dlp — 159K★ | Python | 命令行视频下载器,YouTube/B站/抖音等1000+站点,sponsorblock/字幕下载/格式转换
- ytdl-org/youtube-dl — 140K★ | youtube-dl继任者,持续更新所有站点支持,代理支持/认证访问/播放列表下载
- huggingface/transformers — 160K★ | Python | 音视频理解框架,Whisper语音识别/Dinov2视觉/Wav2Vec2语音,HuggingFace生态核心
- langflow-ai/langflow — 147K★ | Python | 多模态Agent工作流,图像理解/音视频处理/文档分析,可视化编排多模态管道
- TheAlgorithms/Python — 220K★ | Python | 多媒体算法实现,图像处理/音频处理/视频编解码/信号处理,算法学习参考
- 521xueweihan/HelloGitHub — 153K★ | Python | 多媒体开源项目精选月刊,月度热门项目推荐/中文解读/Star趋势,适合入门学习
- open-webui/open-webui — 134K★ | Python | 多模态AI界面,支持语音输入/图像上传/视频分析,统一LLM交互入口
核心功能
• stable-diffusion-webui: txt2img/img2img,ControlNet姿态控制,LoRA微调,Adetailer面部修复
• yt-dlp: yt-dlp URL,--format选择格式,--sponsorblock去除广告,--write-subs字幕
• transformers: pipeline('speech-to-text'),pipeline('image-classification'),pipeline('video-classification')
• langflow: 多模态RAG,图像+文本联合检索,音视频转文本处理管道
适用场景
• AI图像生成与编辑
• 视频下载与转码
• 语音识别与合成
• 多模态RAG知识库
• 音视频算法研究
游客,本帖隐藏的内容需要积分高于 20 才可浏览,您当前积分为 0 |