依星源码资源网,依星资源网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

【好消息,好消息,好消息】VIP会员可以发表文章赚积分啦 !
查看: 31|回复: 0

可实现地语音聊天、控制电脑做出简单操作的功能。

[复制链接] 主动推送

2万

主题

2万

帖子

2万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
22184
发表于 前天 09:39 | 显示全部楼层 |阅读模式
可实现地语音聊天、控制电脑做出简单操作的功能。
通过开源项目:语音转文字模型 SenseVoice,文字转语音模型 CosyVoice2,大语言模型服务 Ollama,键盘鼠标宏 KeymouseGo。LLMSPeech 可实现地语音聊天、控制电脑做出简单操作的功能。
2.1. 前期准备
Windows 11 (10)
安装 Git
下载 ffmpeg并加入环境变量, 选择 Windows builds from gyan.dev ,选择 ffmpeg-git-essentials.7z。 解压后将 bin 加入环境变量 PATH 中
下载 Ollama ,打开 PowerShell 下载一个非思考模型。qwen3 0.6b 版本用于测试连通性,qwen3:4b-instruct用于测试prompt。
  1. ollama run qwen3:qwen3:0.6b
  2. ollama run qwen3:4b-instruct
复制代码
2.2. 安装虚拟环境
Miniconda(清华源), 下载 Miniconda3-py313_25.5.1-1-Windows-x86_64.exe 版本,安装时勾选 Add Miniconda3 to my PATH environment variable
打开 PowerShell ,如果想要在 PowerShell 使用 conda ,开发环境可执行以下:添加权限,Y 确认,初始化,取消base环境自启动,关闭 PowerShell。若不执行,后续操作需要在 Anaconda PowerShell Prompt 中进行
  1. Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
  2. conda init
  3. conda config --set auto_activate_base false
复制代码
加入信任链接,安装虚拟环境,配置镜像源。
  1. conda tos accept --override-channels --channel  https://repo.anaconda.com/pkgs/main
  2. conda tos accept --override-channels --channel  https://repo.anaconda.com/pkgs/r
  3. conda tos accept --override-channels --channel  https://repo.anaconda.com/pkgs/msys2

  4. conda create -n llmspeech python=3.10 -y
  5. conda activate llmspeech

  6. python -m pip install -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple --upgrade pip
  7. pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
  8. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  9. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  10. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  11. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/
  12. conda config --set show_channel_urls yes
  13. conda upgrade pip
复制代码
2.3. 可跳过该步骤。单独测试各个模块和环境配置2.3.1. 安装 SenseVoice
SenseVoice 下载,配置环境,运行 python 脚本自动下载模型,等待显示成功。默认下载模型位置为 .cache\modelscope\hub\iic, 其中 speech_fsmn_vad_zh-cn-16k-common-pytorch 是 AuroModel 类的 vad_model 参数, SenseVoiceSmall 是 AuroModel 类的 model 参数。
  1. git clone https://github.com/FunAudioLLM/SenseVoice.git
  2. conda create -n sensevoice python=3.10 -y
  3. conda activate sensevoice
  4. cd SenseVoice
  5. pip install -r requirements.txt
复制代码
如果有英伟达显卡,最好使用 CUDA,这个命令在 CosyVoice 中也有
  1. pip install torch==2.3.1+cu121 torchaudio==2.3.1+cu121 -f https://download.pytorch.org/whl/torch_stable.html
复制代码
检测是否安装成功:将 demo_sensevoice.py 复制到 LLMSpeech 目录下,运行
2.3.2. 安装 CosyVoice
CosyVoice,默认下载模型位置在 pretrained_models/CosyVoice2-0.5B
  1. git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
  2. cd CosyVoice
  3. git submodule update --init --recursive
  4. conda create -n cosyvoice -y python=3.10
  5. conda activate cosyvoice
  6. conda install -y -c conda-forge pynini==2.1.5
  7. pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
复制代码
把 CosyVoice 重命名为 CosyVoice2, 然后把里面的 cosyvoice 文件夹复制到 LLMSpeech 根目录
下载 CosyVoice2-0.5B 模型:把 demo\download_cosyvoice-0.5B.py 复制到 LLMSpeech 根目录下,运行
检测是否安装成功:demo_cosyvoice.py 也复制到 LLMSpeech 根目录,应该可以直接运行。
至此, CosyVoice 还有一个小问题,就是无法断网运行。将 assets/pys/wetext.py 覆盖复制到 wetext 包,参考路径 miniconda3\envs\cosyvoice\Lib\site-packages\wetext 这样 wetext 就不会在每次启动时联网了
2.3.3. 安装 KeymouseGo
  1. git clone https://github.com/taojy123/KeymouseGo.git
  2. cd KeymouseGo
  3. pip install -r requirements-windows.txt
复制代码
2.4. 配置环境2.4.1 安装依赖
  1. pip install -r requirements.txt
复制代码
4.1.1 如果没有英伟达显卡,就注释掉第一行 --extra-index-url https://download.pytorch.org/whl/cu121,此时会会安装 pytorch cpu 版本,速度会慢。
4.1.2 如果网络连接不畅,可以下载 UsbEAm Hosts Editor,自动优化 github, pytorch, ollama 的 host 文件。
4.1.3 此时程序中的 wetext 会在启动时自动联网, LLMSpeech 无法断网运行。将 assets/pys/wetext.py 覆盖复制到 wetext 包,参考路径 miniconda3\envs\llmspeech\Lib\site-packages\wetext 这样 wetext 就不会在每次启动时联网了
2.4.2 克隆必要仓库
  1. git clone https://github.com/FunAudioLLM/SenseVoice.git
  2. git clone https://github.com/taojy123/KeymouseGo.git
  3. git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
  4. cd CosyVoice
  5. git submodule update --init --recursive
复制代码
将 CosyVoice 重命名为 CosyVoice2, 然后把里面的 cosyvoice 文件夹复制到 LLMSpeech 根目录
2.4.3 安装 CosyVoice-0.5B 模型
  1. python demo/download_cosyvoice-0.5B.py
复制代码
2.4.4 下载其他模型
将 demo 文件夹下的 demo_cosyvoice.py 和 demo_sensevoice.py 复制到 LLMSpeech 根目录运行。 其中运行 demo_sensevoice.py 后会自动下载需要的模型。
2.5. 运行
运行 LLMSpeech.py 即可
2.5.1 双击运行
如果是 Windows 10 系统需要去应用商店自行下载 Windows Terminal,Windows 11 自带 Windows Terminal。
提取码下载:
文件名称:提取码下载.txt 
下载次数:0  文件大小:17 Bytes  售价:29金钱 [记录]
下载权限: 不限 [购买VIP]   [充值]   [在线充值]   【VIP会员6折;永久VIP4折】
安全检测,请放心下载





相关帖子

扫码关注微信公众号,及时获取最新资源信息!下载附件优惠VIP会员6折;永久VIP4折
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
1、本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与商业和非法行为,请在24小时之内自行删除!
2、本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,请勿任何商业目的与商业用途。
3、若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
4、论坛的所有内容都不保证其准确性,完整性,有效性,由于源码具有复制性,一经售出,概不退换。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
5、用户使用本网站必须遵守适用的法律法规,对于用户违法使用本站非法运营而引起的一切责任,由用户自行承担
6、本站所有资源来自互联网转载,版权归原著所有,用户访问和使用本站的条件是必须接受本站“免责声明”,如果不遵守,请勿访问或使用本网站
7、本站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本站不承担任何责任。
8、凡以任何方式登陆本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
9、本站以《2013 中华人民共和国计算机软件保护条例》第二章 “软件著作权” 第十七条为原则:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。若有学员需要商用本站资源,请务必联系版权方购买正版授权!
10、本网站如无意中侵犯了某个企业或个人的知识产权,请来信【站长信箱312337667@qq.com】告之,本站将立即删除。
郑重声明:
本站所有资源仅供用户本地电脑学习源代码的内含设计思想和原理,禁止任何其他用途!
本站所有资源、教程来自互联网转载,仅供学习交流,不得商业运营资源,不确保资源完整性,图片和资源仅供参考,不提供任何技术服务。
本站资源仅供本地编辑研究学习参考,禁止未经资源商正版授权参与任何商业行为,违法行为!如需商业请购买各资源商正版授权
本站仅收集资源,提供用户自学研究使用,本站不存在私自接受协助用户架设游戏或资源,非法运营资源行为。
 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
售前咨询热线
312337667

微信扫一扫,私享最新原创实用干货

QQ|免责声明|小黑屋|依星资源网 ( 鲁ICP备2021043233号-3 )|网站地图

GMT+8, 2025-9-28 06:00

Powered by Net188.com X3.4

邮箱:312337667@qq.com 客服QQ:312337667(工作时间:9:00~21:00)

快速回复 返回顶部 返回列表