VRChat从语音识别到翻译变声
基于曾经做的几款变声器以及最近刚尝试的osc互动,在这里进行一些记录和说明
从语音识别到翻译显示
基于代码讲解原理
一、创建FunASR的API服务便于联网调用
计划与准备 使用 Flask 创建的 Python API,它接受音频流(作为上传文件),利用 funasr 库和 SenseVoiceSmall 模型进行转录,并返回识别出的文字。该 API...
二、录制麦克风并向FunASR API 发送录音实现语音识别
目前需要执行以下操作: 列出可用的麦克风设备,并让您选择一个。 持续监听所选麦克风的音频输入。 当检测到音量超过预设阈值并持续一段时间(例如0.3秒)后,开始录制音频。 当音量低于...
三、使用Ollama进行翻译
Ollama 实现以下功能: 获取 Ollama 模型列表:在脚本开始时,连接到本地 Ollama 服务,获取可用的模型列表,并让用户选择一个用于翻译。 选择目标翻译语言:让用户从中(中...
四、将翻译的内容通过OSC传给VRChat显示在角色头顶
基本流程: 新增依赖:脚本现在需要 python-osc 库。如果尚未安装,请运行: Bash pip install python-osc ...
五、添加webui以及一些优化
这里新增了一个简单的webui,便于修改麦克风、API地址等 优化方面:为录音开始增加了一个缓冲以保证录音完整。 import sounddevice as sd import num...