
VoiceSplit:语音分离技术
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
VoiceSplit是一种先进的语音分离技术,能够从混杂的声音中精确提取单个说话人的声音信号,在多人对话录音分析、个性化音频内容制作等领域展现出巨大潜力。
我们在Pytorch VoiceFilter项目中的非官方实现是针对SCC5830最终项目的图像处理部分,在ICMC/USP进行的。我们计划首先使用LibriSpeech数据集,但为了适应这个任务需求,我们需要生成包含声音重叠的音频。
我们的改进之处在于:在计算过程中采用了Si-SNR与PIT替代了Power Law压缩损失函数,因为这种方法能够帮助我们取得更好的结果(对比分析请参见相关报告)。此外,在激活函数的选择上使用了MISH而非ReLU,并且这一步骤也对性能提升有显著贡献。
全部评论 (0)
还没有任何评论哟~


