Advertisement

使用Tensorflow的Deezer音源分离库(通过命令行提取人声、钢琴和鼓声等)- Python

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
这是一款基于TensorFlow开发的开源Python工具包,由音乐科技公司Deezer提供。该库允许用户通过简单的命令行操作,从音频文件中精准地分离出人声、钢琴声或鼓点等特定乐器的声音信号。 Spleeter 是 Deezer 的一个音源分离库,使用 Python 编写的预训练模型,并基于 TensorFlow 构建。 该工具允许用户轻松地训练自己的源分离模型(前提是您拥有包含孤立音频源的数据集),并且提供了最先进的预训练模型来执行各种风格的音乐元素分离。这些包括人声与伴奏、鼓和贝斯等其他乐器的分离,以及更详细的五音轨分割:人声、鼓、贝斯、钢琴和其他部分。 Spleeter 在 musdb 数据集中表现出色,并且在 GPU 上运行时能够以比实时快 100 倍的速度将音频文件拆分为四个独立轨道。设计上支持直接通过命令行使用,同时也可作为 Python 库集成到您自己的开发环境中进行更深入的定制化应用。 安装方式多样,既可以通过 Conda 和 pip 安装,也可以选择 Docker 进行部署和运行。对于初次使用者来说,无需任何前期准备即可快速开始体验 Spleeter 的强大功能。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 使TensorflowDeezer)- Python
    优质
    这是一款基于TensorFlow开发的开源Python工具包,由音乐科技公司Deezer提供。该库允许用户通过简单的命令行操作,从音频文件中精准地分离出人声、钢琴声或鼓点等特定乐器的声音信号。 Spleeter 是 Deezer 的一个音源分离库,使用 Python 编写的预训练模型,并基于 TensorFlow 构建。 该工具允许用户轻松地训练自己的源分离模型(前提是您拥有包含孤立音频源的数据集),并且提供了最先进的预训练模型来执行各种风格的音乐元素分离。这些包括人声与伴奏、鼓和贝斯等其他乐器的分离,以及更详细的五音轨分割:人声、鼓、贝斯、钢琴和其他部分。 Spleeter 在 musdb 数据集中表现出色,并且在 GPU 上运行时能够以比实时快 100 倍的速度将音频文件拆分为四个独立轨道。设计上支持直接通过命令行使用,同时也可作为 Python 库集成到您自己的开发环境中进行更深入的定制化应用。 安装方式多样,既可以通过 Conda 和 pip 安装,也可以选择 Docker 进行部署和运行。对于初次使用者来说,无需任何前期准备即可快速开始体验 Spleeter 的强大功能。
  • Spleeter_5道五种_架子_5stems.tar.gz
    优质
    Spleeter是一款先进的音频处理工具,能够高效地将音乐文件分解为五个独立的声音轨道(人声、和声、打击乐、贝斯线及伴奏乐器),提供高质量的五声道分离效果。 GitHub下载较慢的话,可以尝试其他方式获取。关于spleeter音乐人声分离的环境搭建和运行,请参考我写的另一篇文章《spleeter音乐人声分离环境搭建和运行windows+ubuntu18.04》。
  • 88键wav.7z
    优质
    这是一个包含多种钢琴音符声音的压缩文件(.7z格式),内含88个键的所有标准音频文件(.wav),适用于音乐制作和学习。 钢琴88键按键声音素材的WAV格式文件。
  • 城市类:利频数据集,特征深度学习模型来进
    优质
    本项目旨在开发一种基于深度学习的声音分类系统,通过对城市环境中的音频数据进行特征提取与分析,实现对各类声音的有效识别。 城市声音分类是一个重要的领域,它结合了环境声学、信号处理以及机器学习技术来识别与分类不同环境中出现的声音事件。在本项目中,我们利用音频数据集训练深度学习模型以实现对城市各种声音的自动分类。 1. **音频数据集**: - 音频数据集是模型训练的基础,通常包含多种类别的声样本。例如,UrbanSound8K是一个常用的公开数据库,内含44,734条长度为十秒的城市环境音片段,并且被归入十个主要类别。 - 数据集中声音类型的多样性对于提升模型的泛化能力至关重要,应该覆盖不同的声源、背景噪声以及录制条件。 2. **特征提取**: - 在处理音频信号时,首先需要将其转换成便于机器学习算法理解的形式。常见的方法包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和频谱图等。 - MFCC模拟了人类听觉系统的工作方式,在语音识别中被广泛使用,并且同样适用于城市声音分类任务。 - 频谱图,如短时傅立叶变换(STFT),可以提供时间与频率信息,帮助捕捉声音的动态变化特征。 3. **深度学习模型**: - 使用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习架构对音频特征进行建模并分类。CNN对于图像及序列数据处理效果良好,能够捕获局部特性;而RNN则擅长于捕捉时间序列中的依赖关系。 - 结合这两种模型的使用方式,例如卷积循环神经网络(CRNN),可以同时利用时间和空间结构信息以提高声音分类的效果。 4. **预处理与增强**: - 数据预处理包括标准化、归一化等步骤,确保输入到模型的数据具有相似尺度范围。 - 通过随机剪裁、翻转以及添加噪声等方式进行数据增强能够增加训练样本的多样性,并提升模型在面对新情况时的表现能力。 5. **模型训练与优化**: - 应选择合适的损失函数(如交叉熵损失)来衡量预测结果和真实标签之间的差异。 - 使用诸如Adam或SGD等优化算法调整模型参数以最小化该损失值。 - 设置适当的批次大小及学习率,以便在保证收敛性的前提下加快训练速度。此外还需要采取早停策略防止过拟合,并利用验证集监控模型性能。 6. **评估与测试**: - 通过准确率、精确度、召回率和F1分数等指标来评价模型的性能。 - 使用独立于训练数据集合之外的数据进行最终测试,以确保其具有良好的泛化能力并且不会出现过拟合的问题。 7. **Jupyter Notebook**: - Jupyter Notebook提供了一个交互式的计算环境,在其中可以编写代码、运行程序并展示结果,非常适合用于数据分析和模型开发。 - 在Notebook中组织代码、可视化数据集及性能指标有助于更好地理解和协作项目进展。 8. **项目结构**: - 项目的主目录可能包含加载音频文件的脚本、预处理函数定义、网络架构设计以及训练与评估过程中的相关代码,还可能会有用于展示结果的数据可视化文档。 通过上述步骤可以构建一个能够识别并分类城市声音事件的深度学习系统,并将其应用于噪声污染监测、智能安全防护及智能家居等多个领域中以提高城市的智能化水平。在实际应用过程中不断优化模型性能和扩大数据集规模将有助于进一步提升声源分类准确率与实用性。
  • 汇编语言实现模拟
    优质
    本项目采用汇编语言编写程序,旨在模拟钢琴音效,通过精确控制音频输出,再现钢琴演奏的真实感与丰富性。 这个功能可以实现两个方面:一是通过键盘模拟钢琴的声音;二是利用蜂鸣器播放《两只老虎》的音乐。
  • 器2.0与器3.0
    优质
    人声提取器2.0与人声提取器3.0是一款先进的音频处理软件,能够高效地从音乐中分离出人声部分。最新版本3.0在前一版基础上进一步优化了算法,提升了声音清晰度和分离效果,适用于多种音频文件格式,是专业音乐制作人和爱好者的必备工具。 这款软件仅支持WAV格式文件的转换需求通常是从MP3转为WAV。因此推荐使用“格式工厂”这一便捷的格式转换工具。 提取出来的干音(即人声)可以用于多种用途,如动画、广播剧等场景中,只要音频质量足够高的话。歌声提取器或称人声提取器只需提供伴奏和原歌曲文件即可进行无损处理,并且必须输出为Wave格式:仅支持Windows PCM编码的wav文件。其原理是通过计算原曲减去伴奏得到干音,适用于WIDI、VocalTune、MikuMikuVoice等需要使用人声作为辅助处理(扒谱)功能的软件。 此提取工具操作简便但对输入素材要求较高:如果提供的伴奏与原始歌曲中的伴奏存在差异,则效果不佳。因此建议谨慎选择并提供高质量的音频文件以获得更好的结果。
  • :背景、伴奏与
    优质
    本课程深入探讨声源分离技术在音频处理中的应用,重点讲解如何从复杂声音环境中提取并分离出清晰的人声和伴奏音轨。 基于开源框架,我分离了语音文件,并提取了背景声伴奏和原始人声。使用BLSTM双向循环神经网络进行提取。文件中有两首成品歌曲,分别是《世间美好与你环环相扣》的分离版本。
  • 使MATLAB歌曲中元素
    优质
    本项目利用MATLAB软件进行音频信号处理,实现对歌曲中音乐与人声元素的有效分离。通过算法优化,提高分离精度,为音乐制作提供技术支持。 分离歌曲中的音乐和人声
  • 识别:此Python脚本于识别并在检测到时执特定
    优质
    这款Python脚本专为声音识别设计,能够精准捕捉并辨识特定声音,在确认后自动执行预设命令,极大提升了交互式操作体验。 声音识别的Python脚本执行检测特定声音的任务,并在发现这些声音后运行相应的命令。该脚本通过为标准.wav文件创建声纹来工作(Etalon文件被分割成若干部分,每个部分中找出与最大振幅对应的频率)。由此得到一个频率列表并将其存储在一个名为frequency_list_etalon的文件中。 当执行`python cts.py standart`命令时,脚本会启动一个无限循环。每次迭代都会创建一个0.5秒长的.wav音频片段,并生成其声纹,提取其中包含的频率信息,并将这些数据保存到常规列表里,然后删除这个短音文件。这一过程确保了在脚本运行期间持续监听麦克风并记录新的声音数据。 随着新数据不断被添加到常规列表中,系统会将其与标准频率列表进行比较。当匹配率达到80%时,则执行预设的命令(例如触发fire)。