
基于PaddleSpeech模型的电话录音文本转写项目
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目采用PaddleSpeech模型对电话录音进行高精度自动转写,旨在提升语音识别技术在实际通讯场景中的应用效果和效率。
获取文件对象
要从指定路径下获取所有文件或文件夹的路径,可以使用以下代码:
```python
import os
def get_file_name(dir_path: str):
# 获取二阶子目录下的数据列表
file_list = os.listdir(dir_path)
for dir in file_list:
file_dir_path = os.path.join(dir_path, dir) # 构建文件夹路径
if not os.path.isdir(file_dir_path):
continue
file_name_list = os.listdir(file_dir_path)
for num in range(len(file_name_list)):
file_name = file_name_list[num]
file_path = os.path.join(file_dir_path, file_name)
yield file_path
```
语音长度判断:
```python
import librosa
import wave
def get_audio_duration(audio_file):
with contextlib.closing(wave.Wave_read(audio_file)) as wf:
frames = wf.getnframes()
rate = wf.getframerate()
return frames / float(rate)
# 或者使用librosa库来获取音频时长
duration = librosa.core.audio.__get_duration(filename=audio_path)
```
以上代码片段提供了两种方法来判断音频文件的长度,一种是通过wave模块读取wav格式文件中的帧数和采样率计算出总时间长度;另一种则是使用librosa库直接获取音轨时长。
全部评论 (0)


