DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。
dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小:
- dgk_shooter_z.conv:110MB(已分词)
- dgk_shooter_min.conv:按字分词
- lost.conv:1.7MB
- fanzxl.conv:2.3MB
- fk24.conv:4.5MB
- haosys.conv:1.3MB
- juemds.conv:793KB
- laoyj.conv:1.5MB
- prisonb.conv:543KB
内部方法包括:
- 使用asstosrt命令,参数为-s utf-8
- 执行ass和srt相关操作后运行cvgen.py生成.conv文件
特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。