
MBART训练
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:MBART训练是指对多语言预训练模型Mbart进行优化和调整的过程,使其在多种自然语言处理任务中表现出色。
根据之前的实验,在我们的情况下,不能单独使用拥抱面(BPE),因为它无法按照腰围的要求进行预处理或处理噪音。因此,我们决定改用fairseq代码存储库。
以下是基本步骤:
1. 使用与下面创建的虚拟环境相同的虚拟环境。
2. 安装fairseq
3. 确保文件夹语料库位于`corpus/`中,并且它包含两种语言的子目录:`corpus/de/`和`corpus/hsb`
4. 文件夹`dataset/`将包含测试序列拆分以及由spm编码的相同文件。
5. 首先,我们需要通过对语料库进行采样来生成数据集。为此,请使用名为sample_corpus.sh 的脚本,在 `dataset/` 中创建所需文件。
6. 接下来,我们训练句子模型,为此我使用了全部的数据,并通过spm_train.sh 脚本来执行此操作。
7. 经过训练的SPM模型将被保存。
请注意以上步骤需要在正确的环境下进行。
全部评论 (0)
还没有任何评论哟~


