Advertisement

用于机器翻译的平行语料库预处理语料

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本研究聚焦于提升机器翻译质量的关键资源——平行语料库的预处理技术,旨在通过优化原始数据提高翻译模型的效果和效率。 汉英双语语料和德英双语语料可以用来训练NMT模型,仅供学术实验使用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    本研究聚焦于提升机器翻译质量的关键资源——平行语料库的预处理技术,旨在通过优化原始数据提高翻译模型的效果和效率。 汉英双语语料和德英双语语料可以用来训练NMT模型,仅供学术实验使用。
  • Babelfish:印地与英之间生成及神经
    优质
    Babelfish项目专注于开发和优化印地语与英语之间的平行语料库,并利用这些资源改进神经机器翻译系统,促进双语交流。 关于通天鱼神经印地语与英语翻译和平行语料库生成系统所使用方法的详细信息,请参阅相关文档。当前存储库正在清理中,请在2018年1月查看适用于Keras 2.0的经过修改后的干净代码。
  • transformer_news: 基Transformer中英文系统
    优质
    Transformer_News是一款创新的翻译工具,采用先进的Transformer模型处理中文和英文之间的平行语料库,提供高效精准的语言互译服务。 transformer_news是一个基于Transformer的系统,用于处理中英文平行语料翻译任务。
  • BFSU
    优质
    BFSU平行语料库是由北京外国语大学建设的一个多语言对照的大型在线语料库平台,为学术研究和语言学习提供丰富的文本资源。 该软件仅支持ANSI编码文本的处理,并不能兼容Unicode编码文本。 对于汉语文本无需进行分词操作即可使用。 在创建文件时,请根据语言类型分别采用*.ZH.txt(中文)及*.EN.txt(英文)的方式命名中英文文档,以确保识别准确无误。 数据文件需严格行对齐,包括空行在内的所有内容都必须保持一致。软件不具备自动调整平行文本对应关系的功能。 此外,该程序具备正则表达式检索功能,为用户提供了强大的搜索工具支持。 默认情况下,系统会执行词形还原的英文查询(lemmatized search),即输入go时可以找到含有go, goes, went, going, 和gone等变体的所有平行语句。若取消选中“Lemmatized”选项,则仅搜索实际键入的内容,例如搜寻goes将只会显示包含goes的句子。 此软件还支持在对应语言文本内查找含有或排除特定词项的结果,如查询 education 并且希望结果集包括(或者不包括)“教育”的句对。 最后,检索得到的数据可以导出为以制表符分隔的文本段落件形式,方便进一步分析处理。
  • 中英文知网资源.zip
    优质
    本资料集为《中英文语料的知网机器翻译资源》,包含丰富的中文与英文对照文本数据及基于知网的翻译规则和模型,适用于研究与开发高质量的机器翻译系统。 知网机器翻译-中英文语料.zip
  • TED数据集
    优质
    TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据,并且包括超过1.2亿个句子对,这些句子已经过对齐处理。所有的预处理工作都是自动完成的。
  • 音合成】在线实时
    优质
    本工具提供即时在线的语音翻译服务,支持多种语言间的互译,并配备先进的语音合成技术,实现流畅自然的语言交流。 本项目实现了一套快速有效的语音中英翻译系统。该系统具备高精度的语音识别、高效双语翻译以及精准的语音合成功能,并适用于实时翻译场景。用户在使用前需设置好翻译模式,然后可以进行自动语音识别和实时翻译,最终输出结果为语音形式。 此系统的优点在于其实时性与便携性,在提供准确高效的翻译服务的同时也节省了人工成本,无需通过文字输入读取语音即可完成翻译任务。这不仅降低了市场上的翻译软件的成本,还提供了多样化的体验模式。本项目使用百度翻译接口来实现上述功能。具体来说,该系统能够进行中文到英文以及英文到中文的实时语音文字互译。
  • LOB
    优质
    LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。
  • 获取爬虫工具
    优质
    本工具为获取平行语料设计,通过网络爬取技术自动搜集多语言对照文本数据,助力于机器翻译模型训练和自然语言处理研究。 通过爬取网页来获取平行网页,使用Java语言开发的开源项目。
  • 北航考研英.zip
    优质
    本资料为北京航空航天大学考研英语专项复习材料,内含历年真题及解析、重点词汇短语和翻译技巧详解,助力考生高效备考。 我在维基百科上搜集了关于计算常见名词的名词解释,并进行了翻译。这些内容对于北航计算机复试中的现场翻译非常有用,涵盖了计算机领域的大部分方面。