Advertisement

BFSU平行语料库

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
BFSU平行语料库是由北京外国语大学建设的一个多语言对照的大型在线语料库平台,为学术研究和语言学习提供丰富的文本资源。 该软件仅支持ANSI编码文本的处理,并不能兼容Unicode编码文本。 对于汉语文本无需进行分词操作即可使用。 在创建文件时,请根据语言类型分别采用*.ZH.txt(中文)及*.EN.txt(英文)的方式命名中英文文档,以确保识别准确无误。 数据文件需严格行对齐,包括空行在内的所有内容都必须保持一致。软件不具备自动调整平行文本对应关系的功能。 此外,该程序具备正则表达式检索功能,为用户提供了强大的搜索工具支持。 默认情况下,系统会执行词形还原的英文查询(lemmatized search),即输入go时可以找到含有go, goes, went, going, 和gone等变体的所有平行语句。若取消选中“Lemmatized”选项,则仅搜索实际键入的内容,例如搜寻goes将只会显示包含goes的句子。 此软件还支持在对应语言文本内查找含有或排除特定词项的结果,如查询 education 并且希望结果集包括(或者不包括)“教育”的句对。 最后,检索得到的数据可以导出为以制表符分隔的文本段落件形式,方便进一步分析处理。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • BFSU
    优质
    BFSU平行语料库是由北京外国语大学建设的一个多语言对照的大型在线语料库平台,为学术研究和语言学习提供丰富的文本资源。 该软件仅支持ANSI编码文本的处理,并不能兼容Unicode编码文本。 对于汉语文本无需进行分词操作即可使用。 在创建文件时,请根据语言类型分别采用*.ZH.txt(中文)及*.EN.txt(英文)的方式命名中英文文档,以确保识别准确无误。 数据文件需严格行对齐,包括空行在内的所有内容都必须保持一致。软件不具备自动调整平行文本对应关系的功能。 此外,该程序具备正则表达式检索功能,为用户提供了强大的搜索工具支持。 默认情况下,系统会执行词形还原的英文查询(lemmatized search),即输入go时可以找到含有go, goes, went, going, 和gone等变体的所有平行语句。若取消选中“Lemmatized”选项,则仅搜索实际键入的内容,例如搜寻goes将只会显示包含goes的句子。 此软件还支持在对应语言文本内查找含有或排除特定词项的结果,如查询 education 并且希望结果集包括(或者不包括)“教育”的句对。 最后,检索得到的数据可以导出为以制表符分隔的文本段落件形式,方便进一步分析处理。
  • BFSU PowerConc 1.0(通用检索软件包)
    优质
    BFSU PowerConc 1.0是一款功能强大的通用语料库检索工具,专为语言学研究设计。它支持多语言文本分析、词汇频率统计及高级搜索功能,便于学者和研究人员高效开展工作。 BFSU PowerConc 是一款基于 Windows 平台的绿色软件。
  • TED数据集
    优质
    TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据,并且包括超过1.2亿个句子对,这些句子已经过对齐处理。所有的预处理工作都是自动完成的。
  • 用于机器翻译的预处理
    优质
    本研究聚焦于提升机器翻译质量的关键资源——平行语料库的预处理技术,旨在通过优化原始数据提高翻译模型的效果和效率。 汉英双语语料和德英双语语料可以用来训练NMT模型,仅供学术实验使用。
  • 中的LOB
    优质
    LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。
  • ChnSentiCorp-Htl-ba-4000: 改良
    优质
    ChnSentiCorp-Htl-ba-4000是经过精心设计与调整的中文情感分析数据集,旨在提供更加均衡、高质量的训练和测试样本,助力自然语言处理技术的发展。 本语料库是基于【谭松波ChnSentiCorp-Htl-ba-4000】的改良版。原语料库存在重复评论、垃圾评论及错误分类的问题,影响了模型评价指数。经过人工整理三天后,新版本中的4000条评论已得到优化处理,使得训练集获得更高质量的模型效果。
  • 布朗与LOB
    优质
    本简介探讨布朗语料库和LOB语料库,二者均为英语语言研究中的重要资源。尽管同为文本集合,但它们在构建目的、内容及应用范围上有所不同。 Brown语料库是世界上首个计算机可读的语料库,它收录了1961年美国英语出版物中的文本,共包含500篇文档,每篇文章约2000个单词,总共有大约100万单词。LOB语料库则是模仿Brown语料库的比例构建而成的一个英国英语语料库,其数据同样来源于1961年的英国英文出版物上的文本内容,也包括了500篇文档和总计约一百万个词的规模。值得注意的是,Brown语料库中的词汇带有词性标记信息;而LOB语料库则没有提供这样的标注信息。
  • Babelfish:用于印地与英之间的生成及神经机器翻译
    优质
    Babelfish项目专注于开发和优化印地语与英语之间的平行语料库,并利用这些资源改进神经机器翻译系统,促进双语交流。 关于通天鱼神经印地语与英语翻译和平行语料库生成系统所使用方法的详细信息,请参阅相关文档。当前存储库正在清理中,请在2018年1月查看适用于Keras 2.0的经过修改后的干净代码。
  • 用于获取的爬虫工具
    优质
    本工具为获取平行语料设计,通过网络爬取技术自动搜集多语言对照文本数据,助力于机器翻译模型训练和自然语言处理研究。 通过爬取网页来获取平行网页,使用Java语言开发的开源项目。
  • 布朗与LOB的更新
    优质
    本文探讨了布朗语料库和LOB语料库的最新发展与更新情况,分析其在语言学研究中的应用价值。 之前有网友反映积分过高,现上传更新版本的语料库文件。这次提供的格式比之前的更丰富,并且为了让更多人受益,积分设置得较低,请大家下载并反馈问题。 另外,如果有需要只包含15个文件而不是全部500个文件的Brown语料库版本的话,也欢迎提出需求。