Advertisement

英语语料库中的LOB语料库

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • LOB
    优质
    LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。
  • 布朗LOB
    优质
    本简介探讨布朗语料库和LOB语料库,二者均为英语语言研究中的重要资源。尽管同为文本集合,但它们在构建目的、内容及应用范围上有所不同。 Brown语料库是世界上首个计算机可读的语料库,它收录了1961年美国英语出版物中的文本,共包含500篇文档,每篇文章约2000个单词,总共有大约100万单词。LOB语料库则是模仿Brown语料库的比例构建而成的一个英国英语语料库,其数据同样来源于1961年的英国英文出版物上的文本内容,也包括了500篇文档和总计约一百万个词的规模。值得注意的是,Brown语料库中的词汇带有词性标记信息;而LOB语料库则没有提供这样的标注信息。
  • 布朗LOB更新
    优质
    本文探讨了布朗语料库和LOB语料库的最新发展与更新情况,分析其在语言学研究中的应用价值。 之前有网友反映积分过高,现上传更新版本的语料库文件。这次提供的格式比之前的更丰富,并且为了让更多人受益,积分设置得较低,请大家下载并反馈问题。 另外,如果有需要只包含15个文件而不是全部500个文件的Brown语料库版本的话,也欢迎提出需求。
  • CLEC国学习者
    优质
    CLEC中国学习者英语语料库是一个专门收集中国学生英语表达的数据集合,旨在研究和提升非母语背景下的英语教学与学习效果。 CLEC(中国学习者英语语料库)是一个专门针对中国英语学习者的大型语言资源,在英语教学与研究领域具有重要价值。该语料库包含了大量中国学生在不同情境下使用的英文文本,旨在帮助学者、教师及研究人员了解中国学生的语言特点、常见错误以及进步趋势。 首先,我们需要理解什么是语料库:它是收集和存储大量语言数据的电子数据库,这些数据可以是书面文本、口语对话或网络文本等。它们被用于语言学研究、机器学习、自然语言处理(NLP)及翻译等领域。在CLEC中,数据主要来自中国学生的作文、口语记录、电子邮件以及论坛讨论等多种来源,这使得研究更加全面且具有代表性。 该语料库的建立涉及以下几个关键知识点: 1. **语言特征分析**:通过对CLEC中的文本进行分析,可以揭示出中国学习者在词汇选择、语法结构及句式使用等方面的特有模式。例如常见的中式英语表达或对某些语法规则的误解和误用。 2. **错误分类与纠正**:语料库可以帮助识别最常见的错误类型,如动词时态、名词单复数以及介词搭配等,并为教材编写和教学策略提供依据。 3. **二语习得研究**:通过对比不同水平的学习者在CLEC中的表现,可以深入研究第二语言学习的过程及影响因素,例如母语干扰与学习策略等。 4. **教学资源开发**:教师可利用该语料库设计教学活动并评估学生进步。比如选取典型错误案例进行课堂讲解或使用真实情境的文本进行阅读和写作练习。 5. **自然语言处理应用**:在AI及NLP领域,CLEC可以用于训练模型以提高机器理解和生成中国学习者英语的能力,如智能批改系统、聊天机器人等。 6. **跨文化交际研究**:语料库包含了中国学生在不同社交场景下的英文交流情况,有助于理解文化差异如何影响语言使用,并对提升跨文化交际能力的教学提供指导意义。 7. **语料库构建技术**:CLEC的创建过程涉及数据采集、标注及清洗等多个步骤,这涉及到计算机科学、信息管理和统计学等多学科知识,是现代信息技术与语言学结合的典范。 总之,CLEC不仅是一个丰富的语言资源,也是跨学科研究的重要平台。它对提高英语教育质量、推动语言学理论发展和技术创新具有深远影响。
  • 文对照
    优质
    本资源为高质量中英文平行文本数据库,涵盖新闻、文学、法律等多个领域,旨在促进双语翻译研究与机器学习应用。 鉴于大家的要求,我们发布了百兆以上的中英双语文本供参考。大家可以尝试使用这些资料。
  • 词性标注
    优质
    英语词性标注语料库是一个包含大量已标注词性的英文文本集合,用于训练和评估自然语言处理系统中词性标注器的性能。 英文分词语料库包含198796行数据,每个单词都附有词性标注,并且每句话的结尾都有句号,便于处理。该语料覆盖了大多数主流行业的内容。例如:Newsweek/NNP, / trying/VBG to/TO keep/VB pace/NN with/IN rival/JJ Time/NNP magazine/NN, / announced/VBD new/JJ advertising/NN rates/NNS for/IN 1990/CD and/CC said/VBD it/PRP will/MD introduce/VB a/DT new/JJ incentive/NN plan/NN for/IN advertisers/NNS. /
  • 国本土FLOB
    优质
    FLOB(British English Corpus)是专门收录当代标准英国英语文本的高质量语料库,为语言研究和教学提供了宝贵的资源。 自由堡一罗博英国本族语语料库(FLOB)常常被用来与CLEC语料库进行对比分析研究。尽管它的例句数量不多,规模有待进一步扩大,但作为样本语料库已经足够使用了。
  • 文对照.zip
    优质
    本资源为《中英文对照语料库.zip》,内含丰富多样的中文与英文平行文本数据,适用于翻译研究、双语对比及语言学习等场景。 用于机器翻译和问答系统的中英文平行语料库是模型预处理的重要资源。
  • NiuTrans 文对照
    优质
    NiuTrans 中英文对照语料库是由北京大学机器感知与智能教育部重点实验室开发维护的一个大规模双语文本数据集,旨在支持中英翻译模型的研究和训练。 中英文对照语料库可用于训练翻译系统。
  • 文与文对照
    优质
    本资源提供丰富的中英文平行文本数据,涵盖各类主题和文体,适用于翻译研究、机器学习等多领域。 一个包含一万句对齐的中英文平行语料库,适用于机器翻译、问答系统等模型的预处理数据。