Advertisement

青云库的12万对话语料(csv格式)。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该资源集包含多种类型的文档和丰富的资源,并附带了一系列对话题库。它整合了市场上众多语言包,若需要下载,请务必声明仅供个人使用,严禁用于任何商业目的。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 12.csv
    优质
    12万条对话语料青云库.csv包含了丰富多样的对话数据集,适用于自然语言处理和机器学习的研究与开发。 该资源包含多类文件和对话题库,并收集了市面上多个语言包。如需下载,请注明个人使用且仅限非商业用途。
  • 500微博数据CSV
    优质
    本项目提供一个包含500万条微博记录的数据集,以CSV文件形式存储,旨在为自然语言处理和社交媒体分析研究者们提供丰富的中文文本资源。 字段包括:weiboId, attitudes_count, bmiddle_pic, comments_count, created_at, favorited, geo, id, idstr, in_reply_to_screen_name, in_reply_to_status_id, in_reply_to_user_id, mid, mlevel, text, source等。
  • Ubuntu——2600次自然双人数据集
    优质
    Ubuntu对话语料库包含2600万次自然双人对话,是研究与开发对话系统和自然语言处理技术的重要资源。 在自然语言处理领域,构建对话系统是一项复杂且重要的任务,旨在使人类能够与虚拟代理进行流畅、自然的交流。这也是当前研究的一个重要方向。面临的主要挑战包括:如何随着时间推移保持对同一实体的引用一致性;怎样跟踪之前的对话内容以生成合适的回应等。收集和利用这些真实的会话语料库对于评估和完善对话系统至关重要。
  • 词汇英音标读音CSV
    优质
    本资源提供超过十万条英文词汇及其标准英式发音的CSV文件,适用于英语学习者与语言研究者。 英语音标十万词,CSV格式,包含英式音标数据库,无中文内容,仅单词与音标以逗号分隔。需要的话可以下载。为什么描述一定要达到100个字节呢?-_-!
  • Trados
    优质
    本资源为Trados兼容格式的大型语料库,包含丰富多样的文本材料,适用于翻译项目、术语提取及语言学习等场景,助力提高翻译效率与准确性。 这是一份采用Trados格式的语料库,包含几百万条中英文对照句子,是翻译人员宝贵的参考资料。
  • 言数据
    优质
    青云语言数据库是一款全面的语言学习工具,涵盖多种语言的学习资源和实用功能,致力于为用户提供高效、便捷的语言学习体验。 自然语言处理语料库可用于训练。对话质量较高且噪音较少,但仍需进行一些预处理工作。
  • 中英(含八句子
    优质
    本资料集提供一个包含八万句对的中英对照语料库,适用于翻译研究与语言学习者。每条记录均精心校对,确保准确无误。 共包含8400多对中英句子,已进行预处理工作,中文部分使用jieba进行了分词处理,并且标点符号已经过校正。这些数据保存在en-zh.csv文件中,字段间以制表符\t作为分隔符(而非默认的逗号)。虽然语料库包括大量长句,但裁剪后仍有5万对句子足够使用。原始数据集中包含一个名为en-zh_News.tmx的部分存在一些问题的数据段落,在生成en-zh.csv文件时已将其过滤掉。此外还附赠了预处理该语料的程序(propressor.py)以及适用于PyTorch框架中的相关实现代码(LangData.py)。如果有任何可以改进的地方,欢迎提出建议。
  • CSV数据文件
    优质
    CSV格式的点云数据文件是一种存储三维空间中大量点坐标的数据文件,使用逗号分隔值的方式记录每个点的X、Y、Z坐标及其他属性信息。 点云数据的CSV文件包含x、y、z坐标值的多组数据,这些数据组合在一起形成了一只大象的形象。这是用于Unity Mesh或粒子系统绘制点云图的一个示例数据集。
  • NiuTrans 中英 10
    优质
    《NiuTrans中英对照语料库10万句》收录了大量实用、准确的中英文对照句子,是学习语言和训练机器翻译模型的理想资源。 NiuTrans的开源中英平行语料库可用于训练机器翻译模型。
  • DGK_Lost_Conv:中文 Chinese Conversation Corpus
    优质
    DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。