Advertisement

ICDAR2013数据集的文本识别压缩包。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该文本识别数据集,即ICDAR2013训练集,包含848张图像,其对应的测试集则拥有1095个标签。这些标签均与每张图片上的单词一一对应。同时,提供的train.txt和test.txt文件均为经过筛选的标签数据,已经剔除掉了所有符号以及长度小于3个字符的标记。此外,还保留了原始标签数据,未进行任何过滤操作,用户可以根据需要自行添加文件路径,或者直接从我的主页下载包含添加路径的代码文件(python文件)进行使用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ICDAR2013.zip
    优质
    这是一个包含多种语言和复杂背景下的图像样本的数据集,专为光学字符识别(OCR)研究而设计,是ICDAR 2013竞赛的一部分。 文本识别数据集:ICDAR2013 包含848张训练图片和1095张测试图片,标签内容为每张图片上对应的单词。train.txt 和 test.txt 文件是经过过滤后的标签文件(去除了符号以及少于三个字符的词)。此外还有两个原始版本未做任何处理的标签文件可供使用,可以自行添加文件路径进行访问。
  • ICDAR2013场景检测
    优质
    ICDAR2013场景文本检测数据集是用于评估图像中自然场景文本定位与识别性能的重要资源,包含多种复杂背景下的高质量标注样本。 ICDAR2013数据集为每张图片提供了单词边界框的标注以及文字内容。每个标注文件中的每一行代表一个文本目标,前四个数字表示坐标信息(x1, y1, x2, y2),即文本框左上角和右下角点的位置,构成矩形的目标框。最后一列是实际的文字字符内容;如果字体模糊,则用###代替。
  • Enwik9
    优质
    Enwik9是一种广泛使用的文本压缩测试标准,包含大量的随机与结构化数据,用于评估和比较不同压缩算法的性能。 文本压缩专用数据集用于训练和评估文本摘要生成模型的性能。该数据集包含大量文档及其对应的摘要,旨在帮助研究人员开发更高效的文本压缩算法和技术。通过使用这个数据集,可以提高机器对长篇文章进行有效总结的能力,并且促进自然语言处理领域的研究进展。
  • ICDAR2013.zip
    优质
    ICDAR2013数据集.zip包含的是国际文档分析与识别研究领域在2013年竞赛及相关挑战中的数据资源,适用于文本定位、识别等任务的研究和开发。 ICDAR 2013数据集包含229张训练图像和233张测试图像,并提供单词级别的标注。它是评估接近水平文本检测的标准基准数据集。
  • multi30k
    优质
    Multi30K数据集压缩包包含了30,000多条英语到德语和法语的平行文本对,适用于机器翻译任务的研究与开发。 Multi30k数据集是torchtext中包含的机器翻译相关数据集之一。在运行PyTorch教程《使用torchtext进行语言翻译》时,如果因为网络原因无法自动下载该数据集,可以将压缩包解压并放置到torchtext的root目录下以继续运行。
  • ICDAR2013 获取
    优质
    简介:ICDAR2013数据集是国际文档分析与识别研究会议发布的权威资源,主要用于手写和印刷文本行检测及识别的研究。 ICDAR数据集的完整下载包括end-to-end、文本定位、文本分割和单词识别等功能。
  • 用于Python分析
    优质
    这是一个专为Python设计的数据压缩包,内含丰富的文本数据集,旨在加速文本分析与处理任务,适用于学术研究和项目开发。 在进行Python文本分析时,可以使用小说数据压缩包对数据进行处理与分析。首先,在Python环境中通过open函数打开所需的文本段落件,并指定相应的读取模式(例如’r’)及字符编码方式(通常为’utf-8’)。接着利用Natural Language Toolkit (NLTK) 库执行分词操作并移除停用词,其中分词指的是将连续的文本分割成独立单词的过程;而停用词则是在大量出现却无实际意义的词语,在此步骤中可以通过调用NLTK提供的预定义列表来实现。最后,借助WordCloud库根据文本内容中的词汇频率生成直观且具有视觉吸引力的词云图,并使用matplotlib工具进行展示。
  • SVT.zip
    优质
    SVT文本识别数据集包含多种复杂背景下的英文文本图像,旨在促进光学字符识别(OCR)和场景文本理解的研究与发展。该数据集是研究文字检测与识别技术的重要资源。 文本识别数据集SVT包含训练集257张图片和测试集647张图片。标签内容为每张图片上对应的单词,train.txt和test.txt文件中的标签已经过滤掉了符号以及少于3个字符的词。另外两个原始标签未经过任何处理,可以自行添加文件路径以使用这些数据。
  • ICDAR2003.zip
    优质
    本资源包含ICDAR 2003文本识别竞赛的数据集,适用于OCR、文档分析和计算机视觉领域研究。 文本识别数据集ICDAR2003包含1156张训练图片和1110张测试图片,标签文件中的内容为每张图片上对应的单词。train.txt和test.txt是经过过滤后的标签文件(去除了符号及少于三个字符的词语)。另外两个未进行任何处理的原始标签文件也可以使用,并自行添加相应的文件路径。
  • ICDAR2015.zip
    优质
    这是一个包含多种语言和复杂背景下的图像文本样本的数据集,专为训练和测试光学字符识别(OCR)系统而设计,适用于学术研究与技术开发。 文本识别数据集ICDAR2015包含4468张训练图像和2077张测试图像。标签文件train.txt和test.txt已经过滤掉了符号及少于3个字符的单词,另外两个原始标签未做任何处理。可以自行添加文件路径或下载相关代码文件(Python)以进行进一步操作。