Advertisement

街景文字数据集 - The Street View Text Dataset

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
《街景文字数据集》是由谷歌公司发布的一个大型图像数据集合,其中包含从Google街景图片中提取出的文字样本及其标注信息,广泛应用于计算机视觉和光学字符识别等领域。 街景文字(SVT)数据集是从Google街景图像中获取的。这些图像中的文本具有较高的可变性,并且通常分辨率较低。在处理室外街道级图像时,我们注意到两个特征:一是图片中的文字大多来自商业标牌;二是可以通过地理业务搜索轻松获得公司的名称。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • - The Street View Text Dataset
    优质
    《街景文字数据集》是由谷歌公司发布的一个大型图像数据集合,其中包含从Google街景图片中提取出的文字样本及其标注信息,广泛应用于计算机视觉和光学字符识别等领域。 街景文字(SVT)数据集是从Google街景图像中获取的。这些图像中的文本具有较高的可变性,并且通常分辨率较低。在处理室外街道级图像时,我们注意到两个特征:一是图片中的文字大多来自商业标牌;二是可以通过地理业务搜索轻松获得公司的名称。
  • Street View House Numbers (SVHN)
    优质
    Street View House Numbers (SVHN)数据集是由一系列街景房屋数字图像构成的数据库,广泛应用于机器学习和计算机视觉领域中的识别与分类任务。 Street View House Numbers (SVHN) 数据集原为 mat 文件格式的数据已提取成图像,并将标签以 coco 格式标注出来。训练集与测试集中共有10万张图片。
  • 电影 - The Movies Dataset
    优质
    《The Movies Dataset》是一部全面收录了大量电影信息的数据集合,涵盖从经典影片到当代佳作的各种细节。 数据集包含2017年7月或之前发行的电影。数据点包括演员、剧组、剧情关键字、预算、收入、海报、发行日期、语言、制作公司、国家/地区、TMDB投票数和平均投票数。该数据集中包含了多个文件,分别是keywords.csv, credits.csv, links.csv, links_small.csv, movies_metadata.csv 和 ratings.csv。
  • 电影-The Movies Dataset
    优质
    《电影数据集》包含了丰富的电影信息资源,包括影片概述、人物角色、情节摘要等,为研究者和开发者提供了一个全面了解电影世界的平台。 该数据集来自TMDB和GroupLens的数据集合。电影的详细信息、字幕和关键字是从TMDB开放API获取的。虽然产品使用了TMDb API,但并未得到TMDb的认可或认证。此外,他们的API还可以访问许多其他电影、演员、女演员、剧组成员以及电视节目中的数据。 提供的文件包括: - credits.csv - keywords.csv - links.csv - links_small.csv - movies_metadata.csv - ratings_small.csv - ratings.csv
  • 咸淡的——The Brackish Dataset
    优质
    《咸淡的数据集》(The Brackish Dataset)是一份独特的数据集合,涵盖了从淡水到海水之间各种盐度下的生态、化学和物理特性,为研究环境变化提供宝贵资源。 数据集已于2020年8月25日更新,以修复一系列错误的否定注释,并添加了约14,000个新注释。这是首个公开发布的欧洲水下图像数据集,包含了鱼、蟹及其他海洋生物的边界框标注信息。该数据集包含train.txt、test.txt和valid.txt文件,以及The Brackish Dataset_datasets..txt和The Brackish Dataset_datasets..zip文件。
  • Total-Text-Dataset:全面的,含1555张图片及多种方向
    优质
    Total-Text-Dataset是一个包含1555张图像的综合文本数据集,涵盖了水平、垂直和弯曲等多种文字排列方式,为复杂场景下的文本检测研究提供了丰富资源。 Total-Text-Dataset(官方站点)的更新记录如下: 2020年4月29日:检测排行榜已更新,并突出显示了E2E方法。 2020年3月19日:查询测试集的基础已经更新。 2019年9月8日:Total-Text的新版本现已提供。 2019年9月7日:用于场景文本图像标注的工具和数据已更新,并且关于我们的IJDAR的内容也进行了更新。 2019年8月1日:接受带有新基准和注释工具扩展版的提交。 2019年5月30日:有关Total-Text和ArT数据集的重要公告发布。 2019年4月2日:表排名已根据推荐使用DetEval进行了更新。 2019年3月31日:提供了一个更快版本的DetEval.py,支持Python3。 2019年3月14日:带有评估协议信息的新版表格排名发布。 2018年11月26日:包含参考用的表格排名已添加。
  • 谷歌SVT2
    优质
    谷歌街景SVT数据集2是谷歌公司发布的第二版基于街景图片的文字识别数据集,用于训练和测试文字识别算法的性能。 这是SVT数据集的第2部分。
  • 斯坦福背 - Stanford Background Dataset
    优质
    斯坦福背景数据集是由斯坦福大学开发的一个大型图像数据库,包含多种场景下的图片和精确标注,广泛应用于计算机视觉研究。 斯坦福背景资料集是由Gould等人在ICCV 2009上引入的,用于评估几何和语义场景理解的方法。该数据集包含从公共数据集中选择的715张图像。 相关文件包括: - labels_class_dict.csv - metadata.csv - Stanford Background Dataset_datasets..txt - Stanford Background Dataset_datasets..zip
  • 今日头条中新闻本分类(toutiao-text-classfication-dataset)
    优质
    今日头条中文新闻文本分类数据集包含大量中文新闻文章,涵盖了多个类别,旨在促进自然语言处理中的话题分类研究与应用。 中文文本分类数据集的数据来源是今日头条客户端。数据格式为:每行代表一条独立的新闻记录,并通过_!_进行字段分割。 - 第一个字段表示新闻ID。 - 第二个字段表示分类代码,如102对应娱乐类别的code。 - 第三个字段表示该条目所属的具体类别名称,例如news_entertainment。 - 最后是具体的新闻标题内容和相关关键词列表。 具体示例: 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们 分类code与名称对应关系如下: - 100 民生 故事 news_story - 101 文化 文化 news_culture - 102 娱乐 娱乐 news_entertainment - 103 体育 体育 news_sports - 104 财经 财经 news_finance - 106 房产 房产 news_house - 107 汽车 汽车 news_car - 108 教育 教育 news_edu - 109 科技 (原文中未完整列出,此处仅提供示例)
  • :谷歌图像(42G).zip
    优质
    本数据集包含来自全球各地的谷歌街景图像,总容量达到42GB。这些高分辨率图片为研究者提供了丰富的视觉信息资源,适用于计算机视觉、深度学习等领域的各种应用。 谷歌街景数据集包含62,058张高质量的Google街景图像。每个街景视图地标被360°球形视图分为4个侧视图和1个向上视图,适用于目标检测、多视图等多个领域的研究。该数据集大小为42G。