Advertisement

GIAB_remap_38: 将NA12878基因组的变异调用重新映射至人类基因组构建38中进行验证

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
GIAB_remap_38项目致力于将个体NA12878的全基因组变异数据,重新映射到人类参考基因组构建版本GRCh38上,以提高变异检测准确性并促进遗传学研究。 瓶中的NA12878人类基因组版本38重新映射验证集用于评估从版本37到版本38的变种调用脚本需求。 这些方法使用不同的重新映射技术,将VCF调用结果以及评估区域的BED文件从GRCh37坐标系统转换为GRCh38坐标系统。我们采用了多种重映射策略来测试其效果: 1. 使用UCSC链文件进行hg38提升:生成了GiaB_v2_19-38_crossmap-regions.bed和GiaB_v2_19-38_crossmap.vcf.gz两个文件。 2. 利用NCBI提供的重映射工具处理区域和VCF文件,得到的输出是 GiaB_v2_19-38_remap-regions.bed 和 GiaB_v2_19-38_remap.vcf.gz。 以上步骤完成后,我们使用验证VCF和统计信息进行结果评估:giab-hg38-validation-results.tar.gz。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • GIAB_remap_38: NA1287838
    优质
    GIAB_remap_38项目致力于将个体NA12878的全基因组变异数据,重新映射到人类参考基因组构建版本GRCh38上,以提高变异检测准确性并促进遗传学研究。 瓶中的NA12878人类基因组版本38重新映射验证集用于评估从版本37到版本38的变种调用脚本需求。 这些方法使用不同的重新映射技术,将VCF调用结果以及评估区域的BED文件从GRCh37坐标系统转换为GRCh38坐标系统。我们采用了多种重映射策略来测试其效果: 1. 使用UCSC链文件进行hg38提升:生成了GiaB_v2_19-38_crossmap-regions.bed和GiaB_v2_19-38_crossmap.vcf.gz两个文件。 2. 利用NCBI提供的重映射工具处理区域和VCF文件,得到的输出是 GiaB_v2_19-38_remap-regions.bed 和 GiaB_v2_19-38_remap.vcf.gz。 以上步骤完成后,我们使用验证VCF和统计信息进行结果评估:giab-hg38-validation-results.tar.gz。
  • NA12878: 纳米孔技术在NA12878数据与分析
    优质
    本研究聚焦于利用纳米孔测序技术对人类参考基因组样本NA12878进行深度测序和精准分析,探索其在长读段测序、结构变异检测及转录组学研究中的潜力与优势。 牛津纳米孔人类参考数据集 快速链接: 资料可用性:下载文件的注意事项。 文件通常由Amazon Web Services托管。尽管可以作为直接HTTP链接使用,但通过使用Amazon Web Services可提高下载性能。请将引用地址修改为使用s3://寻址方案,例如用s3://nanopore-human-wgs替换http://s3.amazon.com/nanopore-human-wgs/进行文件下载。 举例来说,若要将rel3-nanopore-wgs-288418386-FAB39088下载到当前工作目录,请使用以下命令: ``` aws s3 cp s3://nanopore-human-wgs/rel3-nanopore-wgs-288418386-FAB39088.fastq.gz . ``` 调整max_concurrent_requests等设置可以进一步提高下载性能。
  • SVanalyzer:分析工具
    优质
    简介:SVanalyzer是一款专为基因组研究设计的软件工具,能够高效准确地识别和解析基因组中的结构变异,助力遗传学与医学领域的深入探索。 SVanalyzer模块/脚本可以精确地确定序列上大插入和删除的边界,并且对于小插入和删除而言,其等位基因序列较为模糊不清。该工具由美国国立卫生研究院(NIH)国家人类基因组研究所(NHGRI)遗传学与比较基因组学分支资深科学家Nancy Fisher Hansen撰写。 SVanalyzer依赖于一系列软件包来执行结构变异的分析,包括samtools、edlib aligner、MUMmer和bedtools。通过conda软件包管理器以及bioconda通道可以安装SVanalyzer工具。有关如何设置conda/bioconda的信息可以在相关文档中找到。使用以下命令创建并激活一个新的名为svanalyzer的环境:`conda create -n svanalyzer conda activate svanalyzer`
  • 参考
    优质
    人类参考基因组是指用于研究和比较的人类遗传信息的标准序列,它代表了人类基因组的基础模板,为遗传学、医学研究提供了重要依据。 人类参考基因组 一、人类参考基因组的来源 1. 人类基因组计划 - 2001年草图:绘制了人类基因组图谱。 2. 数据库名称: - UCSC: hg19, hg38 - NCBI: GRCH19, GRCH38 二、如何下载参考基因组 在 Linux 中,可以通过以下命令下载参考序列数据库: 1. 对于 hg38:使用 wget 命令下载 http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz。 2. 对于 hg19:使用 wget 命令下载 http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz。请注意,下载时间会有所不同。
  • PGGB:泛工具
    优质
    PGGB是一款专为研究人员设计的软件工具,用于高效地构建和分析复杂生物体的泛基因组图谱。该工具能够整合来自不同个体的遗传信息,揭示物种多样性,并支持个性化医学研究及作物改良等应用领域。 GG泛基因组图构建器通过将序列集合渲染到变异图模型中的pangenome图来建立全景基因组结构。其目标是创建一个局部有向无环图,并保持大规模的多样性,这对解释、可视化及重用整个基因组变异图至关重要。 该过程分为三个阶段: 1. **对齐**:此步骤使用概率mash-map映射器(如edyeet和wfmash),它们首先通过mashmap获得近似映射,然后进一步细化以得出精确的比对。这两个工具的基本级算法不同:edyeet基于特定方法进行映射,而wfmash则采用不同的策略。这些工具会将输入中的所有基因组片段与其它片段进行比较,并设定一个最大序列差异水平来构建全基因组图。 2. **图形归纳**:从比对中推导出全景基因组图。这一过程在内存有效的磁盘支持下,通过隐式的间隔树结构建立图的表示形式。然后,基于输入序列中的碱基传递闭合计算结果,在图中标记路径以重构原始数据信息。
  • PM_DICOTMAKER2注释: 四个研究
    优质
    本研究采用MAKER2工具对四个不同PM_DICOT植物基因组进行深入注释分析,旨在揭示这些物种独特的遗传信息与进化关系。 MAKER2_PM_genome_annotation 使用 MAKER2 对四个 DICOT PM 基因组参考进行注释的软件与数据: **软件先决条件:** - RepeatModeler(版本 1.0.4),包括所有依赖项,如 NCBI BLAST。 - RepeatMasker(版本 4.0.5)和 RepBase(使用的是2015年8月7日版)。 - MAKER 版本 2.31.9 或其他任何版本 2 发行版均可。 - Augustus 版本 3.3 - BUSCO 版本 3 - SNAP - BEDtools(版本为2.24.0) **原始数据/资源:** 1. 基因组支架文件: - > Genome.fa: 使用 CLCbio 从头组装的参考基因组。 - 脱氨修饰 = 是 - 脱氨限制 = 2 - 质量修剪 = 是 - 质量限
  • GSEA:富集分析R包
    优质
    GSEA R包是一款用于执行基因集 enrichment 分析的强大工具,帮助研究人员识别与特定生物过程相关的基因集合。 用于基因组富集分析的R包称为GSEA(Gene Set Enrichment Analysis)。在这里,“盖西”应该是“GSEA”的误读或错译。希望这能帮助到您进行基因组研究时选择合适的工具。如果有更多关于此主题的问题,欢迎继续提问。
  • SPAdes: 装工具
    优质
    SPAdes是一款高效的基因组和转录组从头测序组装软件,尤其擅长处理微生物及复杂重复序列较多的基因组数据。 SPAdes 3.15.2手册 1.1 1.2 1.3 2.1 2.2 2.3 2.4 3.1 3.2 SPAdes命令行选项 3.3 组装IonTorrent读取 3.4 组装长的Illumina配对读取(例如:2x150和2x250) 3.5 HMM引导模式 3.6 SPAdes输出 3.7 质粒SPAdes输出 3.8 metaplasmidSPAdes和metaviralSPAdes输出 3.9 生物合成叶片输出 3.10 组装评估 4.1 在SPAdes软件包中发布的独立二进制文件 4.2 k聚体计数 4.3 k-mer覆盖度读取过滤器 4.4 k-mer基数估计 4.5 图的构造 4.5.1 长时间阅读以图对齐 4.5.2 hybridSPAdes对齐器和SPAligner 参考文献 反馈与错误报告 关于SPAdes
  • 关于光合作研究
    优质
    本项目聚焦于探索植物中参与光合作用的关键基因及其在基因组中的作用机制,旨在深入理解光合作用的遗传基础,并为作物改良提供理论依据。 与光合作用相关的基因及其编码产物如下: - rbcL:1,5-二磷酸核酮糖羧化酶(Rubisco)的大亚基,数量为1。 - psaA、psaB:光系统I的作用中心蛋白,共2个基因。 - psb:光系统II的类囊体蛋白,共有7种。 - pet:细胞色素b6/f复合物相关基因,共计3种。 - atp:ATP酶相关的基因有6种。 - psbA:光系统II中的32kD类囊体蛋白(也称为光反应基因),数量为1。