简介:该Perl脚本由陈连福开发,名为blast.pl,旨在简化和优化生物信息学中BLAST工具的应用,帮助研究人员高效地进行序列比对与分析。
使用说明:/home/chenlianfu/chenlianfu_scripts/blast.pl [选项] BLAST_DB file.fasta > out.txt
--tmp-prefix <字符串> 默认值为 blast。设置临时文件或目录的前缀,默认情况下,程序会生成名为 command.blast.list 的命令列表和名为 blast.tmp 的临时文件夹。
--chunk <整数> 默认值为 10。设定每个数据块中的序列数量。输入 FASTA 文件会被分割成多个部分,每份包含相邻的十条序列;在 blast.tmp/ 目录下生成次级目录存放这些分段的 fasta 文件,并且为每一个文件夹创建一个 BLAST 命令到 command.blast.list 中;随后程序会调用 ParaFly 来进行并行计算。请注意,如果数据块数量超过一百万个,默认设置可能导致 blast.tmp/ 目录中的子目录过多(超出一万个),这将导致文件系统运行速度变慢且影响 ParaFly 的效率,并不能充分利用服务器资源。此时建议调整 --chunk 参数值为 100。
--blast-program <字符串> 默认使用 blastp 命令,支持的命令包括:blastn, blastp, blastx, tblastn 和 tblastx。
--CPU <整数> 默认设置为单线程运行 BLAST 程序。设定并行执行 BLAST 的程序数量。
--blast-threads <整数> 默认值为 1,用于指定 BLAST 命令的 -num_threads 参数值,这个参数允许每个 BLAST 进程使用多线程进行计算。请注意:--CPU 和 --blast-threads 设置乘积不应超过服务器总 CPU 线程数量。
--evalue <浮点数> 默认设置为 1e-3,设定用于 BLAST 命令的 -evalue 参数值。
--outfmt <整数> 默认输出格式为 XML(5)。支持表格形式的结果输出。如果 --outfmt 设置为6或7,则分别对应不同的表格结果输出模式。
--max-target-seqs <整数> 默认设置为 20,用于指定 BLAST 命令的 -max_target_seqs 参数值,此参数定义了BLAST在数据库中最多匹配序列的数量。
-cleanup:若选择添加该选项,在程序执行成功后会自动删除临时文件或目录。