参考基因组下载方式汇总

基因组学数据分析的第一步通常是搭建分析流程,而分析流程的第一步通常是下载分析的参考数据,这里我总结下载fasta的几种方式。

UCSC goldenPath

以hg19为例:

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

解压之后是按染色体分开的多个文件,需要自己合并再建索引。

但是UCSC上可以很方便的获取一段基因组的序列,如:

http://genome.ucsc.edu/cgi-bin/das/hg38/dna?segment=chr17:7676091,7676196

Ensembl biomart

以hg19为例:

http://ftp.ensembl.org/pub/release-56/fasta/homo_sapiens/dna/

也是只有单个染色体的文件

GO GET DATA (GGD)

https://gogetdata.github.io

GGD是一个参考数据的管理软件,收集整理了包括人和小鼠的常见的参考数据。

安装

1
conda install -c bioconda ggd

搜索

1
ggd search grch38 reference genome

或者直接在他们的数据集里面找:https://gogetdata.github.io/recipes.html#recipes

下载,以hg19为例

1
ggd install hg19-reference-genome-ucsc-v1

Google life science

Google life science是谷歌云的生物数据业务,其将一部分参考数据放在了Google storage上,地址在这里,不过只有人的数据,而且比较乱,更多的是DNAseq分析要用的数据,比如GATK variant call。

下载需要用Google storage的命令行工具 gsutli

安装:

1
conda install -c conda-forge gsutil

下载示例:

1
gsutil cp gs://genomics-public-data/references/b37/Homo_sapiens_assembly19.fasta.gz .

AWS iGenomes

https://ewels.github.io/AWS-iGenomes/

这是大佬Phil Ewels开发的,参考数据除了有fasta以外还有GTF和BED文件,甚至还可以直接下载常见比对软件的索引文件,这样就可以节省大把的建索引的时间。而且文件放在AWS上,下载很方便,速度很快。

安装awscli

1
2
3
4
pip install awscli
#or
conda install -c conda-forge awscli

下载示例:

1
aws s3 --no-sign-request --region eu-west-1 sync s3://ngi-igenomes/igenomes/Homo_sapiens/UCSC/hg19/Sequence/BWAIndex/ ./references/Homo_sapiens/UCSC/hg19/Sequence/BWAIndex/

总结

这些方式各有各的好处,总结一下就是:

  • 如果是用来bwa/bowtie等比对软件,可以直接在AWS iGenomes下载,又快又好;

  • 如果是要用来跑GATK variant calling流程,必须要用Google life science上面GATK配套的数据;

  • 如果是想获取一段DNA序列,用UCSC和biomart都可以。


参考基因组下载方式汇总
http://example.com/2022/09/22/参考基因组下载方式汇总/
作者
Wang Jianhua
发布于
2022年9月22日
许可协议