参考基因组下载方式汇总

基因组学数据分析的第一步通常是搭建分析流程，而分析流程的第一步通常是下载分析的参考数据，这里我总结下载fasta的几种方式。

UCSC goldenPath

以hg19为例:

解压之后是按染色体分开的多个文件，需要自己合并再建索引。

但是UCSC上可以很方便的获取一段基因组的序列，如：

以hg19为例：

也是只有单个染色体的文件

GGD是一个参考数据的管理软件，收集整理了包括人和小鼠的常见的参考数据。

安装

1	`conda install -c bioconda ggd`

搜索

1	`ggd search grch38 reference genome`

下载，以hg19为例

1	`ggd install hg19-reference-genome-ucsc-v1`

Google life science是谷歌云的生物数据业务，其将一部分参考数据放在了Google storage上，地址在这里，不过只有人的数据，而且比较乱，更多的是DNAseq分析要用的数据，比如GATK variant call。

下载需要用Google storage的命令行工具 gsutli

安装：

1	`conda install -c conda-forge gsutil`

下载示例：

1	`gsutil cp gs://genomics-public-data/references/b37/Homo_sapiens_assembly19.fasta.gz .`

这是大佬Phil Ewels开发的，参考数据除了有fasta以外还有GTF和BED文件，甚至还可以直接下载常见比对软件的索引文件，这样就可以节省大把的建索引的时间。而且文件放在AWS上，下载很方便，速度很快。

安装awscli

pip install awscli
#or
conda install -c conda-forge awscli

下载示例：

1	`aws s3 --no-sign-request --region eu-west-1 sync s3://ngi-igenomes/igenomes/Homo_sapiens/UCSC/hg19/Sequence/BWAIndex/ ./references/Homo_sapiens/UCSC/hg19/Sequence/BWAIndex/`

这些方式各有各的好处，总结一下就是：

小技巧

#参考数据

参考基因组下载方式汇总

http://example.com/2022/09/22/参考基因组下载方式汇总/

作者

Wang Jianhua

发布于

2022年9月22日

许可协议