Python读Fastq新姿势

分析二代测序数据时免不了要对fastq文件进行操作，然而也会出现想进行的操作并没有现成的工具可以实现的情况，这时候就需要自己写一个小脚本来读取fastq文件并进行操作。其实用Python读取fastq文件的逻辑也很简单，根据fastq每四行为一个read的特点，边读边记行数，行数除4余2的行即位序列所在的行。这种方法看起来很naive，不过好像也没有更优雅的方式，直到我发现了mappy。 map

2020-05-27

NGS

#Python #Fastq

Affy Transcript Cluster ID转换

我在查看GSE103380的GEO2R结果的时候发现这个数据没有gene symbol，反而是一堆我看不懂的TC开头的ID，误打误撞发现居然有个在线工具可以转，而这些TC开头的ID是Affymatrix 的 Transcript Cluster ID。这个工具叫bioDBnet，转换速度还可以。

2020-04-20

小技巧

#ID转换

Windows科学上网方法

科学上网（俗称翻墙）的方式有很多种，包括自己搭梯子、购买搭好的梯子和使用免费的梯子。对于大多数人来说，选择一种经济实惠又不折腾的方法是很关键的，下面我就我科学上网的一些经验来谈谈如何选择合适的方式。一句话总结掌握多种科学上网方式以保证随时的上网需求；免费的方式省钱但费点力，付费的方式花钱但省心还可以在IOS设备上使用；免费方式推荐浏览器插件：SetupVPN，付费方式推荐购买Shadowsoc

2020-02-11

环境配置

#Windows #VPN

使用ShapeIT2进行单倍型分型

ShapeIT2支持两种phasing的方法 (for unrelated individuals without family information) 使用参考面板不使用参考面板输入文件都是VCF文件。步骤：将VCF按照染色体分开 12345678vcftools --gzvcf chinese-han.phase3.genotypes.vcf.gz \ --ch

2019-11-14

生信教程

#GWAS #Imputation #Phasing

在Linux服务器间快速传输大型文件

Sometimes we need to back up data from a server to another using scp or rsync. It is very time-consuming when the data is very large, for example, over 500G. I found a combined command that helped me

2019-10-22

小技巧

#Linux #文件传输

基因芯片中TOP/BOT Strand and A/B Allele的区别

“TOP/BOT” Strand and “A/B” AlleleRather than referencing the evolving public databases to provide accurate SNP strand and orientation, Illumina has developed a method to consistently designa

2019-10-12

知识点

#GWAS #基因分型

Git快速入门

安装 Git For Linux: 1sudo apt-get install git 安装完成后，还需要最后一步设置，在命令行输入： 123$ git config --global user.name "Your Name"$ git config --global user.email "email@example.com" –global参数表示

2019-09-11

命令行

#Linux #Git