Python读Fastq新姿势 分析二代测序数据时免不了要对fastq文件进行操作,然而也会出现想进行的操作并没有现成的工具可以实现的情况,这时候就需要自己写一个小脚本来读取fastq文件并进行操作。 其实用Python读取fastq文件的逻辑也很简单,根据fastq每四行为一个read的特点,边读边记行数,行数除4余2的行即位序列所在的行。这种方法看起来很naive,不过好像也没有更优雅的方式,直到我发现了mappy。 map 2020-05-27 NGS #Python #Fastq
Affy Transcript Cluster ID转换 我在查看GSE103380的GEO2R结果的时候发现这个数据没有gene symbol,反而是一堆我看不懂的TC开头的ID,误打误撞发现居然有个在线工具可以转,而这些TC开头的ID是Affymatrix 的 Transcript Cluster ID。 这个工具叫bioDBnet,转换速度还可以。 2020-04-20 小技巧 #ID转换
Windows科学上网方法 科学上网(俗称翻墙)的方式有很多种,包括自己搭梯子、购买搭好的梯子和使用免费的梯子。 对于大多数人来说,选择一种经济实惠又不折腾的方法是很关键的,下面我就我科学上网的一些经验来谈谈如何选择合适的方式。 一句话总结掌握多种科学上网方式以保证随时的上网需求;免费的方式省钱但费点力,付费的方式花钱但省心还可以在IOS设备上使用;免费方式推荐浏览器插件:SetupVPN,付费方式推荐购买Shadowsoc 2020-02-11 环境配置 #Windows #VPN
使用ShapeIT2进行单倍型分型 ShapeIT2支持两种phasing的方法 (for unrelated individuals without family information) 使用参考面板 不使用参考面板 输入文件都是VCF文件。 步骤: 将VCF按照染色体分开 12345678vcftools --gzvcf chinese-han.phase3.genotypes.vcf.gz \ --ch 2019-11-14 生信教程 #GWAS #Imputation #Phasing
在Linux服务器间快速传输大型文件 Sometimes we need to back up data from a server to another using scp or rsync. It is very time-consuming when the data is very large, for example, over 500G. I found a combined command that helped me 2019-10-22 小技巧 #Linux #文件传输
基因芯片中TOP/BOT Strand and A/B Allele的区别 “TOP/BOT” Strand and “A/B” AlleleRather than referencing the evolving public databases to provide accurate SNP strand and orientation, Illumina has developed a method to consistently designa 2019-10-12 知识点 #GWAS #基因分型
Git快速入门 安装 Git For Linux: 1sudo apt-get install git 安装完成后,还需要最后一步设置,在命令行输入: 123$ git config --global user.name "Your Name"$ git config --global user.email "email@example.com" –global参数表示 2019-09-11 命令行 #Linux #Git