.vcf转换成plink格式(bed、bim、fam)
右键复制链接(例如:https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20231018.zip)然后执行下面的命令。添加plink文件所在路径(也就是解压的路径)将vcf文件转换成bed、bim、fam。
.vcf文件介绍
示例:
其他文章中的:(chrom有差别)
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT B73 F2-Mo17vsB73 Mo17
1 530 . C G 52.17 . AC=2;AF=0.333;AN=6;BaseQRankSum=-0.948;DP=535;Dels=0.00;FS=14.393;HaplotypeScore=11.0860;MLEAC=1;MLEAF=0.167;MQ=6.29;MQ0=396;MQRankSum=2.281;QD=0.15;ReadPosRankSum=0.530;SOR=3.223 GT:AD:DP:GQ:PL 0/1:208,3:218:13:13,0,100 0/0:176,0:177:39:0,39,297 0/1:136,2:140:31:45,0,31
1 534 . G A 32.35 . AC=1;AF=0.167;AN=6;BaseQRankSum=-0.117;DP=539;Dels=0.00;FS=10.307;HaplotypeScore=15.3371;MLEAC=1;MLEAF=0.167;MQ=6.36;MQ0=397;MQRankSum=3.126;QD=0.15;ReadPosRankSum=0.154;SOR=1.431 GT:AD:DP:GQ:PL 0/1:206,4:214:63:63,0,117 0/0:178,2:182:33:0,33,252 0/0:139,0:143:12:0,12,101
1 542 . C T 32.35 . AC=1;AF=0.167;AN=6;BaseQRankSum=-1.405;DP=534;Dels=0.00;FS=11.442;HaplotypeScore=12.8859;MLEAC=1;MLEAF=0.167;MQ=6.38;MQ0=391;MQRankSum=2.054;QD=0.15;ReadPosRankSum=-0.330;SOR=2.221 GT:AD:DP:GQ:PL 0/1:207,10:218:63:63,0,117 0/0:175,3:178:39:0,39,297 0/0:134,3:138:12:0,12,101
CHROM和pos:表示变异位点相对reference的位置,比如第几条染色体的第几个碱基,如果是indel,pos是indel的第一个碱基的位置
ID:如果call出来的SNP存在于dbsnp数据库里,就会显示相应的dbsnp里的rs编号。不然就是用“.”表示一个novel variant.
REF和ALT:分别代表reference和alter,也就是参考基因组对应的碱基和variant的碱基。
QUAL:表示该位点存在variant的可能性,qual值越大则variant的可能性越大。
FILTER:过滤完了之后,FILTER一栏会有过滤记录,通过了过滤标准,那么这些好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
IFNO:这一列表示的是variant的详细信息。
plink文件格式
ped和map
bed和fam和bim
.vcf转换成plink格式(ped、map、bed、bim、fam)
1.安装plink
plink官网链接PLINK 1.9
2.右键复制下载链接(例如:https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20231018.zip)然后执行下面的命令
wget https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20231018.zip #下载
unzip plink_linux_x86_64_20231018.zip #解压
3.添加plink文件所在路径(也就是解压的路径)
export PATH=$PATH:/mnt/workspace/wzf
4.将vcf文件转换成bed/bim/fam
#input files: test.vcf; #output files: test.bed; test.bim ;test.fam
plink --vcf test.vcf --allow-extra-chr --make-bed --out output
vcf转ped/map
#input files: test.vcf; #output files: test.ped; test.map
plink --vcf test.vcf --recode --out test --allow-extra-chr
ped/map转为二进制格式 bed/bim/fam
#input files: test.ped; test.map #output files: test2.bed; test2.bim; test2.fam
plink --file test --make-bed --out test2
其他:
#1. bed/bim/fam 转为 ped/map
#input files: test.bed; test.bim; test.fam #output files: test1.ped; test1.map
plink --file test --recode --out test1
#2.bed/bim/fam转vcf
#input files: test.bed; test.bim; test.fam #output files: test.vcf
plink --bfile test --export vcf --out test
plink --bfile test --recode vcf-iid --out test
5.使用vcf文件进行pca分析(转为.eigenval 和.eigenvec)
plink --threads 30 --vcf xxx.vcf --pca 10 --out pca10
plink一些参数:
--allow-extra-chr:当出现错误无法读取chrom时,加 --allow-extra-chr,可以强制程序接受编号
--recode
:将输出结果调整为ped格式,默认转换为二进制的bed格式
--id-delim
:修改划分分隔符,plink默认用下划线对样本名进行分隔,分隔的两个字段分别作为ped文件中的family id和sample id
--double_id
:将family id和sample id保持相同
--const-fid
family id:
将family id设置成一个常量,默认值是0
注:
如果染色体超过23,比如30对染色体,需要设定--chr-set 30
如果有非数字染色体,比如性染色体,需要设定--allow-extra-chr
常用的动物都有对应的参数,直接设定相关动物就行,比如牛的--cow,下面是其它动植物的。如果没有对应的物种,直接设置染色体的条数以及允许非数字染色体即可。
本文参考:
【精选】plink格式文件的介绍及相互转换_plink转换格式_hucy_Bioinfo的博客-CSDN博客
vcf转化问plink#流程总结_vcf转ped_Jasmine_X_C的博客-CSDN博客
更多推荐
所有评论(0)