Minor/alternative/effect/risk allele这些名词很容易混淆,早期的遗传统计学软件,例如plink并没有很重视allele概念上的明确区分,但近年新出的软件或旧软件的新版本为保证统一性已经开始注意此问题。

一些常见allele相关名词的辨析如下:

序号等位基因1(A1)等位基因2(A2)解释
1major alleleminor allele根据某一特定群体的等位基因频率来定义
2reference (ref) allelealternative (alt) allele根据与参考基因组的等位碱基的异同进行定义
3reference (non-risk / non-effect / other) allelerisk / effect allele关联检验中常用的名词,注:效应等位≠风险等位,有时可能为保护效应
4A1A2plink1.9 软件的.bim文件,A1为 minor allele,A2为 major allele
5REFALTplink2 软件,REF 为 reference allele,ALT为 alternative allele
6A1A2METAL 软件,A1为 tested allele,A2为 other allele

注:Minor allele/major allele 和 ref allele/alt allele真的半毛钱关系都没有。前者指在特定人群/样本下,频率低的就定义为minor,而后者完全不关心频率,只看参考基因组定义哪个是ref,所以minor和major都可以是ref或者alt。

1. major 与 minor allele

Major allele 与 minor allele 通常是针对某一大小确定的特定群体而言,频率最高的allele为该群体的major allele, 频率次高的为 minor allele,对于最常见的 bi-allelic SNP来说,两个allele频率一高一低,就是这个群体中这个SNP的major和minor allele,对于tri- 或者quad-allelic SNP (位点有三种或四种碱基的SNP)而言,minor allele则是频率第二高的那个allele。

注意:
(1) 区分major与minor的依据:某一大小确定特定群体的 allele 频率;
(2) plink1.9目前采用的是major与minor allele的概念,软件会自动计算频率,对原始数据进行操作时会自动改变allele的排序,如果使用plink1.9 的--frq选项计算频率,输出文件中的MAF (minor allele frequency),不会高于0.5。

plink1.9 中,A1为minor,A2为major allele,故 MAF (minor allele frequency) 是指A1 (minor allele) 的频率。

CHR    SNP    A1   A2          MAF  NCHROBS
1      SNP1    T    C       0.1258    10000
1      SNP2    A    G       0.1258    10000

2. reference与 alternative allele

Reference allele 在这里是指某一参考基因组上该位点的allele,该位点上其他的allele则称为alternative allele。注意,这里reference 与 alternative allele与频率无关,唯一的决定因素是所选的参考基因组。参考基因组上的allele多为major allele,但这只是巧合,不能以此为依据将major和 reference allele划上等号,也有部分reference allele在该群体中为minor allele。

与plink1.9不同,plink2使用的概念则是reference 与 alternative allele,进行操作时不会自动依据频率而改变ref与alt的排序,使用plink2 的--frq选项计算频率,输出文件中的是alternative allele frequency (不是MAF),取值范围为[0,1]。

#CHROM  ID  REF ALT ALT_FREQS   OBS_CT
1   SNP1    T   C   0.8742  10000
1   SNP2    G   A   0.1258  10000

plink2 中则明确区分了reference 与 alternative allele的概念,例如上述的两个SNP,根据参考基因组比对后,SNP1在参考基因组中的ref为T,那么alt就为C,这里计算的alt的频率为0.8742,按概念来说在该群体中,SNP1的T为ref allele,但却又是minor allele , 而C为alt,却又是major。 对于SNP2来说ref 则为 major,alt 为minor。

# 将自己手头数据的ref与alt allele与对应参考基因组比对
plink2 \
       --bfile testfile \
       --ref-from-fa -fa hg19.fasta \    # 从参考基因组的fasta文件来决定plink文件中的ref
       --make-bed \
       --out testfile_fa

3. reference 与 risk/effect allele

同样是reference allele,在与 risk/effect allele并列时,则指的是GWAS关联检测中的reference allele (other、non-risk 或者 non-effect allele),也就是估计效应量beta(或odds ratio)时的参考组,概念上与上述ref与alt的组合无关,但为了保持统一性,近年来研究中关联检验的reference 也会与 reference genome保持一致,以避免混淆(注意:早期多以minor allele为关联检验的ref allele,这也是容易产生混淆的点)。

Risk allele 则是对疾病发生有贡献的allele (OR>1)。在复杂疾病的研究中,一般情况下risk allele常为minor allele,但也会有例外。Effect allele的概念类似,是对疾病或表型产生效应的allele,关联检验结果中effect一栏指的就是effect allele的效应,既可能是保护效应也可能是危险效应。

参考阅读:
major/minor/reference/alternative/risk/effect allele 概念解析

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐