1. Data Type

1.1 RNA-seq数据

Gene Expression Quantification用于测量基因组中所有基因的表达水平;

STAR-Counts表示工作流程:Spliced Transcripts Alignment to a Reference是一个高效的对比工具,能够处理剪接位点,实现转录本到基因组的精确比对。能够统计比对到每个基因区域的读段数量,用于后续表达量分析。

1.2 miRNA-seq数据

Isoform Expression Quantification是异构体表达定量。数据类型分为Isoform Expression Quantification和miRNA Expression Quantification,其中Isoform Expression Quantification包含5p和3p的表达量数据,能够区分同一个前体miRNA产生的不同成熟体,提供更详细的miRNA异构体信息;miRNA Expression Quantification仅提供stem-loop水平的定量数据,不区分来自同一前体的5p和3p,反映的是整体miRNA前体的表达水平,适合进行总体miRNA表达分析。

BCGSC(BC Genome Sciences Centre)miRNA Profiling工作流:专门针对微小RNA(miRNA)进行分析,能够识别和量化不同的miRNA异构体,包括序列比对、表达量计算和注释等步骤。

1.3 WSX数据

Masked Somatic Mutation数据类型是经过掩蔽处理的体细胞突变。

Aliquot Ensemble Somatic Variant Merging and Masking工作流:整合多个样本的体细胞变异信息,能够进行变异合并处理,降低假阳性最终得到高可信度的体细胞突变集合。

2. 基础概念

2.1 EAF与MAF

EAF:Effect Allele Frequency,效应等位基因频率,即效应等位基因在人群中的频率,或是样本中的频率。效应等位基因是相对于另一个等位基因来定义的。

MAF:Minor Allele Frequency,次要等位基因频率,在一个变异位点上,存在两种或者更多等位基因时,将人群中出现频率次要低(第二低)的等位基因称为次要等位基因,其对应的频率就是MAF。MAF关注的是频率第二低的等位基因,在关联分析中我们将EAF设置为哪一个基因都不影响MAF的取值。

在人群分析和QC中,我们通常会过滤掉MAF较低的变异位点,低频变异在小样本中可能导致统计结果的不稳定。

2.2 A1,A0,A2,ALT,REF基因

A1通常被指定为MA,A2通常指的是Major Allele;在一些GWAS文件中,A1通常指的是效应等位基因,A2指的是非效应等位基因,而A0则和A2具有相同的含义。一般来说,A1是我们最关注的基因

ALT:Alternate Allele,变异等位基因,与参考基因组序列不一致的那一个或多个等位基因;

REF:Reference Allele,参考等位基因,即在参考基因组入GRCh38上出现的等位基因。

在GWAS Summary data中,如果以REF Allele为准,REF很可能对应的就是A2,ALT可能对应的就是A1。

在实际数据分析中,为了保证后期合并时不出现混淆,通常需要使用参考基因组版本(bcftools、GTK工具)来进行标准化,来判断哪一个是效应等位基因。