Proteomics

0 Preface

蛋白质组学分析基础概念知识。

蛋白质组学研究蛋白质结构、功能及其在生物系统中表达。分析过程中通常需要处理大量复杂的数据,包括蛋白质的鉴定、定量、修饰、相互作用等。

一般流程包括:

数据获取与预处理

  • 蛋白质鉴定:利用质谱(Mass Spectrometry,MS)技术识别样本中的蛋白质。
  • 原始数据处理:将质谱数据转化为可识别的肽段和蛋白质信息。
  • 数据过滤:移除低置信度的蛋白质或肽段。

数据定量分析

  • 标签定量:使用标记技术对蛋白质进行相对或绝对定量。
  • 无标签定量:通过光谱计数或基于强度的方法对蛋白质定量。

数据标准化和归一化

  • 标准化:消除批次效应或实验条件的差异,常用Z-score标准化、分位数归一化。
  • 归一化:调整蛋白质定量数据,使不同样本之间具有可比性。

差异表达分析

  • 统计分析:使用t检验、ANOVA等识别不同条件下显著变化的蛋白质。
  • 多重比较校正:校正多重比较引起的假阳性率。

功能注释与通路分析

  • 功能注释:将蛋白质映射到功能数据库理解生物学功能。
  • 通路分析:利用软件识别与特定生物学通路相关的差异表达蛋白。

结果验证与解释

  • 验证实验:使用相关技术对关键蛋白质的表达进行验证。
  • 生物学意义解释:结合实验背景,解释发现的差异蛋白质和通路的生物学意义。

数据可视化与报告

  • 可视化:可视化展示结果。
  • 撰写报告:论文撰写。

1 批次效应

批次效应:实验中不同批次而引入的系统性误差,即使在相同实验条件下,不同批次处理也可能出现系统性差异。

影响:

  • 伪差异:导致样本间的差异被认为是生物学上的真实差异;
  • 结果的可重复性:重复实验中可能不一致,导致数据不可重复;
  • 数据分析的复杂性:数据噪音增大,掩盖了真实的生物学信号。

校正方法:

  • 实验设计:将不同条件下的样本随机分配到不同批次中,避免批次效应与实验因素混杂;
  • 数据分析:使用统计方法校正批次效应。

2 多重检验校正

当同时进行大量统计检验时,假阳性结果会大量增加,因此需要多重比较校正。

2.1 Bonferroni

最简单最严格的方法,检验N次,则将阈值设定为$P-value/N$。例如检验1000次,则将阈值设定为5%/1000=0.00005,即使检验1000次,犯错误的概率也保持在5%。

2.2 FalseDiscovery Rate

FDR(假阳性率)法相对于Bonfer法更宽松。例如,假如检验1000次,设定阈值为5%。

Benjamin and Hochberg法:将P-value升序排列,计算校正后的显著性水平,对第$i$大的P-value校正:$p_i^{BH}=\frac{i}{m}\times\alpha$。$m$表示总检验数,通常$\alpha$设置为0.05(预设的显著性水平),然后将原P-value与BH:P-value相比较。

2.3 ENT

Effective Number of Test是一种用于处理多重比较问题中检验之间的相关性,Bonfer直接用检验数目来作为被除数过于严格,当检验之间存在相关性时,检验数目可能高估了独立的信息量。

先计算所有检验统计量之间的相关矩阵,对该矩阵进行特征值分解,得到一组特征值$\lambda_1,\lambda_2,…\lambda_m$。计算ENT的值,

$ENT=\frac{(\sum_{i=1}^m{\lambda_i})^2}{\sum_{i=1}^m{\lambda_i^2}}$

校正显著性水平为:$P_{ENT}=\alpha/ENT$

ENT本质上是为了改善多重检验校正的结果,减少过度保守性。

3 ⭐⭐OLINK技术

OLINK是一项基于近邻延伸测定技术的蛋白质组学平台,通过对生物样本(血液、组织)中的蛋白质进行精准定量分析。

其技术的核心原理通过使用抗体对目标蛋白进行识别和绑定,每个抗体都与一个独特的DNA寡核苷酸序列连接。当两种特异性抗体与目标蛋白质结合时,它们的DNA寡核苷酸序列会靠近并形成一个可扩增的DNA模板。

优势:

  • 灵敏检测出低丰度蛋白质,保持高特异性;
  • 多重检测能力:可以在单次实验中同时检测出多个蛋白质;
  • 样本量需求低;
  • 本身提供高度可重复且标准化的数据。

该技术仅需2μl样品即可检测超5300种蛋白标志物,相比于上一代Explore产品,将特异蛋白标志物检测数量提高80%样本检测通量提高4倍数据输出能力提高8倍,操作流程更简化,组件降低6倍,外部包装降低10倍。能够同时分析多达344个样本。

3.3 流程设置以及操作细节

3.3.1 Plate

“Plate”:微孔板(microplate),用于进行高通量蛋白质分析的实验耗材,一个微孔板通常包含96孔或384孔,孔内容纳一个样本或实验反应单元。在涉及到多个目标分析下,一个Plate会进一步分为多个部分,例如“Plate 1-1”“Plate 1-2”代表同一个Plate上进行的不同批次的检测。

3.3.2 ⭐孔上外参

孔上外参(External Control):如:Sample Control(样本控制)、Plate Control(板内控制)、Negative Control(阴性对照)。

  • Sample Control:通常是已知浓度或特性的标准样本,用于验证实验过程中样本处理的正确性,确保实验过程中样本处理过程的一致性。(确保结果准确能够正常检测

  • Plate Control:监控每一块板内部实验一致性,确保整个孔板的实验条件一致。(确保板内实验条件一致

  • Negative Control:不包含目标蛋白或抗原的对照样本,检测非特异性信号,若阴性对照中出现信号,则意味着存在非特异性,背景存在噪音。(确保无信号或信号低的蛋白不被检测

3.3.3 Block稀释

Block通常指不同的组或者不同的板,目的是为了防止高丰度蛋白超出检测范围或低丰度蛋白无法检测,确保能够量化所有蛋白质。

3.3.4 ⭐样本内参

加入三种内参用于质控:

  • Incubation Control(孵育控制):由一个非人类抗体组成(理论上不会与目标蛋白发生特异性结合),监控蛋白质和抗体之间的结合反应。

    如果孵育过程是正常的,则Incubation Control的信号应当是稳定的,这是因为它本来是不会与目标蛋白结合的;若该信号低于预期,说明存在问题

  • Extension Control(扩展控制):由连接在DNA标签上的抗体组成,用于检测DNA标签的扩展过程,通过检测这个信号,确保DNA扩展步骤的正常进行。若扩展控制信号异常低,意味着扩展过程发生了问题:比如在检测一种蛋白质的过程中得到了较低的扩展控制信号,这意味着在抗体扩展阶段,生成的DNA模板量少于预期,可能是DNA标签连接不充分导致了模板生成失败;可能是试剂问题;可能是孵育条件不合适等。

  • Amplification Control(扩增控制):通常是人工合成的双链DNA,监控扩增过程是否正常。同样,当扩增控制信号低于预期时,PCR扩增过程可能出现了问题,PCR扩增的效率会影响最终信号的强度,可能会导致蛋白的NPX值不准确

image-20240908140328249

(以上为示例图,板上外参的数量不是固定的)

3.4.1 NPX数据概念

OLINK NPX(Normalized Protein eXpression):指的是OLINK平台用于定量蛋白质表达的一种标准化数据格式(本身是一种内部标准化的过程,用于去除样本间的系统性偏差)。

其中$Count^{Ext}$表示生成的原始荧光信号或测序数据,$Count^{Ext.ctrl}$表示扩展控制的读数,提供了一个基线信号,独立于样本中目标蛋白质浓度。通过将目标蛋白信号强度除以扩展控制信号强度,进行了标准化处理,去除样本间的系统性偏差。因此NPX整体反映了目标蛋白质的相对表达量。

3.4.2 NPX数据标准化

目的是消除系统性误差以及技术差异,使不同样本和不同板之间能够直接比较。有以下两种方案:

  • Plate Control Normalization(板内控制标准化)

调整实验板之间的差异引起的系统性偏差,确保不同板上的样本数据在同一基准。

  • Intensity Normalization(强度标准化):

其中⭐整体中位数表示的是整体送检样本(不包括外参)的中位数,目的是消除实验中由于整体信号强度差异引起的变异。

综上,板内控制标准化更适合校正实验板之间的变异而导致的系统性误差;整体强度标准化用于样本之间整体信号强度差异所带来的偏差(仍需进一步诠释)。

选择依据

观察NPX数据的分布,当其呈现双峰分布时采用板内控制标准化,以消除板间差异,减少批次效应。

当呈现单峰分布时采用整体强度标准化,此时代表分布较为一致。

待完善

3.5 OLINK数据

3.5.1 原始数据构成

OLINK数据由以下构成,包括送检样本以及外参

包括:

  • SampleID:样本标识符;

  • WellID:样本板上标识符;

  • PlateID:实验板标识符;

  • OlinkID:蛋白标识符;

  • Count:目标蛋白检测信号强度(原始数据);

  • ExtNPX:外部控制后的NPX值,这是早期或中间值;

  • AssayQC(质控):蛋白质分析(assay)质量评估指标,评估蛋白质分析过程是否可信。通常包括了信号强度、背景噪音、信号/噪音比、扩展效率、PCR扩增效率。OLINK平台通过计算上述综合得分来评估实验质量;

  • SampleQC(质控):样本质量控制结果评估,检查样本在Incubation、Extension、Amplification三个阶段是否正常。如:(1)样本Count数过低,或样本内参Count数过低(FAIL);(2)样本内参Count数低(WARN);(3)Plate Control样本中,内参偏离正常范围(FAIL);(4)Negative Control样本中,较多Assay的Count数高于期望(FAIL)。

    criteria_olink_sampleqc

SampleID WellID PlateID OlinkID Count ExtNPX AssayQC SampleQC
plataX-X PASS/FAIL PASS/FAIL

3.5.2 数据组成

  • 样本包括:送检样本+外参,外参=样本控制+板内控制+阴性控制
  • Assay包括:Unique Protein:互不相同的蛋白+重复测定的蛋白+内参(通常为3*板数),例如有2个蛋白被重复测量3次,则重复测定的数目记作4(2×(3-1)代表已经被测量而又被测量的数目)。

4 LOD最低检出限度

在OLINK中,根据每个实验批次的4个阴性对照来计算。一个特定的蛋白的检出率则是其样本中高于LOD值的样本比例。

LOD(Limit of Detection)指的是在科学研究和实验中,一种检测方法或技术能够检测到的最小分析物的浓度或量,表明了某种技术灵敏度。LOD是一种方法能够可靠区分分析物的存在与否的最低浓度或量,但并不一定是准确定量。LOD通常基于统计推断,表明在一定的置信水平(如95%)下,信号能够可靠地与噪声区分开,通常通过计算信号与噪声的比率来确定LOD,通常这个比值设定为3倍噪声标准偏差。LOD取决于多种因素,包括仪器的灵敏度、样品纯度、实验条件等。

LOD和LOQ(定量限)不同,定量限指的是在保证合理精度和准确度的前提下,能够定量检测分析物的最低浓度或量。LOD仅表示可以检测到分析物的存在,LOQ能够测量其浓度。

5 Olink中的CV

CV:可重复性

$CV_i=100\sqrt{(e^{Sln^2_i}-1)},\quad where \quad Sln_i=ln(2)\times SD_i$

Intra-CV: 每个Plate中的Sample Controls取平均得到一个CV值,用于评估plate内的技术变异。

Inter-CV: 所有Plate中的Sample Controls取平均得到一个CV值,用于评估plate间的技术变异。

在计算CV值时,只有NPX>LOD的数据点才会被纳入。

4 Nested Case-control Study

巢式病例对照研究:对一个事先确定好的列队进行随访观察的基础上,再应用病例对照研究。其病例和对照人群都从一个队列研究中选取。选择对照组时尽量减少混杂因素的影响。其基本步骤包括:

  • 定义队列:在研究开始时确定一个初始队列,这些个体没有研究的目标疾病或结局。通常情况下,研究者会随访这些个体,以观察是否发生特定的疾病。
  • 确定病例:随访过程中,随着时间推移,某些个体会发展成病例,这些个体称为病例组。
  • 选择对照:从没有发展为病例的队列成员中选取对照组。
  • 分析数据:比较分析病例对照。

选择对照组时:应当匹配病例和对照:

  • 时间匹配:病例和对照的随访时间应该一致,在病例确诊时间点选择对照个体。
  • 年龄、性别等变量匹配:以年龄、性别、地区等进行匹配。在匹配时控制部分混杂,但是未匹配的混杂变量仍然需要考虑在关联分析时控制。
  • 随机选择对照:从整个队列的非病例成员中随机选择对照。
  • 多重对照:每个病例匹配多个对照(1:2或1:3)。

5 UKB-PPP

简介与流程

UK Biobank Pharmaceutical Pipeline Project(UKB-PPP):英国生物样本库制药管线项目。收集了超过50万名参与者的详细基因、表型、健康数据。(下图来自《Plasma proteomic associations with genetics and health in the UK Biobank 》)

image-20240907112626251

  1. 其中参与者由PPP联盟挑选,共54219人,其中包括46595个随机挑选的受试者,6376个由公司提前挑选的受试者,1268个由COVID-19重复影像学研究提供的受试者。
  2. 通过UKB采集EDTA血浆样本。通过OLINK Explore 3072测量蛋白质。
  3. 向UK Biobank提供蛋白质数据。UK Biobank提供QC:高于90%定量成功;Inter-plate CV:中位数<11%,90分位数<25%;每板平均匹配读数至少有500个的数量>90%;
  4. 将蛋白数据提供给PPP联盟。PPP联盟进行数据质控:移除对照样本和撤回同意的参与者;移除异常样本;移除QC Warning/Assay Warning;移除样本交换(样本身份信息被错误标记或交换)。
  5. 协同数据分析:利用质控过后的数据进行蛋白质组学分析等。

NPX计算过程

  1. 样本分组与随机化:将样本分为两个集合,第一个集合是从UK Biobank中随机选取的样本;第二个集合是基于COVID-19时间点随机选取的样本。

    样本被随机分配到96孔板子,每个板由87个由集合1或集合2的样本;1个空孔;2个Olink控制样本;3个Olink负对照样本;3个Olink板控制样本组成。

  2. 板的批次处理:样本被分成8个批次(0-7)。其中,批次0-6只包含集合1的样本,批次7包含了集合1和集合2的样本。

  3. 首先计算每个样本检测计数值与延伸控制计数值的log2比率,然后从板的控制样本的检测中位数减去这个比率,得到板内标准化的NPX值

  4. (针对批次0-6的集合1样本)板间标准化:从每个检测的NPX值中减去检测的板内中位数,消除板件的系统性差异。其中双峰分布的蛋白表达值只保留板内标准化。

  5. 批次间标准化:计算各批次中每个检测的NPX中位数与参考批次(批次1)的差异,这个差异被称作调整因子,最后将这些调整因子添加到批次0-6中每个检测的NPX值中,以实现批次间标准化。

  6. (针对集合2)桥接样本标准化:通过桥接样本(集合1和集合2共享的样本)调整集合2的样本。在批次7的板中,每个都包含至少一个集合2样本的板都会分配一个随机选择的集合1的样本作为桥接样本,计算集合1和集合2中每个检测的成对差异中位数,将这些差异作为调整因子。添加到集合2的NPX值中。

最终NPX值:集合1样本的最终NPX值通过先进行批次内标准化再进行批次间标准化生成。(先消除系统性误差,再保证不同批次间的数据一致性)

集合2样本的NPX值通过桥接标准化生成。

固定因子:这两个标准化步骤都只是将数据按固定的因子进行调整(例如,减去板的中位值或批次间的中位差异),因此:

  • 板内的 CV 不会被改变,因为每个样本都应用相同的校正因子,这不会影响样本之间的相对变化。
  • 板间的 CV 在批次内标准化之后会得到改善,因为这一步消除了板与板之间的系统性偏差。
  • 批次间的 CV 在完成两个步骤的标准化后会进一步改善,因为这一步校正了批次间的系统性偏差。

数据预处理与质量检测

剔除数据:剔除控制样本,未处理的样本,退出的参与者。

异常值检测方法1:利用主成分分析进行数据清洗,主成分分析时排除了控制样本,退出的参与者,缺少NPX值的数据点,缺少协变量的数据点。若某个样本的PC1或PC2的标准化后的值超过平均值5个标准差,则排除该样本点。

异常值检测方法2:基于中位数以及四分位距,如果NPX中位数或四分位距超过平均值5个标准差,则排除该样本点。

排除样本:带有QC或检测警告的数据点会被排除;如果一个样本在一半或更多面板上出现警告,则可能存在样本交换,排除整个样本。

NPX数据质量控制

变异系数CV的计算:

两组重复样本用于评估蛋白检测的稳定性:

OLINK提供的控制样本:Olink提供的标准化重复样本,检测平台内的精度;UKB提供的盲测重复样本:评估同一受试者的重复样本间的变异性。

NPX值的CV用于衡量同一人的重复样本之间的蛋白质表达变化。

Olink计算CV公式:

$CV_{ijk}=100*\sqrt{(e^{((log_2(SD(NPX))^2)}-1)}$

$CV_{ijk}$:第$i$个蛋白质在第$j$个个体和第$k$个板上的变异系数;NPX:标准化蛋白表达值;SD(NPX):重复样本的NPX值的标准差。

对于每个蛋白质,计算各个个体和板上CV的中位数,作为该蛋白的总体CV。

蛋白CV范围可视化:汇总每个蛋白的中位CV,将他们以柱状图形式展示。

CV作用:CV越小,检测变异性越小,蛋白检测精度越高。

批次效应Batch Effect检测:

批次效应:不同实验批次之间是否存在系统性差异。使用随机效应模型可以检测批次效应:

$NPX=b_0+u_j+e_{jk}$

其中$b_0$表示全局NPX平均值,$u_j$表示批次的随机效应,$e_{ij}$表示由个体差异或其他未解释的变异因素。批次效应的百分比:$Var(u_j)/Var(u_j+e_{jk})$。

检测实验板效应plate effects

即在实验过程中是否有某些实验板的检测数据出现系统性误差或较高的变异,计算两组变异系数进行比较。

  1. 方法1:测量板内的重复样本变异性(inter-replicate variability):先分析Olink提供的控制样本,计算其CV;再分析重复样本,计算其CV;合并控制样本和重复样本,计算其中位CV;计算所有样本的中位CV。
  2. 方法2:测量患者间的变异性(inter-patient variability):对每个实验板的患者(送检)样本计算CV;计算板内中位数。

将方法1(重复样本变异性)与方法2(患者间变异性)的中位CV进行比较,找出是否有实验板在任一轴上的CV较高。(可以绘制直方图来显示其CV异常)也可以在高CV的实验板中绘制NPX的样本分布,检查是否是由特定样本引起了高的CV。

蛋白质是否在检测限以下

观察蛋白表达量在所有样本中低于LOD的比例。如果某些蛋白质在大量样本中低于LOD,则可能需要过滤。

6 SomaScan

基于SOMAmer(Slow Off-rate Modified Aptamers)技术,通过亲和性结合的寡核苷酸探针捕捉目标蛋白。它提供的是一种相对量化的信号,通常以一种叫做“Relative Fluorescent Units (RFU)”的值表示,经过归一化和批次校正后用于分析,RFU是一个直接从荧光信号转化来的数值,反映了目标蛋白的相对丰度。

7 DIA-MS

DIA-MS:数据非依赖性采集质谱技术。在传统的数据依赖性采集(DDA)模式中,质谱仪会选择最强度的几个母离子进行二级质谱分析,可能会错过低丰度蛋白的信号。而DIA-MS采用不同的策略。质谱仪会将整个质量范围划分成多个较小的质量窗口,对每个窗口内的所有前体离子进行碎片化,从而产生完整的MS/MS图谱。这确保了样品中所有蛋白质都能被检测到,不会遗漏低丰度蛋白。

8 PRM

PRM:平行反应监测技术。是一种靶向蛋白组学技术,主要用于对特定蛋白进行精确定量分析。具有极高的选择性和灵敏度,可以同时监测多个目标蛋白,定量结果更加精准可靠,适合验证阶段的生物标志物研究。

可视化分析

1 森林图

主要用于Meta分析。

森林图主要用于可视化比较多个研究结果的效应大小和置信区间,绘制森林图通常需要以下数据:

  • 因素名称:在表型蛋白质关联分析中则是蛋白质的名称;
  • 风险比HR,风险比表示相对因素的生存风险相对于参考水平的比率;
  • 置信区间CI;
  • P-Value;

2 火山图Volcano

散点图的一种,将显著性度量(p-value)和变化幅度FC相结合,以便快速直观地识别变化幅度较大且具有统计学意义的数据。

变化幅度FC:差异倍数,基因在一组样品中的表达值的均值除以其在另一组样品中的表达值的均值,所以火山图只适合两组样品之间的比较。

一般需要做对数转换$Log_2$。

绘制火山图需要包含3列数据。

Name FC Pvalue Marker(非必须)
ID1
ID2

蛋白质组学中的火山图:

蛋白质组学和基因组学分析中的火山图一般是通过比较实验组和对照组的基因或蛋白质表达量,快速识别表达水平上有显著差异的蛋白质或者基因。

  • X轴:代表对数转换后的倍数变化($Log_2(FC)$),通常X轴的零点表示基因或蛋白质在实验组和对照组之间没有变化,右侧表示上调表达,左侧表示下调表达;
  • Y轴:代表P-value的负对数转换($-log_{10}(p-value)$),该值越高,代表蛋白质或基因的表达差异越显著。
  • 一般来说,使用不同颜色来标记上调、下调以及不显著的蛋白质。比如,用红色表示显著上调($log_2(FC)>1$且P-value<0.05),用绿色表示显著上调($log_2(FC)<-1$且P-value<0.05),用灰色表示不显著变化的蛋白质。

火山图中间点数较少(通常代表无显著差异的基因或者蛋白质),两侧的点(显著差异的基因或者蛋白质)。

横向:表示差异性大小,越沿着X轴差异性越明显上调,反方向差异性越明显下调,居中差异较小。(自X轴的垂线:1.2、1.5、2(-1.2、-1.5、-2)一般为差异倍数线

纵向:表示表达是否显著,越沿着Y轴表达越显著,反方向Y轴越不显著。(自Y轴的垂线:P取0.05、0.01为显著性水平线

一般只关注左上区和右上区的蛋白/基因,这些意味着具有显著表达并且差异性明显。

常见统计分析方法

数据处理方法

缺失值处理-MICE填补法

MICE(Multiple Imputation by Chained Equations),数据集中指定的变量的缺失值使用其他变量作为预测变量进行估算。没有相关性的完全独立变量的数据集不会产生准确的插补。其基本步骤是:

  • 初始插补:对每个缺失值进行初始插补(通常使用均值、回归或随机采样)。
  • 迭代插补:逐变量插补:将缺失的变量视为被预测的目标变量,对于每个缺失的变量基于现有数据构建回归模型预测缺失值;
  • 循环迭代:重复步骤(一般为5到10次),逐步更新插补结果,直到收敛(插补值不再发生显著变化)。

MICE可以使用线性回归、逻辑回归、预测均值匹配(PMM)的程序来选择要估算的值。

PMM(预测均值匹配Predictive Mean Matching),核心思想是通过匹配(注意,是匹配)预测值来插补缺失数据。首先构建回归模型,对缺失值通过回归模型计算其预测值,在原本无缺失值(观测数据中的真实值)的数据中找到与预测值最接近的值,这意味着插补的缺失值直接来源于已有数据中的观测值。

即通过其他变量回归进行预测,然后寻找真实数据中最接近的值。并且重复迭代插补,直到插补的值收敛。

匹配对照方法-matchit()函数

matchit()函数属于MatchIt包,专门用于执行各种类型的倾向评分匹配(propensity score matching),允许基于一个或多个变量进行最近邻匹配、全匹配、卡尺匹配、倾向评分匹配。

matchit(
formula, # 通过公式的形式指定因变量(case)和自变量(匹配变量)
data,
method = "nearest", # 匹配方法
distance = "logit", # 估计倾向评分的模型
caliper = NULL, # 设定匹配宽限(仅用于连续变量,如年龄、血糖)
ratio = 1, # 每个病例匹配的对照数
exact = NULL, # 强制精确匹配的变量(如性别、种族)
replace = FALSE, # 是否允许有放回匹配
verbose = TRUE , # 显示具体信息
... # 其他参数
)
  1. method:“nearest”:最近邻匹配,按举例最近的对照样本进行匹配;“exact”:精确匹配,仅匹配完全相同的值;“full”:全匹配,每个病例匹配所有对照,权重用于校正;,“subclass”:子分类匹配,通过倾向评分将样本分成多个子类;“optimal”:最优匹配,通过最小化总距离来匹配。
  2. distance:“logit”:逻辑回归;“probit”;”linear”。
  3. caliper:宽限值,限制某些变量的匹配范围;

在匹配成功之后,可以使用love plot(平衡图)来检查匹配的效应,主要观察的变量是各个指标的SMD(标准化均值差异)和VR(方差比)。也可以逐个变量使用显著性统计检验(连续性变量使用t检验,分类型变量使用卡方检验)。

也可以使用倾向得分评分来衡量:Distance:倾向得分:每个样本根据匹配变量计算出的概率,根据匹配公式中的自变量带入一个Logit模型或其他模型估计得出,表示每个样本被分配为“病例”的倾向评分。病例和对照的distance差异越小,越接近于配对。

数据分析方法

1 条件逻辑回归

Breslow NE, Day NE. Statistical methods in cancer research. Volume I - The analysis of case-control studies. IARC Sci Publ. 1980;(32):5-338. PMID: 7216345.

似然函数能够描述前瞻性分析和病例对照实验。

当在研究中不引入条件(无条件回归模型)时:即使用无条件回归模型来估计相对风险时,会导致估计参数时,参数阶数(在估计时会引入每个分层的参数来描述不同分层之间的差异,这些是干扰参数,也是无关参数)与观察数接近,导致估计发生偏倚。

假设每个分层都由一个匹配的病例-对照构成,暴露记为$x=1$,未暴露记为$x=0$。每对的结果都可以表示为一个$2\times 2$表的形式,拟合的模型形式为:

而对于每个分层,可能存在四种情况(case暴露,control暴露;case暴露,control不暴露;case不暴露,control暴露;case不暴露,control不暴露)最终无条件模型与条件模型得到的估计会不同,无条件模型相对会低估结果。(书中有详细推导,在此不展开)

为此实际实验中通常设定一个case与一个或多个control进行匹配,此时条件似然函数被简化。

对于条件逻辑回归,一般来说一个病例匹配3~4个对照是比较合理的选择,虽然病例尽可能多地匹配对照,但是在增加到一定数目之后,边际效益会递减。

如下为个人观点:

为什么在设定1:4的匹配,与设定1:10的匹配的蛋白位点不同?

很直观的结果来看,当我们选择1:4匹配时,如果真正的阳性蛋白位点,其case普遍比control要高,那么其p值会很小。而当我们选择1:10匹配时,这一蛋白位点上,出现了较多的control其表达量反而比case要低,此时就降低了该蛋白位点的p值,使得该蛋白位点的阳性被“隐藏“。此时,在1:10匹配时,我们没有考虑完全所有的混杂因素,导致携带更多混杂的control进入了模型的系数估计的过程中。

但这并不是绝对的,我们如何保证1:4的匹配绝对控制混杂了呢?

2 Cox比例风险模型

2.1 普通Cox比例风险模型

Cox模型不仅可以包含类别变量还可以包含数值变量。

1、生存函数:表示对象在时间点t仍然生存的概率,记作$S(t)$。

2、风险函数:表示对象的生存时间达到t后失败的概率,记作$h(t)$。

概率密度函数记作$f(t),h(t)=f(t)/S(t)$,累积分布函数满足$F(t)=1-S(t)$,因此累计风险函数$H(t)=-logS(t)$。

对于Cox模型,存在

$h(t,x)=h_0(t)exp(\beta X)$

即:$ln\frac{h(t,X)}{h_0(t)}=\beta X$

其中$X=(X_1,…,X_n)’$是独立于时间的可能影响生存时间的协变量。$h_0(t)$是一个非参数的基线风险函数,表示协变量全为0时的风险,对所有个体来说都是一样的。并且可知,Cox回归类似于线性回归,Cox回归的是个体风险与人群基线风险比值的对数。

前提条件:风险比值对数与协变量之间呈线性关系、风险比值对数与时间无关。

Tips:如果风险比值对数与时间有关,则需要使用依时协变量模型。

模型检验假设:1、比例风险假设检验:Schoenfeld残差检验,该残差应当与时间无关;若有证据证明某变量违反了比例风险假设,可以考虑将其设置为分层变量。2、线性关系假设:Martingale残差检验;自然样条检验。如违反线性假设,需要考虑对其进行非线性转换。

另:估计协变量的系数时,可以不涉及基线风险系数的估计。而如果涉及到后续预测,则需要估计基线风险,常用的方法是Breslow方法。

时依以及分层Cox比例风险模型

时依(协)变量(Time-dependent covariables):该变量随时间的改变而发生变化。

当不满足等比例风险时,1、按照协变量分层分析,即采用分层的Cox回归;2、采用时依Cox回归。

3 Meta分析

Meta-Analysis用于综合多个独立研究的结果,汇总不同研究的样本量和效应大小。Meta分析是一种定量研究方法,目的是提高统计效能、检测异质性(识别不同研究之间的差异,分析差异来源)、探寻亚组效应(探究变量如何影响总体效应)。

具体步骤如下:

  • 明确研究问题与定义效应指标:在明确研究问题时通常涉及某种干预措施、暴露因素或生物标志物对某个结局的影响;效应指标通常为相对风险(RR)、比值比(OR)、均数差(MD)或标准化均数差(SMD)。
  • 文献检索与研究选择:系统检索现有的文献;设定明确的纳入标准和排除标准,以确保选取的研究与研究问题相关。通常会考虑实验设计、暴露因素、结局指标等方面;最终筛选文献是符合标准的高质量研究。
  • 数据提取与质量评估:从纳入的研究中提取数据,如效应大小、标准误、样本量、随访时间等;再使用适当的工具评估研究的质量,包括随机化、盲法、失访率等,评估偏倚风险。
  • 选择适当的Meta分析模型:固定效应模型or随机效应模型
  • 效应合并与异质性分析:通过统计学方法将不同研究的效应大小进行加权平均,得到总体效应值,加权通常基于每个研究的样本量或标准误;异质性分析用来分析各个研究之间的差异是否显著,包括Q检验、$I^2$统计量。(异质性显著时建议采用随即效用模型,否则可以选择固定效应模型)
  • 亚组分析与敏感性分析:将数据按照某些特征进行分组,探索不同亚组间的效应差异;敏感性分析用于评估某些特定研究对总体效应估计的影响。
  • 发表偏倚评估:一般来说只有显著结果的研究更容易发表,没有显著结果的研究可能会被遗漏,通过漏斗图或Egger回归检验来评估是否存在发表偏倚。
  • 报告与解释结果:最终结果通常以森林图展示,展示所有研究的效应大小和置信区间。

固定效应Meta分析

  • 基本假设—唯一真实效应:假设所有纳入的研究都在估计相同的真实效应值,研究间的差异完全由样本内的随机误差引起,意味着每个研究实际上都在估计同一效应值。

  • 权重分配:通常样本量大的研究会赋予更大的权重。加权方式是通过逆方差加权法来分配的,加权公式是:

    $w_i=\frac{1}{SE_i^2}$,其中$SE_i^2$是该研究效应估计的标准误。

  • 效应合并:将个研究的效应估计值按其权重加权平均,得出合并效应值,

    $\hat\theta=\frac{\sum{w_{i}\theta_i}}{\sum{w_{i}}}$

适用于异质性较小的情况,假设所有研究估计同一个效应。

随机效应Meta分析

  • 基本假设—多重真实效应:假设每个研究可能估计不同的真实效应值。意味着研究之间存在一定的变异,且这种变异不仅仅由随机误差引起,可能因为研究设计、对象、干预措施等方面的不同;研究之间的差异来自每个研究内的随机误差或研究间的真实效应值差异。

  • 权重分配:随机效应模型还考虑了研究间的变异,

    $w_i=\frac{1}{SE^2_i+\tau^2}$

    其中$\tau^2$是研究间的变异,当研究之间差异较大时,会降低各研究的权重。

  • 效应合并,同样根据加权合并。

  • 异质性估计:DerSimonian-Laird法衡量研究间差异,$I^2$统计量。

适用于异质性较大的情况。

4 CMH检验

通路富集分析

通路富集分析(Pathway Enrichment Analysis) 是一种常用的生物信息学方法,用于理解在某种生物条件(如疾病状态、药物处理或基因突变)下,哪些生物学通路在蛋白质组数据中有显著富集。有助于从功能层面解释差异表达的蛋白质在特定生物过程中或信号通路中的角色,提供对蛋白质组数据的系统性认识。

  • 输入数据:差异表达蛋白质

在蛋白质组学实验中,通常会得到一组差异表达的蛋白质(DEPs,Differentially Expressed Proteins),这些蛋白质是在不同条件下有显著表达差异的蛋白。例如,癌症样本与正常样本之间的比较,得到的差异表达蛋白质就可能是癌症进展中的关键调节者。

  • 通路数据库

富集分析依赖于已有的生物学知识库,这些知识库定义了不同的生物学通路。这些数据库通常包含大量的已知信号通路、代谢通路和其他功能网络,常用的数据库包括:KEGG(Kyoto Encyclopedia of Genes and Genomes);ReactomeBioCartaWikiPathways

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins可以展示蛋白质-蛋白质相互作用网络。

  • 基本思想

通路富集分析的核心思想是确定差异表达的蛋白质是否在某些已知的生物通路中显著富集。也就是说,是否有更多的差异蛋白集中出现在某些特定的通路中,而不是随机分布在所有通路里。

  • 统计学方法

通路富集分析通常使用统计学检验方法来判断某条通路是否在差异表达的蛋白质中显著富集。常见的统计检验方法包括:超几何检验(Hypergeometric Test)Fisher精确检验(Fisher’s Exact Test):这些方法用于计算在一组差异蛋白中有多少属于特定通路,并判断这种富集是否比随机分布显著。GSEA(Gene Set Enrichment Analysis):一种广泛使用的富集分析方法,通常用于分析基因集,但也可以应用于蛋白质组学。它评估整个蛋白质表达数据集,而不局限于差异表达的蛋白质。在分析的过程中,会通过计算p值来评估富集的显著性,然后可以使用 FDR(False Discovery Rate,假发现率) 进行多重检验校正,以避免假阳性结果。

富集分析的结果通常是一个列表,显示差异蛋白富集的通路、富集的统计显著性(p值)以及通路中的相关蛋白质信息。通过这些结果,可以识别出在特定生物条件下,哪些通路可能在起作用,进而为进一步实验提供方向。

PCOA (主坐标分析)

PCA(Principal component analysis)与PCoA(Principal coordianate analysis, 主坐标分析)

PCA:利用正交变换把数据从线性相关变量转换为少数几个方差最大的线性无关变量,每个PC是对变量的线性组合,PCA没有要求变量之间线性无关,在进行PCA之前需要对变量进行标准化,统一量纲。

PCA要求的是最后得到的主成分之间是线性无关的,研究者希望在进行PCA之后得到的PC(主成分)能够解释较大的方差,这样的主成分是具有代表性的,是能够达到降维的目的的。

相比于PCA,PCoA并不是想尽可能多地保留方差,而是尽可能地保持数据之间的距离结构,并将其在欧氏空间中进行可视化。PCaA基于距离矩阵而不是基于原始数据矩阵来进行分析,适用于欧氏距离、布雷-柯蒂斯距离、Jaccard距离。

  1. 计算距离矩阵

    给定一组样本点$x_1,x_2,…,x_n$,计算样本对之间的距离,得到一个对称的$x\times x$距离矩阵$D$,其中$d_{ij}$表示样本$x_i$和$x_j$之间的距离。

  2. 双中心化距离矩阵

    将距离矩阵$D$进行双中心化,生成一个新的矩阵,用于将数据投射到欧氏空间中,对距离$d_{ij}$,转化为$a_{ij}=\frac{1}{2}d_{ij}^2$,在对矩阵$A$进行中心化,得到矩阵$\Delta_1=(\delta_{ij})$,其中$\delta_{ij}=a_{ij}-\bar{a}_i-\bar{a}_j+\bar{a}$,再对$\Delta_1$进行特征分解,计算器特征值,以及特征向量矩阵。

  3. 可视化

    选取前k个特征值以及对应的特征向量取值可以对对象进行降维,可以通过二维或三维图展示数据,样本间的距离关系可以得到好的保持。

PCOA能够对簇进行检验,检验两簇是否在统计意义上是相隔开的。

PCoA Plus: Permutation Test

PERMANOVA是多元方差分析的非参数变体,被用来比较多组检测样本的统计指标值的异同。其利用距离矩阵对总方差进行分解,分析不同分组因素对样本差异的解释度,并且使用置换检验对每个变量解释的统计学意义进行显著性分析。有时也被称为Adonis检验。

其原假设为:

  • 每组样品在其检测指标构成的检测空间中的中心点和离散度没有差别。

拒绝原假设,即表示不同样本的分布显著不同。为此,该检验是根据距离矩阵完成的,即要预先计算样本在检测指标定义的多维空间的距离。

PERMANOVA对检测数据的分布没有限制,不受组间协方差的影响,其前提假设是:

  1. 每个对象的数据可交换;
  2. 可交换的对象相互独立;
  3. 每个样本的数据具有一致的多变量分布。

检验统计值计算的是伪F值,计算方式是不同样本之间的距离平方和除以同一组样本之间距离的平方和。$F=\frac{SS_A/(a-1)}{SS_W/(N-a)}$。该统计量的显著性通过数据置换的方式计算,比较随机置换数据获得的F值,是否高于或者等于实际观测到的F值,如果多于5%随机置换得到的F值高于实际观测值,则记为p>0.05,即不同组的样本之间不存在显著差异。

感兴趣的蛋白

CSF1(Colony Stimulating Factor 1,集落刺激因子 1)

CSF1 是一种细胞因子,主要作用是调控单核细胞、巨噬细胞的生成、分化和功能。它通过与集落刺激因子 1 受体(CSF1R)结合,促进造血干细胞生成巨噬细胞和单核细胞,从而在免疫调节、组织修复和炎症反应中发挥重要作用。CSF1 还与某些疾病相关,如肿瘤微环境中的巨噬细胞参与肿瘤进展。

IL18BP(Interleukin 18 Binding Protein,白介素 18 结合蛋白)

IL18BP 是一种可溶性的白介素 18(IL-18)结合蛋白,能够与 IL-18 高亲和力结合,从而抑制 IL-18 的生物活性。IL-18 是一种促炎性细胞因子,通过与其受体结合激活下游信号通路,参与炎症反应和免疫应答。而 IL18BP 作为 IL-18 的天然拮抗物,能够通过中和 IL-18 来调节其在免疫和炎症过程中的作用。

MSR1(Macrophage Scavenger Receptor 1,巨噬细胞清道夫受体 1)

MSR1 是一种清道夫受体,主要表达于巨噬细胞表面,参与识别和摄取氧化低密度脂蛋白(oxLDL)和其他修饰的脂蛋白。该受体在动脉粥样硬化、免疫防御和组织修复中起重要作用。通过清除凋亡细胞、病原体和代谢废物,MSR1 维持组织稳态,但它也可能在动脉粥样硬化等疾病中促进病变发展。

NCR3LG1(Natural Cytotoxicity Triggering Receptor 3 Ligand 1,自然细胞毒性触发受体 3 配体 1,也称为 B7-H6)

NCR3LG1 是自然杀伤细胞(NK 细胞)活化受体 NCR3(NKp30)的配体,它能够通过与 NK 细胞受体结合激活 NK 细胞的细胞毒性作用,从而在先天免疫中发挥关键作用。B7-H6 通常在某些肿瘤细胞上表达,而在正常组织中几乎不表达,因此它在肿瘤免疫监视和免疫治疗中具有潜在应用价值。

SDC1(Syndecan-1,磷脂聚糖 1)

SDC1 是一种跨膜糖蛋白,属于磷脂聚糖家族,广泛表达于上皮细胞和某些免疫细胞表面。它通过与细胞外基质蛋白(如纤维连接蛋白和层粘连蛋白)及生长因子结合,参与调控细胞黏附、迁移、增殖和分化。SDC1 在组织修复、肿瘤生长和炎症反应中发挥重要作用,其异常表达与多种癌症和炎症性疾病有关。

CLSTN2(Calsyntenin-2,钙结合蛋白 2)

CLSTN2(Calsyntenin-2),中文名称为钙联蛋白-2,是一种跨膜蛋白,属于钙联蛋白家族(calsyntenin family),CLSTN2 蛋白在神经系统的功能中起着重要作用,特别是在神经发育和突触功能的调节中。

主要结构与特征:

  • 跨膜结构:CLSTN2 是一种Ⅰ型跨膜蛋白,包含一个胞外的糖蛋白区域和一个短的胞内区段。
  • 钙结合能力:它的胞外区段含有钙离子结合结构域,表明它在钙调节信号传导中起作用。
  • 家族成员:CLSTN2 属于钙联蛋白家族,其他成员如 CLSTN1 和 CLSTN3 也参与多种神经功能。该家族的蛋白主要分布在中枢神经系统中。

主要功能:

CLSTN2 在神经元的发育、神经元之间的连接形成(突触形成)以及记忆和学习相关的功能中发挥重要作用。具体功能如下:

  1. 突触发生与神经元间信号传递: CLSTN2 在神经元突触形成中起到关键作用。它通过调控突触前膜和突触后膜之间的相互作用,影响神经元之间的信号传递和突触可塑性,这对于学习和记忆非常重要。
  2. 轴突导向: CLSTN2 被发现参与神经元轴突的引导过程。在神经发育过程中,轴突需要准确找到目标细胞进行连接,CLSTN2 通过与其他蛋白质互作,调节轴突的运动方向和连接位置,从而确保神经网络的正确形成。
  3. 学习与记忆: 研究表明,CLSTN2 与认知功能,特别是空间记忆和学习能力密切相关。CLSTN2 基因的多态性被发现与记忆能力的个体差异有关,一些研究表明它可能在阿尔茨海默病等神经退行性疾病的发病机制中扮演一定角色。

生物学意义:

  • 神经元的发育与塑性:CLSTN2 对神经元的生长和突触形成起调控作用,这对脑功能的可塑性至关重要,特别是在复杂的认知功能如学习和记忆中。
  • 钙离子调节:钙离子在神经元的活动中具有调节作用,CLSTN2 的钙结合能力可能与神经信号传递中的钙调控机制相关。
  • 突触可塑性:突触可塑性是神经系统适应外部环境的基础,也是学习和记忆的生物学基础。CLSTN2 的突触调控作用使其在神经元适应性和脑可塑性中发挥重要作用。

相关疾病:

CLSTN2 的功能失调可能与多种神经系统疾病相关:

  • 阿尔茨海默病:一些研究表明,CLSTN2 的突触功能障碍与神经退行性疾病,特别是阿尔茨海默病的突触退化过程有关。
  • 认知障碍与记忆缺陷:CLSTN2 基因的突变或表达异常与个体认知能力的差异有一定关联。某些研究发现,CLSTN2 的多态性与记忆能力的个体差异可能有相关性,提示它在学习和记忆障碍中可能发挥作用。
  • 精神疾病:CLSTN2 也可能与一些精神疾病(如精神分裂症和自闭症)的发病机制相关,尽管这方面的研究尚处于初期阶段。

总结:

CLSTN2 是一种跨膜钙联蛋白,主要在神经系统中发挥作用,特别是在神经元的发育、轴突引导、突触形成和可塑性调节中。它与学习、记忆等高级认知功能密切相关,且其功能异常可能与神经退行性疾病和精神疾病的发生有关。

AEBP1(Adipocyte Enhancer Binding Protein 1,脂肪细胞增强子结合蛋白 1)

AEBP1 是一种转录因子,在多种组织中表达,特别是在脂肪组织、结缔组织和心血管系统中。AEBP1 具有多个重要的生物学功能:

  • 脂肪细胞分化:AEBP1 在脂肪生成(adipogenesis)过程中起重要作用。它通过调控 PPARγ(过氧化物酶体增殖物激活受体 γ)和其他与脂肪细胞分化相关的基因,促进脂肪细胞的生成。
  • 炎症反应:AEBP1 还通过与 NF-κB 通路相互作用,调控炎症反应。它被认为可以增强 NF-κB 的活性,从而促进炎症相关基因的表达,参与慢性炎症的形成。
  • 细胞外基质(ECM)重塑:AEBP1 参与调控细胞外基质蛋白的合成与降解,特别是在组织修复、创伤愈合和心血管疾病中的基质重塑过程中发挥关键作用。AEBP1 在纤维化和动脉粥样硬化等病理过程中表现出升高表达。

AEBP1 在脂肪代谢、炎症反应和细胞外基质调节中的多重角色使其成为代谢性疾病、心血管疾病和某些纤维化病变的研究热点。此外,AEBP1 异常还与某些肿瘤进展相关联。

CDH6(Cadherin-6,钙粘附蛋白6)

CDH6(Cadherin-6,钙粘附蛋白6)是一种属于钙粘附蛋白家族的跨膜蛋白。钙粘附蛋白是一类通过钙离子依赖的细胞-细胞黏附分子,主要参与细胞间的黏附和信号传递。CDH6基因编码的钙粘附蛋白主要在胚胎发育期间表达,并在多种组织类型(如肾脏、大脑、胰腺等)中起作用。以下是对CDH6的一些更详细的介绍:

1. 蛋白结构

CDH6蛋白具有典型的钙粘附蛋白结构,包括5个钙离子结合的胞外结构域、一个跨膜结构域和一个胞内结构域。胞外结构域负责与其他细胞表面的钙粘附蛋白进行同型或异型黏附,这种黏附是钙离子依赖的。胞内结构域则通过与细胞骨架蛋白相互作用,参与信号传导和细胞结构维持。

2. 生物功能

CDH6在细胞黏附、组织形态发生和细胞极性维持中发挥重要作用。它的表达通常与胚胎发育过程中组织的特异性分化有关。具体功能包括:

  • 胚胎发育:CDH6在神经系统、肾脏和其他组织发育中起关键作用。在早期胚胎发育过程中,CDH6参与了器官的形态形成和分化。
  • 细胞迁移与侵袭:在某些癌症类型中,CDH6表达的变化可能与癌细胞的迁移和侵袭能力相关,这表明它可能在肿瘤的发生和发展中发挥作用。

3. 临床意义

CDH6在某些癌症中表现出异常表达,例如肾细胞癌、胃癌和肺癌。CDH6的表达下调通常与上皮-间质转化(EMT)过程相关,EMT是癌细胞从上皮细胞转变为更具侵袭性的间质细胞的关键步骤。因此,CDH6在癌症研究中被认为是一个潜在的诊断标志物和治疗靶点。

4. 与其他钙粘附蛋白的比较

CDH6是钙粘附蛋白家族的成员,与其他钙粘附蛋白(如E-钙粘附蛋白、N-钙粘附蛋白等)相比,CDH6有特定的组织分布和功能。尽管它们共享相似的结构域,但不同的钙粘附蛋白在不同的细胞类型和发育阶段中起着不同的作用。

5. 研究与应用

由于CDH6在肿瘤和发育过程中发挥的重要作用,科学家们已经开始探索其作为治疗靶点的可能性。例如,通过抑制CDH6的功能可能有助于阻止某些癌症的转移。基于CDH6的抗体药物也在临床前研究中显示出了一定的潜力。

总结

CDH6作为钙粘附蛋白家族中的一员,参与了胚胎发育和细胞黏附等生物过程,同时在某些癌症的进展中也发挥了重要作用。未来的研究可能会揭示CDH6在疾病发生中的更多功能,并有助于开发新的治疗方法。

EPHA2(Ephrin Type-A Receptor 2,促红细胞生成素产生肝细胞受体A2)

EPHA2(Ephrin Type-A Receptor 2)是Eph受体家族中的一员,属于受体酪氨酸激酶(Receptor Tyrosine Kinase, RTK)家族。Eph受体和它们的配体ephrin共同组成了Eph/ephrin信号通路,参与了细胞-细胞间的接触和信号传递。这些信号对于细胞迁移、形态发生、组织边界的形成和肿瘤的发生发展具有重要作用。以下是对EPHA2的详细介绍:

1. 蛋白结构

EPHA2是一种跨膜蛋白,包含以下几个重要结构域:

  • 胞外域:包含一个配体结合结构域,负责与ephrin-A类配体结合。ephrin配体通常锚定在相邻细胞的膜上,因此Eph受体与ephrin之间的信号传递依赖于细胞-细胞直接接触。
  • 跨膜域:将蛋白锚定在细胞膜上。
  • 胞内域:包括一个酪氨酸激酶结构域,负责信号的传递,当受体被激活时,酪氨酸激酶结构域会启动一系列下游信号通路。

2. 生物功能

EPHA2通过Eph/ephrin信号传递在多种生物过程中发挥重要作用,包括细胞形态的调控、细胞黏附、细胞分裂以及细胞迁移。具体功能包括:

  • 组织形态发生和分化:在胚胎发育过程中,EPHA2在神经系统、血管生成和组织边界的形成中发挥重要作用。
  • 细胞黏附和迁移:EPHA2调控细胞与细胞之间的相互作用,影响细胞的迁移、极性和细胞骨架的重构。这对组织的形态发生以及伤口愈合至关重要。
  • 细胞增殖和生存:通过与多种下游信号通路(如Rho家族的GTPase信号通路)相互作用,EPHA2能够影响细胞的增殖和凋亡。

3. 在癌症中的作用

EPHA2在癌症中的表达和功能异常通常与肿瘤的进展、侵袭能力和预后相关。其作用因癌症类型和细胞环境的不同而不同,既可以作为抑癌基因,也可能发挥促癌作用。以下是EPHA2在癌症中的主要相关性:

  • 过表达和肿瘤进展:在乳腺癌、肺癌、前列腺癌和其他多种癌症中,EPHA2常常过表达,并且其高表达通常与更差的预后、肿瘤的高度侵袭性和转移能力有关。
  • 调控上皮-间质转化(EMT):EPHA2能够通过多种信号通路促进EMT过程,EMT是肿瘤细胞获得侵袭和转移能力的重要步骤。
  • 药物抵抗性:研究表明,EPHA2的异常信号传导可能与某些癌症治疗药物的抵抗性有关,因此EPHA2可能是一个潜在的药物靶点。

4. 信号传导

EPHA2的信号传导机制依赖于它与ephrin-A类配体的相互作用。Eph/ephrin信号传递有两种类型:

  • 正向信号传递(Forward Signaling):当EPHA2与ephrin-A配体结合后,其酪氨酸激酶结构域被激活,触发一系列下游信号通路,如MAPK、PI3K/Akt和Rho GTPase通路,这些通路调控细胞的迁移、形态变化和增殖。
  • 反向信号传递(Reverse Signaling):ephrin-A配体本身也可以通过与Eph受体的结合启动下游信号,这种信号传导也会影响相邻细胞的行为。

5. 临床应用与研究

EPHA2被认为是癌症治疗的潜在靶点,因其在多种癌症中的异常表达及其在肿瘤侵袭和转移中的重要作用。目前针对EPHA2的研究包括:

  • 靶向治疗:开发能够抑制EPHA2活性的单克隆抗体、激酶抑制剂或双特异性抗体,用于干扰EPHA2的信号传导,阻止肿瘤的生长和转移。
  • 诊断标志物:EPHA2的表达水平有望作为某些癌症的诊断或预后标志物,帮助识别高风险患者或评估治疗效果。

6. 与其他Eph受体的比较

EPHA2与其他Eph受体(如EPHA1、EPHB4等)具有相似的结构和功能,但它们的表达模式和生物学效应因细胞类型和组织背景的不同而异。例如,EPHA2更多地参与上皮细胞的调控,而EPHB4则与血管生成密切相关。

NECTIN2(Nectin-2,连接蛋白2)

NECTIN2(Nectin-2),又称PVRL2(Poliovirus Receptor-Related 2,脊髓灰质炎病毒受体相关蛋白2),是一种属于nectin家族的跨膜蛋白。Nectin家族的成员是参与细胞间黏附的免疫球蛋白样分子。它们在多种细胞生物学过程中发挥重要作用,包括细胞黏附、细胞极性维持、组织形态发生和免疫反应。以下是对NECTIN2的详细介绍:

1. 蛋白结构

NECTIN2是一种典型的免疫球蛋白样跨膜蛋白,具有以下结构域:

  • 胞外结构域:由三个免疫球蛋白样结构域组成,负责与其他nectin家族成员或其他细胞黏附分子(如CD155)相互作用,形成细胞-细胞黏附连接。
  • 跨膜结构域:负责将蛋白锚定在细胞膜上。
  • 胞内结构域:与细胞骨架连接,通过与其他蛋白相互作用(如afadin蛋白),调控细胞的黏附、极性和信号传导。

2. 生物功能

NECTIN2在多种生物过程中发挥重要作用,主要通过促进细胞间的同型和异型黏附。其主要功能包括:

  • 细胞黏附:NECTIN2通过与自身或其他Nectin蛋白(如NECTIN3)形成细胞间的黏附连接,特别是在上皮细胞和神经元等细胞类型中发挥作用。它在细胞连接中起到重要的稳定作用,参与细胞极性和紧密连接的维持。
  • 组织形态发生:在胚胎发育过程中,NECTIN2参与了多种组织的形态发生和分化过程,尤其是神经系统和上皮组织的发育。
  • 免疫系统中的作用:NECTIN2还在免疫反应中起作用,作为某些免疫细胞(如NK细胞和T细胞)上的识别分子。它可以与T细胞免疫球蛋白和ITIM域蛋白(TIGIT)相互作用,从而调控免疫细胞的活性。

3. 在癌症中的作用

NECTIN2在多种类型的癌症中表现出异常表达,特别是在肿瘤免疫逃逸和肿瘤进展过程中具有重要作用。具体而言:

  • 促进肿瘤免疫逃逸:NECTIN2可以与抑制性受体TIGIT相互作用,从而抑制T细胞和NK细胞的功能。这种作用可能有助于肿瘤细胞逃避免疫监视,使癌细胞在宿主体内得以生存和扩散。
  • 作为诊断和预后标志物:在某些类型的癌症(如结直肠癌、乳腺癌、卵巢癌等)中,NECTIN2的高表达与较差的预后相关。因此,NECTIN2可能成为一种潜在的诊断标志物,用于评估癌症的进展和患者的预后。

4. 信号传导

NECTIN2通过与胞内蛋白(如afadin)相互作用,连接细胞骨架并参与细胞信号传导。通过这些信号,NECTIN2能够影响细胞的迁移、形态和增殖。此外,它还通过与免疫调节受体(如TIGIT)的相互作用,参与调控免疫细胞的活性,特别是在肿瘤微环境中的免疫逃逸过程中。

5. 与其他Nectin家族成员的比较

Nectin家族包括NECTIN1、NECTIN2、NECTIN3和NECTIN4,它们结构相似,但在功能和组织分布上有所不同:

  • NECTIN1:在神经系统和上皮细胞中表达,参与突触形成和皮肤结构的维持。
  • NECTIN3:通常与NECTIN1或NECTIN2形成异型黏附,主要参与神经元和肌肉组织的连接。
  • NECTIN4:在发育过程中起重要作用,特别是在皮肤和乳腺组织的发育中,也与多种癌症相关。

6. 临床应用与研究

NECTIN2在癌症和免疫调控中的作用使其成为潜在的治疗靶点。目前的研究方向包括:

  • 癌症免疫疗法靶点:由于NECTIN2与TIGIT的相互作用抑制了免疫细胞的活性,因此阻断这条信号通路可能增强免疫细胞对肿瘤的杀伤能力。抗TIGIT抗体和其他阻断NECTIN2/TIGIT相互作用的疗法正在成为癌症免疫治疗的新兴领域。
  • 肿瘤标志物:NECTIN2的表达水平可以用于评估某些癌症的进展和预后,未来可能开发出基于NECTIN2的诊断工具。

蛋白质图谱

人类蛋白质图谱项目

The Human Protein Atlas project, HPA(https://www.proteinatlas.org/),旨在系统地描绘并研究人类体内所有蛋白质在不同细胞、组织和器官中的表达和定位。包括:组织蛋白质图谱、细胞蛋白质图谱、病例蛋白质图谱、血浆蛋白质图谱、脑蛋白质图谱、整合蛋白质图谱。

image-20241004162701603

GTEx项目

Genotype-Tissue Expression Project

R包 Olink Analyze

# 安装
install.packages("OlinkAnalyze")
# 使用手册
browseVignettes("OlinkAnalyze")

image-20241012142336107

Bridging Olink® Explore 3072 to Olink® Explore HT

在Olink NPX项目中,标准化确保数据在不同项目之间保持可比性。为此以下介绍Olink的桥接程序(Bridging Procedure),旨在理解Olink Explore 3072和Olink Explore HT的数据集如何合并和标准化。

  • 桥接样本(Bridging Samples):在两个项目或者多个项目上重复运行的重叠样本,桥接样本需要其质量高并且数据覆盖范围广,对于含有检测下限的样本,也会对其进行高检测性的筛选。
  • 项目(Project):指的是在同一时间内运行的板块集合,这些板块已经被一起标准化。如果两个项目没有随机化或者运行时间不同,则需要额外的标准化步骤。
  • 项目效应(Project Effect):由于NPX是一种相对定量的方法,需要通过标准化或统计模型来校正这种效应。
  • 产品内桥接(Within-product bridging):对同一个Olink产品(3072)的多个项目进行标准化的过程,使用桥接样本确保数据一致性。
  • 跨产品桥接(Between-product bridging):对不同产品(3072,HT)的多个项目进行标准化,桥接样本在不同产品之间做参考。
  • 参考数据(Reference Data):是用于标准化的基准数据集。参考数据集在桥接过程中不进行调整,而是将其他数据集校正至参考数据集的水平。通常HT作为参考数据。

Within-/Between - product bridging

Within:桥接假设生物范围在不同项目之间保持一致,如果某个检测在不同项目之间表现不同分布,则桥接和后续统计分析都会受影响。产品内部的桥接过程中,假设检测的方差和分布形状在各个项目之间保持不变。

Between:当研究在不同产品上进行(3072和HT)时,还需要额外的项目校正步骤,一般来说在不同产品之间检测的差异比同一产品内部的差异更大。跨产品桥接时,不假设检测的分布和方差相同。

跨产品桥接存在的问题:不同产品之间的差异(例如检测数量和使用的试剂)可能导致某个产品中的信号在另一个产品中成为噪音。因此,在跨产品桥接时,部分检测可以使用与产品内部桥接相同的方法,而其他检测则需要不同的标准化方法,甚至某些检测可能无法进行桥接。

跨产品标准化的方法:结合了中位数对齐(median-centering,类似于产品内部的桥接)和分位数平滑(quantile smoothing),以确保在两个产品中都有信号或都没有信号的检测可以被桥接。

注意:产品之间的桥接是单向的,不支持将HT的NPX值标准化3072的NPX值。

跨产品标准化的过程:

1、产品桥接标准化使用了 Olink Explore 3072Olink Explore HT 之间重叠的约 2900 个检测(assays)。每个重叠检测都会经过一系列检查,这些检查评估了两个数据集之间的计数数量、相关性以及 NPX 范围的差异。若检测具有足够的计数且两个数据集之间的指标具有可比性,则该检测被认为是适合桥接的(称为“bridgeable assay”)。对于不适合桥接的检测,可以选择将它们从后续分析中排除(在一个或两个产品中),或者通过Meta-analysis将结果在不同产品间整合。2、从 Olink Explore 3072 数据集到 Explore HT NPX 数据集的桥接需要 40 - 64 个桥接样本。桥接样本是两个数据集之间的共享样本,必须在两个数据集中都有分析。

后续如若需要使用,请参考网站:Bridging Olink® Explore 3072 to Olink® Explore HT

Calculating LOD from Olink® Explore data

LOD分析推荐

推荐在下游分析中使用所有Olink Explore数据,但在数据集的技术评估时,LOD能够提供一定的信息。

解释:1、下游统计分析中,LOD 的重要性较低,因为在 LOD 以下的值通常会在不同组别间趋同(LOD以下的值,case和control的NPX值差不多,在拟合过程中不会提供差异信息)。因此,包含 LOD 以下的数据通常不会增加假阳性发现的风险。

2、此外,LOD 以下的数据在下游分析(如生物标志物发现)中也可能具有重要作用,因为某个蛋白质在某一组中可能表达较高,而在另一组中可能无法检测到。在这种情况下,这种蛋白质可能是特定组别的强候选生物标志物(直接将所有NPX纳入分析中,就已经能够纳入该条目的信息)。

LOD函数介绍

LOD 可以使用 olink_lod() 函数添加到 Olink Explore 的 NPX 数据集中。此函数可以通过数据集的阴性对照一组预先确定的固定 LOD 值(可在 olink.com 的文档下载中心找到)来计算 LOD。默认情况下,olink_lod() 将使用数据集的阴性对照来计算 LOD。

Olink Explore 数据通常通过板控(PC)标准化或强度标准化(IC)进行报告(NPX 文件中“Normalization”列会指明采用的标准化类型),后者依赖于对分析样本的随机化处理。它们分别记录在 “PCNormalizedNPX” 和 “NPX” 两个列中。

注意:对于板控标准化的数据集,这两列的内容是相同的,而对于强度标准化的数据集,”NPX” 列包含强度标准化后的值。同样地,olink_lod() 函数会向数据集添加两个列:PCNormalizedLOD 和 LOD。对于板控标准化数据集,这两列的内容相同,而对于强度标准化数据集,LOD 列将包含强度标准化后的 LOD 值。以下是板控标准化和强度标准化项目的示例结果。

即:NPX一列就是使用对应的标准化方法得到的NPX值,LOD值也类似。

image-20241012151340450

LOD计算介绍

read_NPX() 函数可以用于导入由 Olink® NPX Explore 软件生成的 parquet 格式的 NPX 文件。

explore_npx <- read_NPX("~/Explore_NPX_file.parquet")

整合阴性对照 LOD:阴性对照(Negative Control)LOD 方法要求数据集中至少有 10 个阴性对照。阴性对照数据在标准导出的 Explore HT 和 Explore 384/3072 NPX parquet 文件中可用。可以通过 SampleIDSampleType 列来识别阴性对照。

注意:如果某个阴性对照在所有数据(即所有 Explore HT 模块、所有 Explore 3072 面板或所有 Explore 384 面板)中未通过样本质控标准(样本 QC 失败或警告),那么该阴性对照将不计入最低要求的阴性对照数量。

阴性对照用于从板控标准化 NPX 或计数值中计算 LOD。对于在一个阴性对照中计数超过 150 的测定项目,LOD 通过使用板控标准化 NPX 的中位数加上Max( 3 倍标准偏差,0.2 NPX)(取较大者)来计算。对于在所有阴性对照中的计数均少于 150 的测定项目,LOD 通过计数值计算,然后将其转换为板控标准化 NPX 值

关于从计数值计算LOD:

有些测定项目由于在阴性对照中获得的计数非常少,因此会使用计数值作为 LOD。为了方便数据处理,olink_lod() 函数会将计数值中的 LOD 转换为 NPX 值。由于扩展对照(extension control)的计数在不同样本之间会有所变化,因此这个测定项目的 LOD(以计数表示)会转化为多个 NPX 值。这是因为在处理小计数时,计数刻度上的微小变化会导致 NPX 刻度上的显著变化。NPX 是一个相对刻度,其计算方法是将测定项目的计数除以扩展对照的计数。例如,假设扩展对照的值保持不变,计数值从 1 变为 2,会导致 NPX 变化 1,而从 1000 变为 1001,在 NPX 刻度上几乎没有变化。

LOD 调节因子

在LOD(检测限)结果中,PC标准化的阴性对照LOD被报告。

如果Explore数据集经过了强度归一化处理,则会应用一个强度归一化调整因子,并在LOD列中报告归一化后的强度LOD,同时在PCNormalizedLOD列中报告PC标准化的LOD。

对强度归一化数据调整LoD(检测限):

如果Olink Explore数据集进行了强度归一化处理,则会在olink_lod()函数中对PC标准化的LOD(检测限)应用一个归一化调整因子。对于每个检测,该调整因子计算为每块板中所有样本(不包括Olink的外部对照)的NPX(归一化蛋白表达)中位数。对于Olink Explore 3072,重叠的检测会在各自的面板内单独评估。强度归一化的阴性对照LOD是通过从PC标准化的阴性对照LOD中减去该调整因子来计算的。

固定LOD vs 阴性对照LOD

固定 LOD 方法使用通过上文描述的阴性对照 LOD 方法计算得出的固定 LOD 值,这些值是在 Olink 参考实验中计算的。固定 LOD 值与数据分析参考 ID 相关联。固定 LOD 数据可以从 Olink 的文档下载中心下载,文件为外部的 CSV 格式,该 CSV 文件中报告的 LOD 值是板控标准化的 LOD 值。将固定 LOD 文件读入 olink_lod() 函数以将其整合到 Explore 数据集中。

# 将固定 LOD 文件路径读入 R 环境
fixedLOD_filepath <- "Path_to/ExploreHT_fixedLOD.csv"
# 整合强度标准化数据的固定 LOD
explore_npx <- read_NPX("~/Explore_NPX_file.parquet")
olink_lod(explore_npx, lod_file_path = fixedLOD_filepath, lod_method = "FixedLOD")

何时使用?

对于小型研究(<10 个阴性对照),建议使用固定 LOD 将 LOD 值整合到 NPX 数据集中,因为阴性对照少时的 LOD 计算可能会产生不准确的结果。然而需要注意的是,固定 LOD 值并非特定于项目,而是由 Olink 在发布新试剂时生成的。

对于较大的项目,建议从阴性对照中计算 LOD,以获得特定于项目的 LOD 值。不过,这需要数据集中至少有 10 个通过 SampleQC 的阴性对照。

整合阴性对照 LOD 与固定 LOD

还可以通过设置 lod_method 为 “Both” 来同时为数据文件计算阴性对照 LOD 和固定 LOD。结果数据将包含 4 个附加列,以 NC 或 Fixed 作为开头,指示用于计算 LOD 的方法,接着是 “LOD” 或 “PCNormalizedLOD” 列。

生成的LOD是PC归一化的阴性对照LOD。如果Explore数据集进行了整体强度归一化,则应用一个强度归一化调整因子(Adjustment Factor),并在LOD列中报告结果的强度归一化LOD,而PC归一化的LOD则报告在PCNormalizedLOD列中。如果Olink Explore数据集进行了强度归一化,则在 olink_lod() 函数中应用一个归一化调整因子来调整PC归一化的LOD。对于每个分析,该调整因子的计算基于每个板内所有样本的NPX中位数(不包括Olink的外部对照)。对于Olink Explore 3072,重叠的分析在各自的面板内分别评估。强度归一化的阴性对照LOD通过从PC归一化的阴性对照LOD中减去该调整因子来计算。强度归一化的LOD调整应用于阴性对照和固定LOD方法。

富集分析

1. 富集分析-R包 clusterProfiler

在R中进行基因本体(GO)富集分析,可以使用几个关键的R包,例如clusterProfile,org.Xx.eg.db,这些包提供了GO注释数据和富集分析功能。

如下学习clusterProfile包,主要用于组学富集分析。

富集分析包括三种通路的分析:MF(Molecular Function):分子功能;BP(Biological Process):生物过程;CC(Cellular Component)细胞成分

  • GO层级:MF(Molecular Function):分子功能;BP(Biological Process):生物过程;CC(Cellular Component)细胞成分。每个GO类中的术语按照层次结构排列,较高层级的术语描述更广泛的生物学概念,而较低层级的术语则更加具体。

    1. GO:0003674 分子功能(MF level1):最上层,泛指所有分子功能。
    2. GO:0005515 蛋白结合 (Protein binding level2):属于分子功能的一个具体子集。
    3. GO: 0005488 ATP结合(ATP binding level3):蛋白结合的进一步子集。

    不同的层级表示概念的抽象程度。层级越高,涵盖的生物学功能越广泛;层级越低,术语越具体。例如,在GO分类树中,level 3表示更具体的功能层级。

  • 为什么要对基因进行分类?对基因进行分类主要是为了从基因功能角度了解他们在生物学过程中的角色。进行功能注释,富集分析,理解生物学背景。

  • 基因型ID有哪些:基因ID是用于唯一标识基因的标识符,不同数据库使用不同的基因ID类型:
    1. Entrez Gene ID:由NCBI(美国国家生物技术信息中心)提供,广泛用于标识基因。
    2. Enemble Gene ID:由Enemble数据库提供的基因标识符,格式通常为ENSG开头的字符串。
    3. HGNC符号(Gene Symbol):HUGO Gene Nomenclature Committe规定的标准化基因符号。
    4. UniProt ID:UniProt数据库提供的蛋白质标识符。
    5. ENSEMBLE转录本ID:Ensemble提供的转录本ID。
    6. Refseq ID:NCBI提供的参考序列ID。

groupGo()

用于特定的GO层级对基因进行分类,可以按照GO的分布将基因分类为MF、BP、CC。

示例:使用DOSE包提供的geneList数据集,并且根据GO层级对基因进行分类,基因ID类型为Entrez Gene ID。

GO过度表达分析

GO过度表达分析(Gene Ontology Over-representation Analysis, ORA)用于确定某个基因列表中的基因在GO分类中是否显著富集。通过比较感兴趣的基因列表和背景基因集,判断某些GO类别中的基因是否比随即情况下显著多。

# 定义基因列表和背景基因集
gene <- c("4312", "8318", "10874", "55143", "55388", "991") # 这是感兴趣的基因列表
geneList <- c("4312", "8318", "10874", "55143", "55388", "991", "1234", "5678", ...) # 背景基因集

# 使用enrichGO函数进行GO过度表达分析
ego <- enrichGO(gene = gene, # 基因列表
universe = geneList, # 背景基因集
OrgDb = org.Hs.eg.db, # 使用人类的OrgDb数据库
ont = "CC", # 分析细胞成分(CC),也可选"BP"或"MF"
pAdjustMethod = "BH", # P值调整方法
pvalueCutoff = 0.01, # P值阈值
qvalueCutoff = 0.05, # q值阈值
readable = TRUE) # 将基因ID转换为可读基因符号
head(ego)
# 输出一个数据框
ID:GO术语ID,例如GO:0005819
Description:GO术语的描述,例如“spindle”(纺锤体)。
GeneRatio:输入基因集中归类到该GO术语的基因比例,例如26/201表示201个基因中有26个归类为该术语。
BgRatio:背景基因集中归类到该GO术语的基因比例。
pvalue:未调整的P值。
p.adjust:调整后的P值(根据指定的方法,如BH)。
qvalue:基于假发现率(FDR)的q值。
geneID:在输入基因集中归类到该GO术语的基因ID。
Count:归类到该GO术语的基因数量。

Q1:什么是背景基因集(universe):背景基因集是用于比较的参考基因集,通常包括实验中测量到的所有基因,如果不指定背景基因集,分析时默认使用OrgDb中所有基因作为背景。

基因ID转换

clusterProfiler支持多种基因ID类型,可以使用bitr()函数将不同类型的基因ID进行转换。例如,将Entrez ID转换为Ensembl ID或基因符号:

gene.df <- bitr(gene, fromType = "ENTREZID",
toType = c("ENSEMBL", "SYMBOL"),
OrgDb = org.Hs.eg.db)

# 使用转换后的ENSEMBL ID进行分析
ego2 <- enrichGO(gene = gene.df$ENSEMBL,
OrgDb = org.Hs.eg.db,
keyType = 'ENSEMBL', # 指定基因ID类型为ENSEMBL
ont = "CC",
pAdjustMethod = "BH",
pvalueCutoff = 0.01,
qvalueCutoff = 0.05)

head(ego2)

enrichGO()

enrichGO()中的p值衡量的是感兴趣的基因集在某个GO分类下是否显著富集,也就是判断该GO类别中的基因数目是否比随机情况下的更多。

具体来说,这个p值基于超几何分布或Fisher精确检验来计算,表示在给定的背景基因集中随机抽取一定数量的基因时,某个GO类别出现的频率是否高于随机水平。

enrichGO()中的p值计算基于超几何分布,类似于费舍尔精确检验的思想。假设有以下信息:

  • M:背景基因集中某个GO类别中的基因数(例如总共有300个基因归属于“细胞核”这一GO类别)。
  • N:背景基因集中总的基因数(例如总共有10,000个基因)。
  • K:感兴趣的基因集中总的基因数(例如你的差异表达基因集有100个基因)。
  • x:感兴趣的基因集中也在该GO类别中的基因数(例如你的差异表达基因集中有20个基因归属于“细胞核”)。

超几何检验用于计算感兴趣基因集中属于某个GO类别的基因数是否比随机情况下显著多。p值表示在随机抽取的基因集中,出现大于等于x个基因属于该GO类别的概率。如果这个概率很小(p值很小),说明感兴趣的基因集在该GO类别中显著富集。

$P(X\ge x)=1-\sum_{i=0}^{x-1}\frac{\binom{M}{i}\binom{N-M}{K-i}}{\binom{N}{K}}$

计算在背景基因集中随机选择K个基因时,至少x个基因属于某个GO类别的概率。

在GO过度表达分析中,p值反映:如果从背景基因集中随机抽取一组与感兴趣基因数目相同的基因,某个GO类别中包含感兴趣基因的数量与背景集合相比是随机的还是显著富集的;p值衡量了感兴趣基因集在某个GO类别中观察到的基因数目(富集基因数)是否显著多余随机情况下的期望数目。

GO基因富集分析

Gene Set Enrichment Analysis, GSEA:通过评估基因列表的排序信息,识别基因集中是否存在特定的功能富集的分析方法。与GO过度表达分析不同的是,GSEA不仅考虑基因是否显著差异表达,还通过基因的连续排序(如表达变化量或统计量排序)来检测整个基因集的富集趋势。

gseGO()

gseGO()函数用于进行基因本体(GO)的基因集富集分析。根据输入的排序基因列表,测试特定GO类别中的基因是否富集于基因列表的顶端或底端。与enrichGO()(过度表达分析)不同,gseGO()可以利用基因的排序信息,这对复杂的表达模式有更大的解析能力。

ego3 <- gseGO(geneList     = geneList,        # 排序好的基因列表
OrgDb = org.Hs.eg.db, # 使用人类的OrgDb数据库
ont = "CC", # 分析细胞成分(CC),也可以选“BP”或“MF”
minGSSize = 100, # 测试的最小基因集大小
maxGSSize = 500, # 测试的最大基因集大小
pvalueCutoff = 0.05, # P值阈值
verbose = FALSE) # 关闭冗长输出

# 不同的是geneList必须是一个经过排序的基因列表,并且是一个数值向量
# geneList示例,基因ID为名称,log2 fold change为排序依据
geneList <- c("Gene1" = 2.5, "Gene2" = -1.8, "Gene3" = 3.1, ...)
# 确保基因列表中的基因ID和提供的OrgDb数据库匹配。

GSEA相比传统的GO过度表达分析有以下优势:

  • 考虑基因排序:它不仅分析显著差异表达的基因,还考虑基因的整体排序信息,因此可以揭示整个基因集的趋势。
  • 无需设定显著性阈值:传统富集分析需要事先选择显著差异表达的基因,而GSEA避免了这一过程,直接基于基因的排序信息进行分析

enrichGO和gseGO比较

enrichGO() 过度表达分析,ORA

适用场景:

  • 当你已经有一个显著差异表达的基因集,并想知道这些基因是否在特定的功能分类(如GO)中有显著富集。
  • 这种方法的分析基于已筛选出的显著基因,忽略了基因的具体排序信息。

局限:

  • 需要预先设定一个阈值(如P值或log2 fold change)来筛选显著差异基因,这可能导致丢失一些潜在的生物学信号。
  • 不考虑基因在整个列表中的排序信息,只关注显著差异表达的基因。

gseGO() 基因集富集分析,GSEA

适用场景:

  • 当你有一个连续排序的基因列表(如差异表达分析的结果),并希望通过分析整个基因列表的趋势来检测功能集的富集。
  • 特别适合基因的变化幅度较小,但依然可能具有生物学意义的情况。

局限:

  • 需要一个完整的排序基因列表,而不仅仅是显著差异表达的基因。
  • 相对来说更复杂,需要处理排序信息和较大的基因集。

还有许多其他功能:Chapter 6 GO enrichment analysis | Biomedical Knowledge Mining using GOSemSim and clusterProfiler (yulab-smu.top)

富集分析R包列表

2. 富集分析-KEGG

GO和KEGG富集分析比较

KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析是一种用于研究基因功能和代谢通路的生物信息学工具。它通过分析基因列表与已知生物通路之间的关系,帮助研究人员了解一组基因在生物体内的生物学功能和机制。KEGG富集分析通常用于从高通量组学数据(如转录组测序、蛋白质组学数据等)中挖掘潜在的功能通路或调控网络。

1、KEGG富集分析:基于KEGG数据库,该数据库包含了大量的代谢通路信号通路细胞过程等功能注释信息。KEGG的重点在于基因如何参与各种生物通路及相互作用网络,主要关注基因在整个系统中的功能作用以及它们的分子交互关系

GO富集分析:基于Gene Ontology数据库,它提供了关于基因产品的标准化注释,包括三大类:

  • 生物学过程(Biological Process, BP):基因在生物学过程中起的作用。
  • 分子功能(Molecular Function, MF):基因产品的生化活性或功能。
  • 细胞组成(Cellular Component, CC):基因产品所在的细胞部位或结构。

GO注释涵盖了从分子功能到细胞结构、再到整体生物学过程的广泛层次。

2、KEGG富集分析:更适用于系统生物学通路级别的研究。研究人员常使用KEGG分析来探索基因在生物网络或代谢通路中的协同作用,特别是在代谢组学、转录组学、蛋白质组学等全基因组尺度的研究中。

GO富集分析:适合于探讨基因功能分类的更细粒度研究,尤其是在想要理解基因在某个特定生物学过程中的具体功能时。GO分析应用广泛,涵盖了分子生物学、基因表达调控等多方面的功能探索。

富集分析-GSEA富集分析

Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. doi: 10.1073/pnas.0506580102. Epub 2005 Sep 30. PMID: 16199517; PMCID: PMC1239896.

相比于KEGG等简单的通路富集分析的结果,GSEA富集分析能够得知感兴趣的代谢通路的活性,能够得知目标基因集的表达模式和哪种表型更一致。

GSEA富集分析是比较两个基因数据集,数据集A包含了排序信息,将目标基因按照上调至下调(按照Fold change)依次排序。数据集B中包含了生物学功能注释的维度,比较判断B富集在A的顶部还是底部。

GSEA富集分析会提供一个ES分数(富集分数):反应基因集(某条通路内的基因集)中的基因在排序基因集(自己输入的根据效应大小排序的基因集)的两端富集的程度。当ES>0时代表富集在顶端,当ES<0时代表富集在底端。而每个反应基因集的基因数量又是不同的,因此GSEA会提供一个标准化后的ES分数用于比较,并且计算p值。