Medical Basic Knowledge (Main in Epidemiological)

0 Preface

笔者最近开始正式着手慢性病、蛋白质组学分析的工作,经过反馈才发现自己对医学知识的欠缺十分严重,对流程和原因的了解和把控几乎为零,在此记录下基础的医学知识(主要为流行病学)。

1 蛋白质组学分析流程相关问题

现有流程记录(非代表性)

对已有队列进行数据质控、清洗得到干净数据,此时的干净数据可以称为目标研究人群,再从干净数据中挑选出病例组以及对照组。

  • 健康对照组:排除基线诊断时患重大疾病(CHD、中风、ECG异常)、无定点医保的人群,排除近期核查患重大疾病人群。以此得到健康对照组的子队列抽样源,再根据性别、年龄进行分层抽样,得到较小的子队列样本,再进行排除,排除无血浆样本、基因型未测或者不合格、甲基化未测或不合格样本;再排除随访期内出现重大疾病或者死亡的人群;排除子队列内部存在亲缘关系,以及与对照组存在亲缘关系的样本。
  • 病例组:挑选随访截止日期前的新发病例,排除诊断时间不明确、排除无血浆样本、排除GWAS和甲基化未测或不合格样本;排除发病距随访时间过长(3年)的样本;排除特定检测点的样本;排除年龄不符合研究标准的样本。

Tips:数据质控、清洗:例如排除无血样人群、排除基线即汇报有癌症史的样本(因为目标是寻找能够预测的Biomarker,所以如果纳入在基线时已经患病的样本无法起到最后的预防目的)。

  • 匹配Case-Control:根据已确定的匹配标准,控制精确控制的变量,控制阈值控制的变量,进行匹配。

匹配对照提取

  1. Q1:匹配的标准和模型中协变量的选取

    A1:在匹配中加入的标准用于控制混杂变量的影响,此时能够控制该混杂变量的所有(线性和非线性)影响,当最终分析采用线性模型时,仅仅将混杂因素当作协变量放入模型中只能控制其线性影响,而不能有效控制其非线性影响。

  2. Q2:如何确定匹配的标准和模型中协变量?

    A2:对现有队列进行匹配选取的病例-对照组中,(确保提取过程合理)利用已有的表型数据(所选取的表型数据应当是目标研究疾病的风险因素(Risk Factors),保证其医学生物学机制,因为统计学上的显著并不一定是医学上机制的体现)对病例组以及对照组进行基线特征差异性分析,当基线特征在两个组别中存在显著性差异时,应当控制该变量。

    而对于现有的研究过程中,当表型数据足够丰富时,可以挑选具有代表性的基线特征进行显著性差异分析,再从具有显著差异的基线特征中寻求其是否存在生物学机制。

  3. Q3:

2 常见基线特征

年龄、性别、BMI、教育(水平)程度、活动水平、检测中心、蛋白检测批次、炎症水平、疾病史(若按上述流程分析,则已控制疾病史)、血压、血脂、血糖。

2.1 身体活动水平:

  1. MET(Metabolic Equivalent of Task)代谢当量:表示一个人在进行某项活动时消耗的热量与静息状态下消耗的热量的比值(DFTJ与UKB中都存在)。1MET表示一个人在静息状态下所消耗的热量;nMETs(n≥2)表示活动消耗的热量是静息状态的n倍。

    1 MET:静息;

    2-3 METs:轻度活动,如慢走、家务;

    3-6 METs:中等强度活动,如快走等;

    >6 METs:高强度活动,如跑步、爬楼梯等。

  2. WHO身体活动建议:二分类变量,积极锻炼(达到标准):每周至少进行75mins高强度运动或150mins的中等强度运动,或者等量组合;非积极锻炼(未达到标准):少于上述标准。

In DFTJ:

Chen M, et, al. Wu T. Different physical activity subtypes and risk of metabolic syndrome in middle-aged and older Chinese people. PLoS One. 2013;8(1)

通过问卷获取每种类型身体活动的频率和平均时长:步行、骑自行车、太极拳、慢跑、游泳、跳舞、爬楼梯、打篮球、排球或足球。为估算总身体活动的能量消耗,根据以下公式为每项活动分别计算每周的代谢当量(MET)小时数:活动的MET系数×时长(每次活动的小时数)×频率(每周次数)。

根据身体活动目录,休闲活动的每小时MET值为:步行为3,骑自行车为4,太极拳为4.5,慢跑或游泳为7.5,跳舞为5,爬楼梯为4.5,打球或在健身房锻炼为6。根据按性别分布的五分位数,将身体活动水平分为五组:男性为≤9.0、9.1–21.0、21.1–28.5、28.6–45.0和>45.0 (MET小时/周);女性为≤6.8、6.9–18.0、18.1–24.5、24.6–42.0和>42.0 (MET小时/周)。

2.2 炎症指标:

  1. CRP(C-Reactive Protein, C反应蛋白)是一种由肝脏合成的急性时相反应蛋白,是常用的炎症标志物。分为:正常值、轻度升高、中度升高、高度升高。
  2. WBC(White Blood Cell Count, 白细胞计数)是血液中白细胞的数量,反映机体免疫和炎症反应的指标。

2.3 Townsend Deprivation Index(汤森剥夺指数)

一个广泛用于公共健康和社会研究的综合社会经济剥夺指标。该指标由英国社会学家Peter·Townsend于1980年提出,旨在量化社区或个人所面临的物质和社会资源的匮乏程度。通过多个社会经济变量的组合评估一个区域的总体贫困和剥夺情况。

主要基于以下四个社会经济变量:

  1. 失业率:人口失业的比例。
  2. 无车家庭比例:代表交通工具的匮乏。
  3. 无自有住房的家庭比例:代表出租或公共住房的比例。
  4. 房屋过度拥挤的家庭比例:以每个居住单位的平均住户人数评估。

Townsend Deprivation Index将这四个变量进行标准化处理,然后合并成一个综合指数。指数越高,表示区域的剥夺程度越严重。这种标准化通常使用人口平均值或其他统计方法,使得指数在不同地区之间具有可比性。

2.4 肝功能指标

2.4.1 TBIL, DBIL, IDBIL

TBIL = DBIL + IDBIL

其中DBIL是直接胆红素(Direct Bilirubin),又称结合胆红素(Conjugated Bilirubin),是由间接胆红素进入肝后受肝内葡萄糖醛酸基转移酶的作用与葡萄糖醛酸结合生成的。直接胆红素溶于水,与偶氮试剂呈直接反应,能通过肾随尿排出体外。肝脏对胆红素的代谢起着重要作用,包括肝细胞对血液中间接胆红素的摄取、结合和排泄三个过程。血清直接胆红素的升高,说明经肝细胞处理后胆红素从胆道的排泄发生障碍。直接胆红素的测定有助于黄疸类型的诊断和鉴别诊断。

间接胆红素又称非结合胆红素,即不与葡萄糖醛酸结合的胆红素。由间接胆红素和直接胆红素组成总胆红素。血清间接胆红素升高,主要与各种溶血疾病有关。大量的红细胞破坏后,大量血红蛋白被转变成间接胆红素,超过了肝脏的处理能力,不能将其全部转变成直接胆红素,使血液中的间接胆红素升高。其浓度反映肝细胞的转化功能和红细胞的分解状态。

image-20250519145018821

2.4.2 AST, ALT, ALP, GGT

指标缩写 全称 中文翻译 类型
AST Aspartate Aminotransferase 天冬氨酸氨基转移酶 转氨酶类
ALT Alanine Aminotransferase 丙氨酸氨基转移酶 转氨酶类
ALP Alkaline Phosphatase 碱性磷酸酶 水解酶类
GGT Gamma-glutamyl Transferase γ-谷氨酰转移酶 转移酶类

AST, ALT通常反映肝细胞损伤,ALP, GGT通常反映胆道功能障碍。

ALT:参与氨基酸代谢,主要参与肝细胞内氨基转移,是肝细胞内高特异性标志物。主要分布于肝细胞胞浆中。当肝细胞坏死或膜通透性增强时ALT释放入血,ALT升高通常比AST更特异于肝损伤。

AST:是三羧酸循环与氨基酸代谢的关键酶之一,存在于肝细胞的线粒体和胞浆中;AST释放提示更深层次的肝损伤或非肝源性肌肉损伤。

ALP:参与磷酸盐代谢、胆汁分泌和骨钙化;胆汁淤积时,胆管上皮受损,ALP升高;骨代谢活跃时也升高。

GGT:是抗氧化应激反应中的重要酶,在肝胆管系统中最为集中;是最敏感的胆道受损指标,酒精摄入,药物引导都会使其升高。

Disease

1 HCC (Hepatocellular carcinoma)

肝癌是全球第二大致命癌,其中肝细胞癌约占90%。病毒感染:乙肝/丙肝感染,脂肪肝,肝硬化,酗酒,糖尿病都是一些潜在危险因素。其他的比如,血色素沉着病,自身免疫性肝炎等都是危险因素。早期症状伴有腹痛、体重减少、易疲劳;后期症状包括黄疸、腹水、发烧等。

HCC通常可以通过计算机断层扫描(CT)、核磁共振成像(MRI)来检查。The Liver Imaging Reporting and Data System(LI-RADS)是一种用于HBV感染和肝硬化患者HCC诊断的既定评分系统,LI-RADS通过为影像学特征提供一致的标准化描述,使用不同的分类等级来表示肿瘤的恶性风险。然而,对于LR-4或以上观察结果但没有已知HCC危险因素或影像学表现不典型的患者,仍然需要活检。

HCC早期检测:AFP、维生素K或拮抗剂II(PIVAKA-II)和磷脂酰肌醇蛋白聚糖(GPC3)诱导的凝血酶原已经改善了HCC的早期检测。

非必要不进行活检,目前液体活检是发展的关键时刻。

最常见的血清蛋白标志物是AFP(甲胎蛋白),血清AFP水平一直被认为是与超声检查结合使用筛查测试的”金标准“。肝癌患者的AFP阈值是20ng/ml,因为AFP的检测存在特异性差别的问题,所以需要与超声检查结合使用。

image-20241004232012229

潜在蛋白:PIVKA-II (AFP阴性的HCC患者), AFP-L3 (敏感度不高), GPC3 (早期HCC患者中没有显著差异), OPN (与AFP结合使用效果很好), HSP70 (可以区分癌前病变和早期HCC, 早期HCC和进展HCC), GOLM1 (又名GP73)。

循环肿瘤细胞:一些循环肿瘤细胞 (GTCs)会幸存,可用于检测,但是检测难度较大,使用游离DNA (cfDNA),循环肿瘤DNA (ctDNA)也可以进行HCC筛查和早期诊断。TERT启动子,CTNNB1、TP53、AXIN1、KRAS、ARID2等也能在cfDNA中检测到。

其他miRNA候选者也具有早期诊断能力(miR-122-5p, let-7d-5p, miR425-5p)。还有一些非编码的RNA、甲基化模式等都能作为HCC的早期预测。

其他潜在蛋白:AKR1B10 (配合AFP使用)

补充1.

原发性肝癌(Primary Liver Cancer)

直接起源于肝脏本身的恶性肿瘤,癌细胞最初形成于肝脏组织。主要类型包括:肝细胞癌(约占原发性肝癌的85%~90%),胆管细胞癌(起源于肝内胆管),肝母细胞瘤(主要见于儿童),血管肉瘤(较罕见的类型)。主要危险因素包含:乙肝、丙肝、肝硬化、酒精性肝病、非酒精性脂肪肝、黄曲霉毒素暴露等。

继发性肝癌(Secondary Liver Cancer/肝转移癌)

其他器官的癌症转移到肝脏形成的恶性肿瘤,癌细胞最初不是来自肝脏。通过门静脉系统、淋巴系统、血液循环系统等转移。

继发性癌症的治疗方法主要依据原发肿瘤类型选择治疗方案。

2 CVD 心血管疾病

心血管疾病是一个广泛的概念,包括所有影响心脏和血管的疾病。不仅包括冠心病,还包括其他类型的心脏病(如心力衰竭、心律失常)、脑血管疾病(如中风)、外周动脉疾病等。

CHD(冠心病)

冠心病是指由于冠状动脉的狭窄或堵塞,导致心肌供血不足,从而引起一系列心脏病症。其主要原因是动脉粥样硬化,即血管内壁形成斑块,阻碍血液流动。

急性冠脉综合征(ACS)

ACS是CHD的一种急性表现形式,包括AMI和UAP。

急性冠脉综合征(ACS)是全球范围内导致高死亡率和致残率的主要心血管疾病之一。

  1. 严重性:ACS包括急性心肌梗死和不稳定性心绞痛,这些情况往往会突然发作,导致心肌缺血、心肌损伤甚至心力衰竭。未经及时救治,ACS可能迅速致命或导致永久性心脏损伤,因此研究其发病机制和预防措施是改善患者预后的关键。
  2. 普遍性:ACS在全球范围内非常常见,尤其是在经济快速发展的国家和地区。随着生活方式的改变(如高脂饮食、缺乏运动、吸烟等),以及人口老龄化,ACS的发病率在很多国家不断上升。根据世界卫生组织的数据,心血管疾病(包括ACS)每年导致超过1700万人死亡,占全球总死亡人数的30%以上。
  3. 复杂的病因和发病机制:ACS的发生与多种危险因素相关,包括遗传、生活方式、环境因素和慢性炎症等。此外,动脉粥样硬化、血小板活化、炎症反应等病理过程共同作用使得ACS的发病机制十分复杂。因此,深入研究ACS的病因和发病机制有助于发现新的生物标志物和治疗靶点,从而改进预防、诊断和治疗。
  4. 防治需求:现有的ACS防治手段,如控制高血压、高胆固醇和糖尿病,减少吸烟等,虽有一定成效,但仍不能完全预防其发生。尤其是对于一些未发现的高风险人群,传统的风险评估工具和方法不足以精准预测发病风险。因此,科学家们希望通过生物标志物、遗传及表观遗传研究等手段,找到新的预防方法和精准医学工具,提高疾病的早期检测和干预效果。
  5. 社会经济负担:ACS的发病会导致较长的住院治疗和后续康复护理,给个人、家庭和社会带来巨大的经济负担。因此,减少ACS的发生不仅有利于公共健康,还可以减轻医疗资源压力和经济负担。

急性心肌梗死(AMI)不稳定性心绞痛(UAP)

急性心肌梗死是由于冠状动脉的突然堵塞,导致心肌缺血和坏死。通常由动脉粥样硬化斑块破裂引发血栓形成,造成血流阻断。

不稳定性心绞痛是一种由于冠状动脉供血不足引起的胸痛症状,其特点是痛感加重、发作频率增加,可能在静息状态下发生。

急性冠脉综合征(ACS):ACS是一个临床综合征,包括AMI和UAP,以及其他急性心绞痛表现。ACS通常是由冠状动脉的急性堵塞或狭窄引起,导致心肌缺血和潜在的心肌损伤。UAP可以视为AMI的前兆,许多UAP患者在后续可能发展为急性心肌梗死。急性心肌梗死和不稳定性心绞痛都是急性冠脉综合征的重要组成部分,二者具有密切的关系,均源于冠状动脉的病理变化。

表观遗传学Epigenetic-DNA甲基化

甲基化是指在DNA的特定位置上(通常是胞嘧啶,C)添加一个甲基基团(CH₃)。正常情况下,某些基因的启动子区域会高度甲基化,这通常抑制基因的表达。

甲基化的功能

  • 基因表达调控:甲基化最重要的功能是调控基因的表达。一般来说,高甲基化水平抑制基因表达,而低甲基化水平通常促进基因表达。
  • 细胞分化和发育:在细胞分化过程中,特定基因的甲基化状态会改变,以确保特定细胞类型的功能和特性。
  • 基因组印记:甲基化在基因组印记中发挥重要作用,某些基因的甲基化状态决定了它们是否在某一特定细胞或个体中表达(来自父母的基因可能有不同的表达)。

甲基化的影响因素

  • 遗传因素:个体的遗传背景影响DNA甲基化模式,不同基因型导致不同的甲基化状态。
  • 环境因素:饮食、污染、生活方式等环境因素会对DNA甲基化造成影响。

甲基化与疾病的关系

  • 癌症:许多肿瘤细胞表现出特定基因的低甲基化或高甲基化状态,导致肿瘤抑制基因的沉默或基因的激活。
  • 心血管疾病:在心血管疾病(如急性冠脉综合征ACS、动脉粥样硬化)中甲基化的异常与疾病的发生与发展有关。
  • 代谢疾病:甲基化在糖尿病、肥胖等代谢疾病中发挥重要作用,影响胰岛素的分泌和作用。

研究和应用

  • 生物标志物:甲基化状态可以作为疾病的生物标志物,帮助早期诊断和预测疾病风险。例如,某些特定的甲基化位点在癌症患者中常常出现改变,成为潜在的诊断工具。

  • 治疗靶点:通过调节DNA甲基化,可以影响基因表达,为癌症等疾病的治疗提供新的策略。目前已有一些药物(如去甲基化药物)用于调节癌细胞的甲基化状态。

  • 个性化医疗:随着对甲基化研究的深入,个体的甲基化图谱有望在未来实现个性化医疗,根据个体的甲基化状态来制定特定的治疗方案。

低甲基化状态

低甲基化状态意味着在特定的DNA区域(如基因启动子)上甲基化水平降低,这往往会导致该基因的表达上调。低甲基化状态通常与基因激活或过表达相关联。它可能促进细胞增殖、分化或其他生物功能,但在某些情况下,异常的低甲基化也可能导致基因的异常激活,从而引发肿瘤或其他疾病。

“映射基因”是指与特定甲基化位点相关联的基因。负相关指的是甲基化状态与基因表达水平之间的反向关系:当甲基化水平降低时,基因的表达水平提高,反之亦然。

转录因子结合位点的预测

概念

  • 转录因子结合位点(TF binding sites,TFBS)是指转录因子与DNA结合的特定序列区域,通常位于基因的启动子区域或调控元件区域。当转录因子结合到这些位点时,会影响下游基因的转录,进而调控基因的表达水平。

预测方法

  • 计算预测:转录因子结合位点预测主要是利用计算机算法,基于已知的转录因子识别模式(如某些DNA序列的特定顺序或结构),在基因组中预测可能的结合位置。这些模式可以是转录因子结合的DNA序列共识序列(consensus sequence),也可以是更复杂的序列特征。
  • 数据库资源:例如,JASPAR、TRANSFAC等数据库收集了大量转录因子及其结合位点的已知信息,研究者可以使用这些数据结合预测算法来识别可能的转录因子结合位点。

应用

  • 结合位点预测为研究特定转录因子在基因表达调控中的潜在作用提供了候选位点。预测结果可以帮助研究者缩小实验验证的范围,更高效地识别重要的调控元件。

ChIP-seq实验

概念

  • ChIP-seq(Chromatin Immunoprecipitation followed by Sequencing):染色质免疫共沉淀测序,是一种用于检测转录因子、组蛋白标记等DNA结合蛋白在全基因组范围内结合位点的实验技术。通过ChIP-seq,研究者可以精确确定某个转录因子在细胞内的真实结合位置。

实验步骤

  1. 固定(Cross-linking):使用化学试剂(如甲醛)将细胞内的转录因子与其结合的DNA片段固定在一起,保持它们的原位结合状态。
  2. 染色质片段化(Chromatin Fragmentation):将细胞裂解并通过超声波等手段将染色质打碎成小片段。
  3. 免疫共沉淀(Immunoprecipitation):使用针对目标转录因子的特异性抗体,将该转录因子及其结合的DNA片段“捕获”下来。
  4. 去交联(Reverse Cross-linking):分离出转录因子结合的DNA片段。
  5. 测序:对这些DNA片段进行高通量测序,以确定它们在基因组中的位置。

应用

  • 验证结合位点:ChIP-seq可以直接验证某一转录因子是否真正结合到了预测的结合位点上,弥补了纯预测方法的不足。
  • 全基因组分析:ChIP-seq提供了在细胞或组织中的全基因组结合图谱,帮助研究者理解转录因子的调控网络。
  • 功能研究:通过识别转录因子结合的位置,研究者可以进一步分析其在特定基因或基因簇中的调控作用。

蛋白的组织特异性

蛋白的组织特异性表示某种蛋白质在不同组织或器官中的表达水平存在显著差异的现象。具体来说,某些蛋白质可能只在特定组织中高度表达,而在其他组织中表达很低甚至不表达。这种特征与基因表达的调控密切相关。

  1. 表达的空间差异:组织特异性表现在蛋白质的表达水平上,例如肝脏中特异表达的白蛋白(albumin),或者肌肉中特异性表达的肌球蛋白(myosin)。
  2. 调控机制:1.转录调控:某些基因的启动子和增强子仅在特定组织中的细胞中被活化,例如通过组织特异性转录因子调控基因表达。2.转录后调控:RNA剪接,mRNA稳定性或翻译调控也可能决定某些蛋白只在特定组织中产生。3.表观遗传调控:DNA甲基化或组蛋白修饰可以抑制某些基因在非特定组织中表达。
  3. 研究方法:1.RNA测序(RNA-seq):可以量化各组织中基因的转录水平,间接推测蛋白表达的组织特异性;2.蛋白质组学(Proteomics):直接测定不同组织的蛋白组成或丰度;3.组织芯片和免疫组化:检测特定蛋白在组织中的分布。与已知的组织特异性蛋白数据库进行比较,比如Human Protein Atlas(HPA),GTEx(Genotype-Tissue Expression)

概念:诊断模型与预后模型

预后模型

”预后“(Prognosis)在医学中指的是疾病发展的预期全过程,指的是基于个体的临床以及非临床特征、估计其一段时间后发展为某医学状态或结局的概率。这种医学状态可以是死亡、并发症等。也可以是定量的测量,如疾病的进展、疼痛、生存质量等。

用途:预测患者在未来某一时刻发生某一事件的概率

对象:患者处于同样的起始状态

结局:患者将来是否发生某一事件

有时间维度。

诊断模型

用途:用来预测个体患者患有某种疾病的概率。

研究对象:表现出某种症状的患者。

结局变量:选择患者当前的状态:是否患病。

区别和联系

两者都可以用来做预测,所以两者都是一种预测模型。

但是预后模型是为了预测未来的一个时间点患者的结局的概率,但诊断是为了诊断患者在当前时间点的结局的概率。

概念:QVs基因

QVs (Qualifying Variants) 是指符合特定标准的基因变异。在基因组研究中,它们是经过筛选的、可能对表型产生影响的变异。

QVs可以被用于折叠分析(collapsing analysis)中,主要包括几种类型:

  1. 非同义QV模型(nonsynonymous QV models):
  • 这些变异会导致蛋白质氨基酸序列的改变
  • 可能影响蛋白质的功能
  1. 超罕见致损QV模型(ultra-rare damaging QV model):
  • 在UK Biobank中次等位基因频率≤0.005%
  • 被预测会对蛋白质功能产生破坏性影响的变异
  1. 蛋白质截断变异模型(protein truncating variant model, ptv):
  • 导致蛋白质提前终止或截断的变异
  1. 错义耐受比模型(missense tolerance ratio model, URmtr):
  • 评估错义突变对蛋白质功能影响的模型

在2×2列联表分析中:

  • 行:区分病例和对照
  • 列:区分个体是否携带特定基因的QVs
  • 通过这种方式来评估特定QVs与疾病之间的关联

QVs的筛选和定义对于基因组关联分析的结果有重要影响,因此需要仔细考虑变异的功能注释和频率信息。