Bioinformatics Datasets
Bioinformatics Datasets Description
0 Preface
笔者收集整理笔者本人遇到、主流的、必须的生物信息数据集,防止遗忘。
1 1000G
千人基因组计划于2008年启动,其核心的研究方法是:全基因组测序、低覆盖测序与高覆盖外显子测序结合;变异的鉴定与注释。其主要成果在于揭示了人类基因组的遗传多样性、跨人群的遗传变异频率分布、结构变异的重要性、其本身是复杂疾病研究的基础数据。
2 UK Biobank
UK Biobank旨在收集和分析50万英国成年人的健康数据、生活方式信息、基因组数据和临床记录,其特点是一个长时间随访的队列研究。
UK Biobank于2006年启动,汇集了40到69岁的志愿者,共计约500000人。
其数据包括:
- 基因组数据:全基因组数据,UK Biobank对约50万名志愿者的DNA样本进行了基因分型,并且其中15万人提供了全基因组测序数据,进行了超过90000人的外显子组测序。单核苷酸多态性(SNP):基因分型数据提供了每个参与者数百万个SNP位点的信息。
- 健康数据:电子健康记录:项目收集了参与者的医疗记录;体检数据;影像数据。
- 生活方式和环境数据:问卷调查,包括了饮食习惯、吸烟、饮酒史、运动习惯、社会经济状况等信息;环境数据,结合地理位置信息,收集了与参与者生活环境相关的因素,如空气污染水平、绿地覆盖率、气候条件等。
- 生物样本:保存了多种生物样本,如血液、尿液、唾液和粪便样本等。
UK Biobank数据可以用于GWAS研究、机器学习与人工智能、基因—环境交互作用研究、队列研究。
其局限在于:人群偏向:参与者主要是英国白人;自我报告数据的准确性;长期随访的困难。
3 FinnGen
FinnGen是一个以芬兰人口为基础的大型基因组学研究项目,旨在通过对数十万芬兰人的基因组进行测序和分析,揭示遗传变异与性状的关系。
FinnGen于2017年启动,利用芬兰的遗传优势进行疾病研究,由于历史上的瓶颈效应,芬兰人口遗传变异较为均匀,某些罕见的遗传变异在芬兰人群中表现为高频率。其目标是对50万芬兰人的基因组进行基因分型或全基因组测序。
项目数据包括:基因组数据;电子健康记录(EHR);芬兰的遗传背景。
同样FinnGen存在一些局限性:种群局限性:遗传背景较为单一,因此研究结果在其他种群和地理背景下的适用性可能受限;疾病类型的代表性:某些特定类型的疾病在芬兰人群中的发病率较低。
Tips:芬兰人的瓶颈效应:大约在冰河时代结束后的4000到6000年前,人类开始在芬兰地区定居。由于这片区域的地理相对隔离,早期的定居者数量较少;而在中世纪时,芬兰的人口规模保持较小,且地理位置偏僻,使得与其他欧洲人群的基因交流较少,这种隔离状况加剧了人口的遗传同质性(genetic homogeneity);在历史上,17和18世纪芬兰经历了多次战争和疾病流行,导致人口急剧减少,遗传多样性进一步丧失;即便到了现代,芬兰人仍然保持相对的遗传隔离。 这样的瓶颈效应导致了基因多样性的降低,某些罕见变异的增加(这种现象也被称为芬兰病遗传现象),而某些特定的遗传变异通过遗传漂变变得更加常见 ,而其他一些变异则可能完全丧失,并且其遗传同质性较高。
4 dbSNP
Single Nucleotide Polymorphism Database:单核苷酸多态性数据库由美国国家生物技术信息中心(NCBI)开发维护,旨在收集、存储和提供各种生物物种中小型基因组变异的信息,于1998年首次推出。
链接:Home - SNP - NCBI (nih.gov)
4.1 内容架构
dnSNP最初主要收录人类基因组中的单核苷酸多态性(SNPs),现逐渐扩展到包括其他类型的小规模变异,内容包括:
- 单核苷酸多态性(SNPs):指在基因组的某个位置单个核苷酸(A、T、C、G)的变化;
- 插入和缺失变异(Indels):基因组中插入或缺失的小片段DNA,通常插入或缺失的长度为一至数十个碱基;
- 简单序列重复(Simple Sequence Repeats,SSRs):也称微卫星标记(Microsatellites),由短的核苷酸序列(通常为2~6个碱基对)重复多次形成。
- 拷贝数变异(Copy Number Variations,CNVs):基因组中大段DNA的拷贝数变化,包括大规模的插入,缺失或重复。
- 多核苷酸多态性( Multinucleotide Polymorphisms, MNPs):在同一物种的不同个体中或同一基因组的不同拷贝中,存在多个不同的核苷酸序列。具体地说描述的是:一种基因位点在不同个体间存在两种或两种以上等位基因的现象。因此MNPs包括了CNVs,CNVs是多核苷酸多态性的一种特殊形式。
- 杂合序列(Heterozygous Sequence):指在同一个基因座(locus)上,来自父母双方的两条染色体携带了不同的等位基因,对于二倍体生物,每个基因座通常有两条染色体上的对应序列,序列不同时,基因座就是杂合的。
- 命名变体(Named Variants):指已经被识别并且已经被正式命名的基因变异。
4.2 数据来源
大型基因组测序项目:如人类基因组计划、国际千人基因组计划、ExAC数据库。
Tips:ExAC数据库:Exome Aggregation Consortium是一个由多个研究机构联合创建的公共数据库,旨在汇集来自大量人类个体的外显子组测序数据。外显子组指的是基因组中编码蛋白质的部分,占基因组的比例较小但是功能很重要,下一部分详细展开。
个人或研究小组提交的数据:研究人员提供的新发现的新变异数据,经过验证和整理入库。
计算预测:基于基因组序列的计算分析预测可能存在的变异。
4.3 数据库标识符
dnSNP中每一个变异都被分配一个唯一的标识符,通常以”rs“开头,后跟数字。”rs编号“是SNP和其他小规模变异的标准标识符,用于在文献和基因组数据分析中进行引用。
4.4 数据应用
- GWAS:位点与性状的关联。
- 进化研究:比较不同物种或人群的SNP分布,研究基因进化历史。
生物信息工具开发:变异注释、功能预测、基因组分析。
5 ExAC数据库
ExAC(Exome Aggregation Consortium Database,外显子聚合联盟数据库)是一个包含大量人类基因组外显子区域变异信息的数据库,目的是为遗传学研究和医学基因组学提供高质量的基因组变异数据。
该数据库于2014年首次发布,由MIT和Harvard领导。
其目的是为了克服单个研究群体或数据库无法充分涵盖人类基因组中稀有和常见变异。ExAC旨在整合多个项目中的基因组数据,特别是聚焦于外显子区域(基因中编码蛋白质的部分)。
ExAC数据库主要整合了超过60000个个体的外显子组测序数据,样本来自各种遗传项目,如1000G,NHLBI GO Exome Sequencing Project,The Cancer Genome Atlas(TCGA)等。
ExAC数据库主要提供了:
- 外显子变异:外显部分的变异信息,包括SNPs、Indels;
- 变异频率:提供了每个变异在不同人群中的等位基因频率;
- 功能注释:ExAC中的变异数据配有功能注释;
- 罕见功能变异的预测:特别关注了罕见变异的鉴定和注释,预测这些变异是否可能对蛋白质功能产生破坏性影响;
- 群体遗传学统计:提供了变异在人群中的频率分布。
gnomAD
gnomAD(Genome Aggregation Database,基因组聚合数据库)是继ExAC之后 由Harvard的Broad Institute领导的另一个大型基因组变异数据集,不仅包含了外显子组测序数据还包含了全基因组测序数据。
6 GTEx Project
Genotype-Tissue Expression Project(基因型-组织表达计划):是一个基因组学项目,旨在研究基因型(genotype)与不同组织中基因表达水平之间的关系。目标是通过对不同人体组织的全面基因表达数据的收集和分析,理解遗传变异如何影响基因表达,进而影响表型。
GTEx项目由NIH资助,于2010年启动。其主要目的是:1、建立大规模的跨组织基因表达图谱:收集了大量人体个体的不同组织样本的RNA测序(RNA-seq)数据(可以用于衡量基因表达水平);2、研究基因型与基因表达的关系:将个体的全基因组测序(WGS)数据与基因表达数据关联,识别哪些基因表达水平受遗传变异影响;3、研究eQTL(expression Quantitative Trait Loci):eQTL是指基因表达水平的遗传位点,GTEx致力于定位这些eQTL;
- 样本收集:收集多种样本捐献者组织样本;
- RNA测序:从组织中提取RNA,获得不同基因在不同组织中的表达谱;
- 基因型数据,获取捐献者的基因型数据;
- 数据关联分析:eQTL分析和跨组织分析。
7 TCGA
The Cancer Genome Atlas数据库,用于研究与癌症相关的基因组和临床数据,由NCI和NHGRI联合发起。旨在通过全面分析多个癌种的基因组变化来加深对癌症的分子机制的理解。涉及了超过30种癌症,包括常见癌种(如肺癌、乳腺癌、结直肠癌)和罕见癌种(如胆管癌等),每种癌症都包含数百至数千样本。
主要内容
TCGA包括:基因组数据,即基因组测序(全基因组测序WGS、全外显子组测序WES)、表观遗传学数据(DNA甲基化)、转录组数据(mRNA表达谱、miRNA表达谱)、突变数据(单核苷酸变异SNVs、拷贝数变异CNVs)、蛋白组学数据。临床数据,即患者基本信息(年龄、性别、病理分期)、生存数据(无病生存期、总生存期)、治疗信息(用药记录和治疗反应)
8 GEO
GEO(Gene Expression Omnibus)数据库是由NCBI维护的一个公共基因表达和功能基因组数据存储库,用于存储和共享高通量基因组测序、基因芯片、RNA-Seq等实验数据。是生物信息学研究中最常用的数据资源之一,特别是在基因表达分析,差异表达基因(DEGs)挖掘、共表达网络构建以及生物标志物筛选等方面。
- GEO Series(GSE):是GEO中的核心数据存储单元,通常对应了一项具体的实验研究。通常记载了研究背景、实验设计、采样信息、处理方法、数据文件(原始数据&处理后的数据),命名规则:GSE+number
- GEO Sample(GSM):代表一个具体的样本信息,通常包含了样本来源,处理条件、测序或芯片数据。命名规则:GSM+number
- GEO Platform(GPL):代表使用的技术平台(如基因芯片、测序平台),通常包含了探针芯片、基因注释信息、数据格式和测量方法。命名规则:GPL+number
- GEO Dataset(GDS):代表一种对GSE进行标准化处理的数据集,带有预处理和归一化信息(不是所有GSE数据都会进入GDS)。
GEO数据通常存储以下几类高通量基因组学数据:
- 微阵列数据(Microarray):常见于Affymetrix、Agilent、Illumina 芯片数据,多用于基因表达(mRNA、miRNA)、DNA 甲基化研究
- 高通量测序数据:RNA-Seq 数据较为常见,用于转录组分析、ChIP-Seq 数据用于染色质免疫共沉淀测序、ATAC-Seq 数据用于染色质可及性分析
- 其他组学数据:表观遗传学数据、代谢组学数据、单细胞测序数据。
GEO的局限性:
❌ 数据质量不均:不同研究组上传的数据标准不同
❌ 批次效应:不同实验条件、平台可能存在批次效应
❌ 缺少临床信息:大多数数据缺乏详细的患者临床信息
❌ 不支持原始 FASTQ 数据:RNA-Seq 原始数据需要从 SRA(Sequence Read Archive) 下载(https://www.ncbi.nlm.nih.gov/sra)
队列
NHS/HPFS - HCC
BWH/ Harvard Cohorts Biorepository » Cohorts
每个在生物样本库中代表的队列至今仍在进行随访,大部分队列的流失率极低。多达30年前收集的标本已配有关于饮食、生活方式、药物使用、发病率、死亡率和其他健康相关数据的信息。
护士健康研究 护士健康研究是针对影响女性健康因素的规模最大、持续时间最长的研究之一。最初的护士健康研究(NHS)队列成立于1976年,共有121,000名年龄在30-55岁的女性护士参与。
护士健康研究II于1989年招募了116,430名年龄在25-42岁的护士。该研究的最高年龄层与护士健康研究的最低年龄层相对应。
护士健康研究3(NHS3)于2010年开始招募来自美国和加拿大、年龄在20-46岁的注册护士(RNs)、执业护士(LPNs)和护理专业学生。NHS3旨在更具多样性,首次采用完全基于网络的方式进行研究。
健康专业人员随访研究(HFPS) 健康专业人员随访研究是一项男性研究,包含51,529名男性,始于1986年,旨在补充全女性的护士健康研究。
今日成长研究 今日成长研究(GUTS)成立于1996年,跟踪随访护士健康研究II中女性的26,000多名子女。GUTS I包含了16,882名年龄在9-14岁的女孩和男孩。2004年,10,923名年龄在10-17岁的儿童加入GUTS II。
到2013年,所有参与者已成长为年轻成年人,两个队列合并。GUTS队列与NHS II结合,用于研究母子配对。
医生健康研究 医生健康研究始于1982年,作为一项随机对照试验,用于测试阿司匹林和β-胡萝卜素在心血管疾病和癌症一级预防中的益处和风险。最初的RCT,即医生健康研究I,于1995年结束,但参与者仍在继续填写年度问卷。
第二项RCT,医生健康研究II,于1997年开始,2011年结束。