Efficiency and StandError
效率与计算误差在实际分析中遇到了标准差较大的情况,往往我们的第一反应是样本量较小的问题,第二则是估计的不准确(估计值在重复抽样中会有较大的波动),第三则是数据本身的方差较小,即总体标准差较小,第四则是模型拟合的问题(涉及忽略重要的自变量,模型形式出错,变量异方差性和自相关性等,回归模型中的多重共线性问题)。
另外在实际分析中还会有另一种情况,这涉及到了效率(efficiency)与稳健性(robustness)之间的权衡。
1.效率:在所有无偏估计量中,方差最小的统计量。
高效率:在样本量相同的情况下,更精确的估计结果。
2.稳健性:当模型假设被轻微违反时,估计量保持无偏,强调对模型假定出错、异常值存在、删失存在时的抵抗能力。
在样本量不变的情况下,效率和稳健性总是互相平衡的,这有些类似方差和偏差的权衡。
R-StudyNotes-locuszoomr
1 环境为了能够正常下载并且安装该R包,新创建一个R环境
conda create -n locuszoomr r-base r-essentialsconda activate locuszoomr
R version 4.3.1 (2023-06-16)
2 安装if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install("ensembldb")BiocManager::install("EnsDb.Hsapiens.v75")BiocManager::install("AnnotationFilter")BiocManager::install("GenomicRanges")BiocManager::install("rtracklayer") install.packages(" ...
Python-StudyNotes-GWASlab
Thesis:GWASLab preprint: He, Y., Koido, M., Shimmori, Y., Kamatani, Y. (2023). GWASLab: a Python package for processing and visualizing GWAS summary statistics. Preprint at Jxiv, 2023-5. https://doi.org/10.51094/jxiv.370
1. GWAS可视化学习原文链接:gwaslab/examples/7_visualization/visualization_regional.ipynb at main · Cloufield/gwaslab
# 创建新环境# conda env create -n gwaslab -c conda-forge python=3.9# pip install gwaslab# pip install wget
import wgetimport inspectimport sysimport gwaslab as gl########### 0. ...
Genomic
1. Data Type1.1 RNA-seq数据Gene Expression Quantification用于测量基因组中所有基因的表达水平;
STAR-Counts表示工作流程:Spliced Transcripts Alignment to a Reference是一个高效的对比工具,能够处理剪接位点,实现转录本到基因组的精确比对。能够统计比对到每个基因区域的读段数量,用于后续表达量分析。
1.2 miRNA-seq数据Isoform Expression Quantification是异构体表达定量。数据类型分为Isoform Expression Quantification和miRNA Expression Quantification,其中Isoform Expression Quantification包含5p和3p的表达量数据,能够区分同一个前体miRNA产生的不同成熟体,提供更详细的miRNA异构体信息;miRNA Expression Quantification仅提供stem-loop水平的定量数据,不区分来自同一前体的5p和3p,反映的是整体miRNA前体的 ...
Basic Statistic Method
0 Preface在此记录下遇见的比较常用的或者比较有意思的统计方法。
1 数据处理方法1 缺失值处理-MICE填补法MICE(Multiple Imputation by Chained Equations),数据集中指定的变量的缺失值使用其他变量作为预测变量进行估算。没有相关性的完全独立变量的数据集不会产生准确的插补。其基本步骤是:
初始插补:对每个缺失值进行初始插补(通常使用均值、回归或随机采样)。
迭代插补:逐变量插补:将缺失的变量视为被预测的目标变量,对于每个缺失的变量基于现有数据构建回归模型预测缺失值;
循环迭代:重复步骤(一般为5到10次),逐步更新插补结果,直到收敛(插补值不再发生显著变化)。
MICE可以使用线性回归、逻辑回归、预测均值匹配(PMM)的程序来选择要估算的值。
PMM(预测均值匹配Predictive Mean Matching),核心思想是通过匹配(注意,是匹配)预测值来插补缺失数据。首先构建回归模型,对缺失值通过回归模型计算其预测值,在原本无缺失值(观测数据中的真实值)的数据中找到与预测值最接近的值,这意味着插补的缺失值直接来源于已有数据中的观测 ...
Medical Basic Knowledge (Main in Epidemiological)
Medical Basic Knowledge (Main in Epidemiological)0 Preface笔者最近开始正式着手慢性病、蛋白质组学分析的工作,经过反馈才发现自己对医学知识的欠缺十分严重,对流程和原因的了解和把控几乎为零,在此记录下基础的医学知识(主要为流行病学)。
1 蛋白质组学分析流程相关问题现有流程记录(非代表性)对已有队列进行数据质控、清洗得到干净数据,此时的干净数据可以称为目标研究人群,再从干净数据中挑选出病例组以及对照组。
健康对照组:排除基线诊断时患重大疾病(CHD、中风、ECG异常)、无定点医保的人群,排除近期核查患重大疾病人群。以此得到健康对照组的子队列抽样源,再根据性别、年龄进行分层抽样,得到较小的子队列样本,再进行排除,排除无血浆样本、基因型未测或者不合格、甲基化未测或不合格样本;再排除随访期内出现重大疾病或者死亡的人群;排除子队列内部存在亲缘关系,以及与对照组存在亲缘关系的样本。
病例组:挑选随访截止日期前的新发病例,排除诊断时间不明确、排除无血浆样本、排除GWAS和甲基化未测或不合格样本;排除发病距随访时间过长(3年)的样本;排除特定检 ...
Proteomics
Proteomics0 Preface蛋白质组学分析基础概念知识。
蛋白质组学研究蛋白质结构、功能及其在生物系统中表达。分析过程中通常需要处理大量复杂的数据,包括蛋白质的鉴定、定量、修饰、相互作用等。
一般流程包括:
数据获取与预处理
蛋白质鉴定:利用质谱(Mass Spectrometry,MS)技术识别样本中的蛋白质。
原始数据处理:将质谱数据转化为可识别的肽段和蛋白质信息。
数据过滤:移除低置信度的蛋白质或肽段。
数据定量分析
标签定量:使用标记技术对蛋白质进行相对或绝对定量。
无标签定量:通过光谱计数或基于强度的方法对蛋白质定量。
数据标准化和归一化
标准化:消除批次效应或实验条件的差异,常用Z-score标准化、分位数归一化。
归一化:调整蛋白质定量数据,使不同样本之间具有可比性。
差异表达分析
统计分析:使用t检验、ANOVA等识别不同条件下显著变化的蛋白质。
多重比较校正:校正多重比较引起的假阳性率。
功能注释与通路分析
功能注释:将蛋白质映射到功能数据库理解生物学功能。
通路分析:利用软件识别与特定生物学通路相关的差异表达蛋白。
结果验证与解释
验证实验:使用 ...
Bioinformatics Datasets
Bioinformatics Datasets Description0 Preface笔者收集整理笔者本人遇到、主流的、必须的生物信息数据集,防止遗忘。
1 1000G千人基因组计划于2008年启动,其核心的研究方法是:全基因组测序、低覆盖测序与高覆盖外显子测序结合;变异的鉴定与注释。其主要成果在于揭示了人类基因组的遗传多样性、跨人群的遗传变异频率分布、结构变异的重要性、其本身是复杂疾病研究的基础数据。
2 UK BiobankUK Biobank旨在收集和分析50万英国成年人的健康数据、生活方式信息、基因组数据和临床记录,其特点是一个长时间随访的队列研究。
UK Biobank于2006年启动,汇集了40到69岁的志愿者,共计约500000人。
其数据包括:
基因组数据:全基因组数据,UK Biobank对约50万名志愿者的DNA样本进行了基因分型,并且其中15万人提供了全基因组测序数据,进行了超过90000人的外显子组测序。单核苷酸多态性(SNP):基因分型数据提供了每个参与者数百万个SNP位点的信息。
健康数据:电子健康记录:项目收集了参与者的医疗记录;体检数据;影像数据。 ...
Reading Notes-<Mathematical Population Genetics> by Warren J.Ewens
0 Preface笔者从统计学习转入生物信息学习中,种群遗传学(Population Genetics)是笔者最开始感兴趣的一个大方向。为此写下读书笔记,以供及时翻阅,以防遗忘。
种群遗传学包含观察(observation)、实验(experiment)和理论(theory)三个部分,本书着重于结合数学的理论部分。
1 Historical Background1.1 Biometricians, Saltationists and Mendelians种群遗传学理论最初由费舍尔Fisher、霍尔丹Haldane和怀特Wright提出,其目的是在孟德尔遗传机制的基础上建立一个进化框架。人们对进化变化的方式存在分歧,达尔文Darwin认为进化是渐近连续(gradual and incremental)的,而另一些人认为进化是跳跃的。从这两个观点出发形成了两种进化学派。
对于达尔文的自然选择进化论,高尔顿几乎通过纯粹的理论推理得到相似的结论。与达尔文进化理论相反的是混合假设(blending hypothesis:后代的特征是父母特征的混合,所以在随机交配的情况下,种群中任何特征的变异性 ...