tp钱包官网网址|cnv

作者: tp钱包官网网址
2024-03-07 17:53:53

焦老师讲遗传系列之12:拷贝数变异CNV - 知乎

焦老师讲遗传系列之12:拷贝数变异CNV - 知乎首发于揭因解遗:揭基因神秘面纱,解遗传繁杂密码切换模式写文章登录/注册焦老师讲遗传系列之12:拷贝数变异CNV遗传咨询焦博士​哈尔滨医科大学 遗传学博士拷贝数变异(Copy number variation, CNV),是由基因组发生重排而导致的,一般指长度1KB以上的基因组大片段的拷贝数增加或者减少, 主要表现为亚显微水平的缺失和重复。是基因组结构变异(Structural variation, SV) 的重要组成部分。可以说是染色体病的另一种重要致病机制。这些图片上的患者统称为染色体微缺失微重复患儿,发病原因:染色体片段的缺失或增加。大多数面容异常、智力异常、行为异常、心脏并发症,一般可长期存活,出生后给家庭造成极大的心理、经济负担。用图示表示CNV就如上图形式,人类基因组上5%~10% 的区域存在CNV,远高于其他遗传变异形式,CNV变异是人类最常见的变异形式。每个人基因组中都携带有一定数量的 CNV,绝大部分为良性,并不会对机体造成影响,多数 CNV 低于 500kb。有致病意义的CNV 是造成自然流产和出生缺陷(致死)的重要遗传因素,在智力发育障碍和自闭症等神经系统异常中尤其扮演重要角色。CNV的发生机制就是非等位基因重组,第一次是在减数第一次分裂前期,一对同源染色体染色体上的非姐妹染色单体交叉互换,第二次是在减数第一次分裂后期,同源色体分离,非同源染色体自由组合。基因组上非等位的两个高度同源的DNA序列在减数分裂或者有丝分裂的过程中发生错误的配对,并发生序列交换,从而导致缺失、重复的出现。CNV有可以有三种类型的,从遗传来源分类,有:新发变异或遗传变异;从分布频率分类,有:常见变异(即多态性良性变异)、罕见变异;从临床意义或致病性分类,按照ACMG2019版最新指南分类标准:有致病性CNV(P)、可能致病性CNV(LP)、意义未明CNV(VUS)、可能良性CNV(LB)、良性CNV(B)。编辑于 2020-05-07 12:17基因组基因遗传​赞同 59​​24 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录揭因解遗:揭基因神秘面纱,解遗传繁杂密码揭基因神秘面纱,解遗传繁

更高级的重测序分析策略—CNV介绍及应用 - 知乎

更高级的重测序分析策略—CNV介绍及应用 - 知乎切换模式写文章登录/注册更高级的重测序分析策略—CNV介绍及应用基迪奥生物专业定制测序服务。我们的愿望是,助您达到更高的科研领域。实用科研工具推荐 、详实生信软件教程分享、前沿创新组学文章解读、独家生信视频教程发布,欢迎关注微信公众号:基迪奥生物 (gene-denovo)| 本文作者:jusser|前言拷贝数变异(copy number variation ,CNV)是指基因组上某些大片段的拷贝数增加或减少,可分为缺失(deletion)和重复(duplication)两种类型。CNV是一种基因组结构变异,可通过改变基因剂量和转录结构等来调节有机体的可塑性,是个体表型多样性和群体适应性进化的主要遗传基础之一。在基因组中,CNV的变异形式主要包括单个片段的倍增、缺失和多次重复,其中,最常见的形式是单个片段重复(segmental duplication, SD),其在不同拷贝之间的序列同源性大于90%。通过种内比较基因组学分析,可挖掘对表型有显著效应的CNV。目前定义的CNV长度为50 bp~5 Mb的基因组序列的插入或缺失变异。图1 CNV类型示意图[1]CNV常见的检测方法主要分为两类:全基因组范围内检测未知CNV和定点检测已知CNV。基因组未知CNV常用的检测方法有芯片法和测序法。芯片法主要包括比较基因组杂交芯片(aCGH)和SNP芯片(single nucleotide polymorphism arrays)。DNA测序法主要包括全基因组测序(WGS)和单分子长读长测序(long reads sequencing)。研究表明,不少人类复杂疾病,动植物的重要经济性状都和CNV有密切关系。相比单碱基SNP变异,CNV的长度更长,覆盖更大范围的基因序列,可通过改变基因的剂量效应等影响与基因相关的表型。随着全基因组测序准确性的提高、信息量的扩大、成本的下降等,高通量大规模CNV检测得以迅速发展,并且随着GWAS方法的不断完善,为基于CNV-GWAS发掘更多更可靠的重要形状相关的功能CNV提供了条件,可为后续功能CNV的分子机理以及在育种中的应用奠定基础。下面就对这些分析点进行详细介绍。|常见分析内容1.CNV检测结果及统计用柱状图显示不同类型的CNV在不同片段长度的分布情况。如图2所示,滩羊CNV分布大约48.5%的CNV片段在10KB-50KB之间,CNV片段在50KB-100KB之间的占比是21.7%。CNVRs片段在10KB-500KB之间的占比是86.2%。大于1MB的CNVR很少,占比0.8%。图2 滩羊CNV变异分布统计2.CNVR全基因组图谱CNV区域(CNV Region, CNVR)是指不同个体间检测得到的CNV具有一部分重叠区域,把重叠的CNV进行整合,合并成为一个CNVR。如图3所示,将47头牛的CNV进行合并,共确定1043个CNVRs,共覆盖44.63 Mb,约占普通牛基因组序列的2.06%。已知染色体上CNVRs的分布如图3所示,共有702个是缺失类型(Loss),270个是插入类型(Gain),71个是属于复杂类型(Both, CNVR中同时含Gain和Loss)。Loss型CNV的数量约是Gain的2.6倍。就长度而言,最长的CNVR长度为2,111,937 bp,最短的CNVR长度为3,600 bp。Loss型CNV的数量约是Gain的2.6倍。就长度而言,最长的CNVR长度为2,111,937 bp,最短的CNVR长度为3,600 bp。该研究为荷斯坦奶牛绘制了准确的全基因组CNVRs图谱。图3 CNVRs的全基因组图谱[2]注:蓝色-插入,红色-缺失,绿色-复杂图4 CNVRs密度圈图注:粉色-缺失,紫色-插入,蓝色-复杂,深灰色-SNP,浅灰色-大片段插入3.群体遗传结构和遗传多样性为了研究山羊属的系统发生关系,基于全基因组常染色体上的SNP计算了两两个体之间的遗传距离。利用NJ法构建了系统发育树(图5 B),结果显示伊朗野山羊(bezoar)与家羊分成两大枝,并且家羊群体按地理来源聚类。利用ADMIXTURE软件对bezoar和家羊群体进行遗传结构分析(图5 C),当k=3时,bezoar与家羊群体分为3大谱系;当k=6时,家羊群体分为4大谱系。为了细化家羊群体内部的遗传结构,利用家羊群体SNP进行PCA分析(图5 D),结果显示:PC1和PC2将家养群体按地理来源分成4个亚群,分别为欧洲家山羊群体(EUR)、非洲家山羊群体(AFR)、西南亚家山羊群体(SWA-SAS)和东亚家羊群体(EAS)。图5 bezoar和世界家羊样本地理来源分布图和群体遗传结构分析4.基于CNVs的GWAS分析基于性状和CNV基因型,应用多种模型进行GWAS分析,完成不同模型的GWAS分析后,通过QQ plot比较不同模型下实际Pvalue与理论Pvalue的分布,判断最优分析结果。获得最优模型后,多重检验校正确定Pvalue的显著性阈值,筛选显著区域,并筛选CNV关联的位点基因。获得候选基因后,进行功能注释和富集分析。基于仔猪存活的遗传率和CNV进行GWAS分析,如图6,共检测到16个区域,分别在2、3、4、11、12、13、14、15、16和17号染色体上,可解释22.54%的遗传表型。图6 存活的仔猪数量性状GWAS分析曼哈顿图[3]在SSC2,SSC3,SSC12和SSC17上确定了GWAS和CNVR分析的显著区域,总共包含56种编码基因。这些基因通过基因剂量的变化影响仔猪存活的数量(表1)。表1 显著区域的基因注释表5.选择清除与环境适应性位点挖掘--Vst分析Vst分析是类似于Fst的一个指标,用来衡量群体间每个CNVR差异大小的统计量,计算方法为Vst=(Vt-Vs)/Vt,其中Vt表示所有样本该区域拷贝数大小的标准差,Vs表示两个群体各自的标准差根据各自群体大小加权之后的值。Vst的值介于0-1之间,值越大表示群体间该区域拷贝数变异差异越大,反之则越小。如图7所示,CN vs WL的Vst平均值是0.11,CN vs RIR的Vst平均值是0.11,WL vs RIR的Vst平均值是0.15,说明WL vs RIR显示出最高的分化程度,并且筛选Vst>0.79的CNVRs中的基因,并进行功能注释与富集分析,GO富集分析显示主要涉及器官发育,代谢和免疫调节。该研究有助于了解家禽在CNV水平上的遗传特征,这可能为开发鸡的繁殖提供有用的信息。图7 不同分群鸡的基因组Vst值曼哈顿图[4]6.选择清除与环境适应性位点挖掘--Bayescan分析Bayescan用bayes的方法和Fst的经验分布检测outlier标记的方法,一般应用于地理等分群信息明确的比较组差异位点的选择分析中。本研究中,结合材料的分群信息,使用bayescan进行差异位点的检测,检测完成后使用R脚本进行迭代收敛情况评价和outliers的筛选,并将outliers作为候选CNVRs。Bayescan outliers检测结果如图8所示:(a)将所有基因座的Fst值与BayeScan的log10(q value)作图。垂直虚线表示log10(q value)的q=0.05,右边的点表示受选择的显著的CNVRs;(b)按分群进行BayeScan的差异位点检测和outliers的筛选。图8 Bayescan outlier检测结果[5]CNV介绍就分享到这里,后续再分享CNV的综合案例应用。参考文献[1]. Clinical implications of copy number variations in autoimmune disorders FAU - Yim, Seon-Hee FAU - Jung, Seung-Hyun FAU - Chung, Boram FAU - Chung, Yeun-Jun. Korean J Intern Med, 2015. 30(3): p. 294-304.[2] Liu, M., Fang, L., Liu, S. et al. Array CGH-based detection of CNV regions and their potential association with reproduction and other economic traits in Holsteins. BMC Genomics 20, 181 (2019). [3] Stafuzza, N.B., Silva, R.M.d., Fragomeni, B.d. et al. A genome-wide single nucleotide polymorphism and copy number variation analysis for number of piglets born alive. BMC Genomics 20, 321 (2019). [4] Seol D, Ko BJ, Kim B, Chai H-H, Lim D, Kim H. Identification of Copy Number Variation in Domestic Chicken Using Whole-Genome Sequencing Reveals Evidence of Selection in the Genome. Animals. 2019; 9(10):809. [5] Kvist L, Honka J, Niskanen M, et al. Selection in the Finnhorse, a native all‐around horse breed[J]. Journal of Animal Breeding and Genetics, 2020.发布于 2021-05-28 18:43测序生物信息学基因组​赞同 25​​2 条评论​分享​喜欢​收藏​申请

拷贝数变异CNV的生物信息学分析(一) - 知乎

拷贝数变异CNV的生物信息学分析(一) - 知乎首发于Dr家硕的科研之路切换模式写文章登录/注册拷贝数变异CNV的生物信息学分析(一)法医鉴定​苏州大学 法医学硕士欢迎同行一起交流讨论 微信 forensic_JS QQ1956238898(一)CNV介绍 由基因组发生重排而导致的,一般指长度1 kb 以上的基因组片段的拷贝数增加或者减少, 主要表现为亚显微水平的重复或者缺失。因此称为“微”缺失/重复变异。2019-11-04 记录CNV数据分析学习(一)2019-11-05 记录CNV数据分析学习(二)(二)CNV测序技术 目前CNV测序主要分基因芯片、全基因组测序、全外显子测序三种,下面主要讲从基因芯片在CNV方面的应用。 一、基因芯片的分类1、基因芯片按领域分类主要可以分为: 1、基因组研究的SNP和CNV芯片(aCGH、affymetrix500K、snp5.0、snp6.0) 2、mRNA表达研究的基因表达谱芯片 3、microRNA芯片和LncRNA芯片 4、DNA甲基化芯片在SNP芯片领域,Illumina公司凭借GoldenGate技术和infinium技术占主要地位Affymetrix尽管也有SNP芯片,但是仍无法和Illumina公司相比。基因表达谱芯片领域,Affymetrix公司的芯片最为著名,Agilent和Illumina公司的芯片也很好。1、比较基因组杂交 Comparative genomic hybridization (CGH)CGH基于不同荧光标记测试的竞争性原位杂交和与正常的人类中期染色体有关的参考DNA。沿染色体长测量的荧光强度比与实验和reference中相应DNA序列的拷贝数之比大约成比例。 低分辨率,只有5-10Mb2、阵列CGHBacterial artificial chromosome (BAC) clone 细菌人工染色体克隆文库:是含有某种生物体全部基因的随机片段的重组DNA克隆群体,是进行全基因组测序、构建物理图谱、染色体筛查、基因筛选及基因图位克隆的基础。 phage artificial chromosome (PAC) clone 噬菌体人工染色体克隆3、 高密度寡核苷酸微阵列 high-density oligonucleotide microarrays通过单个DNA样本的杂交进行 信噪比 signal-to-noise ratio:使用限制性内切酶处理DNA样品成短片段,连接接头,使用通用的引物序列进行PCR扩增,经荧光标记后与芯片杂交。信号强度可确定基因型并估计拷贝数。3.Affymetrix基因表达谱芯片技术的原理[三种SNP芯片介绍 - 百度文库](三种SNP芯片介绍 - 百度文库)这个连接讲的通俗易懂很明白了4.对Affymetrix的这几种基因表达谱芯片进行比较新一代WT芯片的优势:它可以覆盖转录本上更多的区域,实验结果的代表性会更强它可以针对因为可变剪切所形成的不同转录本,分别设计探针,这样就可以知道不同转录本的表达量的变化了WT芯片可以检测LncRNA其中,Gene系列 比较基本,满足一般表达量检测需求;Exon系列 全面,精确表达量检测;HTA2 最佳,最全&最精确表达量;EG1.0 最佳,唯一能够获得转录本表达量5.Affymetrix芯片数据的处理方法我们通过芯片实验获取数据需要两个步骤:第一步由扫描设备对芯片进行扫描,得到荧光信号图像文件(DAT文件)第二步由系统自带的图形处理软件进行一系列图形处理与识别,从芯片图像中提取数据,得到CEL文件几个概念探针组(probe set):来自于同一个基因的探针对的集合。一个基因通常由11对或20对探针组成。CEL文件:存储每个探针的信号值和定位信息的文件。CDF文件:基因芯片探针排布的信息(哪个探针来自哪个探针组)Probe文件:提供探针的序列信息Affymetrix芯片原始数据最常用格式为CEL格式,这是我们处理芯片数据的出发点。因为Affymetrix公司的芯片分为传统的IVT芯片和新一代的WT芯片,所以针对这两种芯片平台产生的数据,我们需要用不同的R包来进行读取。旧版芯片用affy包读取CEL文件数据,新版芯片用oligo包读取CEL文件数据。读取和数据预处理方式参考:[用oligo包来读取affymetix的基因表达芯片数据-CEL格式数据 | 生信菜鸟团](用oligo包来读取affymetix的基因表达芯片数据-CEL格式数据 | 生信菜鸟团) [用affy包读取affymetix的基因表达芯片数据-CEL格式数据 | 生信菜鸟团](用affy包读取affymetix的基因表达芯片数据-CEL格式数据 | 生信菜鸟团) [【r<-生信|芯片分析】Bioconductor分析基因芯片数据](【r<-生信|芯片分析】Bioconductor分析基因芯片数据)(四)、Affymetrix SNP 6.0 芯片介绍Affymetrix公司主要推出了500k、SNP 5.0、SNP 6.0芯片Affymetrix Genome-Wide Human SNP Array 6.0是唯一可以真正将CNP(拷贝数多态性)转化成高分辨率的参考图谱的平台。主要应用领域包括全基因组SNP分型、全基因组CNV分型、全基因组关联分析、全基因组连锁分析。除了进行基因分型外,还为拷贝数研究和LOH研究提供帮助,从而能够进行:UPD检测、亲子鉴定、异常的亲代起源分析(针对UPD和缺失)、纯合性分析、血缘关系鉴定。链接:[Affymetrix SNP 6.0芯片](Affymetrix SNP 6.0芯片)(五)、拷贝数变异数据分析软件1、处理CGH芯片,可以选择基于R包rCGH对CGH芯片进行分析和可视化。2、PennCNV可以处理500K、SNP 5.0、SNP 6.0芯片,其中处理500K芯片过程中缺少了500K.hmm(作者回复说使用6.0.HMM文件);对于SNP 5.0、SNP 6.0芯片(1)先用Affymetrix power Tools对CEL文件进行背景处理、质量均一化、信号提取和汇总;(2)生成的原始信号文件以后再使用PennCNV-Affy:generate-affy-geno-cluster.pl对其进行规范化基因型;(3)规范化后的基因型再使用PennCNV-Affy:nomalize-affy-geo-cluster.pl生成LRR和BAF文件;(4)再根据PFB文件(人群频率文件)、信号强度文件、HMM模型文件、GCmodel文件call CNV,然后过滤CNV,再注释CNV。3、GISTIC可以处理500K、SNP 5.0、SNP 6.0芯片,其中处理500K芯片过程中缺少了500K.hmm(作者回复说使用6.0.HMM文件);对于SNP 5.0、SNP 6.0芯片(1)先用Affymetrix power Tools对CEL文件进行背景处理、质量均一化、信号提取和汇总;(2)生成的原始信号文件以后再使用PennCNV-Affy:generate-affy-geno-cluster.pl对其进行规范化基因型;(3)规范化后的基因型再使用PennCNV-Affy:nomalize-affy-geo-cluster.pl生成LRR和BAF文件;(4)使用DNAcopyR包(CBS循环二元分割法)对LRR和BAF文件进行片段化;(5)片段化之后的segment文件,使用GISTIC进行call CNVnumber然后可视化,GISTIC产生的文件也可以再maftools里面进行进一步的可视化。4、QuantiSNP软件可以处理500K和5.0芯片,直接从LRR和BAF文件生成CNV数的文件,中间没有segment文件了。5、Aroma也可以处理500K和5.0芯片,但是Aroma的运行环境是MaTLAB,并且我尝试了几次都是JER没有java环境,服务器上一直没有安装成功,所以这部分没有做。(六)、主流分析软件PennCNV在处理了6.0芯片的过程分析软件的选择可以参考这篇文献《Software comparison for evaluating genomic copy number variation for Affymetrix 6.0 SNP array platform》这篇文献最后推荐使用PennCNV作为call CNV的最优软件。大致流程就是: (1)Affymetrix Power Tools 处理CEL文件,包括质量均一化、信号汇总、基因型提取 (2)上一步生成的信号强度文件(信号文件和置信文件)使用PennCNV包分析 (3)上一步得到了LRR和BAF文件 PennCNV算法使用隐马尔可夫模型hidden Markov model (HMM),是基于使用每个探针的总信号强度和等位基因强度比、相邻SNP之间的距离、SNP的等位基因频率、可用的谱系信息的方法。(七)、Affymetrix power tool工具和PennCNV的下载和安装APT的下载和安装首先需要下载好Affymetrix power tool工具和PennCNV这两个软件,APT的下载最好有二进制文件(源码需要编译安装,比较麻烦)。PennCNV在Github里面有详细的下载步骤和WG-LAB的网站也有详细的使用说明,可自行检索。下载地址:[Affymetrix Affymetrix PowerTools Archived APT Downloads](Affymetrix Affymetrix PowerTools Archived APT Downloads),此处下载的是源码文件,放在Linux服务器的 ~/zjs/software路径下。下载的APT说明文档在:[Analysis Power Tools (APT) -- Release 2.11.4]从二进制文件进行安装======================================LINUX/OS X:添加文件中bin到环境变量中 例:export PATH=apt-1.16.0/bin:$PATH======================================PennCNV的下载和安装 (以及遇到错误排查方案) 以下内容是在各种操作系统上安装PennCNV的说明。PennCNV是用Perl和C语言混合编写的;因此建议重新编译源代码(除非您使用的是Windows,为此我预先为不同版本的Perl打包了许多dll文件)。事实上,用户报告的许多问题都可以简单地通过重新编译源代码来解决!## ========Linux system======= wget https://github.com/WGLab/PennCNV/archive/v1.0.5.tar.gz

tar xvfz v1.0.5.tar.gz

cd 1.0.5

make进入路径以后,有*.pl的Perl的文件,还有docs/、 lib/、kext/、example/ 文件目录Next, 进入到 kext/这个路径, 可根据需要改变 Makefile, 文件然后输入 make. 如果没有报错,就说明安装成功了!!!If you see an error message such as "khmm_wrap.c: In functionSWIG_AsCharPtrAndSize: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/handy.h:111:34: error: bool undeclared (first use in this function)", then just do a sed -i -e '/#undef bool/d' khmm_wrap.c to remove this statement.

If you see an error message such as "/usr/bin/ld: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/libperl.a(op.o): relocation R_X86_64_32S against PL_opargs can not be used when making a shared object; recompile with -fPIC", the best solution is just to install a new Perl such as 5.14.2, as explained below in "compilation from source" section. My guess is that the libperl.a itself is not compiled with -fPIC so there is really just no other way except to install another perl yourself (you can either do it manually as I illustrated below, or use perlbrew).

Now try to run the [detect_cnv.pl](http://detect_cnv.pl/) program:如果看到usage,说明安装成功。如果有error出现,建议运行下面一行命令./detect_cnv.pl附加说明:如果您在操作系统中安装PennCNV有问题,可能是由于在某些系统中与最新版本的Perl 5.14/5.18不兼容。要解决这个问题,可以使用perlbrew安装低版本的Perl,并在其上运行PennCNV,而无需重新编译。Perlbrew默认安装为非线程和非多perl版本。你可能想使用“perlbrew install perl-[insert version here]——thread——multi”。请参阅本页末尾的更多说明。PennCNV示例数据集 (这里不列出,因为我本人的研究是Affymetrix gw 6.0 芯片,与实例不一样这里不进行展开)## PennCNV-Affy指导说明这个包包含PennCNV-Affy指导说明和助手脚本,用于处理Affymetrix Mapping 500K,全基因组5.0和全基因组6.0数据作为原始CEL文件。有关如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接。下面的包是在2009年8月27日更新的,只修复了非常小的错误。它应该产生与以前版本相同的结果。PennCNV-Affy软件包的下载地址为:gw6.tar.gz包 [http://www.openbioinformatics.org/penncnv/download/gw6.tar.gz](http://www.openbioinformatics.org/penncnv/download/gw6.tar.gz)如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接:[PennCNV-Affy - PennCNV](PennCNV-Affy - PennCNV)(八)、APT处理CEL文件得到LRR和BAF文件目前有来自Illumina Report平台、BeadStudio平台、Affymetrix CEL平台的信号强度文件准备工作(在这里因为我的研究芯片是Affymetrix 6.0 的所以IIIumina和BeadStudio的先不讲,我们重点说一下Affymetrix 6.0) 将Affymetrix CEL文件转换为PennCNV要求的输入格式的,其过程在PennCNV- affy教程中详细描述如下。这个过程需要Affymetrix power tool (APT)软件下面 主要讲如何处理原始CEL文件并生成规范的基因型簇,然后将每个样本的信号强度转换为LRR/BAF值,然后生成 call CNV。要使该软件工作,需要使用至少100个CEL文件来生成一个相当好的集群文件。如果用户只有几个CEL文件,那么就需要使用PennCNV-Affy包中的默认规范集群文件,但在这种情况下,CNV调用可能不可靠。步骤1、根据原始CEL文件生成信号强度数据 第一步的目标是将Affymetrix基因分型文件生成,交叉标记归一化的信号强度数据文件,以便随后在PennCNV软件进行分析。 这个步骤有3个子步骤。 假设基因分型文件中的所有文件都存储在一个名为gw6/的目录中。在这个目录下有以下子目录(1)一个CEL/目录存储每个基因型样本的原始CEL文件,(2)一个lib/目录存储Affymetrix和PennCNV-Affy提供的库和注释文件。(3)我们将输出文件写入apt/目录。 我们需要下载PennCNV软件并解压缩文件。接下来下载PennCNV-Affy包和库文件并解压缩文件。这些文件是信号预处理和call CNV所必需的。将有一个lib/目录,其中包含一些针对全基因组6.0芯片的penncnv特定库文件;此外,全基因组5.0芯片和Mapping 500K芯片的库文件分别位于libgw5/和gw6/、lib500k/目录中。接下来从http://www.affymetrix.com/support/developer/powertools/index.affx下载Affymetrix Power Tools (APT)软件包。我们需要登录网站下载软件(注册是免费的) 子步骤1.1 从CEL文件中生成基因分型文件 这一步使用Affymetrix Power Tools (APT)中的APT -probeset-基因型函数,使用Birdseed算法(适用于全基因组6.0阵列)或BRLMM-P算法(适用于全基因组5.0阵列)从原始CEL文件中call基因分型。请注意,基因分型需要大量的CEL文件。 Genome-wide 6.0 array 在执行下面 命令之前,我们需要从http://www.affymetrix.com/Auth/support/downloads/library_files/genomewidesnp6_libraryfile.zip 下载基因组范围6.0芯片的库文件,并将解压后的文件保存到lib/目录这个路径下。这个路径目录中的几个文件,包括一个CDF文件和一个Birdseed模型文件,将用于call基因型步骤。apt-probeset-genotype -c lib/GenomeWideSNP_6.cdf -a birdseed --read-models-birdseed lib/GenomeWideSNP_6.birdseed.models --special-snps lib/GenomeWideSNP_6.specialSNPs --out-dir apt --cel-files listfile

ls -1 | grep ".CEL" > listfile ###这里是将当前文件夹下所有.cel结尾的文件名导入到listfile中上面的命令使用listfile中指定的所有CEL文件生成基因分型调用,并在apt/目录中生成几个输出文件。listfile包含一个CEL文件名列表,每行一个名称,第一行是cel_files。该命令的输出文件包括birdseed.confidence .txt、birdseed.report.txt和birdseed.calls.txt。此外,将生成一个birdseed.report.txt文件,这将有助于推断样本性别以生成sexfile(参见下面的子步骤1.3)。 对于一台典型的现代计算机来说,执行命令应该花费不到一天的时间。注意:Genome-wide 5.0 array和Mapping 500K array和Mapping 100K array和Axiom array芯片的处理请看PennCNV官网,这里不再赘述。 子步骤1.2 从CEL文件中提取等位基因特异性信号 这一步使用Affymetrix Power Tools软件从原始CEL文件中提取等位基因特异性信号值。这里等位基因特异性指的是,对于每个SNP,我们有一个a等位基因的信号测量和一个单独的B等位基因的信号测量。需要提前下载好PennCNV-Affy包的文件放在lib中下载地址:http://www.openbioinformatics.org/penncnv/download/gw6.tar.gzGenome-wide 6.0 arrayapt-probeset-summarize --cdf-file lib/GenomeWideSNP_6.cdf --analysis quant-norm.sketch=50000,pm-only,med-polish,expr.genotype=true --target-sketch lib/hapmap.quant-norm.normalization-target.txt --out-dir apt --cel-files listfile上面的命令读取listfile中指定的所有CEL文件中PM探头的信号强度值,对这些值进行分位数归一化,对数据进行中位数优化,然后为每个SNP生成A和B等位基因的信号强度值。在PennCNV-Affy包中提供了HapMap .quant-norm. normalize -target.txt文件:它使用所有的HapMap样本生成,作为归一化过程中使用的参考分位数分布,使不同基因分型项目的分位数归一化过程更具可比性。子步骤1.3生成典型基因型聚类文件此步骤生成一个文件,其中包含每个SNP或CN标记的规范聚类信息的参数,以便稍后使用该文件计算LRR和BAF值。 如果用户只有几十个CEL文件,则不太可能成功且准确地生成集群文件。在这种情况下,可以跳过此步骤,直接进入子步骤1.4,可以使用PennCNV-Affy包中提供的默认集群文件 。to generate canonical genotype clusters, use the generate_affy_geno_cluster.pl 脚本 in the downloaded PennCNV-Affy package (see gw6/bin/ directory).generate_affy_geno_cluster.pl birdseed.calls.txt birdseed.confidences.txt quant-norm.pm-only.med-polish.expr.summary.txt -locfile ../lib/affygw6.hg18.pfb -sexfile file_sex -out gw6.genoclusterPennCNV-Affy 包里面的affygw6.hg18.pfb , 这里面包括hg18的注释位点位置。file_sex 文件包括两列第一列是文件名.cel,第二列是每个文件的性别信息,中间用tab分割。 The file_sex file is important for chrX markers and chrY markers, such that only females are used for constructing canonical clusters for chrX markers and that only males are used for constructing canonical clusters for chrY markers.file_sex 文件的前10行内容如下10918.CEL male

10924.CEL male

11321_2.CEL female

10998.CEL female

11039.CEL female

11345.CEL female

10909.CEL female

11035.CEL female

11569_2.CEL female或者,可以在sexfile中使用1指定男性,使用2指定女性。如果某些CEL文件的性信息未知,则不需要将它们包含在性文件中Tip: thebirdseed.report.txtfile that was generated from Substep 1.1 above contains some information that might be helpful to construct the sexfile. Examine the report file and you'll find the columns such as "computed_gender" for each CEL file. A simple command, such as fgrep male birdseed.report.txt | cut -f 1,2 > file_sex can be used to generate the sexfile.注意:还是要提供file_sex文件,这样X和Y上的CNV才会被分析如果没有提供——sexfile参数,那么chrX和chrY标记将不会被处理,而生成的集群文件只适合于常染色体CNV检测!If the --sexfile argument is not provided, then chrX and chrY markers will not be processed and the resulting cluster file is only suitable for autosome CNV detection!子步骤1.4 计算LRR和BAF 这一步使用从上一步产生的等位基因特异性信号强度测量来计算每个个体中每个标记的Log R Ratio (LRR)值和B等位基因频率(BAF)值。使用下载的PennCNV-Affy包(参见gw6/bin/目录)中的normalize_affy_geno_cluster.pl脚本函数:normalize_affy_geno_cluster.pl gw6.genocluster quant-norm.pm-only.med-polish.expr.summary.txt -locfile ../lib/affygw6.hg18.pfb -out gw6.lrr_baf.txt上面的命令使用上一步生成的摘要文件并使用名为gw6的集群文件生成LRR和BAF值。最后一步生成的基因簇。location文件指定每个SNP或CN探针的染色体位置,该信息也打印在输出文件中,以便于未来的数据处理。对于典型的现代计算机,该命令处理1000-2000 CEL文件生成的文件需要几个小时。将生成一个新的以制表符分隔的文件gw6.lrr_baf.txt,其中每行包含一个SNP,每两列(LRR列和BAF列)包含一个样本。步骤2、将信号强度文件分割成单独的样本的文件,以便于PennCNV来处理gw6.lrr_baf.txt 文件内容如下:第一行被称为标题行,它包含关于每一列含义的信息。每一行包含所有个体的SNP信息。在生成gw6.lrr_baf.txt这个文件之后,我们需要将这个巨大的文件分割成单个的信号强度文件(每个样本一个),然后我们再按照PennCNV教程中列出的函数,使用与Illumina数组类似的函数生成CNV。唯一的不同是the HMM file (gw6.hmm) and the PFB file (affygw6.hg18.pfb and affygw5.hg18.pfb) 这两个文件可用于Affymetrix 芯片call CNV. 通过使用 kcolumn.pl 函数分割gw6.lrr_baf.txt文件,每两列 (Log R Ratio and B Allele Frequency)对应一个样本,要被分配到一个文件。执行命令行如下:kcolumn.plgw6.lrr_baf.txtsplit2-tab -head3-name -out gw6会生成一个能用PennCNV分析的signallistfile文件,里面第一行是 first line is gw6.NA06985_GW6_C, second line is gw6.NA06991_GW6_C.最后,从上述生成的LRR和BAF文件以后,使用DNAcopy R包(即循环二进制算法),生成sgementfile文件,最后用GISTIC2进行call CNV number 和可视化。LRR和BAF文件的详细介绍参考:https://www.pianshen.com/article/93411772096/(九)、APT+PennCNV处理Affymetrix芯片-纯脚本wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE36nnn/GSE36458/suppl/GSE36458_RAW.tar

tar -xvf GSE36458_RAW.tar

gunzip GSM893359_COOKY_p_TCGAb15_ICPp3_061909_GenomeWideSNP_6_D11_465902.CEL.gz

ls -1 | grep ".CEL$" > listfile

vi listfile

## 点击i 在首行输入 cel_files 点击ESC 输入:wq 然后就退出了

cat listfile

========子步骤1 从CEL文件中生成基因分型文件=============

apt-probeset-genotype -c ~/zjs/lib/CD_GenomeWideSNP_6_rev3/Full/GenomeWideSNP_6/LibFiles/GenomeWideSNP_6.cdf -a birdseed --read-models-birdseed ~/zjs/lib/CD_GenomeWideSNP_6_rev3/Full/GenomeWideSNP_6/LibFiles/GenomeWideSNP_6.birdseed.models --special-snps ~/zjs/lib/CD_GenomeWideSNP_6_rev3/Full/GenomeWideSNP_6/LibFiles/GenomeWideSNP_6.specialSNPs --out-dir ~/zjs/result/CNV --cel-files ~/zjs/data/listfile

####运行上面的代码以后就会生成三个文件###

=========子步骤2 从CEL文件中提取等位基因特异性信号==========

apt-probeset-summarize -cdf-file ~/zjs/lib/CD_GenomeWideSNP_6_rev3/Full/GenomeWideSNP_6/LibFiles/GenomeWideSNP_6.cdf --analysis quant-norm.sketch=50000,pm-only,med-polish,expr.genotype=true --target-sketch ~/zjs/lib/gw6/lib/hapmap.quant-norm.normalization-target.txt --out-dir ~/zjs/result/CNV --cel-files ~/zjs/data/listfile

======================================================

==========子步骤3 生成典型基因型聚类文件================

提前做好file_sex文件

###(base) ug0439@gs62:~/zjs/result/CNV$ fgrep male birdseed.report.txt | cut -f 1,2 > ~/zjs/result/CNV/file_sex

cd ~/zjs/result/CNV

perl ~/zjs/lib/gw6/bin/generate_affy_geno_cluster.pl birdseed.calls.txt birdseed.confidences.txt quant-norm.pm-only.med-polish.expr.summary.txt -locfile ~/zjs/lib/gw6/lib/affygw6.hg18.pfb -sexfile file_sex -out gw6.genocluster

==========子步骤4 计算LRR和BAF文件===================

cd ~/zjs/result/CNV

perl ~/zjs/lib/gw6/bin/normalize_affy_geno_cluster.pl gw6.genocluster quant-norm.pm-only.med-polish.expr.summary.txt -locfile ~/zjs/lib/gw6/lib/affygw6.hg18.pfb -out gw6.lrr_baf.txt

分割文件,每两列放在一个文件里面。

perl ~/zjs/software/PennCNV-1.0.5/kcolumn.pl gw6.lrr_baf.txt split 2 -tab -head 3 -name -out gw6

ls -1 | grep "gw6.*" > signallistfile

============call CNV命令如下(下面的可能不需要,看自己的需要的文件)===========================

perl ~/zjs/software/PennCNV-1.0.5/detect_cnv.pl -test -hmm ~/zjs/software/PennCNV-1.0.5/affy/libgw6/affygw6.hmm -pfb ~/zjs/software/PennCNV-1.0.5/affy/libgw6/affygw6.hg18.pfb -list signallistfile -log gw6.log -out gw6.rawcnv

=============接下来检查文件=============================

打开结果目录下的gw6.log文件,可以看到每个文件处理的情况,看一下波浪系数WF值

如果WF<-0.04或者WF>0.04,这时候用GC model来调整一下这个样本。代码如下

perl ~/zjs/software/PennCNV-1.0.5/detect_cnv.pl -test -hmm ~/zjs/software/PennCNV-1.0.5/affy/libgw6/affygw6.hmm -pfb ~/zjs/software/PennCNV-1.0.5/affy/libgw6/affygw6.hg18.pfb gw6.GSM893363_COOKY_p_TCGAb15_ICPp3_061909_GenomeWideSNP_6_E03_465894 -log gw6.GC_adjusted.log -out gw6.GSM893363.GC_adjusted.rawcnv -gcmodel ~/zjs/software/PennCNV-1.0.5/affy/libgw6/affygw6.hg18.gcmodel

再看一下WF值是不是在-0.04~0.04之间,是的话就对了。

看一下每个样本处理的LRR_SD 的值是否在0.24、0.3、0.35以下,如果是的话就可以接受啦

=============CNV注释-寻找CNV重叠和邻近的基因============

首先需要下载UCSC的knownGene注释(knownGene.txt.gz和refink.txt.gz)进行注释。

1:下载knownGene.txt.gz:

wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/knownGene.txt.gz

gunzip refGene.txt.gz

2.下载kgXref.txt.gz

wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/kgXref.txt.gz

gunzip kgXref.txt.gz

这里调用是使用hg18基因组坐标生成的(可以将文件改成hg18_knowngene.txt或hg18_kgXref.txt)

下面 这行代码是找CNV全覆盖的Gene

scan_region.pl sampleall.cnv knownGene.txt -knowngene -kgxref kgXref.txt > sampleall.cnv.rg18

下面 这行代码是通 为基因间CNV找到相邻的基因,我们可以使用--expandmax参数

scan_region.pl sampleall.cnv knownGene.txt -knowngene -kgxref kgXref.txt -expandmax 5m > sampleall.cnv.rg18

下面 这行代码是找 CNV 左右5M的基因

scan_region.pl sampleall.cnv knownGene.txt -knowngene -kgxref kgXref.txt -expandleft 5m | scan_region.pl sampleall.cnv knownGene.txt -knowngene -kgxref kgXref.tx -expandright 5m > sampleall.cnv.rg18

输出将包含四个额外的列,分别代表最接近的左基因、左距离、最接近的右基因和右距离。例如,上述五种CNV的注释如下:

提示:UCSC已知的基因注释比RefSeq注释更全面,但它包含太多的未字符转录(名称如AK091772或BC015880)。在大多数情况下,使用RefSeq注释来注释CNV可能是一个更好的主意。

下面 这刚代码是找出CNV覆盖的外显子区

scan_region.pl sampleall.cnv knownGene.txt --knowngene --kgxref kgXref.txt -refexon > sampleall.cnv.rg18

可视化单个样本显著染色体区域的CNV,下面 是代码(没运行过 有问题)

转到PennCNV包中的示例/目录,首先执行 runex.pl 1 --path_detect_cnv.pl ../detect_cnv.pl

visualize_cnv.pl -format plot -signal offspring.txt ex1.rawcnvDNAcopy处理LRR和BAF文件得到segmen文件#这节内容所需要的输入文件是从《APT+PennCNV处理Affymetrix芯片-纯脚本(机密)》得到

library(DNAcopy) #LRR和BAF文件→DNAcopy→产生segment文件(seg.mean)

options(stringsAsFactors = F)

getwd()

APT_LRR_BAF_gw6 <- read.table(file = "/home/ug0439/zjs/result/CNV/gw6.lrr_baf.txt", header = T,sep = "\t")##这里的文件改一下

#data(coriell)

#如果数据里面有X、Y,要先用下面的命令进行排序。

chrom <- ordered(coriell$Chromosome, levels=c(1:22,"X","Y"))

CNA.object <- CNA(cbind(APT_LRR_BAF_gw6$GSM893359_COOKY_p_TCGAb15_ICPp3_061909_GenomeWideSNP_6_D11_465902.CEL.Log.R.Ratio),

APT_LRR_BAF_gw6$Chr,

APT_LRR_BAF_gw6$Position,

data.type ="logratio",

sampleid ="GSM893359")

#运行后如果数据中有重复的探针出现,会有个warnings,但是不影响后续的结果。

#smooth.CNA 离散值的检测,同时对离散数据进行平滑处理。

#具体的参数我们就直接取默认值了,毕竟包开发者不会把不合理的值作为默认值。

smoothed.CNA.object <- smooth.CNA(CNA.object)

#segment 利用CBS算法进行数据的分割。循环二元分割算法(circular binary segmentation, CBS)是目前常用的SNParray 数据分段算法, 其优势在于利用相邻待测区间的数据均值差构建 t 统计量, 进而精确检测不同变异区域间的分段点。

#其中verbose参数比较有趣,是为了打印计算结果的,0不产生打印;1打印样本名称;2打印染色体信息;3打印当前的分割情况。默认状态是1。Undo.splits主要是为了确定是否设置分割的阈值。后面接着给出所设阈值的大小。

segment.smoothed.CNA.object <- segment(smoothed.CNA.object, verbose=3)

sdundo.CNA.object <- segment(smoothed.CNA.object, #应用撤销的方法去掉不必要的变化的点。

undo.splits="sdundo",

undo.SD=3,verbose=1)

#第一种方法是根据染色体和位置图对数据进行排序。红线对应的是分段的平均值。注意,点的颜色是交替的,表示不同的染色体

#其中主要的是参数plot.type。whole(w)指的绘制完整基因组;

#plateau(p)对全基因组进行排序;

#samplebychrom(s) 绘制每一个染色体图像;

#chrombysample(c)将每个染色体的所有样本展示在一起

plot(segment.smoothed.CNA.object, plot.type="p")

plot(segment.smoothed.CNA.object, plot.type="w")

plot(segment.smoothed.CNA.object, plot.type="s")

plot(segment.smoothed.CNA.object, plot.type="c")

head(segment.smoothed.CNA.object$output)

plot(sdundo.CNA.object, plot.type="w") #undo方法后生成的图变化点的确减少很多。

#上面是对单个样本进行处理,接下来需要用CNVtools软件 将单个样本整合到一个 segment文件里面,

#以便于后面的GISTIC分析GISTIC-处理DNAcopy后的segment文件-下游分析#============使用GISTIC对上游 DNAcopy 处理完的 segment 文件进行处理====##

========1、下载GISTIC 并解压 不需要make安装,因为这是二进制文件 直接./可以运行=============

wget -c ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTIC_2_0_23.tar.gz

========2、解压==========================

tar zxf GISTIC_2_0_23.tar.gz

========3、安装MCR_Installer============

cd MCR_Installer/ #解压包里面有MCR的文件,不需要下载

unzip MCRInstaller.zip

./install -mode silent -agreeToLicense yes -destinationFolder ~/安装到解压包里已经有的文件/GISTIC2/MATLAB_Compiler_Runtime/

注意,最后选项填入的路径需要是绝对路径

如果出现 java.lang.InternalError: Can't connect to X11 window server using ':0' as the value of the DISPLAY variable. 类似的错误,取消显示:

unset DISPLAY

成功没有报错就是成功了,最后软件有一些提示,需要后面设置一些环境变量:

========4、设置Matlab变量====================

echo "export XAPPLRESDIR=/home/ug0439/zjs/software/GISTIC/MATLAB_Compiler_Runtime/v83/X11/app-defaults:\$XAPPLRESDIR" >> ~/.bashrc

source ~/.bashrc #这里路径的设置可以看屏幕上输出的路径填进去

========5、运行GISTIC示例文件================

cd ../

./run_gistic_example

如果在运行,没有报错就证明已经安装成功。

========6、运行待分析的文件===================

分析过程中输入的文件:最好是将癌症样本 01、癌旁正常样本 11、等不同类型样本分开进行CNV处理。(详细的脚本佳敏给了在硬盘里面-处理文件肿瘤和正常组织分类脚本.R)

vi run_gistic_example #可以复制一份副本,在这里面进行修改

basedir=/home/ug0439/JM_CNV_DataProcess_Result/allTypeSample_result/41.01_80 #设置输出路径

mkdir -p $basedir

segfile=/home/ug0439/masked_cnv-1/group_by_sampleid/41.eye_and_adnexa_cnvs_160_SampleType01_80.txt #指定待分析的segment文件

refgene=/home/ug0439/GISTIC/install_GISTIC_soft/refgenefiles/hg19.UCSC.add_miR.140312.refgene.mat #参考基因组在解压文件包里面有ref,重点注意使用哪一个refgene

./gistic2 -b $basedir -seg $segfile -refgene $refgene -genegistic 1 -smallmem 1 -broad 1 -brlen 0.5 -conf 0.90 -armpeel 1 -savegene 1 -gcm extreme -rx 1

=========7、如果分析过程中有overlap的情况========

如果分析中遇到有的文件是overlap的,需要去除overlap,去除overlap的代码如下

使用方法是在Linux服务器命令行直接输入

Rscript preprocess.R input.seg 5 #Input.seg 是输入的文件例如 41.eye_and_adnexa_cnvs_160_SampleType01_80.txt 5 至少5个探针

========8、详细的preprocess.R 代码如下========

#! /usr/bin/env Rscript

# Copyright @ 2020, Shixiang Wang

# Input and Output are a standard Segment file for GISTIC

#

# Usage: Rscript preprocess.R input.seg [minimal_prob, default 0]

#

# Example: Rscript preprocess.R input.seg 5

# Filter segments with less than 5 probes and then clean overlap segments

# by weighted multiplication

message("Loading dependent packages...")

library(data.table)

library(tidygenomics)

message("Parsing input arguments...")

args <- commandArgs(trailingOnly = TRUE)

if (length(args) < 2) {

args[2] <- 0L

} else {

args[2] <- max(0L, as.integer(args[2]))

}

message("Reading file...")

data <- fread(args[1])

colnames(data) <- c("Sample_ID", "Chromosome", "Start", "End", "Num_Probes", "Segment_Mean")

if (args[2] != 0) {

message("Filtering segments with at least ", args[2], " probes...")

nr <- nrow(data)

data <- data[Num_Probes >= args[2]]

message(nr - nrow(data), " rows dropped.")

}

drop_overlaps <- function(x) {

x2 <- genome_cluster(

x,

by = c("Chromosome", "Start", "End"),

max_distance = 0) %>%

data.table::as.data.table()

x2[, .(

Chromosome = unique(Chromosome),

Start = max(min(Start), 1),

End = max(End),

Num_Probes = sum(Num_Probes),

Segment_Mean = sum(Segment_Mean * Num_Probes) / sum(Num_Probes)

), by = cluster_id]

}

message("Cleaning overlaps...")

data_drop <- data[, drop_overlaps(.SD), by = Sample_ID]

data_drop$cluster_id <- NULL

message("Outputing...")

outfile <- sub('\\..[^\\.]*$', '', args[1])

data.table::fwrite(data_drop, paste0(outfile, "_clean_overlap.txt"), sep = "\t")

message("Done.")发布于 2021-10-12 15:47生物信息学​赞同 20​​1 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录Dr家硕的科研之路记录博士的学习成长

基因里面,所谓的拷贝数,到底是什么意思呢? - 知乎

基因里面,所谓的拷贝数,到底是什么意思呢? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册基因生物化学分子生物学细胞生物学基因里面,所谓的拷贝数,到底是什么意思呢?关注者17被浏览250,247关注问题​写回答​邀请回答​好问题 3​添加评论​分享​7 个回答默认排序现世基本法杰斯​生物专业研究生在读​ 关注字面意思啊。就是说这个序列在基因组里出现了多少次啊。发布于 2019-07-24 00:32​赞同 11​​添加评论​分享​收藏​喜欢收起​X-Omics​​中南大学 遗传学硕士​ 关注拷贝数变异(copy number variation,CNV)是指染色体上大于1 kb的DNA片段的增加或者减少,主要表现为亚显微水平的缺失和重复。 致病性CNV可导致一类重要的遗传病——基因组病,其临床表型复杂多变,主要包括智力低下、发育滞后、面容异常、多发畸形等[1]。2020年1月,美国休斯顿德克萨斯大学健康科学中心生物医学信息学学院计算系统医学中心Xiaobo Zhou课题组在Nature Communication上发表题为“CaSpER identifies and visualizes CNV events by integrative analysis of single-cell or bulk RNA-sequencing data”文章。他们开发了一个可以根据单细胞和bulk的转录组数据分析拷贝数变异及可视化工具。RNA测序实验产生了大量有关基因表达水平的信息。尽管它们主要用于量化基因表达水平,但它们包含生物学上重要得多的信息,例如拷贝数变异(CNV)。在这里,我们介绍CaSpER,这是一种信号处理方法,用于使用散装或单细胞RNA测序数据进行多尺度分辨率的聚焦和大规模CNV事件鉴定,可视化和综合分析。CaSpER为CNV调用整合了表达信号和等位基因移位信号的多尺度平滑处理。等位基因移位信号可测量杂合度丢失(LOH),这对于CNV识别很有价值。CaSpER采用一种有效的方法从读物中生成全基因组的B等位基因频率(BAF)信号图,并将其用于校正CNV信号。CaSpER增加了RNA测序数据集的实用性,并补充了其他工具,可对单细胞和大量RNA测序数据的基因组和转录组学景观进行完整的表征和可视化。CaSpER算法流程安装CaSpERYou may need to install libcurl-devel, libopenssl-devel openssl-devel and libxml2-devel

ex: sudo yum -y install libxml2-devel libcurl-devel libopenssl-devel openssl-devel

source("https://bioconductor.org/biocLite.R")

biocLite(c('biomaRt', 'limma', 'GO.db', 'org.Hs.eg.db', 'GOstats', 'GenomicRanges'))

BiocManager::install(c('biomaRt', 'limma', 'GO.db', 'org.Hs.eg.db', 'GOstats', 'GenomicRanges'))

require(devtools)

install_github("akdess/CaSpER")从RNA-Seq比对的BAM文件中提取表达量Step 1. 合并单细胞scRNA-seq的比对结果文件(required only for single-cell studies)bamtools merge -list -out _merged.bam

samtools index _merged.bamStep 2. 从RNA-Seq的bam文件中提取BAF值samtools view | ./BAFExtract -generate_compressed_pileup_per_SAM stdin 50 0; ./BAFExtract -get_SNVs_per_pileup 20 4 0.1 标准化表达量library(CaSpER)

data (yale_meningioma)

kable(yale_meningioma$data[1:5, 1:5])行代表基因,列代表样本或细胞。Cytoband可以从UCSC上下载http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/cytoBand.txt.gz

data(hg19_cytoband)

kable(cytoband[1:5, ])HG38 cytoband可以由下面的代码生成先从UCSC下载需要的信息http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/cytoBand.txt.gz

cytoband <- read.delim("cytoBand.txt", header=F)

cytoband <- data.frame(V1=gsub("chr", "", cytoband[,1]), V2=cytoband[,2], V3=cytoband[,3], V4=substring(cytoband$V4, 1, 1), stringsAsFactors=F)

start <- do.call(rbind, lapply(split(cytoband$V2, paste0(cytoband$V1, cytoband$V4)), min))

end <- do.call(rbind, lapply(split(cytoband$V3, paste0(cytoband$V1, cytoband$V4)), max))

cytoband <- data.frame(V1=gsub("p", "", gsub("q", "", rownames(start))), V2=start, V3=end, V4=rownames(start), stringsAsFactors=F)

cytoband <- cytoband [as.vector(unlist(sapply(c(1:22, "X"), function(x) which(cytoband$V1 %in% x)))), ]

cytoband$V4[grep("q", cytoband$V4)] <- "q"

cytoband$V4[grep("p", cytoband$V4)] <- "p"

rownames(cytoband) <- NULL从UCSC上下载着丝粒的信息#curl -s "http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/cytoBand.txt.gz" | gunzip -c | grep acen | headBAFExtract结果文件可以这样读取loh <- readBAFExtractOutput ( path="./meningioma_baf\\", sequencing.type="bulk")

names(loh) <- gsub(".snp", "", names(loh))##识别CNV事件发生可以使用 CreateCasperObject() 和 runCaSpER(casper_object)。创建casper对象object <- CreateCasperObject(raw.data=data,loh.name.mapping=loh.name.mapping, sequencing.type="bulk",

cnv.scale=3, loh.scale=3, matrix.type="normalized", expr.cutoff=4.5,

annotation=annotation, method="iterative", loh=loh, filter="median",

control.sample.ids=control.sample.ids, cytoband=cytoband)以上CaSpER对象存储了与数据集相关的所有信息,包括表达数据、n个(默认:3个)不同尺度的平滑表达数据、原始baf信号、平滑baf信号、注释、控制样本id。loh.name.mapping:包含表达信号和baf信号之间的样本id映射。对于大量的测序数据,将有一对一的映射,因为baf信号是单独为所有样品产生的。kable(yale_meningioma$loh.name.mapping[1:5, ])然而,在单细胞测序数据中,由于baf信号是在汇集了来自同一病人的所有细胞后产生的,所以会有一个对多个的映射。data("scell_gbm")

kable(scell_gbm$loh.name.mapping[1:5, ])BAF和表达量的配对比较创建casper对象后,我们对表达信号的所有尺度进行HMM,并将HMM片段状态与等位基因频移信息进行整合。CaSpER算法使用表达信号和BAF信号分解的所有配对比较来输出CNV调用。final.objects <- runCaSpER(object, removeCentromere=T, cytoband=cytoband, method="iterative")多个尺度的CNV以及BAF和表达信号的多次配对比较的协调和总结CNV呼叫的配对比较和分配产生了大量的每个尺度的信息,必须对其进行总结,以便对基因组的每个位置分配一个关于其CNV状态的最终呼叫,即缺失/扩增/中性。我们使用一种基于一致性的方法来协调成对的比较: 这些事件被放在一起,如果在至少一定数量的成对比较中,CNV调用是一致的,我们就为一个基因或大规模事件分配最终的CNV。Large-Scale CNV Summarization在N×M的配对比较中,我们给每个染色体臂分配一个大规模的CNV调用。接下来,对于每个染色体臂,我们询问大规模CNV调用是否与N×M大规模CNV调用中的至少γ一致。N表示表达信号的最高平滑尺度的指数。thr代表一致的CNV呼叫的最小百分比,即75%(9个尺度中至少有7个),同时将最终的CNV(安培/缺失/中性)呼叫分配给一个片段/基因/染色体臂。finalChrMat <- extractLargeScaleEvents (final.objects, thr=0.75)Segment based CNV Summarization.基于片段的总结旨在为最终的片段集生成一套CNV调用,这些片段是通过尺度的比较来计算的。我们首先比较来自不同表达尺度的片段,生成一致的片段集。对于最终集合中的每个片段,如果在N×M CNV调用中存在超过γ(默认=6)个一致的CNV调用,我们将一致的CNV调用分配给片段。当呼叫之间没有一致性时,我们将一个中性的CNV状态分配给片段。gamma <- 6

all.segments <- do.call(rbind, lapply(final.objects, function(x) x@segments))

segment.summary <- extractSegmentSummary (final.objects)

loss <- segment.summary$all.summary.loss

gain <- segment.summary$all.summary.gain

loh <- segment.summary$all.summary.loh

loss.final <- loss[loss$count>gamma, ]

gain.final <- gain[gain$count>gamma, ]

loh.final <- loh[loh$count>gamma, ]Gene based CNV Summarization.all.summary<- rbind(loss.final, gain.final)

colnames(all.summary) [2:4] <- c("Chromosome", "Start", "End")

rna <- GRanges(seqnames = Rle(gsub("q", "", gsub("p", "", all.summary$Chromosome))),

IRanges(all.summary$Start, all.summary$End))

ann.gr <- makeGRangesFromDataFrame(final.objects[[1]]@annotation.filt, keep.extra.columns = TRUE, seqnames.field="Chr")

hits <- findOverlaps(geno.rna, ann.gr)

genes <- splitByOverlap(ann.gr, geno.rna, "GeneSymbol")

genes.ann <- lapply(genes, function(x) x[!(x=="")])

all.genes <- unique(final.objects[[1]]@annotation.filt[,2])

all.samples <- unique(as.character(final.objects[[1]]@segments$ID))

rna.matrix <- gene.matrix(seg=all.summary, all.genes=all.genes, all.samples=all.samples, genes.ann=genes.ann)可视化obj <- final.objects[[9]]

plotHeatmap(object=obj, fileName="heatmap.png",cnv.scale= 3, cluster_cols = F, cluster_rows = T, show_rownames = T, only_soi = T)plotLargeScaleEvent (object=obj, fileName="large.scale.events.png") plotGEAndGT (chrMat=finalChrMat, genoMat=genoMat, fileName="RNASeqAndGT.png")plotBAFAllSamples (loh = obj@loh.median.filtered.data, fileName="LOHAllSamples.png") plotBAFOneSample (object, fileName="LOHPlotsAllScales.pdf") plotBAFInSeperatePages (loh=obj@loh.median.filtered.data, folderName="LOHPlots") plotGEAndBAFOneSample (object=obj, cnv.scale=3, loh.scale=3, sample= "MN-5")plotSingleCellLargeScaleEventHeatmap(finalChrMat, sampleName="MGH31", chrs=c("5p", "14q"))## calculate significant mutual exclusive and co-occurent events

results <- extractMUAndCooccurence (finalChrMat, loh, loh.name.mapping)

## visualize mutual exclusive and co-occurent events

plotMUAndCooccurence (results)一些可以用到的说明:Yale meningioma Bulk RNA-Seq datasetTCGA-GBM Bulk RNA-Seq datasetTCGA-BRCA Bulk RNA-Seq datasetGBM Single-cell RNA-Seq dataset参考^1 https://rs.yiigle.com/CN511374202009/1246196.htm编辑于 2023-05-10 18:38​赞同 18​​添加评论​分享​收藏​喜欢

拷贝数目变异_百度百科

变异_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心收藏查看我的收藏0有用+10拷贝数目变异播报讨论上传视频大小介于1kb至3Mb的DNA片段的变异拷贝数目变异也称拷贝数目多态,是一种大小介于1kb至3Mb的DNA片段的变异,在人类基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性的总数,极大地丰富了基因组遗传变异的多样性。中文名拷贝数目变异外文名CNV别    名拷贝数目多态本    质介于1 KB至3 MB的DNA片段的变异目录1简介2解释3研究进程4遗传学效应5主要原因6重要作用简介播报编辑拷贝数目变异(拷贝数变异,CNV)也称拷贝数目多态(拷贝数多态性,CNP),是一种大小介于1 KB至3 MB的DNA片段的变异,在人类基因组中广泛分布其覆盖的核苷酸总数大大超过单核苷酸多态性(单核苷酸多态性,SNP)位点的总数,并就CNV在动物基因组中的研究进行了展望。 [1]解释播报编辑拷贝数目变异(copy—number variant,CNV)也称拷贝数目多态(copy—number polymorphism,CNP),是一种大小介于1kb至3Mb的DNA片段的变异,在人类基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(single nucleotide polymorphisms,SNPs)的总数,极大地丰富了基因组遗传变异的多样性。CNV对于物种特异的基因组构成、物种的演化和系统发育以及基因组某些特定区域基因的表达和调控可能具有非常重要的生物学意义。 [1]拷贝数目变异比如,一个基因在染色体中的一条染色单体上数目为1,在染色体复制过程中,因为各种原因,导致在复制结束之后,子代染色体中的一条染色单体上数目由1变成2或者n(n为不等于1的自然数),就发生了拷贝数目变异。研究进程播报编辑存在于自然群体中DNA片段的拷贝数变异(copy number variations, CNVs)是基因组结构性差异的常见形式. 人们早已意识到它在人群中普遍存在, 并设计出多种实验方法对其进行检测和量化. 伴随着实验技术的进步, 人群的CNV 图谱被不断完善、细化; 许多CNVs 和疾病的相关性被陆续报道. 对复杂疾病的CNV 关联研究已成为当前医学遗传学研究的重要内容。 [2]遗传学效应播报编辑DNA的变异主要包括染色体数目的变异和染色体结构的变异。前者包括染色体组成倍地增加或减少,以及单条染色体的增加或减少,后者主要指染色体片段的重复、缺失、倒位和易位等。这些变异均会产生显著的遗传学效应, 导致突变个体的表型发生严重改变甚至使突变个体死亡。使用核型分析(包括带型分析, 如G带、C带等)可以对染色体结构的变异进行甄别( 一般不能甄别臂间倒位pericentric inversion), 但染色体结构变异图谱的清晰度较差, 变异幅度必须大于3 Mb才可能检测到。荧光原位杂交技术使用特异性探针同细胞中期 分裂相的染色体 (或DNA纤维)杂交, 能显著提高变异图谱的清晰度,但由于工作量十分巨大, 该技术在全基因组范围的广泛应用受到很大限制。主要原因播报编辑随着DNA测序技术和计算机技术的日益完善和发展, 研究者们在DNA水平上发现了丰富的遗传变异。这些变异包括单核苷酸多态性(single nucleotidepolymorphisms, SNPs), 各种短的串联重复序列(variable number of tandem repeats, VNTRs), 如小卫星DNA(minimicrosatellites) 、微卫星DNA (microsatellites)以及小片段的插入、缺失、重复、倒位、易位等(一般小于1 kb)。由于这类变异在基因组中分布普遍而且密度较大(如在人类基因组中,SNP的总数大于1×107, 平均密度为1 SNP/300 bp),研究者们因此认为这类变异是基因组中最主要的变异, 是导致个体间表型差异及各种遗传性疾病及疾病易感性的主要原因。重要作用播报编辑由于测序费用的限制(现阶段还不可能对一个群体的多个个体进行基因组测序)及核型分析图谱清晰度的局限性, 一种大小介于1 kb至3 Mb的DNA结构变异(submicroscopic structural variation)并未被充分地认识到。随着DNA芯片技术的逐步发展, 研究者们发现, 在人类基因组中存在大量大于1 kb但小于3 Mb的DNA片段多态, 包括片段的插入、缺失、重复等。这种多态被称作拷贝数目变异(copy-number variant, CNV), 或拷贝数目多态(copy-number polymorphism, CNP)。由于其发生的频率远远高于染色体结构变异, 而且在整个基因组中覆盖的核苷酸总数大大超过SNP的总数(Redon etal., 2006; Hinds et al., 2006; Wong et al., 2007), 研究者们认为, CNV可能和表型变异紧密关联, 同时在物种的演化和发展中发挥着重要作用(Beckmann etal., 2007)。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

拷贝数变异_百度百科

异_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心拷贝数变异播报讨论上传视频长度为1 kb 以上的基因收藏查看我的收藏0有用+10本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!拷贝数变异(Copy number variation, CNV)是由基因组发生重排而导致的, 一般指长度为1 kb 以上的基因。中文名拷贝数变异外文名Copy number variation原    因基因组发生重排而导致的长    度1 kb 以上简    称CNV主要表现亚显微水平的缺失和重复目录1概念2研究方法概念播报编辑拷贝数变异(Copy number variation, CNV)是由基因组发生重排而导致的, 一般指长度为1 kb 以上的基因组大片段的拷贝数增加或者减少, 主要表现为亚显微水平的缺失和重复。CNV 是基因组结构变异(Structuralvariation, SV) 的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism), 是人类疾病的重要致病因素之一。CNV和SNP的对比 [1]研究方法播报编辑用来进行全基因组范围的 CNV 研究的方法有: 基于芯片的比较基因组杂交技术(array-based comparative genomic hybridization, aCGH)、SNP 分型芯片技术和新一代测序技术。CNV的形成机制有多种, 并可分为DNA重组和DNA错误复制两大类。CNV可以导致呈孟德尔遗传的单基因病与罕见疾病, 同时与复杂疾病也相关。其致病的可能机制有基因剂量效应、基因断裂、基因融合和位置效应等。对 CNV的深入研究, 可以使我们对人类基因组的构成、个体间的遗传差异、以及遗传致病因素有新的认识。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

求中文解释,拷贝数变异(copy number variation,CNV)是指什么? - 知乎

求中文解释,拷贝数变异(copy number variation,CNV)是指什么? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册基因遗传学脱氧核糖核酸(DNA)生物学23andMe求中文解释,拷贝数变异(copy number variation,CNV)是指什么?关注者3被浏览20,758关注问题​写回答​邀请回答​好问题​1 条评论​分享​4 个回答默认排序知乎用户​哈尔滨医科大学 遗传学博士22号染色体明星疾病:最常见的CNV来喽6006 播放 · 6 赞同22号染色体上有一个当之无愧的明星区域,位于22q11.2,我们称之为:22q11.2微缺失综合征。这种疾病对应的变异类型称为拷贝数变异(英文简称CNV),CNV是指基因组片段1kb以上的缺失或重复。22q11.2微缺失综合征是我们目前人类已知“最常见”的微缺失综合征。在新生儿中的发生率为:1/4000,因此这个片段目前也已成为孕早期无创筛查的必选疾病。发布于 2022-06-27 07:35· 259 次播放​赞同 1​​添加评论​分享​收藏​喜欢收起​匿名用户正常人这段序列或者说这个基因是一个,称为1个拷贝;我有两个,就称为2个拷贝,就不正常了,就是说我在这个基因上发生了拷贝数变异。发布于 2015-04-28 12:44​赞同 3​​7 条评论​分享​收藏​喜欢收起​​

拷贝数变异分析 | CNV芯片和NGS解决方案

拷贝数变异分析 | CNV芯片和NGS解决方案

产品 学习 公司 支持 Recommended Links

产品

仪器

试剂盒和试剂

选择工具

软件和分析

服务

热门产品

浏览所有产品

仪器

测序平台

芯片扫描仪

所有仪器

NovaSeq X梦无垠,创无限。

了解更多

试剂盒和试剂

文库制备试剂盒

测序试剂

芯片试剂盒

临床研究产品

所有试剂盒和试剂

全新NextSeq 1000/2000 P1和P2试剂盒(600个循环)

全新配置支持实现更长读长,数据产出更高,适用于免疫组库分析、鸟枪法宏基因组学等方法

了解更多

选择工具

文库制备和芯片试剂盒选择器

基因panel和芯片查找工具

测序仪比较工具

DesignStudio定制实验分析设计器

更多工具

文库制备试剂盒选择器: Infinium OmniExpressExome-8 Kit

高性能、快速、集成的工作流程,适用于人类全基因组测序等灵敏应用

寻找合适的试剂盒

软件和分析

BaseSpace 序列中心

BaseSpace 应用程序

DRAGEN Bio-IT 平台

TruSight 软件套组

BaseSpace 变异解释器

MyIllumina 客户面板

所有软件和生物信息学产品

DRAGEN v4.2

新功能包括提高SNV和SV检出准确性、改进小CNV检出准确性以及新的靶向检出程序

了解更多

服务

产品支持服务

Illumina Proactive仪器性能服务

我们的仪器性能服务有助于缩短意外停机时间,并尽可能减少仪器重新验收

了解更多

热门产品

AmpliSeq for Illumina

Illumina DNA Prep

Illumina RNA Prep with Enrichment

NextSeq 2000测序系统

TruSight Oncology 500产品家族

所有热门产品

Illumina DNA Prep with Exome 2.0 Plus Enrichment

全外显子组测序试剂盒,包括文库制备和杂交试剂、外显子组探针panel、片段选择磁珠和标签

立即订购

学习

感兴趣的领域

工艺

技术

培训

文献

数据分析和信息学

查看所有学习选项

感兴趣的领域

研究

癌症研究

微生物学

农业基因组学

复杂疾病基因组学

细胞和分子生物学

临床

生殖健康

肿瘤学

遗传 & 罕见疾病

所有领域

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

工艺

测序

DNA测序

RNA测序

甲基化测序

文库制备

芯片

热门基因组学应用

基因分型

基因表达分析

表观遗传学

基因组编辑

所有技术

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

技术

NGS新手指南

我们的技术

新一代测序

长读长测序

芯片技术

测序方法探索工具

所有技术

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

培训

Illumina的资源和工具

面向新手的新一代测序

基因组学教育

Illumina培训中心

Illumina学院

播客

医学遗传学

所有培训

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

文献

同行评审文献汇总

客户案例

iCommunity访谈

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

数据分析和信息学

基础架构和流程设置

测序数据分析

生物学数据解读

所有信息学教育

通过灵长类动物了解人类自身的基因组

一种基于自然选择训练的新算法能够找出人类的致病变异

了解更多

公司

关于我们

新闻中心

职业生涯

投资方信息

与我们合作

法务

查看所有公司信息

关于我们

办公地点

管理团队

董事会

伦理咨询委员会

公司简介

企业社会责任

iHope慈善测序

管理 & 行为准则

关于我们的更多信息

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

新闻和活动

新闻中心

专题文章

博客

新闻稿

新闻中的Illumina

Illumina图片

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

职业生涯

概述

搜索职位

职业发展

员工故事

Illumina全球办公室分布及相关福利

更多职业信息

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

投资方信息

概述

股东活动

财务信息

股票信息

企业管理

所有投资方信息

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

与我们合作

MyIllumina客户界面

仪器购买选项

Instrument Buying Options

Illumina加速器(Illumina Accelerator)创业公司资助

分销商

供应商

合作伙伴

所有联系信息

更多商业解决方案

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

法务

销售条款和条件

报告合规问题

隐私政策

管理&行为准则

所有法律信息

因美纳创新蓝图

查看在因美纳基因组学论坛上发布的我们最新技术和产品的实时回放

立即观看

支持

试剂盒与仪器

文档和培训

工具

服务

更多资源

联系我们

友情链接

查看所有支持

产品支持

仪器支持+下拉列表

文库制备试剂盒支持

芯片支持

软件支持

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

文档和培训

文档

安全数据表

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

工具

测序覆盖度计算器

自定义实验方案选择器

文库制备和芯片试剂盒选择器

所有支持工具

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

服务

产品支持服务

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

更多资源

技术公告

Illumina接头序列

共享桌面

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

联系我们

分销商

供应商

所有联系信息

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

友情链接

因美纳在线讲堂

在线社区

Illumina DRAGEN二级分析v4.2

获取DRAGEN二级分析v4.2的使用说明

了解更多

推荐链接

特色产品和服务

选择和规划工具

软件和分析

访谈和新闻

方法和教育

方法和教育

特色产品

软件和分析

访谈和新闻

方法和教育

特色产品

选择和规划工具

软件和分析

访谈和新闻

方法和教育

软件和分析

访谈和新闻

特色产品

方法和教育

特色产品

选择和规划工具

软件和分析

访谈和新闻

方法和教育

特色产品

选择和规划工具

软件和分析

访谈和新闻

方法和教育

特色产品

选择和规划工具

访谈和新闻

方法和教育

特色产品

选择和规划工具

访谈和新闻

更改已选感兴趣的领域

特色产品和服务

AmpliSeq for Illumina Cancer Hotspot Panel v2AmpliSeq for Illumina Comprehensive Cancer PanelTruSight Oncology 500iSeq 100系统NextSeq 550系统仪器服务和咨询所有癌症基因组学产品

深入探索癌症,助力精准测试

能够实现血液和组织的肿瘤全景变异分析方案

查看产品系列

选择和规划工具

文库制备和芯片试剂盒选择器基因panel和芯片查找工具测序仪比较工具测序覆盖度计算器自定义实验方案选择器更多工具

深入探索癌症,助力精准测试

能够实现血液和组织的肿瘤全景变异分析方案

查看产品系列

软件和分析

BaseSpace Sequence Hub应用程序BaseSpace Variant InterpreterBaseSpace Correlation EngineDesignStudio定制实验分析设计器所有信息学产品

深入探索癌症,助力精准测试

能够实现血液和组织的肿瘤全景变异分析方案

查看产品系列

访谈和新闻

客户访谈脑肿瘤研究新一代测序panel更多访谈特色新闻TruSight Oncology 500可支持液体活检研究更多新闻

深入探索癌症,助力精准测试

能够实现血液和组织的肿瘤全景变异分析方案

查看产品系列

方法和教育

癌症基因组学研究

癌症测序方法

免疫肿瘤学研究

癌症表观遗传学

所有的癌症基因组学研究

临床癌症研究

体细胞突变

生殖系突变

肿瘤突变负荷

所有的临床癌症研究

培训

深入探索癌症,助力精准测试

能够实现血液和组织的肿瘤全景变异分析方案

查看产品系列

方法和教育

微生物测序方法16s和ITS rRNA测序宏基因组学测序微生物全基因组测序微生物转录组学人类微生物组分析传染性疾病监测培训(Illumina大学)所有微生物基因组学研究

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

特色产品

Nextera DNA FlexiSeq 100系统仪器服务和咨询所有微生物基因组学产品

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

软件和分析

BaseSpace Sequence Hub应用程序BaseSpace Correlation Engine所有信息学产品

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

访谈和新闻

客户访谈

微生物组研究有助于完善药物发现

探究神秘的微生物世界

特色新闻

冠状病毒的特征

IDbyDNA合作开发NGS传染病解决方案

绘制斯德哥尔摩的地铁微生物组图

更多新闻

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

方法和教育

农业基因组学

动植物基因分型

动植物测序

商业化农业应用

农业基因组学联盟

培训(Illumina大学)

Solutions for applied animal and plant genomics

Learn about genotyping tools for genetic improvement of crops and livestock

Watch Webinar

特色产品

Illumina DNA Prep

Infinium iSelect Custom Genotyping BeadChips

NovaSeq 6000系统

所有农业基因组学产品

Solutions for applied animal and plant genomics

Learn about genotyping tools for genetic improvement of crops and livestock

Watch Webinar

选择和规划工具

文库制备和芯片试剂盒选择器测序仪比较工具基因panel和芯片查找工具DesignStudio定制实验分析设计器更多工具

Solutions for applied animal and plant genomics

Learn about genotyping tools for genetic improvement of crops and livestock

Watch Webinar

软件和分析

BaseSpace Sequence Hub应用程序GenomeStudio软件所有信息学产品

Solutions for applied animal and plant genomics

Learn about genotyping tools for genetic improvement of crops and livestock

Watch Webinar

访谈和新闻

客户访谈

基因组学如何改变了牛群管理

Large-Scale Bull Genome Sequencing

特色新闻

2020 Agricultural Greater Good Grant Winner

2019 Agricultural Greater Good Grant Winner

地球生物基因组计划

更多新闻

Solutions for applied animal and plant genomics

Learn about genotyping tools for genetic improvement of crops and livestock

Watch Webinar

方法和教育

复杂疾病基因组学

疾病关联研究

基因靶点识别和通路分析

多基因风险评分

方法

Illumina培训

分秒必争。无PCR的新制备方法可加快全基因组测序

使用新的文库制备试剂盒助力罕见遗传病的研究

阅读文章

软件和分析

BaseSpace Sequence Hub应用程序BaseSpace Variant InterpreterBaseSpace Correlation Engine芯片软件所有信息学产品

分秒必争。无PCR的新制备方法可加快全基因组测序

使用新的文库制备试剂盒助力罕见遗传病的研究

阅读文章

访谈和新闻

客户访谈认知控制的遗传因素更多访谈特色新闻回顾过去更多新闻

分秒必争。无PCR的新制备方法可加快全基因组测序

使用新的文库制备试剂盒助力罕见遗传病的研究

阅读文章

特色产品

Infinium MethylationEPIC Kit

TruSeq Methyl Capture EPIC Library Prep Kit

SureCell Whole Transcriptome Analysis 3' Library Prep Kit

Infinium Global Screening Array

Infinium PsychArray BeadChip

NextSeq 2000系统

所有复杂疾病研究产品

分秒必争。无PCR的新制备方法可加快全基因组测序

使用新的文库制备试剂盒助力罕见遗传病的研究

阅读文章

方法和教育

细胞和分子生物学研究癌症测序方法免疫肿瘤学研究表观遗传学染色体异常安全数据表常见问题临床癌症研究体细胞突变生殖系突变培训(Illumina大学)

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

特色产品

TBD

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

选择和规划工具

TBD

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

软件和分析

TBD

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

访谈和新闻

TBD

Illumina COVIDSeq Test

This high-throughput NGS test detects SARS-CoV-2 in nasopharyngeal, oropharyngeal, and mid-turbinate nasal swabs

View Product

方法和教育

肿瘤学

NGS在肿瘤领域的价值

癌症伴随诊断

分子诊断

医学遗传学教育

带来更深刻的见解、答案和突破

看看通过高通量测序技术的最新进展可以实现什么

了解更多

特色产品

Praxis Extended Ras PanelTruSeq Custom Amplicon Kit Dx体外诊断(IVD)产品体外诊断仪器MiSeqDx仪器NextSeq 550Dx仪器仪器服务和咨询

带来更深刻的见解、答案和突破

看看通过高通量测序技术的最新进展可以实现什么

了解更多

选择和规划工具

文库制备和芯片试剂盒选择器测序仪比较工具更多工具

带来更深刻的见解、答案和突破

看看通过高通量测序技术的最新进展可以实现什么

了解更多

软件和分析

文库制备和芯片试剂盒选择器测序仪比较工具更多工具

带来更深刻的见解、答案和突破

看看通过高通量测序技术的最新进展可以实现什么

了解更多

访谈和新闻

客户访谈在分子诊断实验室应用新一代测序更多访谈特色新闻Illumina TruSight检测获突破性器械认定更多新闻

带来更深刻的见解、答案和突破

看看通过高通量测序技术的最新进展可以实现什么

了解更多

方法和教育

非侵入性产前检查使用非侵入性产前检测的实验室筛查非侵入性产前检测实验室送检非侵入性产前检测实验室教育医学遗传学教育所有生殖健康内容

Hear about VeriSeq NIPT from Our Customers

Find out why laboratories In Europe have implemented VeriSeq NIPT

View Video

特色产品

VeriSeq NIPT SolutionInfinium CytoSNP-850K BeadChipNextSeq 550Dx仪器仪器服务和咨询所有生殖健康产品

Hear about VeriSeq NIPT from Our Customers

Find out why laboratories In Europe have implemented VeriSeq NIPT

View Video

选择和规划工具

文库制备和芯片试剂盒选择器测序仪比较工具更多工具

Hear about VeriSeq NIPT from Our Customers

Find out why laboratories In Europe have implemented VeriSeq NIPT

View Video

访谈和新闻

客户访谈SNP芯片鉴定致体外受精失败的遗传性疾病更多访谈特色新闻教育是非侵入性产前检查的关键更多新闻

Hear about VeriSeq NIPT from Our Customers

Find out why laboratories In Europe have implemented VeriSeq NIPT

View Video

方法和教育

遗传 & 罕见疾病

罕见疾病基因组学

心血管疾病基因组学

分子诊断

囊性纤维化测试

体外诊断方法开发

针对儿童罕见病的iHope

医学遗传学教育

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

全新的全基因组建库试剂助力罕见遗传疾病研究

阅读文章

特色产品

TruSeq Custom Amplicon Kit DxMiSeq Cystic Fibrosis Clinical Sequencing Assay体外诊断(IVD)产品体外诊断仪器MiSeqDx仪器NextSeq 550Dx仪器仪器服务和咨询Clinical Sequencing Services所有遗传健康产品

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

全新的全基因组建库试剂助力罕见遗传疾病研究

阅读文章

选择和规划工具

文库制备和芯片试剂盒选择器测序仪比较工具更多工具

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

全新的全基因组建库试剂助力罕见遗传疾病研究

阅读文章

访谈和新闻

客户访谈未确诊疾病婴儿患者的罕见病变异更多访谈特色新闻造福罕见病和未确诊遗传病患者的研究进展更多新闻

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

全新的全基因组建库试剂助力罕见遗传疾病研究

阅读文章

热门的基因组学应用

测序

芯片

热门的基因组学应用

多组学

概述

基因分型

概述

全基因组基因分型

靶向基因分型

定制基因分型

拷贝数变异分析

高通量基因分型

胚胎植入前基因筛检(PGS)

核型定位

SNV和SNP基因分型

基因编辑

细胞基因组学

高通量基因组学

QTL分析

合成生物学

More

技术

/热门的基因组学应用

/基因分型

/拷贝数变异分析

用于检测和分析拷贝数变异的基因组学工具

拷贝数变异分析

CNV分析简介

拷贝数变异(CNV)是一种可导致一个或多个基因拷贝数异常的基因组改变现象。结构基因组重排(如重复、缺失、易位和倒位)可能导致拷贝数变异。

像单核苷酸多态性(SNP)一样,某些拷贝数变异与疾病易感性有关。Illumina提供了多种芯片和新一代测序(NGS)解决方案来进行高分辨率的拷贝数分析。

基于芯片的CNV分析

全基因组基因分型芯片通常用于检测与疾病和表型相关的遗传变异,包括CNV。基于芯片的拷贝数分析方法能进行可靠、高效的大规模分析。

研究人员能在一个芯片上处理多个样本,对基因组结构变异进行广泛的检测,还能准确地分析扩增、缺失、重排以及拷贝中性的杂合性缺失等染色体异常。

CNV芯片产品

Illumina提供了人类和非人类物种的CNV分析基因分型芯片。Illumina的科学家为芯片精心挑选了标记内容,以此来提供最大的基因组覆盖度,助您实现最佳的拷贝数分析。

细胞基因组研究芯片

用于细胞基因组研究的芯片,在生产过程中专门针对CNV分析进行了验证。

了解更多

人类基因分型芯片

用于人类变异检测的无偏倚、非靶向方法,能提供整个人类基因组范围内的高覆盖度。

了解更多

定制基因分型芯片

借助方便的在线工具和Illumina的专家协助,您可以为任何物种设计定制或半定制芯片。

了解更多

所有芯片试剂盒

寻找用于各种基因分型和表观遗传学研究的即用型芯片。

了解更多

利用NGS进行拷贝数分析基因分型芯片虽然对于大规模的CNV检测非常有效,但其在检测小于5万个碱基对的CNV时灵敏度欠佳。NGS能通过提供基因组的碱基视图来检测芯片经常会漏掉的小的或新的拷贝数变异。NGS还能定位CNV的准确位置。测序技术的高分辨率与芯片技术的高通量互补,从而可进行更为全面的基因组研究。

利用基因组学解密自身免疫性疾病

研究人员最初使用全基因组芯片来鉴定与狼疮相关的拷贝数变异。为了获得更深入的见解,他们采用了NGS(全基因组和外显子组测序)方法在大量基因中检测罕见突变。

阅读访谈录

特色CNV分析NGS产品及软件

Illumina DNA PCR-Free Prep

高性能、快速、集成的文库制备工作流程,适用于人类全基因组测序等灵敏应用。

了解更多

DRAGEN Bio-IT平台

对基因组数据进行准确、超快速的分析,包括CNV分析,以了解基因组结构变异。

了解更多

BaseSpace Whole-Genome Sequencing App

用快速准确的Isaac算法分析全基因组测序数据,进行比对和变异检出(包括CNV)。

了解更多

TruSight软件套装

通过从一个软件界面检出并报告变异(包括小变异、CNV、线粒体变异等),简化罕见病变异分析。

了解更多

研究CNV的下游效应拷贝数变异通常会改变基因的表达。靶向RNA测序(RNA-Seq)是分析和定量目标转录本的无偏倚方法。RNA-Seq能捕获细微的基因表达变化,测量等位基因特异性表达,还能检测融合基因。研究人员可通过表征变异的下游效应来更好地了解疾病的分子机制。深入了解靶向RNA-Seq。NGS展示了CNV对基因表达的影响研究人员利用靶向RNA-Seq揭示了与精神分裂症相关的CNV如何影响大脑中的基因表达。阅读访谈录

CNV数据分析文章

来自WGS数据的SMN1和SMN2拷贝数分析

科学家开发了一种生物信息学工具,基于全基因组测序数据检测SMN1和SMN2基因拷贝数,帮助推动脊髓性肌萎缩症研究。

阅读文章

使用WGS数据进行准确的CYP2D6基因分型

与传统的基因分型分析相比,全基因组测序能够检测CNV和其他变异,有望在药物基因组学应用中用于构建准确的等位基因频率数据库。

阅读文章

相关内容

细胞基因组学

Illumina提供了适用于检测染色体异常并能提供准确的细胞基因组数据的芯片。NGS可以用来确认芯片检测到的拷贝数变异。深入了解细胞基因组学。

全基因组测序

获得高分辨率的全基因组碱基视图,并鉴定潜在的致病性变异。深入了解全基因组测序。

复杂疾病变异发现

芯片和NGS解决方案可以帮助研究人员鉴定与复杂疾病相关的致病性变异,包括CNV。深入了解复杂疾病研究。

核型定位

这项技术可绘制一张胚胎染色体图谱,让研究人员深入了解基因组学在单基因缺陷遗传中所扮演的角色。深入了解核型定位。

更多资源

可进行NGS和细胞基因组芯片扫描的系统

在NextSeq 550系统这一个平台上完成测序和高质量的细胞基因组芯片扫描。

查看系统

染色体遗传学研究

研究人员利用NGS和芯片技术来分析染色体异常及其与疾病的关系。

阅读访谈录

CNV芯片数据分析培训

了解如何使用GenomeStudio软件分析Infinium基因分型芯片的CNV数据。

获取培训资源

基因panel和芯片查找工具 确定针对您的目标基因的测序panel和芯片。 寻找合适的panel

仅供研究使用。不得用于诊断。(除特殊标注外)

Not for import or sale to the Australian general public.

创新技术

在Illumina,我们的目标是应用创新技术来分析遗传变异和功能,实现几年前甚至还无法想象的研究。我们的任务是提供创新、灵活、可扩展的解决方案以满足客户的需求。作为一家重视合作互动、快速交付解决方案和提供高质量水平的全球性公司,我们努力应对这一挑战。Illumina创新的测序和芯片技术正在推动生命科学研究、转化和消费者基因组学以及分子诊断中的进展。

Illumina Korea

Hi Investment & Securities building

66 Yeoidaero Yeoungdeungpo-gu

Seoul Korea 07325

02-740-5300 (tel)

02-786-8368 (fax)

customercare@illumina.com

판매 약관 |

Tax Reg: 105-87-87282 |

Retailer Reg: 2019-서울영등포-2018 |

Host: https://www.illumina.com |

Address of host server location: 5200 Illumina Way, San Diego, CA 92122 U.S.A.

所有商标均为 Illumina 公司或其各自所有者的财产。

具体商标信息,请参见 www.illumina.com.cn/company/legal.html.

职业发展

联系我们

  

沪ICP备2021026389号

沪公安网安备31011202014426号

© 2024 Illumina, Inc. All rights reserved.

ClassifyCNV: a tool for clinical annotation of copy-number variants | Scientific Reports

ClassifyCNV: a tool for clinical annotation of copy-number variants | Scientific Reports

Skip to main content

Thank you for visiting nature.com. You are using a browser version with limited support for CSS. To obtain

the best experience, we recommend you use a more up to date browser (or turn off compatibility mode in

Internet Explorer). In the meantime, to ensure continued support, we are displaying the site without styles

and JavaScript.

Advertisement

View all journals

Search

Log in

Explore content

About the journal

Publish with us

Sign up for alerts

RSS feed

nature

scientific reports

articles

article

ClassifyCNV: a tool for clinical annotation of copy-number variants

Download PDF

Download PDF

Article

Open access

Published: 23 November 2020

ClassifyCNV: a tool for clinical annotation of copy-number variants

Tatiana A. Gurbich1 & Valery Vladimirovich Ilinsky1 

Scientific Reports

volume 10, Article number: 20375 (2020)

Cite this article

15k Accesses

30 Citations

8 Altmetric

Metrics details

Subjects

Clinical geneticsGenetics researchGenome informaticsGenomicsMedical geneticsSequence annotationSoftware

AbstractCopy-number variants (CNVs) are an important part of human genetic variation. They can be benign or can play a role in human disease by creating dosage imbalances and disrupting genes and regulatory elements. Accurate identification and clinical annotation of CNVs is essential, however, manual evaluation of individual CNVs by clinicians is challenging on a large scale. Here, we present ClassifyCNV, an easy-to-use tool that implements the 2019 ACMG classification guidelines to assess CNV pathogenicity. ClassifyCNV uses genomic coordinates and CNV type as input and reports a clinical classification for each variant, a classification score breakdown, and a list of genes of potential importance for variant interpretation. We validate ClassifyCNV’s performance using a set of known clinical CNVs and a set of manually evaluated variants. ClassifyCNV matches the pathogenicity category for 81% of manually evaluated variants with the significance of the remaining pathogenic and benign variants automatically determined as uncertain, requiring a further evaluation by a clinician. ClassifyCNV facilitates the implementation of the latest ACMG guidelines in high-throughput CNV analysis, is suitable for integration into NGS analysis pipelines, and can decrease time to diagnosis. The tool is available at https://github.com/Genotek/ClassifyCNV.

Similar content being viewed by others

Genomic data in the All of Us Research Program

Article

Open access

19 February 2024

The All of Us Research Program Genomics Investigators

Genome-wide association studies

Article

26 August 2021

Emil Uffelmann, Qin Qin Huang, … Danielle Posthuma

Characterizing the impacts of dataset imbalance on single-cell data integration

Article

01 March 2024

Hassaan Maan, Lin Zhang, … Bo Wang

IntroductionCopy-number variation is a form of structural genetic variation that involves a gain or loss of DNA segments. Copy-number variants (CNVs) are > 50 bp in size and can include a part of a gene, a whole gene, or a longer genomic region1. CNVs are associated with a number of genetic disorders, including autism spectrum disorders, neurodevelopmental disorders, and autoimmune diseases2,3. With advancements in next-generation sequencing technology and an increasing availability of bioinformatics tools to analyze NGS data, clinical labs are now able to process and detect CNVs in batches of exomes, genomes, and gene panels. In order for the patients to receive an accurate diagnosis and appropriate care, it is essential to correctly determine the pathogenicity of variants.In late 2019 ACMG released updated guidelines for clinical classification of CNVs4. Each CNV is classified into one of the following categories: benign, likely benign, a variant of uncertain significance, likely pathogenic, or pathogenic. The new guidelines take into account a wide range of CNV properties and allow for comprehensive analysis and accurate classification of variants. However, implementation of the guidelines on a large scale is challenging, as each CNV requires considerable time on the part of a clinician to obtain a final pathogenicity score. Although the new guidelines are intended for manual evaluation, computational analysis expedites the process and determines the impact of CNVs more efficiently. Available CNV annotation tools use criteria that are different from the new ACMG guidelines5,6,7, hence, a new computational approach is needed.Here, we present ClassifyCNV, a command-line tool that allows for rapid high-throughput classification of CNVs in accordance with the latest ACMG guidelines.MethodsDatabasesThe databases used to implement the 2019 ACMG criteria for clinical classification of copy-number variants (CNVs)4 are listed in Supplementary Table S1. For each database we indicate which human genome build it is available for (hg19 or hg38). If a database is only available for one genome build, we used CrossMap v0.4.28 and the UCSC chain files, available from the UCSC genome browser9, to lift over genomic coordinates between the genome builds.All of the mentioned databases were converted to BED format and are available in the ClassifyCNV repository. We recommend that the local versions of the ClinGen databases are updated regularly by executing the update_clingen.sh script, which is available in the ClassifyCNV repository.ImplementationClassifyCNV is implemented in Python 3, runs on Linux, UNIX, and Mac OS X, and requires BEDTools v.2.27.1 or higher10. Both the GRCh37 and the GRCh38 genome builds are supported.ClassifyCNV accepts a BED file as input and requires the user to provide genomic coordinates and type (deletion or duplication) for each CNV. ClassifyCNV does not evaluate the quality of the CNV calls as it is expected to be done during the CNV calling and filtering steps. The tool then uses the criteria described in the ACMG scoring rubrics for copy-number loss and gain4 to evaluate the clinical significance of the CNVs. The criteria that are implemented in ClassifyCNV are listed in Supplementary Table S2 for copy-number losses and in Supplementary Table S3 for copy-number gains. Points are awarded for each evaluated section of the rubric. Clinical classification is calculated based on the total number of points assigned to a CNV. The flowchart of the algorithm is shown in Fig. 1 for copy-number losses and in Fig. 2 for copy-number gains.Figure 1The algorithm to determine the pathogenicity score of a copy-number loss.Full size imageFigure 2The algorithm to determine the pathogenicity score of a copy-number gain.Full size imageTo assess the genomic content of each variant, ClassifyCNV checks for a full or partial (≥ 1 bp) overlap with protein-coding and noncoding genes, as well as enhancers and promoters. It also tracks the number of protein-coding genes that are fully or partially overlapped by each CNV. To assess whether any established dosage-sensitive genes or regions are included and what effect the deletion or duplication might have on their expression, each CNV is evaluated against a set of curated haploinsufficient and triplosensitive genes and genomic regions obtained from ClinGen11. A score of ‘3’ is required for a gene or genomic region to be considered haploinsufficient or triplosensitive. For partially overlapped dosage-sensitive genes ClassifyCNV evaluates which regions within the gene are involved as per ACMG guidelines. If a deletion does not encompass genes or regions that are known to be haploinsufficient, ClassifyCNV checks whether haploinsufficiency is predicted for any genes within the deletion. To satisfy this condition, a gene is required to have a DECIPHER HI index ≤ 10%12, a gnomAD pLI score ≥ 0.9 and the upper bound of the observed/expected confidence interval < 0.3513. Finally, to assess whether the CNV is likely to be benign, ClassifyCNV obtains the population frequencies of similar variants from DGV14 and gnomAD15. For each analyzed CNV that does not contain known dosage-sensitive genes or genomic regions, the population frequencies of known overlapping CNVs are extracted. An overlap of at least 80% of the query CNV length is required. If multiple known variants overlap the CNV, their average population frequency is calculated. A CNV is considered common if its population frequency is > 1%.ClassifyCNV continues the evaluation through the end of the rubric for all CNVs, including the ones where a benign or pathogenic classification is determined before all of the conditions in the rubric have been evaluated.ClassifyCNV outputs a tab-delimited file that can be used by another pipeline in downstream analysis or evaluated by a clinician. For each variant ClassifyCNV reports the clinical classification, the total number of points, a breakdown of how the final pathogenicity score was determined, a list of established and predicted dosage-sensitive genes encompassed by the CNV, and a list of all protein-coding genes within the CNV. As some of the sections of the ACMG scoring rubrics require manual evaluation by a clinician, the information provided can be used to continue the evaluation if necessary.ResultsTo test speed performance of ClassifyCNV, we obtained a set of 17,683 duplications and 20,805 deletions from the nstd102 study in ClinVar16. We used the hg19 coordinates and ran ClassifyCNV using the -precise flag, thus treating the CNV coordinates as exact. For CNVs for which precise coordinates were unknown, we used the inner coordinates. The run completed in less than 60 s on a 64-bit Linux virtual machine using two cores.We used the same set of CNVs to evaluate the ClassifyCNV performance on clinical data. The ClinVar variants were obtained from studies published prior to 2019 and, therefore, classified before the current ACMG guidelines were released. The comparison of ClinVar and ClassifyCNV classifications is shown in Table 1.Table 1 ClassifyCNV performance on ClinVar data.Full size tableThe pathogenic/likely pathogenic variants and variants of uncertain significance had a high degree of concordance between the original ClinVar classification and the ClassifyCNV result (57% and 97.8% respectively). The majority of benign variants were classified as variants of uncertain significance [16,687 (87.7%)]. 14,356 of these variants did not receive any points during the classification, indicating that the variants do contain genes or regulatory elements. However, the information about the genetic content within these variants was unavailable or did not strongly support reclassification of the variants from uncertain significance to benign or pathogenic. Despite the low sensitivity (11.8%) when evaluating benign variants, ClassifyCNV showed a high degree of specificity (99.6%) as the tool is conservative when moving variants between categories. Since the classification parameters used by ClassifyCNV are different from the parameters used prior to the release of the 2019 ACMG guidelines, we do not expect full concordance even when evaluating variants manually.To assess the concordance of the ClassifyCNV calls with the results of manual evaluation we obtained the complete list of 114 variants previously classified by the ACMG/ClinGen committee using the new guidelines4 (Table 2, Supplementary Table S4). In the ACMG/ClinGen dataset, the manual classification results were provided by two evaluators who assessed the variants independently. We re-grouped the calls into 4 categories: pathogenic/likely pathogenic, uncertain significance, benign/likely benign, and conflicting. The latter category contained the variants that the two evaluators disagreed on. CNV breakpoints were presumed to be accurate and the -precise flag was used.Table 2 Comparison of ClassifyCNV calls to the results of manual annotation by ACMG/ClinGen.Full size tableFor 81% of CNVs, the ClassifyCNV result matched the ACMG/ClinGen category (for 76% of CNVs the match was exact and for 5% ClassifyCNV determined the CNV to be likely benign or likely pathogenic, while the manual evaluation result was benign or pathogenic, respectively). In only one case did ClassifyCNV place a variant of uncertain significance into the likely pathogenic category. The pathogenicity points were assigned due to the large number of protein-coding genes encompassed by the CNV, many of which belonged to the same gene family and thus were not counted individually during the manual evaluation. For both benign/likely benign and pathogenic/likely pathogenic categories, ClassifyCNV showed a high degree of specificity (100% and 98.4% respectively). There were no occurrences of benign/likely benign variants classified as pathogenic/likely pathogenic and vice versa. For variants automatically classified as uncertain, a manual evaluation of the published literature and patients’ family histories by a clinician was required to arrive at the final classification.Lastly, we compared ClassifyCNV performance to the performance of AnnotSV5, a comprehensive annotation tool that implements an earlier version of the ACMG criteria. To compare the two tools, we used the ACMG/ClinGen manually curated set of 114 variants. We removed the variants for which the ACMG/ClinGen classification was conflicting since calculating sensitivity, specificity and accuracy for such variants would not be possible. We analyzed the remaining 84 CNVs using AnnotSV version 2.4 with default settings and ClassifyCNV with the -precise flag enabled to treat the CNV coordinates as exact. The comparison of the two tools is shown in Table 3.Table 3 A comparison of ClassifyCNV and AnnotSV.Full size tableCompared to ClassifyCNV, AnnotSV is less conservative when making pathogenic/likely pathogenic calls. Out of 84 variants, AnnotSV determined 72 to be pathogenic/likely pathogenic, compared to 15 calls by ClassifyCNV and 23 calls by ACMG/ClinGen manual evaluation. AnnotSV showed higher sensitivity for pathogenic/likely pathogenic variants (100% vs 60.9% by ClassifyCNV) and benign/likely benign variants (37.5% vs 25% by ClassifyCNV). However, both the specificity and the accuracy of AnnotSV were lower. For benign/likely benign variants ClassifyCNV had 100% specificity and 92.9% accuracy, while AnnotSV’s values were 92.1% and 86.9%, respectively. For pathogenic/likely pathogenic variants ClassifyCNV had 98.4% specificity while AnnotSV’s specificity was 19.7%. The accuracy of ClassifyCNV and AnnotSV was 88.1% and 41.7%, respectively.In summary, while ClassifyCNV places variants in the uncertain category more often compared to AnnotSV, the high specificity and accuracy of ClassifyCNV make it a more suitable tool for evaluation of CNVs using the latest ACMG/ClinGen guidelines. A follow-up evaluation by a clinician is expected to refine the classification of variants of uncertain significance.DiscussionClassifyCNV is the first tool that automates the implementation of the updated ACMG guidelines to classify CNVs. It produces a rapid and reliable evaluation of variants and is suitable for high-throughput analysis. The tool can be easily integrated into existing pipelines and can expedite the evaluation of CNVs, helping to reduce the time to diagnosis.ClassifyCNV errs on the side of caution when moving a variant between categories, as advised by the new ACMG guidelines. Therefore, if convincing data are not available, a CNV is likely to remain a variant of uncertain significance. Although a follow-up evaluation by a clinician may be necessary for these variants, ClassifyCNV significantly facilitates the process by completing the evaluation of gene content, dosage-sensitivity, and population frequencies and outputting a list of genes of interest.

Data availability

All external datasets are described and cited in Supplementary Table S1 and in the manuscript. All data used by ClassifyCNV are available at https://github.com/Genotek/ClassifyCNV.

ReferencesAlkan, C., Coe, B. P. & Eichler, E. E. Genome structural variation discovery and genotyping. Nat. Rev. Genet. 12, 363–376 (2011).Article 

CAS 

Google Scholar 

Shaikh, T. H. Copy number variation disorders. Curr. Genet. Med. Rep. 5, 183–190 (2017).Article 

Google Scholar 

Thapar, A. & Cooper, M. Copy number variation: What is it and what has it told us about child psychiatric disorders?. J. Am. Acad. Child Adolesc. Psychiatry 52, 772–774 (2013).Article 

Google Scholar 

Riggs, E. R. et al. Technical standards for the interpretation and reporting of constitutional copy-number variants: A joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen). Genet. Med. 22, 245–257 (2020).Article 

Google Scholar 

Geoffroy, V. et al. AnnotSV: An integrated tool for structural variations annotation. Bioinformatics 34, 3572–3574 (2018).Article 

CAS 

Google Scholar 

Ganel, L., Abel, H. J., FinMetSeq Consortium & Hall, I. M. SVScore: An impact prediction tool for structural variation. Bioinformatics 33, 1083–1085 (2017).Erikson, G. A., Deshpande, N., Kesavan, B. G. & Torkamani, A. SG-ADVISER CNV: Copy-number variant annotation and interpretation. Genet. Med. 17, 714–718 (2015).Article 

Google Scholar 

Zhao, H. et al. CrossMap: A versatile tool for coordinate conversion between genome assemblies. Bioinformatics 30, 1006–1007 (2014).Article 

Google Scholar 

Kuhn, R. M., Haussler, D. & Kent, W. J. The UCSC genome browser and associated tools. Brief. Bioinform. 14, 144–161 (2013).Article 

CAS 

Google Scholar 

Quinlan, A. R. & Hall, I. M. BEDTools: A flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841–842 (2010).Article 

CAS 

Google Scholar 

Rehm, H. L. et al. ClinGen—The clinical genome resource. N. Engl. J. Med. 372, 2235–2242 (2015).Article 

CAS 

Google Scholar 

Firth, H. V. et al. DECIPHER: Database of chromosomal imbalance and phenotype in humans using ensembl resources. Am. J. Hum. Genet. 84, 524–533 (2009).Article 

CAS 

Google Scholar 

Karczewski, K. J. et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443 (2020).Article 

ADS 

CAS 

Google Scholar 

MacDonald, J. R., Ziman, R., Yuen, R. K. C., Feuk, L. & Scherer, S. W. The database of genomic variants: A curated collection of structural variation in the human genome. Nucleic Acids Res. 42, D986–D992 (2014).Article 

CAS 

Google Scholar 

Collins, R. L. et al. A structural variation reference for medical and population genetics. Nature 581, 444–451 (2020).Article 

ADS 

CAS 

Google Scholar 

Landrum, M. J. et al. ClinVar: Improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 46, D1062–D1067 (2018).Article 

CAS 

Google Scholar 

Download referencesAcknowledgementsWe thank Olesia Klimchuk for technical assistance and code review, Joshua Povich and Kirill Tsukanov for comments on the manuscript, Alexandr Rakitko for testing the program and discussions that improved the project, and Vladimir Pogorelov for formatting the figures.Author informationAuthors and AffiliationsGenotek Ltd., Nastavnicheskii pereulok 17/1, 105120, Moscow, RussiaTatiana A. Gurbich & Valery Vladimirovich IlinskyAuthorsTatiana A. GurbichView author publicationsYou can also search for this author in

PubMed Google ScholarValery Vladimirovich IlinskyView author publicationsYou can also search for this author in

PubMed Google ScholarContributionsT.A.G. designed the project, assembled the datasets, wrote and implemented the tool, created all tables, and wrote the manuscript. V.V.I. conceived and designed the project, provided feedback, and critically revised the manuscript. All authors reviewed and approved the manuscript.Corresponding authorCorrespondence to

Tatiana A. Gurbich.Ethics declarations

Competing interests

T.A.G. and V.V.I. are employees of Genotek Ltd. The authors declare no other competing interests.

Additional informationPublisher's noteSpringer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.Supplementary informationSupplementary Information.Rights and permissions

Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article's Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article's Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.

Reprints and permissionsAbout this articleCite this articleGurbich, T.A., Ilinsky, V.V. ClassifyCNV: a tool for clinical annotation of copy-number variants.

Sci Rep 10, 20375 (2020). https://doi.org/10.1038/s41598-020-76425-3Download citationReceived: 05 August 2020Accepted: 27 October 2020Published: 23 November 2020DOI: https://doi.org/10.1038/s41598-020-76425-3Share this articleAnyone you share the following link with will be able to read this content:Get shareable linkSorry, a shareable link is not currently available for this article.Copy to clipboard

Provided by the Springer Nature SharedIt content-sharing initiative

This article is cited by

dbCNV: deleteriousness-based model to predict pathogenicity of copy number variations

Kangqi LvDayang ChenXiuming Zhang

BMC Genomics (2023)

Combination of expert guidelines-based and machine learning-based approaches leads to superior accuracy of automated prediction of clinical effect of copy number variations

Tomáš SládečekMichaela GažiováTomáš Szemes

Scientific Reports (2023)

SvAnna: efficient and accurate pathogenicity prediction of coding and regulatory structural variants in long-read genome sequencing

Daniel DanisJulius O. B. JacobsenPeter N. Robinson

Genome Medicine (2022)

Copy number variant analysis for syndromic congenital heart disease in the Chinese population

Ping LiWeicheng ChenGuoying Huang

Human Genomics (2022)

Towards accurate and reliable resolution of structural variants for clinical diagnosis

Zhichao LiuRuth RobertsWeida Tong

Genome Biology (2022)

CommentsBy submitting a comment you agree to abide by our Terms and Community Guidelines. If you find something abusive or that does not comply with our terms or guidelines please flag it as inappropriate.

Download PDF

Advertisement

Explore content

Research articles

News & Comment

Collections

Subjects

Follow us on Facebook

Follow us on Twitter

Sign up for alerts

RSS feed

About the journal

Open Access Fees and Funding

About Scientific Reports

Contact

Journal policies

Calls for Papers

Guide to referees

Editor's Choice

Journal highlights

Publish with us

For authors

Language editing services

Submit manuscript

Search

Search articles by subject, keyword or author

Show results from

All journals

This journal

Search

Advanced search

Quick links

Explore articles by subject

Find a job

Guide to authors

Editorial policies

Scientific Reports (Sci Rep)

ISSN 2045-2322 (online)

nature.com sitemap

About Nature Portfolio

About us

Press releases

Press office

Contact us

Discover content

Journals A-Z

Articles by subject

Protocol Exchange

Nature Index

Publishing policies

Nature portfolio policies

Open access

Author & Researcher services

Reprints & permissions

Research data

Language editing

Scientific editing

Nature Masterclasses

Research Solutions

Libraries & institutions

Librarian service & tools

Librarian portal

Open research

Recommend to library

Advertising & partnerships

Advertising

Partnerships & Services

Media kits

Branded

content

Professional development

Nature Careers

Nature

Conferences

Regional websites

Nature Africa

Nature China

Nature India

Nature Italy

Nature Japan

Nature Korea

Nature Middle East

Privacy

Policy

Use

of cookies

Your privacy choices/Manage cookies

Legal

notice

Accessibility

statement

Terms & Conditions

Your US state privacy rights

© 2024 Springer Nature Limited

Close banner

Close

Sign up for the Nature Briefing: Translational Research newsletter — top stories in biotechnology, drug discovery and pharma.

Email address

Sign up

I agree my information will be processed in accordance with the Nature and Springer Nature Limited Privacy Policy.

Close banner

Close

Get what matters in translational research, free to your inbox weekly.

Sign up for Nature Briefing: Translational Research

DNA拷贝数变异CNV检测——基础概念篇 - 王闯wangchuang2017 - 博客园

DNA拷贝数变异CNV检测——基础概念篇 - 王闯wangchuang2017 - 博客园

会员

周边

新闻

博问

AI培训

云市场

所有博客

当前博客

我的博客

我的园子

账号设置

简洁模式 ...

退出登录

注册

登录

wangchuang2017

WeChat wangchuang2022

QQ 2545804152

DNA拷贝数变异CNV检测——基础概念篇

DNA拷贝数变异CNV检测——基础概念篇

 

     一、CNV 简介  

     拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic)。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。

       CNVs最初是在病人的基因组中发现, 但后来的研究表明在正常人体中也普遍存, 说明CNV 是一组具有良性、致病性或未知临床意义的基因组结构改变。有统计显示, 目前共发现CNVs约57 829个(这个数据不准确,肯定在更新,图1, 已发现的CNVs与染色体位置关系, http://projects.tcag.ca/variation/), 其中染色体倒位847; 100 bp~1 Kb的插入缺失为30 748个; 倒置断裂位点约14 478个。此外, 据Hurles[1] 研究估计, CNVs至少占到基因组的12%, 已成为基因组多态性的又一重要来源。

       

 

      有关CNVs的研究将随机个体之间的基因组差异估计值提高到大于1%, 大大改变了人们先前的认识, 有学者甚至认为这一发现将改变人类对遗传学领域的认知[3,9]。与一直以来研究较多的单核苷酸多态性(SNPs)相比, CNVs发生的频率虽然较低, 但累及的序列长度却明显超过了前者, 因此对人类健康和疾病的影响更为显著。

     染色体非等位同源重排、非同源突变和非βDNA 结构是 造成基因组拷贝数变异的重要原因。目前研究表明 CNV 偏向 分布于基因超保守区域外的位置, 多达 40%的 CNV 位于基因 沙漠区(gene deserts)。存在 CNV 的基因经常参与人体对外界环 境的反应的生理过程,进而在细胞连接、感观理解、化学刺激、 神经生理等过程中发挥重要作用。不存在 CNV 的基因往往是 剂量敏感性基因, 参与维持细胞的生长发育, 包括细胞信号传 导、增殖、激酶化和磷酸化等过程;同时 CNV 可导致不同程度 的基因表达差异, 对正常表型的构成及疾病的发生发展具有一 定作用。

  二、CNV 历史

     基因拷贝数CNV研究历史 自 1998 年 Lupski 给出了基因病的定义之后[2] ,目前已经 发现大量的基因病是由基因组结构改变引起的,而非传统的 Watson-Crick 碱基配对变化所引起,其中一些基因病是由重组 区域的基因拷贝数发生改变所致。 2000 年 6 月 26 日参加人类基因组计划 ( human genome project , HGP) 6 个国家 (包括中国) 的科学家公布完成了人类 基因组草图.随后人类基因组序列绘制成功,首次在分子层面,上为人类提供了一份生命“说明书”:HGP 从分子层面上为多 种遗传疾病、癌症及神经退化症的治疗提供了基础。

     高通量阵列比较基因组杂交技术(array based comparative genomic hybridization CGH)加速了 CNV 的探究。2004 年 Iafrate 等人通过细菌人工染色体微阵列(bacterial artificial chromosome ,BAC-based array) 对 39 个非相关的健康人研究后发现 255 个变异位点,其中有 24 个位点出现的频率大于 10%,有 6 个位点出现的频率大于 20%,其平均间隔为 1Mb[3] 。同年 Sebat 及同事通过代表性单核苷酸微阵列分析 ( representational oligonucleotide microarray analysis ,ROMA) 对 20 个健康人研 究发现了 221 个 CNV,代表着 76 种 CNP,CNP 间隔平均长为 465kb[4] 。此外发现 CNP 间隔内 70 个不同基因的 CNV,包括调 节神经功能、细胞生长、新陈代谢的基因,以及几种已知疾病的 相关基因。由此可以看出在正常人群中也存在一定数目的 CNV。

        伴随着研究者对 CNV 的研究越来越深入,Redon 等人通 过对 270 名具有欧洲、非洲或亚洲世系的 4 个群体研究,构建 了人类基因组第一代拷贝数变异图谱[5] 。该研究表明:拷贝数变 异非常复杂,类型多样。通过两种平台:WGTP platform、500K EA platform,及两种互补技术:单核苷酸多态性(SNP) 基因型微 阵列和基于克隆比较基因组杂交技术对这些个体 DNA 进行鉴 定,结果显示有 1447 种拷贝数变异区(copy number variation regions, CNVR),涵盖了 360 万个碱基(占人类基因组 12 %), 其 中 285 种与孟德尔遗传疾病相关;并且指出 CNV 通常不编码 发育相关的重要基因,而是编码与环境作用相关的基因,即“环 境敏感性基因”,而这些基因通常参与细胞粘附、化学刺激、感 官知觉,神经生理过程等活动。

       2009 年 AnnaC 等通过分析全基因组单核甘酸变异(Single Nucleotide Polymorphisms ,SNP)和 CNV 遗传标记与精神分裂 症患者的相关性,提出不常见的致病性 CNV 区域对于精神分 裂症易感性方面发挥更重要的作用,而不支持共同变异(common variation)区域与精神分裂症的相关性[6] 。

       2010 年 Christiaan 等通过对 95 个血液肿瘤细胞系的高通 量分析发现了一些共同发生的基因拷贝数变化位点,并对这些 位点进行功能分析,绘制出基因拷贝数变化 (获得或缺失)网 络,从而发现了一些中心节点,进而提出:大规模低强度的拷贝 数变化可能是肿瘤发生发展过程的重要特征[7] 。

        目前已有几个数据库用来收集 CNVs 信息[8] :健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查 询;神经发育异常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查询;染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。

   三、CNV 形成机制

    基因的结构特征决定基因是否容易发生重组,进而影响基 因拷贝数变化。重组主要发生在特定的重复序列区域,或者低 拷贝重复区(low copy repeats , LCRs)。LCR 中包含一个或多个 基因、假基因、基因片段、逆转录病毒序列、基因调控区,通常分布在端着丝粒和端粒区域,其大小、相对方向、各拷贝之间的距 离及同源程度,均将影响到 CNV 的形成[2] 。然而目前 CNV 的 确切机制仍不甚清楚,可能的机制主要包括非等位基因同源性 重组机制 (non-allelic homologous recombination, NAHR), 非同 源末端连接机制(non-homologous end joining, NHEJ )NAHR 机制一般发生在经常重组的区域,这些区域有如下 特征:(1)片段大小 >10kb,(2)序列同源程度 >97% , (3)序列方 向明确,(4) 每个 LCR 大小控制在 5Mb 以内,(5)LCR 在同一 染色体上[9];而 NHEJ 不需要重组断端之间的具有严格的 DNA 同源性,但是仍能够引发彼此毫不相干的 DNA 断端的连接,导 致包括移位(移位) 等在内的染色体之间的重排。不经常发生重 组的 LCR,或者各 LCR 区域大小不一致时,倾向于通过 NHEJ 机制引起基因拷贝数变化。尽管如此,很多遗传学家并不认可 NHEJ 机制

posted on

2018-10-16 09:59 

王闯wangchuang2017 

阅读(33826) 

评论(2) 

编辑 

收藏 

举报

会员力量,点亮园子希望

刷新页面返回顶部

导航

博客园

首页

新随笔

联系

订阅

管理

公告

Powered by:

博客园

Copyright © 2024 王闯wangchuang2017

Powered by .NET 8.0 on Kubernetes