单细胞遗传结构变异的综合检测
1.本发明提供了一种通过整合测序读段深度、读段链方向和单倍型定相(phase)的三层信息来检测单细胞或单细胞群体的基因组内的结构变异(sv)的方法。本发明的方法可以检测缺失、重复、多倍体、易位、倒位和拷贝数中性的杂合性缺失(cnn-loh)等。本发明的方法可以充分地对基因组进行综合地核型分析,以及可以被应用于研究和临床方法。例如,本发明的方法可以用于分析患者的细胞样本以进行诊断或辅助诊断,在生殖医学中检测胚胎异常,或者在基于细胞疗法的治疗方法中质量控制基因工程细胞,例如在过继性t细胞疗法等中。本发明的方法可以进一步被应用于研究中来解释细胞模型(细胞系)、患者样本的核型,或进一步揭示导致基因组内任何sv产生的遗传和机械途径。2.描述3.结构变异(sv)(其中重整缺失、重复、倒位或易位的dna片段多达百万碱基)是与许多疾病相关的遗传变异的主要来源。最近的方法和技术的进步使得能够对不同人群中的sv进行编目。除了这些种系变体外,越来越清楚的是,人类组织表现出丰富的体细胞变异,特别是sv,一种动态的、高比率出现的变异类别,导致广泛的遗传异质性。细胞群中的体细胞sv分析能够有助于研究遗传嵌合和异常克隆扩增,允许谱系追踪,以及在癌症背景下能够有助于改进疾病分类和管理。然而,sv发现仍然具有挑战性,重复区域中出现的易位、倒位、复杂sv类别、细胞倍性改变以及sv通常会逃过在遗传异质性背景下的检测。4.体细胞结构变异在健康和疾病中起着关键作用10,2。例如,癌症在单个肿瘤细胞中表现出染色体数量和细胞遗传学结构的巨大差异79。癌症中的sv显示出动态的形成模式,并且可以在基因组不稳定期间出现间断爆发4,5,从而导致肿瘤内的异质性。它们代表了几种癌症类型中基因组驱动因素改变的主要类别2,1,包括拷贝数改变(cna)和拷贝平衡sv,其通过引起基因破坏、基因缺失或扩增、基因融合、增强子劫持(hijacking)和重组拓扑结构域(tad)产生严重后果2,5。最近的研究也在正常组织(包括大脑、皮肤和血液)中检测到体细胞/合子后sv1,这些变体可以通过组织功能下降和/或促进疾病进程(包括癌症和白血病形成)影响健康。事实上,老年供体的血液中的合子后cna与白血病、实体瘤以及包括2型糖尿病和冠心病在内的常见疾病有关。合子后sv也出现在早期发育过程中,由此产生的嵌合体能够导致遗传疾病,对遗传咨询和测试产生影响56。由于其动态性质,体细胞sv能够深深地影响疾病进程。在前列腺癌患者中,影响雄激素受体位点的不同sv类别能够逐渐导致治疗耐药。此外,导致复杂sv(即染色体碎裂(chromothripsis))的间断爆发与whim综合征(一种先天性免疫疾病)的自发治愈有关。涉及体细胞sv的疾病种类繁多,其流行和动态发生需要有效的检测方法。单细胞分析原则上应该是此目的的理想方法,因为其能够使sv检测在低变异等位基因频率(vaf)下至单个细胞15。然而,目前扩展到数百或数千个细胞的单细胞方法面向cna16-18。其他sv类别(包括易位、倒位和复杂sv类别)通常可以逃过检测,尽管它们与多种疾病过程相关。5.无论是在种系还是体细胞中出现,sv代表一种特别难以识别的变异类型。由于它们的尺寸往往远远超过dna序列的读段长度,目前的检测方法部分依赖于间接推断(包括成对末端、读段深度、以及剪切或分割读段的解释)。这些方法需要广泛的序列覆盖度用于可靠的sv调用(使用批量测序时约为20倍或更高)17,这限制了它们在异质的环境中用于sv检测的实用性——除了读段深度分析,其能够被用于具有相对低的vaf(通常≥10%vaf)的变体,但仅限于cna10。相比之下,单细胞分析能够检测下至单个细胞的sv,并有助于剖析sv共现(co-occurrence)和细胞类型特异性sv的模式17。然而,尽管cna已经是单细胞中的常规分析,并且可扩展的16和商业的应用(例如,10x genomics公司的“the chromium single cell cnv solution”)正在变得可行,但在单细胞中检测另外的sv类别(如平衡sv和复杂sv)面临着重大挑战:当前可用的sv检测方法要求识别穿过sv断点的读段(或读段匹配(read pair))55;由于这种方法的高覆盖度需求和低且不均匀的覆盖度水平(包括单细胞中的局部等位基因缺失)17,这仍然是一个挑战。由于需要跨断点读取,一旦sv断点存在于重复区域(其在基因组中是大量的且sv显示富集),这些检测方法就会失效。此外,用于增加dna可获得量的全基因组扩增(wga)能够产生类似sv的读取嵌合体19,从而导致调用伪迹(artefact)。尽管最近的研究表明,结合充分的序列覆盖度,嵌合体过滤是可行的19,20,但在数百(或数千)个单细胞中sv发现将需要巨大的测序成本,因此尚未进行。此外,大多数当前的方法没有表明给定变体位于哪个单倍型,与单倍型识别(aware)单细胞分析相比,这可能导致调用能力降低57。6.本领域已知的是单细胞/单链基因组测序(strand-seq)67,21,一种基于在复制过程中用核苷类似物(brdu)标记新生(即,非模板)dna链,然后去除非模板链,并且随后对剩余链进行短读段测序的技术67,21。strand-seq先前被证明能够成功地映射姐妹染色单体交换21,71、错误定向的基因组重叠21和遗传(种系)倒位37。最近进一步证明,strand-seq能够进行全染色体长度单倍型分析322,72并指导从头基因组组装。7.因此,本发明的目的是提供一种手段和方法来促进基因组和染色体内复杂遗传变异、复杂结构变异的综合检测,以及量化细胞染色体稳定性。8.发明简述9.一般地,通过简要描述,本发明的主要方面可以描述如下:10.在第一方面,本发明涉及一种通过单细胞三通道处理(sctrip)分析至少一个目标染色体区域的测序数据的方法,包括提供至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,其中链特异性序列数据包括多个通过至少一个单细胞的目标染色体区域的测序获得的链特异性序列读段,将序列读段或者序列读段的每个片段化部分(如果序列读段被平均地片段化)与参考组件(assembly)比对,然后在任何给定的选定窗口中分配三层序列信息中的至少两层:(i)总序列读段或其部分的数量(也称为“读段深度”);(ii)正向(或watson)序列读段或其部分的数量,以及反向(或crick)序列读段或其部分的数量;(iii)分配有特异性单倍型身份(如h1和/或h2)的序列读段或其部分的数量。11.在第二方面,本发明涉及一种检测目标染色体区域中结构变异(sv)的方法,该方法包含执行根据第一方面的方法并进一步包括以下步骤:通过对按位置顺序排列和比对的序列读段的序列数据内的多个(至少两个)窗口执行步骤(d)以及在多个窗口内识别子区域来识别结构变异(sv),该子区域包括具有通道(i)至(iii)中的任何一个、或所有、或任何组合的异常的/变化的/改变的信息分布的一个或多个窗口。12.在第三方面,本发明涉及一种对单细胞或多个单细胞的群体进行核型分析的方法,该方法包括,13.(a)提供至少一个单细胞或单细胞群体中的每一个细胞的至少一个目标染色体区域(优选完整基因组)的链特异性序列数据,(b)执行第一或第二方面的方法,14.(c)检测所述单细胞或单细胞群体的目标染色体区域内的sv,以及15.(d)根据所有检测的sv获得计算机模拟(in-silico)核型。16.在第四方面,本发明涉及一种诊断对象中疾病的方法,该方法包括,提供对象的一个或多个细胞的链特异性序列数据,执行根据第一或第二方面的方法,检测一个或多个细胞内的任何sv,以及将检测的sv与参考状态进行比较,其中对象的样本中的一个或多个sv的数量、类型或位置的改变表明存在病况,例如疾病(例如癌症)。17.在第五方面,本发明涉及一种用于评估单细胞或单细胞群体内的染色体稳定性的方法,该方法包括执行根据上述方面中任何一个的方法,其中所述单细胞或单细胞群体中sv的总数量增加或sv的任何一种类型或多种类型的数量增加表明染色体不稳定。18.在第六方面,本发明涉及一种计算机可读介质,其包括存储在其上的计算机可读指令,当其在计算机上运行时,指示计算机执行根据本发明的任何方面或实施方案的方法。19.发明详述20.在下文中将描述本发明的元素。这些元素与特定实施方案一起列出,然而,应当理解,它们可以以任何方式和任何数量组合以创造其他的实施方案。各种描述的实施例和优选实施方案不应被解释为将本发明限制为仅明确描述的实施方案。该描述应当被理解为支持并涵盖将两个或更多个明确描述的实施方案组合或将一个或多个明确描述的实施方案与任意数量的所公开和/或优选元素组合的实施方案。此外,除非上下文另有指示,否则应当认为本技术中的描述中公开了本技术中所有描述的元素的任何排列和组合。21.在第一方面,本发明涉及一种通过单细胞三通道处理(sctrip)分析至少一个目标染色体区域的测序数据的方法,包括提供至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,其中链特异性序列数据包括多个通过对至少一个单细胞的目标染色体区域的测序获得的链特异性序列读段,将序列读段或者序列读段的每个部分(如果序列读段被平均地片段化)与参考比对,然后在任何给定的选定窗口中分配三层信息中的至少两层:(i)总序列读段或其部分的数量(也称为“读段深度”);(ii)正向(或watson)序列读段或其部分的数量,以及反向(或crick)序列读段或其部分的数量;(iii)分配有特异性单倍型身份(例如,h1或h2)的序列读段或其部分的数量。22.更具体地,本发明的第一方面涉及以下方法步骤,其可以以技术上可能或合理的任何顺序进行:23.(a)提供至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,其中链特异性序列数据包括多个通过至少一个单细胞的目标染色体区域的测序获得的链特异性序列读段;24.(b)将每个序列读段或其部分与至少一个目标染色体区域的参考序列比对,以使所述序列读段或其部分沿着至少一个目标染色体区域的参考序列按位置顺序排列;25.(c)将染色体单倍型身份(h1/h2)沿着至少一个目标染色体区域分配至来自(b)的每个比对的序列读段或其部分;和26.(d)将下列序列信息通道中的任意两个分配至按位置顺序排列且比对的序列读段或其部分的至少一个预定序列窗口:27.(i)在至少一个预定序列窗口中比对的总序列读段或其部分的数量;28.(ii)在至少一个预定序列窗口中比对的正向序列读段或其部分的数量,以及反向序列读段或其部分的数量;29.(iii)在至少一个预定序列窗口中比对的分配至第一(h1)单倍型身份的序列读段或其部分的数量;和/或分配至第二(h2)单倍型身份的序列读段或其部分的数量。30.本发明优选地应用本文描述的方法以对候选细胞、组织或对象进行核型分析,作为诊断或质量控制目的的实施例。例如,在本发明第一方面的一个实施方式中,任选地或另外地,涉及一种对感兴趣的至少一个单细胞的基因组进行核型分析的方法,包括:a)从至少一个单细胞的基因组的随机位置获得多个(优选非重叠的)链特异性序列;b)将所述测试链特异性序列映射至基因组参考支架以获得映射的链特异性序列的测试分布;c)将(i)映射的序列读段的数量,(ii)映射的正链读段的数量和反链读段的数量,优选其比例,以及(iii)单倍型身份(h1/h2)(优选h1的数量和h2单倍型身份读段或其部分的数量)分配至参考支架内的预定序列窗口以获得映射的序列的三层测试分布;d)识别预期分布之间统计学上显著的改变,其中这种改变表明至少一个单细胞的基因组中的核型异常;或者e)将三层测试分布与从参考细胞(例如健康细胞)获得的参考分布比较,其中如果存在显著差异,则所述差异表明至少一个单细胞与参考细胞之间的核型差异。31.发明人开发了一种技术,将三种有价值的信息整合至经测序的目标染色体区域(例如完整的染色体或基因组),这三种信息由读段深度、模板链识别(复制后源自母细胞的正链或反链)和单倍型定相或单倍型组成,单倍型定相或单倍型表明来自所有二倍体生物中存在的父本或母本染色体的序列的身份。发明人惊奇地发现,当分析经测序的单细胞的数据并将数据与三层信息的遗传预期分布比较时,通过仅分析单细胞的序列数据,或者通过观察相同遗传起源的多个细胞的分离模式,能够容易地识别染色体区域内许多以前难以检测到的结构变异。对于后一种方法,群体内完整或部分染色体的异常分离或分布能够被用于识别经测序的基因组内的多倍体或易位。32.本发明的方法利用strand-seq对单细胞中的体细胞变异进行单倍型识别检测。经检测的变异类别包括缺失、重复、倒位、易位、复杂sv类别、拷贝数中性的杂合性丢失(cnn-loh)和细胞倍性改变。本发明的方法利用模板链的有丝分裂分离模式(即染色单体分离模式),其反映以前未考虑过的用于检测细胞群体中sv的“遗传信号”。本发明通过在每个单细胞中分析三个正交数据层(或“通道”)(读段深度,链方向和单倍型定相)来利用该信息,通过根据本发明的本文称为“三通道处理”的新方法(图1),整合产生一组鉴别sv诊断足迹(diagnostic footprint)。令人惊讶的是,本发明的方法不需要穿过sv断点的读段匹配,这使得该方法与单细胞序列的情况一样适用于具有低序列覆盖度的可扩展低通量测序策略,并且能够检测重复序列两侧的sv。本文中的实施例通过分析细胞系和原发性白血病展示实用性,揭示先前未解决或未完全解决的变异类别以及重复相关的和间断平衡的类sv形成,并解析通过单细胞sv图谱确定的亚克隆。本发明将通过对单细胞中对各种sv类别进行可扩展、经济高效的分析,从而打开一系列研究机会。33.本发明上下文中使用的以下术语应被详细定义,这些定义通常包括本文描述的发明的特别优选的实施方案。对于此类实施方案或某些术语的优选的定义,上述关于实施方案和方面的组合的描述同样适用。34.术语“序列数据”应指通过对多核苷酸测序获得的数据,其中该序列数据包含多个序列读段,且每个序列读段源自对模板多核苷酸链的测序。在本发明的优选实施方案中,模板多核苷酸链为正向或反向(w或c)链。35.如本文所用,术语“序列读段(read)”是指从获得自生物细胞或病毒的核酸分子获得或读取的核苷酸序列。序列读段能够通过本领域已知的各种方法获得。通常,序列读段是从测试样本获得或富集的核酸片段扩增(例如,聚合酶链式反应,如桥式扩增)后获得的。序列读段的长度可以因所使用的测序方法而变化。能够用于本发明上下文的序列读段的优选长度为50至500个核苷酸,优选约100至200个核苷酸。36.可用于本发明上下文的测序方法选自技术人员已知的任何方法。然而,目前所谓的“下一代测序”方法是优选的,包括目前由例如illumina、life technologies和roche使用的所谓的并行合成测序或连接测序平台,或基于电子检测的方法(如thermofisher商业化的ion torrent技术)等。测序方法还可以包括所谓的“第三代测序(tgs)”技术,如纳米孔测序方法。其他方法包括“单分子实时(smrt)”测序(例如通过pacific biosciences),以及能够获得超过1kb的序列读段的所谓的“长读段测序”。这些都提供通常称为长读段序列数据(即序列读段》1000个碱基对)。37.在本发明的上下文中,特别优选提供目标染色体区域(例如测试细胞的)的序列作为链特异性序列读段或其部分。该序列读段或其部分保留例如测序读段的染色体区域的模板链的链特异性信息,并且在母细胞有丝分裂后由经测序的单细胞遗传。如本文将进一步解释的,此类模板链可以是正向的或反向的,或者通常也称为watson或crick。任何允许保留链身份信息的方法应包含在本发明的方法中,并适用于本发明的方法,因为关键的只是链特异性信息,而不是如何获得链身份信息的方法。在测序过程中保持链身份的一种方法是通过链特异性测序或“strand-seq”。falconer et al.2012nature methods.9(11):1107–1112详细描述了该方法,通过引用将其全部并入本文。特别是该出版物的方法部分通过引用并入本文。简而言之,strand-seq涉及在细胞的一个合成阶段(s期)使用brdu核苷酸,使得在有丝分裂之前,每个染色体的新生成的姐妹染色单体中有一条被并入的brdu核苷酸标记的链和不含brdu的另一条链(模板链)。有丝分裂后,子细胞被处理,使得brdu链被切割,因此在pcr过程中只能扩增无brdu标记的链。使用特异性衔接子(adapter),原始模板链信息被保留在扩增片段中,以便在测序后只能确定模板链的链身份。将这样获得的序列读段与参考基因组支架比对,然后指示读段方向以及从哪个链(watson或crick)获得读段。38.术语“核型”是指给定物种或测试样本的单个细胞或细胞系的基因组特征;例如,由染色体的数量和形态来定义。通常,核型被呈现为来自显微照片或计算机生成的图像的前期或中期(或以其他方式浓缩)染色体的系统化阵列。替代地,间期染色体可以以间期细胞核释放的组蛋白缺失的dna纤维被检测。在一个实施方案中,本发明的核型分析方法特别适用于检测拷贝数中性的sv。本发明的方法还可以被用于确定测试细胞或测试基因组中的拷贝数多态性(或也被称为“拷贝数变异”)。由于基于序列的核型分析方法可以在原核细胞上进行,因此染色体的存在对于本发明的方法不是必需的。39.如本文所用,术语“结构变异”、“sv”、“染色体改变”或“染色体异常”可互换使用,并指对象染色体或核型的结构与正常(即“非异常”)同源染色体或核型之间的偏差。当提及染色体或核型时,术语“正常”或“非异常”是指在特定物种和性别的健康个体中发现的主要核型或带型(banding pattern)。通过本发明的方法检测的sv优选是大型或中型sv(200kb或更大)。40.sv在本质上可以是数值的或结构的,包括非整倍体、多倍体、倒位、平衡或不平衡易位、缺失、重复、倒位重复等。sv可能与病理状况的存在相关(例如,唐氏综合征中的21三体,猫叫综合征(cri-du-chat syndrome)中的染色体5p缺失,以及导致形态异常和精神障碍的各种不平衡染色体重排,以及增殖性疾病,尤其是癌症)或者与发展成病理状况的倾向相关。出于本发明的目的,染色体异常也指基因组异常,其中测试生物(例如原核细胞)可能没有传统定义的染色体。41.此外,染色体异常包括fish的任何种类的遗传异常,包括使用光学显微镜、传统染色法在传统核型上通常不可见的遗传异常。本发明的一个优点是,由于三层信息的整合,可以检测到以前无法通过光学方法或者甚至测序方法检测到的染色体异常(例如,涉及4mb、600kb、200kb、40kb或更小的异常)。42.出于本发明的目的,术语“拷贝数变异(cnv)”是指基因组dna的结构变异的一种形式,导致细胞出现异常,或对于某些基因而言dna的一个或多个片段的拷贝数出现正常变异。cnv对应于基因组中相对大的区域,这些区域在某些染色体上缺失(少于正常数量)或重复(多于正常数量)。相应地,术语“拷贝数中性的”应表示不会导致细胞具有异常的序列元件(如基因)的拷贝数的变异。43.在本发明的上下文中,术语“诊断足迹”应指对sv是特异性的或至少指示性的本发明的三层信息的模式。因此,诊断足迹的特征在于对特定实验预期数据分布的改变。表明sv的特定模式将根据分析的数据而变化。例如,二倍体细胞可以被测序以包含每个染色体的ww、cc或wc链分布。根据链分布,相同的sv可以具有不同的诊断足迹。例如,本文表1中提供了此类足迹或模式。44.在本发明的上下文中,术语“目标染色体区域”应指任何生物或病毒的一个或多个完整或部分染色体的dna序列,其是本发明上下文中的查询对象。目标染色体区域可以仅指单个染色体部分的一段序列,或指任何染色体的父本和母本区域。在一些实施方案中,作为根据本发明的查询对象的目标染色体区域是单细胞或多个单细胞的整个染色体或整个基因组。45.在本发明的上下文中,术语“单细胞”应指通过例如链特异性测序获得的单个细胞,生成单细胞文库。本发明上下文中的单细胞文库描述了通过对所述单细胞的基因组进行测序而获得的多个序列读段。此外,本发明在一些方面和实施方案中涉及多个单细胞或大量单细胞,在这种情况下,指的是对包含在多个单细胞中的每个单细胞生成的多个单独且独立的序列库。在本发明的一个优选实施方案中,细胞系的多达96个单细胞被单独测序。此类实施方案是优选的,因为此类分析能够在多孔板(例如96孔板或384孔板)中进行。46.术语“至少一个目标染色体区域的参考序列”是指目标的完全测序参考的数据库版本。通常,这样的参考是一个完整的染色体序列。在某些情况下,参考序列也被表示为“参考支架”或“参考基因组支架”或“参考元件”或类似表达。例如,对于人类序列,基因组参考联盟经常发布和更新人类基因组,以及其他基因组(如小鼠、斑马鱼和鸡基因组)的参考序列(https://www.ncbi.nlm.nih.gov/grc)。47.在本发明的上下文中,术语“参考状态”应指用作与样本数据集进行比较的参考的序列数据的状态或分布,例如为了识别异常。这种参考状态可以是用作参考的一组真实的序列数据,或者可以是对于某个潜在的取样染色体区域预期的数据状态。通常,本发明上下文中的参考状态应涉及一条染色体或一组染色体(基因组)内的序列分布,其预期用于非异常单细胞或细胞群。例如,通常的二倍体人类基因组的参考状态是大多数人类共有的体细胞中人类染色体的分布。然而,在某些方面和实施方案中,参考状态还可以包含异常的染色体结构或非整倍性——根据本发明的参考状态是基于所分析的样本和用本发明的方法回答的问题来确定的。作为仅仅说明性实施例,使用本发明方法分析的样本可以单独源自被筛选其他sv的21三体。最重要的是,本发明上下文中的术语“参考状态”不应与“参考序列”混淆,后者如上文所定义并指用于比对序列读段的序列的元件。48.在本发明上下文所公开的序列中,术语“比对”或“对齐”应表示链特异性序列至参考支架的映射,例如本文所描述的与相应链特异性序列匹配的参考基因组或参考染色体。将序列读段及其部分与相应的参考支架比对是本领域众所周知的。这些方法可以包括bowtie(genome biol,2009;10(3):r25)或burrows wheeler alignment(bwa)(bioinformatics,2009jul 15;25(14):1754-60.doi:10.1093/bioinformatics/btp324)。将所有序列读段或其部分与参考染色体支架比对导致序列信息沿参考(例如至少一个目标染色体区域)的两条链按位置顺序排列。49.如本文所用,术语“定相”是指确定两个或更多个核酸序列(通常包括序列变异区域)是否位于相同的核酸模板上(例如染色体或染色体片段)的过程。定相可以指在单一测序读段中解析两个或更多个单核苷酸变体或多态性(snp)。优选地,定相可以指在大基因组区域上解析序列数据,或解析整个基因组序列。50.在两个或更多个多态性位点的序列的上下文中使用的术语“定相的”是指在这些多态性位点存在的序列是否来自单个染色体是已知的。51.在单个染色体的上下文中使用的术语“定相的核酸序列”是指单个染色体的核酸序列,其中核酸序列是从单个染色体的测序获得。在单个染色体片段的上下文中使用的术语“定相的核酸序列”是指单个染色体片段的核酸序列,其中核酸序列是从单个染色体片段的测序获得。52.术语“单倍型”是短语“单倍型基因型”的缩写,目前被认为是指存在于单个母本染色体或父本染色体上的一组核苷酸序列多态性或等位基因,通常作为一个单元遗传。替代地,单倍型可以指在单一染色体上一起连接或存在的一组单核苷酸多态性(snp)。术语单倍型可以用来指在单一染色体上一起连接或存在的至少两个等位基因或snp。53.术语“单倍型身份(identity)”是指感兴趣序列中观察到的单倍型与参考序列(如染色体)的已知单倍型的对应关系。例如,单倍型身份可以对应于二倍体生物的母本或父本单倍型序列的身份。在本发明的上下文中,对于每个目标染色体区域,单倍型身份“h1”或“h2”可以被分配对应于在文库或实验中观察到的所有序列的观察到的单倍型分布。在一些优选实施方案中,h1是在一条链上测序的单倍型,h2是在互补链上测序的单倍型。[0054]“聚合酶链式反应”或“pcr”是指通过dna的互补链的同时引物延伸,对特定dna序列进行体外扩增的反应。换句话说,pcr是一种用于对两侧有引物结合位点的目标核酸进行多个拷贝或复制的反应,该反应包含以下步骤中的一个或多个的重复:(i)使目标核酸变性,(ii)退火使引物至引物结合位点,以及(iii)在三磷酸核苷的存在下通过核酸聚合酶延伸引物。通常,在热循环仪中,反应在对每个步骤最优的不同温度下循环。特定温度、每个步骤的持续时间和步骤之间的变化比例取决于本领域普通技术人员熟知的许多因素。[0055]术语“互补”是指多核苷酸彼此形成碱基对的能力。碱基对通常由反向平行的多核苷酸链中核苷酸单元之间的氢键形成。互补多核苷酸链能够以watson-crick方式(例如,a与t、a与u、c与g)或允许形成双链体的任何其他方式进行碱基配对。术语“互补”也被用于表示各自的互补dna链。例如,watson链的互补链指crick链,反之亦然。[0056]术语“多核苷酸”或“核酸”指任何长度的核苷酸聚合物,包括但不限于dna、rna或dna/rna杂交体的单链或双链分子,包括规则和不规则交替的脱氧核糖部分和核糖部分的多核苷酸链(即,其中交替的核苷酸单元在糖部分的2′位置具有-oh,然后-h、然后-oh、然后-h,以此类推),以及这类多核苷酸的修饰,其中包括各种实体或部分在任何位置对核苷酸单元的取代或连接,以及天然存在或非天然存在的骨架(backbone)。多核苷酸可以在聚合后进一步被修饰,例如通过与标记组分连接。核酸的“片段”或“区段”是该核酸的一小部分。优选地,本发明中使用或分析的多核苷酸是dna分子,例如真核生物的染色体或基因组。[0057]“纯合”状态指当相同的等位基因位于同源染色体的相应位点时存在的遗传状态。相反,“杂合”状态指当不同的等位基因位于同源染色体的相应位点时存在的遗传状态。[0058]“基因”指包含至少一个开放阅读框的多核苷酸,该开放阅读框能够在转录和翻译后编码特定的蛋白质。[0059]“对象”、“个体”或“患者”在本文中可互换使用,指脊椎动物,例如哺乳动物,例如人类。[0060]如本文所用,术语“扩增”指使用目标核酸作为模板生成目标核酸的一个或多个拷贝。[0061]如本文所用,术语“基因组”指通常以核酸(dna或rna)编码的个体的遗传信息,包括基因和非编码序列。基因组可以指构成生物的一组染色体(单倍体基因组)或生物的两组染色体(二倍体基因组)的核酸,取决于其被使用的上下文。[0062]如本文所用,“目标染色体对”指相同类型的一对染色体,其中该对染色体的一个成员是母系遗传的(从母亲那里继承的),并且该对染色体的另一个成员是父系遗传的(从父亲那里继承的)。例如,目标染色体对指一对1号染色体、2号染色体、3号染色体,并且包括多达21号染色体、22号染色体和x染色体。可以通过本文公开的方法同时分析一个或多个目标染色体对,以确定目标染色体对的母系和父系遗传染色体的序列。[0063]如本文所用,目标染色体对的“单拷贝”或“单个拷贝”是指单个物理的(physical)dna分子,或者是染色体本身,或者包装成染色体形式(借助于染色体蛋白质(例如组蛋白))。在正常的二倍体人类细胞中,有46条染色单体,23条染色单体来自母亲且23条染色单体来自父亲。目标染色体的单拷贝也称为染色体类型的单拷贝。在本文所述的方法中,一种或多种染色体类型的单拷贝通常被分离到单独的容器中。[0064]如本文所用,“染色体类型”指存在于细胞中的特定染色体。在女性的正常二倍体人类细胞中,有22种常染色体和一种性染色体(x染色体)。在男性的正常二倍体人类细胞中,有22种常染色体和两种性染色体(x和y染色体)。[0065]如本文所用,术语“多态性位点”或“多态性”是指染色体内的局部区域,其中核苷酸序列与群体中至少一个个体中的参考序列不同。序列变异可以是一个或多个碱基的取代、插入或缺失。改变染色体或较大核酸分子的结构的多态性是如本文其他地方所述的sv。[0066]如本文所用,术语“单核苷酸多态性或snp”指由特定位置的单个碱基的取代引起序列变异的多态性位点。snp是指群体中确定的基因组位置处的核苷酸变异。编码区内的snp,其中两种形式导致相同的蛋白质序列,被称为同义的;如果产生不同的蛋白质,它们是非同义的。例如,snp可以对基因剪接、转录因子结合或非编码rna的序列产生影响,和/或可以表明生物的单倍型。[0067]如本文所用,术语“杂交”指一种或多种用于与单链或双链核酸共同定位互补单链核酸和/或共同定位互补的非传统分子的过程,例如通过链分离(例如,通过变性)和重新退火。在说明性实施方案中,互补核酸分子(任选地寡核苷酸)可以与单链或双链dna杂交。本领域已知的杂交方法,包括但不限于用于低严格杂交和高严格杂交的条件(sambrook and russell.(2001)molecular cloning:alaboratory manual 3rd edition.cold spring harbor laboratory press;sambrook,fritsch,maniatis.molecular cloning:alaboratory manual 3rd edition)。可以控制杂交的严格性(例如,通过洗涤条件)以要求探针和目标序列之间达到100%的互补性(高严格性),或者允许探针和目标序列之间存在一些错配(低严格性)。基于目标和探针确定适当杂交和洗涤条件因素是本领域已知的。在说明性实施方案中,在68℃使用0.2×ssc/0.1%sds进行10分钟的第一次洗涤之后,对于高严格性洗涤,在68℃使用0.2×ssc/0.1%sds进行两次15分钟的另外的洗涤;对于中严格性洗涤,在42℃使用0.2×ssc/0.1%sds进行两次15分钟的另外的洗涤。对于低严格性洗涤,在室温使用0.2×ssc/0.1%sds进行两次15分钟的另外的洗涤。[0068]如本文所用,术语“等位基因”指通过其特定核苷酸序列区别于其他形式的遗传位点、基因组区域或整个染色体的特定形式。[0069]如本文所用,术语“位点”指染色体或dna分子上与基因或物理或表型特征相对应的位置。[0070]如本文所用,术语“样本”涉及材料或材料混合物,通常(尽管不一定)是液体形式,其含有一种或多种感兴趣的分析物,在本发明的上下文中,是含有细胞材料或至少一种或多种细胞的基因组材料的样本。如本文所用,术语“染色体样本”涉及包含来自对象的染色体的材料或材料混合物。类似地,术语“基因组样本”涉及包含来自对象或细胞的基因组材料的材料或材料混合物。[0071]在本发明上下文中,关于信息的术语“分配”指任何种类的信息被连接至特定序列实体(例如参考支架的预定或预选窗口)或序列读段。优选地,根据本文公开的三个通道(i)至(iii),将观察的或映射的读段或读段的部分的数量分配为信息。[0072]“序列窗口”指支架序列的一部分,其中一个或多个序列读段或其部分可在比对过程中被映射。序列窗口的尺寸取决于序列数据的覆盖度来选择,或者取决于本发明方法的应用任意选择。在本发明的上下文中,序列窗口的尺寸可以为1至50kb,或者优选地为1至10kb,或者最优选地为约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或2 0kb。本发明的窗口也可以更大,例如50kb、100kb、200kb或500kb。根据本文给出的实施例的示例窗口约为50kb。[0073]在本发明的上下文中,术语“三层信息”是指三个独立信息通道的整合,该信息通道可以源自与序列读段信息的单倍型定相结合的链特异性测序。[0074]出于本发明的目的,术语“覆盖度”指代表重构序列中给定核苷酸的读段的平均数量。它可以根据原始基因组的长度(g)、读段数量(n)和平均读段长度(l)计算为n×l/g。例如,一个假设的基因组有2,000个碱基对,由平均长度为500个核苷酸的8个读段重构而成,其冗余度约为2倍(2x)。该参数还可以估计其他数量,例如由读段覆盖的基因组百分比(有时也称为覆盖度)。相比于30x,其通常是通过测序1000多个细胞的基因组材料获得的覆盖度,本发明的优点之一是在单细胞的目标序列内稳定识别sv,其测序覆盖度仅为0.01x。在本发明的上下文中,优选地序列读段具有目标染色体区域的0.001x至100x的总覆盖度,优选地约0.01x至0.05x。[0075]术语“生殖细胞系”指生物的细胞,其可以追溯它们的最终细胞谱系至生物的雄性或雌性生殖细胞。其他被称为“体细胞”的细胞是不直接产生配子或生殖系细胞的细胞。根据应用,生殖系细胞和体细胞均可在本发明的一些实施方案中使用。[0076]如本文所用,术语“染色体不稳定性”(cin)和“基因组不稳定性”以及类似表达涉及染色体结构和数量异常的数量或程度,即整个染色体或部分染色体的缺失或重复,例如导致非整倍体(染色体数目不正确)。高cin通常与增殖性疾病(如癌症)相关或在增殖性疾病中检测到。[0077]在本发明的上下文中,术语“读段深度”或“深度”指映射到预定或预选序列窗口的读段的数量。[0078]在本发明上下文中,术语“诊断特征”或“诊断足迹”或类似表达指与参考状态相比根据本发明分析的测序数据中的预期差异或预示sv或其他改变原因。本文表1提供了二倍体基因组中sv的实施例。然而,本领域技术人员应当理解,遗传的遗传模式将能够根据潜在情况确定任何其他诊断特征或诊断足迹。[0079]当在本发明的上下文中使用术语“基态”时,表示单细胞或单细胞群体内亲本模板链的分布。因此,在本发明的优选的实施方案中,基态应表示单细胞是否包含任意数量的w或c模板链。在二倍体情况下,作为非限制性实施例,基态可以是ww、cc、wc或cw(也参见表1)。[0080]在一些实施方案中,提供链特异性序列数据以开始本发明的方法。在其他实施方案中,同样优选地,该方法可以包括准备步骤,以制备或过滤序列数据,或者甚至通过对包含目标染色体区域的遗传物质的样本进行链测序来获得序列数据。[0081]在一个实施方案中,链特异性序列数据可以已经包括映射至参考支架的序列读段或其部分。在其他实施方案中,使用本领域已知的标准比对工具将序列读段或其部分映射或比对至相应的参考支架。[0082]优选地,作为sctrip特定方法的第一步,跨每个单独细胞或实验的读段被分配至给定宽度的窗口(“分箱(binned)”)。在一些实施方案中,根据数据或应用的覆盖度和特定条件选择窗口的宽度。本文其他地方描述了窗口的优选长度。在一些优选的实施方案中,基于其起始位置将映射读段分配至窗口;但是,也可以使用其他参考位置。此外,在一些实施方案中,链状态被分配至所述窗口中的每一个,其指示染色体区域的模板链分布或w和c读段的相对丰度。在二倍体数据集中,链状态表示为ww(watson-watson)、cc(crick-crick)或wc(watson-crick)。在优选的实施方案中,可以使用隐藏markov模型(hmm)执行链状态分配。[0083]任选地,本发明可以包括根据本文实施例1中使用的特定方法的质量控制和数据标准化的各个步骤。[0084]在本发明的优选的实施方案中,本文公开的方法整合所有三个信息通道,例如深度、方向和单倍型定相。因此,优选地,在步骤(d)中,所有三个序列信息通道(i)至(iii)被分配至至少一个预定序列窗口。[0085]在一些实施方案中,链特异性序列数据包括源自至少一个目标染色体区域的至少两条单独的链中的一条的序列读段,优选地,链特异性序列数据包括源自至少两条单独的链中的另一条的进一步序列读段,例如,其中一条链来自父本染色体,另一条链来自母本染色体(但可以进一步包括源自另外的链的序列读段,如在三倍体的情况下等)。因此,在本发明的方法的一些实施方案中,在步骤(b)中每个序列读段或其部分与正向或反向方向比对,其保留链特异性序列信息。[0086]在本发明的一些实施方案中,该方法可以包括在序列数据中识别链状态和/或检测姐妹染色单体交换(sce)。在一些实施方案中优选地在链状态检测步骤期间同时检测sce。使用strand-seq,单细胞内的每个染色体同源物在w或c链上测序(在二倍体情况下导致观察到ww、wc或cc链模式)。链状态检测和sv发现通过检测sce事件(每个二倍体细胞基因组通常有6个sce)来改进,其可以沿着染色体改变同源物的链状态。[0087]在一些实施方案中,本发明的方法可以包含片段化至少一个目标染色体区域的步骤,其中片段化基于序列信息(i)至(iii)的通道各自单独或一起执行。原则上,片段化旨在识别沿目标染色体区域的信息分布中的断点,从而确定候选sv的边界。由于本发明还使用链特异性序列数据,因此在片段化期间也可以检测拷贝数中性的候选sv的断点。在分析单细胞群体序列数据的实施方案中,优选地同时对所有细胞片段化。在一些实施方案中,这样的片段也称为子区域。[0088]本发明包括对序列单倍型定相的步骤。在一些优选的实施方案中,单倍型定相将wc区域分类为wc或cw状态,其中第一个位置指h1,第二位置个指h2。这样的步骤是优选的,因为该区别随后在sv识别期间被用于以单倍型识别方式预测sv,这是本发明的优点。为了执行该区别,在一些实施方案中,使用至少几十个snv的整个染色体单倍型;这些可以从外部数据源获得,或者替代地作为本发明方法的一个步骤在链特异性序列数据中直接被识别。给定杂合snv列表,作为非限制性实施例,本发明的工作流程可包括strandphaser算法(porubsky,d.et al.dense and accurate whole-chromosome haplotyping of individual genomes.nat.commun.8,1293(2017))以生成染色体规模的单倍型(详情参见实施例中的方法部分)。在本发明的一些实施方案中,步骤(c)涉及通过分配单核苷酸多态性(snp)沿着至少一个目标染色体区域染色体单倍型身份(h1/h2)被分配至任何给定读段,优选地其中此类snp不具有疾病关联。在一些情况下,这种分配在本文中被称为“单倍型标记”序列读段。在本发明的一些实施方案中,基于来自含有一个或多个snp或与一个或多个snp重叠的相同链的一些读段,将源自单链(w或c)的所有读段的单倍型身份被分配为单倍型身份(h1/h2)。该实施方案允许不包含任何snp或不与任何snp重叠的单倍型定相读段。[0089]特别优选地,以“链识别(aware)方式”进行单倍型定相。在本发明的上下文中,该实施方案将需要任何给定序列读段的分配的单倍型身份与相同序列读段具有的方向的信息相关联。因此,在本发明的优选的实施方案中,用于每个序列读段或其部分的通道(ii)和(iii)的信息是关联的。[0090]在某些情况下(可能是优选地),测序数据包括多个非重叠的和/或重叠的序列读段。然而,特别是在单细胞分析的情况下(其通常需要低的测序覆盖度),通常是伪迹的读段重复(例如通过pcr)被移除。因此,在优选的实施方案中,链特异性序列数据不包括重叠的序列读段。[0091]如本文所述,本发明的方法可用于检测各种sv。因此,优选地,第一方面的方法可以包括步骤(e),其通过对按位置顺序排列和比对的序列读段的序列数据内的多个(至少两个)窗口执行步骤(d)以及在多个窗口内识别子区域来识别结构变异(sv),子区域包括具有通道(i)至(iii)中的任何一个、或所有、或任何组合的异常的/变化的/改变的信息分布的一个或多个窗口。本发明中的异常的/变化的/改变的分布优选为任何本文公开的表明一个或多个sv的诊断足迹。根据本发明的此类诊断足迹描述如下:[0092]本发明的整合数据中sv检测的诊断足迹考虑了三个数据层——读段深度、读段方向和定相。在一些实施方案中,除了单细胞外,还可以分析单细胞群体以增加实现类似的sv可能性的两个不同sv类别之间的检测和/或区分,,例如单倍型标签或“单倍型标记”(含有杂合snp的定相读段)也可以优选地被考虑用于分类。在没有单倍型标签的实施方案中,本发明的方法考虑总片段覆盖度(这里表示为倍性水平;例如n=2表示二倍体或与参考相同的拷贝数)和watson读段的分数(简称为w.frac',用w/(w+c)计算)。为本发明开发的sv发现特征取决于目标染色体区域的潜在链状态,以及sv是否是纯合的还是杂合的——即,例如它们在wc、cw、ww或cc染色体区域以及纯合与杂合重复中是不同的。表1显示了在杂合的和纯合的sv背景下以及对有丝分裂链分离的不同模式的sv诊断足迹的概述,这些足迹是本发明的优选的实施方案:[0093]表1:根据本发明的诊断足迹[0094][0095][0096]1不能与wc染色体中的参考状态区分*(但能够解析cc和ww染色体,以及因此当评估细胞群体中的亚克隆sv时)[0097]2不能与wc染色体中的杂合子重复区分*(但能够解析cc和ww染色体,以及因此当评估细胞群体中的亚克隆sv时)[0098]3不能在ww或cc染色体中定相*(但能够解析wc染色体,以及因此当评估细胞群体中的亚克隆sv时)[0099]如已经解释过的片段化,所述子区域或片段可由至少一个但优选地两个断点定义,其中这些断点表示与参考状态相比和/或与序列数据中的所述通道信息的整体分布相比通道(i)至(iii)的信息中的任何一个、或任何组合、或全部的变化。[0100]在一些实施方案中,所述染色体区域的所述参考状态是通道的信息的状态,其预期为所述染色体区域的信息的非异常分布和/或预定状态。[0101]在一些实施方案中,目标二倍体染色体区域中的参考状态是在二倍体目标染色体区域包含源自第一亲本目标染色体区域的第一模板链和源自第二亲本目标染色体区域的第二模板链的情况下;所述参考状态为:[0102]如果第一亲本目标染色体区域为watson(w),第二个亲本目标染色体区域为crick(c)——wc参考状态:[0103]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0104]通道(ii):每个w链和c链的读段的数量对应约1x目标染色体区域(1n)的存在;[0105]通道(iii):h1身份的w读段的数量对应1x,以及h2身份的c读段的数量对应1x;或者[0106]如果第一亲本目标染色体区域为c,第二亲本目标染色体区域为w——cw参考状态:[0107]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0108]通道(ii):每个w链和c链的读段的数量对应约1x目标染色体区域(1n)的存在;[0109]通道(iii):h2身份的w读段的数量对应1x,以及h1身份的c读段的数量对应1x;或者[0110]如果第一和第二亲本目标染色体区域为w——ww参考状态:[0111]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0112]通道(ii):w链的读段的数量对应约2x目标染色体区域(2n)的存在,以及其中仅存在剩余的(0n)读段;[0113]通道(iii):h1身份的w读段的数量对应1x,以及h2身份的w读段的数量对应1x,以及其中仅存在对应0n的剩余的读段;或者[0114]如果第一和第二亲本目标染色体区域为c——cc参考状态:[0115]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0116]通道(ii):c链的读段的数量对应约2x目标染色体区域(2n)的存在,以及其中仅存在对应0n的剩余的w读段;[0117]通道(iii):h1身份的c读段的数量对应1x,以及h2身份的c读段的数量对应1x,以及其中仅存在对应0n的剩余的w读段;[0118]其中,如果参考状态存在变化,检测到sv,并且任选地,其中根据表1中所示的变化对sv进行分类。[0119]特别优选地,表1中提到的任何sv是基于指示的诊断足迹检测的,此类sv将根据细胞的相应基态显示。[0120]在一些实施方案中,sv是改变的倍性状态,其中序列数据包括不同染色体的多个目标染色体区域,并且其中改变的倍性状态通过一条染色体的候选多倍性染色体区域与其他染色体的一个或多个其他染色体区域之间的通道(i)至(iii)的信息中的任何一个、全部或任何组合的整体分布的差异来识别。优选地,本发明的方法涉及确定w和c链在单细胞群体中的分布,并由此得到每个目标染色体区域(优选地是目标染色体)的倍性状态。[0121]实施例部分提供了非整倍体鉴定的详细描述。检测单细胞的目标染色体区域的倍性状态是基于这样一个事实,即在通过strand-seq测序的二倍体细胞中,复制的染色体随机且独立地有丝分裂分离至产生的子细胞。这意味着所有常染色体的大约50%将显示一种特征模式,其中一个同源物在正链(这里是watson的w)上被测序,另一个同源物在负链(crick的c)上被测序——以下称为wc模式。其余常染色体分别仅在c链(约25%;cc模式)或仅在w链(约25%;ww模式)上被测序(图2)。二项分布(参见实施例部分)可以被用于计算不同细胞倍性状态下常染色体链模式的预期频率。例如,在三倍体细胞中,ccc模式(常染色体的所有读段映射到c链)和www模式(常染色体的所有读段映射到w链)分别出现在所有常染色体的12.5%中。cww型和ccw型分别出现在所有常染色体的37.5%中。相比之下,四倍体和单倍体将产生各自可识别的链模式(表2)。这些不同的链状态模式(即w和c读段的相对丰度)和/或给定染色体区域的链遗传模式的预期频率可以被用于识别样本中的非整倍体。与现有方法不同的是,这些诊断足迹不需要另外的数据(例如在给定细胞中检测另外的体细胞变异)来进行倍性分配,因此,它们在检测细胞中潜在的致病性倍性改变方面更为有效和适用。[0122]表2中示出了几种细胞倍性状态的诊断足迹特征。二项分布可以被用于计算不同倍性状态下常染色体链模式的预期频率。w,基因组的watson链。c,crick链。[0123]表2:非整倍体的诊断链模式(足迹)[0124][0125]检测细胞倍性的方法优选地是至少使用链特异性序列数据和读段深度的方法。更优选地,单倍型定相也被整合。[0126]在其他实施方案中,倍性的检测涉及包含源自单细胞群体的数据以允许检测w和/或c链的分布的链特异性序列数据。包括的单细胞数据越多,通过本发明的方法可以检测到的非整倍体就越复杂。[0127]在一些实施方案中,使用至少两个或更多个单细胞的至少一个目标染色体区域的链特异性序列数据执行本发明的方法,优选地10个或更多个,更优选地50个或更多个,最优选地90个或更多个或350个或更多个;并且优选地,其中多个单细胞源自相同或同一的来源,例如相同个体和/或相同组织或样本类型。这种单细胞群体或多个单细胞优选地具有相同的起源,并且预期共享所述多倍体和/或易位。如果群体内链方向的分布与预期模式不同,则优选地检测多倍体或易位。在一些实施方案中,如果每个染色体的序列的正链或反链的分布与预期的二倍体染色体(常染色体)分离的整体分布不同,例如50%wc、25%ww和25%cc,则检测到多倍体。[0128]在本发明的上下文中,细胞或单细胞可以是包括多核苷酸基因组或其部分的任何生物细胞或细胞样结构。因此,细胞可以是病毒、原核细胞或真核细胞,例如动物或植物细胞,其中动物细胞优选地是哺乳动物细胞,例如小鼠、大鼠或人类细胞。任何细胞类型或任何组织来源的任何细胞均可用于本发明。优选地,从患者的细胞样本中获得至少一个单细胞,其中所述单细胞是与疾病相关的细胞或者是所述患者的健康细胞,优选地其中所述方法被用于与疾病和/或健康细胞相关的多个单细胞。[0129]本发明的方法特别适用于诊断疾病或对象发生疾病的概率,以及最终对疾病进行分期或监测,甚至估计疾病严重程度。有许多遗传性疾病与任何类型的sv有关。因此,本发明的一些优选的实施方案还包括进一步的步骤(f),基于目标染色体区域内检测的sv的身份、位置或数量诊断疾病。下文提供了诊断应用的详细信息。在一些实施方案中,可以将所述目标染色体区域的检测的sv与所述染色体区域的已知参考状态(例如健康细胞的染色体区域的已知状态)进行比较。此外,为了检测sv可能的病理影响,本发明可以包括检测目标染色体区域内sv影响的基因或遗传元件。由于本发明识别了每个检测的sv的染色体位置,因此进一步识别受sv影响的遗传元件(优选地是基因)可以是优选的实施方案,例如,如果其开放阅读框被sv的断点、或者被拷贝数改变、或者被基因区域中任何调节元件的损伤所破坏。[0130]在一些优选的实施方案中,根据本文公开的发明的任何方法为体外方法和/或计算机模拟方法。[0131]在一些进一步的实施方案中,如本文其他地方所述的,该方法使用多个单细胞文库来执行。在这样的实施方案中,该方法可以进一步包括计算在给定位置sv出现的概率的步骤,例如通过使用所分析的单细胞群体的通道(i)至(iii)中任何一个、任何组合,或所有的bayesian网络。[0132]使用sctrip核型分析[0133]对基因组进行核型分析在临床实践和研究中是一种有价值的方法。诊断患者、与疾病相关的组织、或生殖医学中的胚胎细胞中的遗传异常。在研究中,核型分析允许研究这类sv、进化事件和表型的遗传模式。传统的核型分析通常使用劳动密集型方法(如giemsa染色(g-banding)),对淋巴细胞和羊水细胞进行。因为染色体在光学显微镜上是可见的,所以解析详细突变(仅涉及染色体的一小部分)的能力是有限的。虽然有更详细的核型分析技术,如fish(荧光原位杂交),但它们依赖于特异性探针,并且在整个染色体组(即完整基因组)上进行fish在经济上或技术上都不可行。[0134]因此,在另一方面本发明的目的通过对单细胞、或者多个单细胞的群体、或者获得此类细胞的对象进行核型分析的方法得以解决,该方法包括,[0135](a)提供至少一个单细胞或单细胞群体中每个细胞的至少一个目标染色体区域(优选完整基因组)的链特异性序列数据,[0136](b)执行本文其他地方所述的sctrip方法,[0137](c)在所述单细胞或单细胞群体的目标染色体区域内检测一个或多个sv,以及[0138](d)根据从sctrip方法的输出中检测的所有sv获得计算机模拟核型;例如,核型可以通过sv的位置、概率和/或类型在分析的基因组的示意图上可视化。这种表现可以对应于染色体处于其中期或前中期状态中的分析的基因组。图中提供了此类计算机核型的实施lupski综合征)、17p11.2(微重复17p11.2)、17q21.31(微缺失17q21.31)、19q13.11(微缺失19q13.11)、22q11.2(远端微缺失22q11.2)、xq28(微重复xq28)、1p32.1-p31.1(微缺失和重复1p32-p31)、7q32.2-q34(微缺失7q33)和6q22.33-q23.3(微缺失6q22.33)。[0147]许多癌症疾病与染色体异常有关。因此,如果患者样本与参考相比显示cin异常或增加,则一般可诊断为癌症。本发明上下文中分析、预测、诊断或监测的癌症选自以下非限制性癌症列表:[0148]听神经瘤;腺癌;肾上腺癌;肛门癌;血管肉瘤(如淋巴管肉瘤、淋巴管内皮肉瘤、血管肉瘤);阑尾癌;良性单克隆丙球蛋白病;胆管肿瘤(如胆管癌);膀胱癌;乳腺癌(如乳房的腺癌、乳房的乳头状癌、乳腺瘤、乳房的髓样癌);脑癌(如脑膜瘤、胶质母细胞瘤、神经胶质瘤(如星形细胞瘤、少突胶质细胞瘤)、成神经管细胞瘤);支气管癌瘤;类癌瘤;宫颈癌(如宫颈腺癌);绒毛膜癌;脊索瘤;颅咽管瘤;结肠直肠癌(如结肠癌、直肠癌、结直肠腺癌);结缔组织癌;上皮癌;室管膜瘤;内皮肉瘤(如kaposi肉瘤、多发性特发性出血性肉瘤);子宫内膜癌(如子宫癌、子宫肉瘤);食管癌(如食管腺癌、barrett腺癌);尤因氏肉瘤(ewing's sarcoma);眼癌(如眼内黑色素瘤、视网膜母细胞瘤);常见嗜酸性粒细胞增多症(familiar hypereosinophilia);胆囊癌;胃癌(如胃腺癌);胃肠道间质瘤(gist);生殖细胞癌;头颈癌(如头颈部鳞状细胞癌、口腔癌(如口腔鳞状细胞癌)、咽喉癌(如喉癌、咽癌、鼻咽癌、口咽癌);造血系统癌(如白血病,如急性淋巴细胞白血病(all)(如b细胞all、t细胞all)、急性髓细胞白血病(aml)(如b细胞aml、t细胞aml)、慢性髓细胞白血病(cml)(如b细胞cml、t细胞cml)和慢性淋巴细胞白血病(cll)(如b细胞cll、t细胞cll));淋巴瘤,如霍奇金(hodgkin)淋巴瘤(hl)(如b细胞hl、t细胞hl)和非霍奇金淋巴瘤(nhl)(如b细胞nhl,如弥漫性大细胞淋巴瘤(dlcl)(如弥漫性大b细胞淋巴瘤)、滤泡性淋巴瘤、慢性淋巴细胞白血病/小淋巴细胞淋巴瘤(cll/sll)、套细胞淋巴瘤(mcl)、边缘区b细胞淋巴瘤(如粘膜相关淋巴组织(malt)淋巴瘤、淋巴结边缘区b细胞淋巴瘤、脾边缘区b细胞淋巴瘤)、原发性纵隔b细胞淋巴瘤、burkitt淋巴瘤、淋巴浆细胞淋巴瘤(即waldenstrom巨球蛋白血症)、毛细胞白血病(hcl)、免疫母细胞大细胞淋巴瘤、前体b淋巴细胞淋巴瘤和原发性中枢神经系统(cns)淋巴瘤;以及t细胞nhl,如前体t淋巴细胞淋巴瘤/白血病、外周t细胞淋巴瘤(ptcl)(如皮肤t细胞淋巴瘤(ctcl)(如真菌病、sezary综合征)、血管免疫母细胞性t细胞淋巴瘤、结外自然杀伤性t细胞淋巴瘤、肠病型t细胞淋巴瘤、皮下脂膜炎样t细胞淋巴瘤和间变性大细胞淋巴瘤),如上所述的一种或多种白血病/淋巴瘤的混合物和多发性骨髓瘤(mm))、重链疾病(例如,α链疾病、γ链疾病、μ链疾病);血管母细胞瘤;下咽癌;炎性肌纤维母细胞瘤;免疫细胞性淀粉样变;肾癌(如肾母细胞瘤又称wilms瘤、肾细胞癌);肝癌(如肝细胞癌(hcc)、恶性肝癌);肺癌(例如,支气管肺癌、小细胞肺癌(sclc)、非小细胞肺癌(nsclc)、肺腺癌);平滑肌肉瘤(lms);肥大细胞增多症(如系统性肥大细胞增多症);肌肉癌;骨髓增生异常综合征(mds);间皮瘤;骨髓增生性疾病(mpd)(如真性红细胞增多症(pv)、原发性血小板增多症(et)、原因不明性髓样化生(amm)又称骨髓纤维化(mf)、慢性特发性骨髓纤维化、慢性粒细胞白血病(cml)、慢性中性粒细胞白血病(cnl)、高嗜酸性粒细胞综合征(hes));成神经细胞瘤;神经纤维瘤(如神经纤维瘤病(nf)1型或2型,神经鞘瘤病);神经内分泌癌(如胃肠胰神经内分泌肿瘤(gep-net)、类癌瘤);骨肉瘤(如骨癌);卵巢癌(如囊腺癌、卵巢胚胎癌、卵巢腺癌);乳头状腺癌;胰腺癌(如胰腺腺癌、导管内乳头状粘液瘤(ipmn)、胰岛细胞瘤);阴茎癌(如阴茎和阴囊的paget病);松果体瘤;原始神经外胚层肿瘤(pnt);浆细胞瘤;副肿瘤综合征;上皮内肿瘤;前列腺癌(如前列腺腺癌);直肠癌;横纹肌肉瘤;唾液腺癌;皮肤癌(如鳞状细胞癌(scc)、角化棘皮瘤(ka)、黑色素瘤、基底细胞癌(bcc));小肠癌(如阑尾癌);软组织肉瘤(如恶性纤维组织细胞瘤(mfh)、脂肪肉瘤、恶性周围神经鞘瘤(mpnst)、软骨肉瘤、纤维肉瘤、粘液肉瘤);皮脂腺癌;小肠癌;汗腺癌;滑膜瘤;睾丸癌(如精原细胞瘤、睾丸胚胎癌);甲状腺癌(如甲状腺乳头状癌、乳头状甲状腺癌(ptc)、甲状腺髓样癌);尿道癌;阴道癌;以及外阴癌(如外阴的paget病)。[0149]在优选的实施方案中,本发明用于诊断疾病的方法是纯体外或甚至计算机模拟执行的方法。[0150]在其他的实施方案中,本发明的诊断可以包括以下步骤中的任何一个或所有:获得待诊断对象的样本。此类样品可以是包含基因组材料的任何生物样品,优选对象的细胞样品。此类样本可以从任何来源获得以分析对象的总体基因组状态,或者可以从怀疑涉及病理的组织或细胞类型中具体获得。因此,除了本文提供的样本的一般定义之外,此类生物样本还可以包括任何生物组织、器官、器官系统或流体。此类样本包括但不限于痰、血液、血细胞(如白细胞)、羊水、血浆、精液、骨髓和组织或髓部(core)、细针或穿刺活检样本、尿液、腹膜液和胸膜液,或其细胞。生物样本还可以包括组织切片,例如为组织学目的而采集的冷冻切片。生物样本也可以被称为“患者样本”。[0151]诊断中包括的进一步步骤可能是用本发明的方法分离待分析的dna。此类获得dna、纯化和制备以用于测序用途的方法是本领域技术人员所熟知的。此外,本发明的诊断方法可以包括链特异性测序以获得链特异性序列数据。[0152]细胞质量控制[0153]另一方面,本发明提供了一种用于评估单细胞或单细胞群体内的染色体稳定性的方法,该方法包括执行根据前述权利要求中任一项所述的方法,其中所述单细胞或单细胞群体中sv的总数量增加或sv的任何一种类型或多种类型的数量增加表明染色体不稳定。[0154]如本文已经提到的,cin是许多疾病(特别是癌症)的一般指标。因此,用本发明的sctrip测试cin提供了一种应用,当细胞显示增加的cin时,轻松了解细胞群体是否是低质量的。该方法用于基因工程细胞或细胞群体的质量控制,其中不稳定性的增加表示质量损失。[0155]在涉及治疗目的的自体或异源或外源细胞的基因工程的基因编辑和自体t细胞疗法的时代,将工程化细胞应用于人类患者之前对其质量控制的需求增加。细胞的基因工程总是承担着将可能影响遗传稳定性的工程化细胞改变引入基因组的风险。在最坏的情况下,cin增加能够在给患者施用后导致癌症疾病的发展,这必须不惜一切代价避免。由于本发明提供了一种快速且便宜的方法来评估细胞群体的sv,因此其可以被用作再输注之前此类工程化细胞的质量控制程序。在一个实施方案中,该方法需要检测工程化细胞或细胞系样本中的sv,并将其与参考细胞或参考状态进行比较。观察的cin的增加将导致工程细胞的质量下降。此外,某些类型的有问题的sv的出现可能会导致丢弃工程化细胞。[0156]优选地,在这方面,所分析的单细胞或单细胞群体是遗传工程化细胞,例如通过基因编辑、病毒整合。优选的工程化细胞是免疫细胞,如嵌合抗原受体(car)-t细胞、t细胞受体(tcr)工程化细胞或抗体工程化细胞。然而,任何细胞或细胞系可以用本发明的方法进行质量控制测试。这些应用包括干细胞研究,如控制诱导多能干细胞(ipsc)。因此,此类干细胞(优选ipsc)是根据本发明的各个方面和实施方案分析的优选的单细胞或细胞群体。[0157]在一些实施方案中,单细胞或单细胞群体被用于患者的细胞疗法,例如自体免疫细胞疗法。[0158]另一方面,本发明还涉及筛选影响染色体稳定性的候选化合物的方法。优选地该方法涉及将至少一个单细胞或细胞群体与候选化合物接触,然后执行本文之前所述的sctrip的任何方法,以便在处理的细胞中获得sv。该方法的另一步骤可以包括将经处理的细胞中检测的sv与参考、或与经处理前的细胞、或与平行的未经处理的细胞进行比较。[0159]筛选方法可以被应用于例如测试治疗性化合物对基因组稳定性的副作用。此类化合物可以是可能被怀疑对基因组稳定性有影响的任何化合物,且优选地选自多肽、肽、糖蛋白、拟肽、抗体或抗体样分子;核酸,例如dna或rna,例如反义dna或rna、核酶、rna或dna适配体、sirna、shrna等,包括其变体或衍生物,例如肽核酸(pna);靶向基因编辑构建体,例如crispr/cas9构建体,碳水化合物,例如多糖或低聚糖等,包括其变体或衍生物;脂质,例如脂肪酸等,包括其变体或衍生物;或者小有机分子,包括但不限于小分子配体、小细胞渗透分子和拟肽化合物。因此,术语候选化合物还应包括处理或改变细胞的任何方法,以测试此类方法在基因组稳定性方面的能力。然而,优选地是测试抗癌药物,如化疗药物。[0160]此外,在一些实施方案和方面中本发明涉及以下特别优选的逐项列出的实施方案:[0161]项目1:一种通过单细胞三通道处理(sctrip)分析至少一个目标染色体区域的测序数据的方法,其包括提供至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,其中链特异性序列数据包括多个通过至少一个单细胞的目标染色体区域的测序获得的链特异性序列读段,将序列读段或者序列读段的每个片段化部分(如果序列读段被平均地片段化)与参考组件比对,然后在任何给定的选定窗口中分配三层序列信息中的至少两层:(i)总序列读段或其部分的数量(也称为“读段深度”);(ii)正向(或watson)序列读段或其部分的数量,以及反向(或crick)序列读段或其部分的数量;(iii)分配有特异性单倍型身份(如h1和/或h2)的序列读段或其部分的数量。[0162]项目2:根据项目1所述的方法,其包括以下具体步骤:[0163](a)提供至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,其中链特异性序列数据包括多个通过至少一个单细胞的目标染色体区域的测序获得的链特异性序列读段;[0164](b)将每个序列读段或其部分与至少一个目标染色体区域的参考序列比对,以使所述序列读段或其部分沿着所述至少一个目标染色体区域的参考序列按位置顺序排列;[0165](c)将染色体单倍型身份(h1/h2)沿着至少一个目标染色体区域分配至来自(b)的每个比对的序列读段或其部分;和[0166](d)将下列序列信息通道中的任意两个分配至按位置顺序排列且比对的序列读段或其部分的至少一个预定序列窗口:[0167](i)在至少一个预定序列窗口中比对的总序列读段或其部分的数量;[0168](ii)在至少一个预定序列窗口中比对的正向序列读段或其部分的数量,以及反向序列读段或其部分的数量;[0169](iii)在至少一个预定序列窗口中比对的分配至第一(h1)单倍型身份的序列读段或其部分的数量;和/或分配至第二(h2)单倍型身份的序列读段或其部分的数量。[0170]项目3:根据项目1或项目2所述的方法,其中所有三个序列信息(i)至(iii)通道被分配。[0171]项目4:根据项目1至项目3中任一项所述的方法,其包括片段化至少一个目标染色体区域的步骤,其中片段化是基于序列信息通道(i)至(iii)各自单独或一起执行的。[0172]项目5:根据项目1至项目3中任一项所述的方法,其中提供的序列读段(如项目2中的步骤(a))独立于序列读段的读段长度被提供。[0173]项目6:根据项目1至项目5中任一项所述的方法,其中所述链特异性序列数据包括映射至所述至少一个目标染色体区域的至少两条单独的链中的一条的序列读段,优选地包括映射至所述至少两条单独的链中的另一条的进一步序列读段,例如其中一条链来自父本染色体,另一条链来自母本染色体(但可以进一步包括映射至单链(在单倍体的情况下),或另外的链(在三倍体的情况下)的序列读段等等)。[0174]项目7:根据项目1至项目6中任一项所述的方法,其中通过strand-seq(falconer et al.2012nature methods.9(11):1107–1112.)获得链特异性序列数据。[0175]项目8:根据上述项目中任一项所述的方法,其中测序数据包括多个非重叠的和/或重叠的序列读段。[0176]项目9:根据上述项目中任一项所述的方法,其中如项目2中的步骤(b)中,每个序列读段或其部分与正向或反向方向比对,以保持链特异性序列信息。[0177]项目10:根据上述项目中任一项所述的方法,其进一步包括以下步骤:[0178](e)通过对按位置顺序排列和比对的序列读段的序列数据内的多个(至少两个)窗口执行步骤(d),以及在多个窗口内识别子区域,来识别结构变异(sv),该子区域包含具有通道(i)至(iii)中的任何一个、或所有、或任何组合的异常的/变化的/改变的信息分布的一个或多个窗口。[0179]项目11:根据项目10所述的方法,其中所述子区域由至少一个(优选两个)断点定义,并且其中所述断点表示与参考状态相比和/或与序列数据中的所述通道信息的整体分布相比通道(i)至(iii)的信息中的任何一个、或任何组合、或全部的变化。[0180]项目12:根据项目9或项目10所述的方法,其中所述染色体区域的所述参考状态是通道的信息的状态,其预期为所述染色体区域的信息的非异常分布和/或预定状态。[0181]项目13:根据项目12所述的方法,其中目标二倍体染色体区域中的所述参考状态是在二倍体目标染色体区域包括源自第一亲本目标染色体区域的第一模板链和源自第二亲本目标染色体区域的第二模板链的情况下;所述参考状态为:如果第一个亲本目标染色体区域为watson(w),第二个亲本目标染色体区域为crick(c)——wc参考状态:[0182]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0183]通道(ii):每个w链和c链的读段的数量对应约1x目标染色体区域(1n)的存在;[0184]通道(iii):h1身份的w读段的数量对应1x,以及h2身份的c读段的数量对应1x;或者[0185]如果第一亲本目标染色体区域为c,第二亲本目标染色体区域为w——cw参考状态:[0186]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0187]通道(ii):每个w链和c链的读段的数量对应约1x目标染色体区域(1n)的存在;[0188]通道(iii):h2身份的w读段的数量对应1x,以及h1身份的c读段的数量对应1x;或者[0189]如果第一和第二亲本目标染色体区域为w——ww参考状态:[0190]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0191]通道(ii):w链的读段的数量对应约2x目标染色体区域(2n)的存在,以及其中仅存在剩余的(0n)读取;[0192]通道(iii):h1身份的w读段的数量对应1x,以及h2身份的w读段的数量对应1x,以及其中仅存在对应0n的剩余的读段;或者[0193]如果第一和第二亲本目标染色体区域为c——cc参考状态:[0194]通道(i):总读段的数量对应约2x目标染色体区域(2n)的存在;[0195]通道(ii):c链的读段的数量对应约2x目标染色体区域(2n)的存在,以及其中仅存在对应0n的剩余的w读段;[0196]通道(iii):h1身份的c读段的数量对应1x,以及h2身份的c读段的数量对应1x,以及其中仅存在对应0n的剩余的w读段;[0197]其中,如果参考状态存在变化,则检测到sv,并且任选地,其中根据表1中所示的变化对sv进行分类。[0198]项目14:根据项目10至项目12中任一项所述的方法,其中sv为易位,以及其中序列数据包括不同染色体的多个目标染色体区域,以及其中易位通过一条染色体的候选染色体区域与其他染色体的一个或多个其他染色体区域之间通道(i)至(iii)的信息中的任何一个、或全部或任何组合的整体分布的差异来识别。[0199]项目15:根据项目10至项目12中任一项所述的方法,其中sv为改变的倍性状态,以及其中序列数据包括不同染色体的多个目标染色体区域,以及其中改变的倍性状态通过一条染色体的候选多倍体染色体区域与其他染色体的一个或多个其他染色体区域之间的通道(i)至(iii)的信息中的任何一个、全部或任何组合的整体分布的差异来识别。[0200]项目16:根据上述项目中任何一项所述的方法,其中序列读段具有20至500个核苷酸的长度,以及其中在序列读段超过长度阈值(500个,优选1000个或更多个核苷酸)的情况下使用部分序列读段,以及这种长序列读段被计算机模拟片段化成具有优选的20至500(~150)个核苷酸长度的序列读段的较小部分,优选地其中数据集内所述序列读段或其部分具有整体相当的序列长度。[0201]项目17:根据上述项目中任一项所述的方法,其中所述序列读段具有目标染色体区域的0.001x至100x(优选约0.01x至0.05x)的整体覆盖度。[0202]项目18:根据上述项目中任一项所述的方法,其中在步骤(c)中,染色体单倍型身份(h1/h2)沿着至少一个目标染色体区域被分配,优选地同时保留链方向信息(即,链识别方式),以及优选地,通过分配单核苷酸多态性(snp)将所述单倍型分配至序列读段或其部分,优选地其中所述snp不具有疾病关联。[0203]项目19:根据上述项目中任一项所述的方法,其中所述单倍型身份被分配至包含snp的序列读段或其部分,以及通过与snp数据库比较或者替代地通过将等位基因与相同来源的多个进一步测序的单细胞进行比较(例如,使用strandphaser–porubsky et al.2017)来识别snp的等位基因;以及任选地,其中通过以链身份推断所述单倍型身份并与具有相同链身份且包含该snp的其他序列读段或其部分进行比较,单倍型身份被分配至不包含snp的序列读段或其部分。[0204]项目20:根据上述项目中任一项所述的方法,其中所述方法用至少两个或更多个(优选地10个或更多个,更优选地50个或更多个,最优选地90个或更多个或350个或更多个)单细胞的至少一个目标染色体区域的链特异性序列数据执行;以及优选地,其中多个单细胞源自相同或同一来源,例如相同个体和/或相同组织或样本类型。[0205]项目21:根据上述项目中任一项所述的方法,其中所述目标染色体区域是一条或多条染色体,优选地是二倍体生物的一条或多条染色体。[0206]项目22:根据上述项目中任一项所述的方法,其中至少一个单细胞的至少一个目标染色体区域的链特异性序列数据包括覆盖所述单细胞的完整基因组的数据。[0207]项目23:根据上述项目中任一项所述的方法,其中所述细胞为原核细胞、真核细胞(例如动物细胞或植物细胞),优选地其中所述动物细胞为哺乳动物细胞,例如小鼠、大鼠或人类细胞。[0208]项目24:根据上述项目中任一项所述的方法,其中从患者的细胞样本中获得至少一个单细胞的至少一个目标染色体区域的链特异性序列数据,以及其中所述单细胞是与疾病相关的细胞或者是所述患者的健康细胞,优选地其中所述方法被用于与疾病和/或健康细胞相关的多个单细胞。[0209]项目25:根据上述项目中任一项所述的方法,用于检测优选的二倍体细胞基因组内的多倍体状态和/或平衡或不平衡易位,其中所述方法包括覆盖单细胞的受影响染色体区域(例如染色体)的链特异性序列数据,以及其中上述项目中任一项的方法用相同来源和/或预期共享所述多倍体和/或易位的多个单细胞进行;以及其中,如果单细胞群体内的链方向的分布与预期模式不同,则检测到多倍体或易位。[0210]项目26:根据项目26所述的方法,其中,如果每个染色体的测序的正链或反链的分布与预期的二倍体染色体(常染色体)分离的整体分布不同,例如50%wc、25%ww和25%cc,则检测到多倍体。[0211]项目27:根据项目26所述的方法,其中如果任何给定目标染色体区域(例如染色体)内的任何给定子区域的正向或反向读段的分布与给定染色体的另一个子区域独立分离,如多个单细胞内其分布所证明的,则检测到易位。[0212]项目28:根据上述项目中任何一项所述的方法,其中所述方法包括基于目标染色体区域内检测的sv的身份、位置或数量诊断疾病的进一步的步骤(f)。[0213]项目29:根据项目28所述的方法,其中所述目标染色体区域的检测的sv与所述染色体区域的已知参考状态(例如健康细胞的染色体区域的已知状态)进行比较。[0214]项目30:根据上述项目中任一项所述的方法,其中所述方法进一步包括检测目标染色体区域内sv影响的基因或遗传元件。[0215]项目31:根据上述项目中任一项所述的方法,其为体外方法或计算机模拟方法。[0216]项目32:根据上述项目中任何一项所述的方法,其中所述方法进一步包括计算在给定位置sv出现的概率的步骤,例如通过使用所有通道(i)至(iii)的bayesian网络。[0217]项目33:一种检测目标染色体区域中结构变异(sv)的方法,该方法包括,执行如项目9所述所述的方法,以及参考项目9时执行如项目10至项目32所述的方法。[0218]项目34:一种对单细胞或多个单细胞的群体进行核型分析的方法,该方法包括:[0219](a)提供至少一个单细胞或单细胞群体中的每一个细胞的至少一个目标染色体区域(优选完整基因组)的链特异性序列数据,[0220](b)执行项目1至项目31的方法,[0221](c)检测所述单细胞或单细胞群体的目标染色体区域内的sv,以及[0222](d)根据所有检测的sv获得计算机模拟核型。[0223]项目35:一种诊断对象中疾病的方法,该方法包括,提供对象的一个或多个细胞的链特异性序列数据,执行项目33所述的方法,检测一个或多个细胞内的任何sv,以及将检测的sv与参考状态进行比较,其中对象的样本中的一个或多个sv的数量、类型或位置的改变表明存在病况,例如疾病,例如癌症。[0224]项目36:一种用于评估单细胞或单细胞群体内的染色体不稳定性(cin)的方法,该方法包括执行根据上述项目中任一项所述的方法,其中所述单细胞或单细胞群体中sv的总数量增加或sv的任何一种类型或多种类型的数量增加,表明染色体不稳定。[0225]项目37:根据项目36所述的方法,用于细胞或细胞群体的质量控制,其中不稳定性的增加表示质量损失,优选地在所述细胞或细胞群体的(遗传)改变之后。[0226]项目38:根据项目36或项目37所述的方法,其中所述单细胞或单细胞群体是基因工程化的,优选地例如通过重编程、基因编辑或病毒整合。[0227]项目39:根据项目36至项目38中任一项所述的方法,其中所述单细胞或单细胞群体被用于患者的细胞疗法,例如自体免疫细胞疗法。[0228]项目40:一种计算机可读介质,其包括存储在其上的计算机可读指令,当其在计算机上运行时,执行项目1至项目33项中任一项所述的方法。[0229]项目41:一种对感兴趣的至少一个单细胞的基因组进行核型分析的方法,包括:a)从至少一个单细胞的基因组的随机位置获得多个(优选非重叠)链特异性序列;b)将所述测试链特异性序列映射至基因组参考支架以获得映射的链特异性序列的测试分布;c)将(i)映射的序列读段的数量,(ii)映射的正链读段的数量和反链读段的数量,优选其比例,以及(iii)单倍型身份(h1/h2)分配至参考支架内的预定序列窗口以获得映射的序列的三层测试分布;d)识别预期分布之间统计上显著的改变,其中这种改变表明至少一个单细胞的基因组中的核型异常;或者e)将三层测试分布与从参考细胞(例如健康细胞)获得的参考分布比较,其中如果存在显著差异,则所述差异表明至少一个单细胞与参考细胞之间的核型差异。[0230]在最后一个方面,本发明还涉及一种计算机可读介质,其包括存储在其上的计算机可读指令,当其在计算机上运行时,执行根据本文公开的发明的方法,优选sctrip。[0231]上述实施方案能够以多种方式中的任何一种实施。[0232]例如,可以使用硬件、软件或其组合来实施实施方案。当在软件中实施时,软件代码可以在任何合适的处理器或处理器集合上执行,无论是在单个计算机中提供还是分布在多个计算机之间。应当理解,执行上述功能的任何组件或组件集合通常可以被视为控制上述功能的一个或多个控制器。一个或多个控制器可以通过多种方式实现,例如使用专用硬件,或者使用微码或软件编程以执行上述功能的通用硬件(例如,一个或多个处理器)。[0233]在这方面,应当理解,一种实施方式包括至少一种计算机可读存储介质(即,至少一种有形的、非暂时的计算机可读介质),例如计算机存储器(例如,硬盘驱动器、闪存、处理器工作存储器等)、软盘、光盘、磁带、或其他有形的、非暂时的计算机可读介质,其用计算机程序(即,多条指令)编码,当在一个或多个处理器上执行时,执行上述功能。计算机可读存储介质可以是可传输的,使得存储在其上的程序可以被加载到任何计算机资源上以实施本文讨论的技术。此外,应当理解,对在执行时执行上述功能的计算机程序的引用不限于在主机上运行的应用程序。相反,本文使用的术语“计算机程序”在一般意义上指能够被用于编程一个或多个处理器以实施上述技术的任何类型的计算机代码(例如,软件或微码)。[0234]本文中使用的术语“本发明的”、“根据本发明”、“根据本发明的”等在本文中的使用意在指本文中所描述和/或所要保护的本发明的所有方面和实施方案。[0235]如本文所用,术语“包括”将被解释为涵盖“包含”和“由……组成”,这两种含义都是特别意图的,因此单独公开根据本发明的实施方案。在本文中使用时,“和/或”应被视为具有或不具有彼此的两个指定特征或组件中的每一个的特定公开。例如,“a和/或b”将被视为(i)a、(ii)b和(iii)a和b中每一个的具体公开,就如同它们每一个在本文中单独列出一样。在本发明的上下文中,术语“大约”和“约”表示本领域技术人员将理解为仍能确保所讨论特征的技术效果的精度范围。该术语通常表示与所示数值相差±20%、±15%、±10%,例如±5%。如普通技术人员所理解的,对于给定技术效果,数值的这种特定将偏差将取决于技术效果的性质。例如,自然或生物技术效通常比人为或工程技术效应具有更大的偏差。当提及单数名词时使用不定冠词或定冠词时,除非另有说明,否则例如“一”、“一个”或“该”包括该名词的复数形式。[0236]应当理解,将本发明的教导应用于特定问题或环境,以及包括本发明的变体或其附加特征(例如进一步的方面和实施方案),将在根据本文包含的教导下具有本领域普通技术的人员的能力范围内。[0237]除非上下文另有指示,否则以上阐述的特征的描述和定义不限于本发明的任何特定方面或实施方案,并且等同地适用于所描述的所有方面和实施方案。[0238]本文引用的所有参考文献、专利和出版物均通过引用整体并入本文。[0239]附图的简要说明[0240]附图显示出:[0241]图1显示出(a)strand-seq测序方案的概述。strand-seq涉及将brdu并入分裂细胞中,然后通过切割去除含有brdu的链,并对剩余的链进行短读段测序21。strand-seq文库保留了链方向和染色体同源物(单倍型)身份。虚线:链(brdu)标签。w,watson链(橙色);c,crick(绿色);h,单倍型。(b)描述有丝分裂期间模板链共分离模式如何显示单细胞中sv的方案。del,缺失;inv,倒位;tr,易位。衍生染色体的片段在dna复制过程中共享相同的模板链。h1/h2,染色体的单倍型1和2;h1/h2,另一条染色体的单倍型1和2。(c)sctrip计算方法利用三个数据层:读段深度、链比例和染色体长度单倍型定相。红色棒糖(lollipop):基于重叠snp分配至h1的读段;蓝色棒糖:分配至h2的读段。单倍型定相以链识别的方式进行评估,核型模式图(ideogram)的左侧棒糖显示定相w读段,右侧显示为定相c读段。与之前的sv检测方法相比,sctrip不依赖于不整合的或分开的读段,可扩展检测在单细胞中被认为是不可行的。图d-f描绘了染色体的诊断足迹,其中两个单倍型在不同的链上(“wc/cw染色体”)被标记。我们的框架还检测并评分cc和ww染色体上的等效足迹(见表1)。(d)del,结合未改变的读段方向检测为影响单个单倍型的读段深度损失。dup,检测为读段方向不变的单倍型特异性深度增加。(e)平衡inv,识别为深度不变的单倍型定相读段方向“翻转”。invdup,其特征是检测到一种单倍型的反向读段与同一单倍型的读段深度增加一致。(f)平衡易位,检测为影响携带sv的细胞中相同配对的基因组区域的相关模板链转变。(g)用于sv发现的bayesian框架。所描述的概率分布表示h1上的invdup(对于单倍型1(h1),片段在两条链上可见,而对于h2仅显示w链上);(h)单体型识别sv分类的bayesian图形模型。所示模型用于单细胞中的单倍型识别sv发现。该图形模型采用常用的图版表示法:圆圈表示随机变量,正方形表示模型参数,灰色(白色)对象表示观察的(潜在的)变量,箭头表示相关性,大矩形表示围住的变量存在多次。该模型描述了j个单细胞、k个片段和h=2单倍型。随机变量:片段长度l、基态t、单倍型sv状态v(待推断)、w/c读段的拷贝数nw/c、w/c方向的读段计数xw/c以及单倍型标记的w/c方向的读段计数xw/ctag。请注意,读段计数不是通过它们的单倍型(h框内的白色圆圈)观察到的,而是在没有单倍型信息(h框外的灰色圆圈)的情况下观察到的。通过单倍型观察与杂合snp重叠的读段的分数(h框内标记的灰色读段计数变量)。模型参数:背景读段的分数α,负二项式参数ρ和r,以及杂合比例h。[0242]图2显示出sctrip显示上皮细胞中的缺失、重复、倒位和染色体非整倍体。(a)通过dna链和单倍型分离的分箱的读段计数显示单细胞中sv的存在(w,watson链(橙色);c,crick(绿色))。左图:3p上的单倍型解析重复(dup),存在于rpe-1中但在c7中缺失。右图:3q上的单倍型解析缺失(del),存在于c7中但在rpe-1中缺失。“深度”框描述读段计数;“链”描述w:c分数;“定相”显示单倍型定相snp的位置,棒糖方向反映了包含snp的读段的链状态(核型模式图左侧是w,右侧是c)。(b)染色体17p单倍型解析倒位(inv)在c7和rpe-1中共享。(c)单倍体染色体的诊断足迹。描述的模板链状态模式来自c7,其具有核型定义30的单倍体13。左图显示了来自两个单细胞的染色体13链模式,具有可见的1:0模式特征的单倍体(1n)。右图总结了154个测序细胞中观察的w和c读段的分数。(d)三倍体区域的诊断足迹。所描述的模板链状态模式来自于rpe-1细胞,表现出核型定义的10q三体区域27。左图显示了来自四个单细胞的染色体10链模式。右图总结了80个测序细胞中观察的三倍体(3n)10q区域的w和c读段的分数,显示了三倍体的2:1和3:0链比例特征(表2)。[0243]图3显示了单细胞中的易位发现。(a)在bm510中,来自染色体10、13、15、17和22的片段未能与它们起源的相应染色体共分离,表明可能参与易位(使用“tr”,如“h2-tr”或“chr10tr”,表示这些片段的候选易位状态)。(b)中心金字塔:bm510易位的无偏分析。成对热图描绘了每个单倍型的片段模板链相关值,突出了易位的片段共分离诊断足迹(相关值在此表示为benjamini-hochberg调整的p值)(图1f)。带有黑色轮廓的橙色框描述了四种情况下的显著相关性(p《0.01;fisher精确检验)——对应于我们在bm510中发现的四条衍生染色体。左侧和右侧的图:彩色框举例说明了非相互易位der(x)t(x;10)和t(15;17)相互易位的片段的单倍型解析模板链状态。(在每种情况下,为可视化目的仅描绘了几个细胞。)框颜色:w(橙色);c(绿色)。灰色箭头突出显示片段之间的成对相关性,其中成对片段始终表现出相同的链状态(例如chrx和chr10tr),或始终表现出反向的链状态(例如chr15tr和chr17;反映这些易位伙伴(partner)的反向方向)。17p的易位部分内的倒位用圆形箭头表示。(c)中心:四条推断的衍生染色体的卡通表示。虚线对应于近端着丝染色体13和15上的未装配区域。(d)circos图描绘了基因组窗口77中的易位和平均基因表达值,其由bm510(此处表示为“b”)、rpe-1(“r”)和c7(“c”)生成的rna-seq数据计算。图s11通过单倍型解析表达。(e)bm510中基因融合的验证。c7、rpe-1和bm510描绘了ntrk3(绿色)、ntrk3-as1(黄色)和tp53(蓝色)基于rna-seq的读段深度。紫色虚线:检测的融合连接。左下角:推断的融合转录本。紫色框显示起始密码子位置。右下角:bm510中ntrk3调节异常。r1-3,rpe-1的rna-seq重复。例如,外显子。[0244]图4显示了复杂重排过程的单细胞特征。(a)c7细胞的链特异性读段深度,其10p上有invdup介导的扩增的区域,其具有相同单倍型的相邻末端缺失(delter),其由bfb循环产生。(b)从154个c7细胞聚合读段数据。颜色表示扩增子内识别的六个拷贝数片段(红色、蓝色、绿色、紫色、橙色和黄色)。灰色:扩增子两侧的区域。(c)描绘了三个c7细胞,红色表示的10p扩增子区域的估计最大拷贝数(cn)为1(上图)、cn为~110(中图)和cn为~440(下图)。在15q上获得的片段,sctrip推断该片段与扩增子区发生了不平衡易位,如下所示(缺少扩增子的细胞中缺乏该sv;上图)。w(绿色)和c(橙色)的读段计数上限为50(*,饱和读段计数)。tr,易位。(d)10p的遗传多样性。cn(x轴)在154个已测序的c7细胞(y轴)显示,提供(b)中每个片段的逐个细胞的cn估计值。至少有3个不同的组是容易辨别的:高cn、中等cn和10p区域缺失(与图(c)相比)。误差线反映95%的置信区间。箭头表示在10p扩增子处cn=1且cn为~440的细胞。(e)ssv模型导致观察的“主要克隆”结构。通过bfb循环的扩增通常以2n个拷贝数步骤进行,表明发生了~7个连续的bfb循环。根据我们的模型,15q末端序列的易位稳定在10p。dbs,双链断裂。(f)bfb损伤,对应于在同一单倍型上两侧为delter的invdup,在单个bm510细胞中鉴定(g)单个bm510细胞中涉及del和inv的聚集重排。所示为分为三个典型的sctrip数据通道的分箱的读段数据(左)。所有聚集的sv影响单个单倍型(h1,红色)。[0245]图5显示了基于单细胞测序的pdx衍生t-all复发的核型。(a)利用sctrip产生的基于单细胞测序的sv调用,由41个测序细胞构建的单倍型解析共有p33核型。杂合子sv仅在其已映射到的单倍型上描述。纯合子sv(根据定义)出现在两种单倍型上。cnn-loh,拷贝中性的杂合性缺失(显示在两种单倍型上)78。粉红色的染色体反映了重复的同系物。该t-all患者携带两个x染色体单倍型(见图s16)和一个y染色体,表明x和y染色体从父系传递,而母亲将其x染色体贡献给该核型(klinefelter或xxy综合征)。受影响的白血病相关基因以红色突出显示。“bcl11b-enh”表示先前在bcl11b基因的3′中描述的增强子区域。(b)使用ward方法对p33中sv基因型可能性进行分层聚类的sv排列的“热图”,显示在t-all复发中单个显性克隆的存在,以及导致核型多样性的另