第一部分中,我们回顾了具有代表性的短序列片段下一代测序Next Generation Sequencing(NGS)技术。 该技术通常分析100到600个碱基对(bp)。 短序列片段下一代测序提供了高通量,高速度和低成本的测序方法来有效地绘制人类全基因组序列whole genome sequence(WGS)。 2010年, “1000基因组计划”启动,用于建立人类遗传变异数据库。 在短短的五年内,来自26个不同种群的2500多个人类基因组被重建。

对人类全基因组进行测序存在许多技术难题。人类全基因组中有大量的长度超过1,000碱基对的重复序列片段。这些长序列片段不能被短序列片段测序所区分。我们已知,每个人类基因组有2.7到4.1百万个突变,因此,对于3.2千兆字节的全人类基因组数据,在每1,000个碱基对中至少有一个突变。这些长序列片段所包括的结构变化和基因突变可能与疾病有关,但这些结构变化和基因突变信息可能不会被短序列片段下一代测序技术有效和精确地表征出来。为了应对这些挑战,长序列测序技术已经脱颖而出,并在一些应用上产生令人惊叹的效果。例如,2014年,科学家成功地采用了由Oxford Nanopore Technologies(ONT)开发的纳米孔测序技术,在埃博拉病毒爆发期间,对疫情的传播历史和疾病演变进行实时监测。本文中,我们将讨论两种主要的长序列片段测序技术:(i)合成测序法和(ii)单分子测序法,及相关专利。

基于合成测序法的长序列片段下一代测序技术

基于长序列片段测序的合成测序法实际上依赖于短序列片段测序,但是每个特定的长DNA片段被分成短DNA片段并添加上不同的标记(具有已知序列的短寡核苷酸)。对这些短DNA片段库进行短序列片段测序之后,将具有相同标记的DNA片段的序列数据重新组装,以还原起始的长DNA片段的序列。使用基于合成测序法的长序列片段测序技术的两个有代表性的测序仪分别是Illumina的由Moleculo开发的合成长序列片段测序仪和由10X Genomics开发的测序仪。

Illumina系统将DNA片段分成8-10 kb的短序列片段,然后分散在带有微孔的玻璃芯片上。每个微孔中大约有3,000个分子。在每个微孔中,DNA片段将进一步被酶切割至〜350 bp的序列段。相同微孔中的DNA片段会被标示上相同的标记。这些DNA片段被汇集并通过短序列片段测序方法测序(US 9,249,460)。10X Genomics系统将DNA分成大约100 kb的片段,并利用微流体装置,将每个片段和特定的标记封装到单个胶束中。一旦包封在胶束内,DNA片段将被进一步切割成较短的片段,与标记链接并扩增,用于随后的测序步骤(US 9,388,465,US 9,694,361)。与Illumina的技术不同的是,由单个胶束重组的序列并不能无缝覆盖起始的整个DNA序列。因此,10X Genomics的技术需要足够多的相同DNA片段的拷贝以确保完整覆盖起始的整个DNA的序列。

基于单分子测序法的长序列片段下一代测序技术

基于单分子测序法的长序列片段测序直接对DNA片段进行测序,而不必扩增DNA片段以增强信号。这样可以减少样品制备的成本和时间,并降低了扩增过程中产生的偏差和错误。

第一个单分子测序仪是由Helicos开发销售的,其技术源自斯坦福大学的Stephen Quake博士的研究小组(US 7,037,687,US 7,169,560,US 7,220,549,US 7,767,400)。该技术将单个DNA分子连接到固体底板上以形成单分子阵列,然后通过合成测序法对单分子阵列进行测序,将荧光脱氧核糖核苷酸三磷酸deoxyribonucleotide triphosphate(dNTP)链接到DNA链中以提供荧光信号。全内荧光反射total internal reflection fluorescence(TIRF)显微镜被用来采集来自标记的DNA链的荧光信号以提高信噪比。通过记录链接的核苷酸的信息,DNA链的序列被绘制出来。 Direct Genomics进一步开发了Helicos技术,并于今年7月成功发布了第三代测序仪GenoCare。与其他单分子测序技术相比,GenoCare的错误率较低,即缺失率为1.25%,错配率为1.10%,错插率为0.46%。相比之下,其他技术的错误率大约为15%。虽然GenoCare系统目前只能读取约30 bps的DNA片段,但仍有可能增加其读取长度,以便与其他长序列单分子测序技术相媲美。

最受欢迎的单分子测序仪是由Pacific Biosciences(PacBio)开发的单分子实时single-molecule real-time(SMRT)测序仪。 PacBio将DNA片段分散到具有数千个微微升小孔的微流器件中。 DNA片段链接到透明的孔底。孔底由零模式波导 zero-mod waveguide(ZMW)材料构成。将荧光标记的脱氧核糖核苷酸三磷酸加入到每个孔中,以链接到DNA片段上。每添加一次脱氧核糖核苷酸三磷酸 dNTP,照相机记录每个零模式波导孔的发光颜色和持续时间以与DNA片段的序列相关联。在添加新的脱氧核糖核苷酸三磷酸之前,荧光团从链接的脱氧核糖核苷酸三磷酸上断开,并随扩散机制离开零模式波导孔底(US 7,960,116,US 8,153,375)。 PacBio测序仪能够读取超过50 kb的单个DNA分子,平均读取长度为10-15 kb。但是,这种长序列读取技术的错误率大约是15%。这个缺点可以通过多次测量和大量的基因组覆盖来缓解。

Oxford Nanopore Technologies(ONT)开发了一种纳米孔测序仪。这是一款非常小巧的(3厘米×10厘米)基于USB的由个人电脑供电的设备。这种便携式功能使纳米孔测序仪适用于快速临床测序。纳米孔测序仪直接检测穿过蛋白质孔的DNA片段序列。当DNA通过蛋白质孔时,同时也有电流施加在蛋白质孔上。DNA的贯通会阻塞蛋白质孔,导致电压转变,因此也改变了孔上的电流。电流的变化被记录下来,并转换成特定的k-mer序列组合信息(US 9,447,152)。有超过1000种k-mer序列的组合与所有可能的电流变化情况相关。目前,这种纳米孔测序仪的错误率较高,约为30%。通过��化用于解码k-mer库的算法,可以改善这种技术的准确性。

下一代测序的前景

下一代测序为人类基因组测序提供了一种低成本,快速和可靠的手段。如今,下一代测序不再是一种新鲜事物,而有可能成为临床医学上标准的诊断和分析工具。但是,为了进一步推进下一代测序的应用,还有一些挑战需要克服。首先,下一代测序产生大量的数据。到2013年为止,全世界每年产生大约150亿兆的测序数据。这个数据仍呈指数级增长趋势。这些大量的数据不仅需要充足的数据存储能力,还需要足够的数据分析能力来将遗传数据转化为可理解的和有意义的生物信息。其次,对于临床应用,在几天甚至几个小时内完成样品测序和数据分析是至关重要的,特别是对于一些紧急的医疗情况。尽管下一代测序系统可以在数小时内完成测序,但实际上,样本制备和数据分析仍然需要一定的时间。因此,现在还有很多需求要进一步改进下一代测序技术。目前,我们正面临下一代测序技术的飞速发展阶段,并期待在这个领域能有快速的提高。因此,对这些新兴技术,在知识产权方面保护的需求也在增加。

相关专利列表: