摘要
DNA具有许多特性,使其成为存储信息的理想选择-而不仅仅是遗传密码。但它还无法取代传统的电子存储设备,如硬盘驱动器。然而,随着测序方法的改进,化学工程等领域的研究人员正在使用DNA作为分子记录器,使其能够以前所未有的速度生成数据。以这种方式,DNA被用于“读取”和“写入”信息。这一进展可能对加速药物开发和治疗疾病产生重大影响。
在人类发明硬盘驱动器之前的数十亿年,进化选择了DNA来存储其最宝贵的信息:遗传密码。随着时间的推移,DNA在这项任务上变得如此熟练,以至于地球上所有已知的生命形式都在使用它。最近的技术突破使我们能够轻松地“读”和“写”DNA,科学家们正在重新利用这种古老的分子来存储新类型的信息——在大数据时代,人类正在以指数级的速度生成这种信息。
已经广泛讨论了重新利用DNA来存储超出遗传密码的信息的概念。毕竟,1和0的计算机代码正在碰撞物理极限。安全存储我们创建的所有数据的挑战之一最近曝光,当时Myspace曾经是最受欢迎的社交网络-宣布十年的数据可能在服务器迁移项目中无可挽回地丢失。数据的长期保护,如在休眠一段时间后重新启动的网站的数据保护,暴露了现有技术易受攻击和笨重的地方。而且这不仅仅是一个空间问题:需要大量的能源来维护数据存储。
DNA的特性有可能解决这些问题。一方面,DNA的双螺旋结构非常适合信息存储,因为知道一条链的序列会自动告诉您另一条链的序列。DNA在长时间内也是稳定的,这意味着可以保持信息的完整性和准确性。例如,年,科学家分析了从人类遗骸中分离出的DNA,这些遗骸已有年的历史。这些残骸甚至在整个时间内都没有存储在理想的条件下。如果保存在凉爽干燥的环境中,DNA几乎肯定会持续数万年。DNA在长时间内也是稳定的,这意味着可以保持信息的完整性和准确性。
然而,双螺旋最引人注目的方面可能是它可以折叠成一个非常密集的结构。为了比较,每个单独的人类细胞包含直径约0.米的细胞核。然而,如果单个核内的DNA伸展出来,它将达到两米。换句话说,如果一个人的DNA串在一起,它将延伸万亿米。年,科学家计算出理论上可以在一克DNA中存储艾字节的数据。该信息存储密度比硬盘驱动器中的物理存储密度高出约百万倍。
虽然DNA通常被认为是一种存储介质,但在取代传统硬盘驱动器之前,仍然需要克服重大的科学,经济和道德障碍。与此同时,DNA作为一种更广泛的信息技术正在变得越来越广泛和立即有用。例如,DNA已用于记录好莱坞老电影,保留遗传密码中的经典而不是脆弱的缩微胶片。最近,DNA已被用作设计更安全的基因疗法,加速抗癌药物开发甚至产生可能是生物体的第一个遗传“活流”的工具。在这个不断发展的领域的前沿,DNA不仅用于长期数据存储,而且用于以前所未有的速度促进数据生成。
加速新纳米粒子
近年来,科学家越来越多地使用DNA作为分子记录器来理解和跟踪他们的实验结果。在许多情况下,这个过程涉及DNA条形码编码:为了标记和跟踪单个实验的结果,科学家使用已知的DNA序列作为分子标记。例如,一个实验结果可能与DNA序列ACTATC相关,而另一个结果可能与TCTGAT相关,依此类推。
DNA条形码自20世纪90年代初开始出现,当时RichardLerner和已故的悉尼Brenner,当时都在斯克里普斯研究所,提出它是一种跟踪化学反应的方法。他们的概念极具创新性,但领先于时代:尚未开发出易于廉价读取DNA的技术。它的潜力只有在许多科学家为核苷酸化学,微流体学和其他方法做出贡献后才能实现,这些方法共同促成了所谓的下一代测序的出现。年取得了重大突破,研究人员报告说,在4小时的实验中分析了万个DNA碱基。
新一代测序继续迅速改进;现在可以很容易地同时读取数百万个DNA序列,这意味着可以同时进行和分析数千个实验。用下一代测序分析DNA条形码实验是它自己的数据管理形式:科学家不是一次一个地测试想法,而是可以进行20,次预测并测试它们以查看哪些是正确的。
生物学家是第一个广泛使用DNA条形码的人。随着它越来越容易获得,包括化学工程和材料科学在内的许多不同领域的研究人员正在使用该技术以全新的规模进行实验。例如,在佐治亚理工学院的实验室中,工程师正在使用DNA条形码来改善纳米粒子的设计和功能,以便他们能够安全地将药物输送到患病细胞。纳米技术主要依赖物理和化学工程,似乎与DNA完全无关。但是,当您将DNA视为跟踪和存储任何数据的一种方式时,它作为组织工具的实用性就变得显而易见了。
“由数百种纳米粒子介导的体外和体内核酸递送的直接比较揭示了微弱的相关性”纳米技术专家的一个基本问题是,设计实验以寻找有效的疗法仍然比执行和分析结果容易得多。这是因为单个纳米粒子的形状,大小,电荷,化学成分和许多其他变量可以改变它们将基因药物递送到患病细胞的程度。此外,这些因素都相互影响,使研究人员难以预测哪种纳米粒子能以最有针对性的方式提供药物。一个明显的解决方案是逐个评估每个纳米粒子。但已经开发出用于RNA药物纳米颗粒的制药公司的数据已经证明,这种类型的测试可能需要数亿美元才能实现。
这就是DNA的存储能力可以取得重大进展的地方。为了增加我们能够测试的纳米粒子的数量,我们可以设计数千种具有不同化学结构的纳米粒子-例如大的带正电的球体或带有中性电荷的小三角形-并且每个都分配DNA条形码。
纳米粒子一,化学结构一,携带DNA条形码之一。纳米粒子二,化学结构二,携带DNA条码二。我们多次重复这种条形码编码过程,从而产生许多不同的纳米粒子,每个纳米粒子都有自己独特的分子DNA标签。然后我们可以将数百种这些纳米颗粒给予患病细胞。为了鉴定最成功递送药物的纳米颗粒,我们使用DNA测序来量化细胞内的条形码。
这些实验的规模对于纳米医学来说是全新的。在我的领域中的“传统”实验产生一到五个数据点。到年底,我的实验室希望量化种不同的纳米粒子如何为40种不同的细胞类型提供基因治疗。这样做相当于同时运行20,个实验。
因此,我们还需要创建一个能够监控数据质量的数据分析管道,并帮助我们对结果进行统计测试。首先,我们测量了一个复制实验的结果在另一个实验中预测的交付情况。一旦我们知道大数据集是可靠的,我们就会使用统计数据来询问某些纳米粒子的特征-例如它们受到大小影响的传递到目标组织。我们发现纳米粒子的化学性质决定了纳米粒子的传递,而不是它的大小。使用这种方法,我们希望使用更少的资源更快地发现安全的基因疗法。我们的目标之一是确定一种纳米粒子,可以专门提供有助于杀死肿瘤的基因疗法,从而减少伴随现有治疗的恶心和脱发等副作用。
我们已经取得了一些成功。在年,通过使用DNA条形码实验生成的非常大的数据集,我们迅速确定了新的纳米粒子,这些纳米粒子可以为内皮细胞提供基因治疗,内皮细胞排列血管,以及几种类型的免疫细胞,它们控制着我们的身体如何反应对疾病。这一发现可以通过允许我们改变目前“不可摧毁”的免疫细胞中蛋白质的活性来改变治疗,这意味着蛋白质难以用小分子药物或抗体靶向。作为包括发表在期刊数据的结果Sciences美国,先进材料的国家科学院和论文集的美国化学会志在年和年,我们收到了其他基因治疗师的兴趣,并开始使用GuideRx,这是一家专注于有效开发安全基因疗法的条形码公司。
DNA条形码现在变得如此普遍,以至于即使在单个区域内也以不同的方式应用它。一个例子是癌症生物学,它研究基因突变如何导致癌症以及新药如何治疗癌症。耐药性仍然是该领域的主要挑战:患者通常最初对药物起反应但由于其丧失杀死肿瘤细胞的能力而复发。
哈佛大学ToddGolub实验室的科学家们使用DNA条形码来研究这种抗性。年,他们描述了他们如何使用病毒将DNA条形码直接插入癌细胞基因组中。A型癌细胞接受条形码序列A;癌细胞B型收到条形码B,依此类推。科学家将不同的细胞混合在一起,将它们铺在盘子上,并用抗癌药物治疗。
如果药物杀死癌细胞或减缓其生长,那么细胞就不会分裂。但如果细胞对药物产生抗药性,那么它就会迅速分裂。因此,随着时间的推移条形码序列A的相对量如果细胞类型A变得对药物产生抗性则增加,或者如果细胞类型A被药物杀死则减少。通过测序来自存活细胞的所有条形码随时间的变化,实验室量化了所有细胞类型对药物同时响应的程度。
那年晚些时候,斯坦福大学的MonteWinslow实验室使用DNA条形码编码的胰腺细胞系来鉴定阻止癌症扩散或转移的药物。实验室条使用病毒对每个细胞系进行编码,然后将每个细胞系铺在自己的孔中。然后用抗癌药物处理每个孔。通过这种方式,药物与条形码1相关联。此后,科学家立即将细胞注入血液中,然后测量哪些细胞扩散到肺部。通过确定丰富或缺乏的条形码,研究人员确定了分别促进或预防转移的药物。
在第三个例子中,麻省理工学院和哈佛大学布罗德研究所的科学家使用DNA条形码来研究基因组中的所有基因如何影响单一癌症。研究人员首先种植了大量细胞,并将它们一起放在一个大盘中。然后他们使用基因编辑系统逐一灭活或者激活基因组中的所有基因。表达已被调节的基因序列充当条形码。通过用抗癌药物处理细胞并对DNA进行测序,科学家们可以了解基因组中的每个基因如何影响抗药性。
在这些方法中,DNA既作为数据生成分子,又需要同时进行所有实验,并作为数据存储分子,因为下一代测序用于分析DNA条形码。其意义令人惊叹:相同的技术可应用于自身免疫和神经系统疾病以及心血管功能障碍。使用DNA条形码的全部功能可以通过简单的练习来理解。在前面讨论的例子中,用不同的疾病替换“癌症”一词或用任何所需的药物反应替换“抵抗”一词。通过这种方式,DNA条形码的定位可以从根本上简化早期药物开发,从而加速有效治疗的途径。
阅读与写作
DNA条形码依赖于“读取”已知的DNA序列。然而,直到最近,“编写”DNA序列实际上是不可能的。从广义上讲,我认为将DNA写成有目的地将其他形式的信息(如图片,电影或生物状态)转换为可以存储和稍后读出的序列。许多这些新的书写技术是由基因编辑系统驱动的,这些基因编辑系统来自聚集的规则间隔短回文重复序列(CRISPR)。通过合理设计的CRISPR系统,科学家们可以编写DNA序列。
一些最新的进展利用了CRISPR系统自然进化的方式来保护细菌免受病毒攻击。更具体地说,病毒通过结合细菌表面攻击细菌,然后插入它们的病毒DNA或RNA。为了“记住”病毒以备将来的攻击,细菌进化出了识别病毒DNA或RNA的CRISPR系统,然后将DNA的小片段插入到自己的基因组中。换句话说,细菌是“写作”或“记录”病毒的历史,这些病毒袭击了它们以保护自己。
DNA的双螺旋结构是理想的存储介质。但它还不能取代传统的硬盘。通过利用这种机制,SethShipman在哈佛大学遗传学家GeorgeChurch的实验室工作,现在在旧金山加利福尼亚大学,使用CRISPR将人手的图像直接记录到大肠杆菌的基因组中。为了完成这项任务,希普曼和他的同事首先表达了两种蛋白质:Cas1和Cas2。这些蛋白质一起可以获得DNA核苷酸并将它们插入基因组中。然后研究人员“喂食”大肠杆菌编码像素的DNA序列-当一起测序时-创建了手的图像。这样做需要科学家们将不同方面的信息分配给DNA。例如,在一种情况下,A,C,G和T各自代表不同的像素颜色,而相关的DNA条形码序列编码整个图像内的像素的空间位置。
通过对来自大肠杆菌的DNA进行测序,作者然后以90%以上的准确度重现了原始图像。接下来,他们重复实验,但有一个重要的转折:他们在不同的时间添加了DNA,并包括一种方法来分析记录的DNA序列相对于彼此的位置。通过测量序列是早期还是稍后添加到大肠杆菌基因组中,他们能够创建一系列图像,从而编码电影。研究人员从第一部电影的一部分录制了一部GIF,这部电影是由EadweardMuybridge于年创作的,描绘了一匹奔马。在年的一篇论文中,他们表明他们通过对细菌基因组进行测序重建了Muybridge的着名电影。
最近,瑞士苏黎世联邦理工学院(苏黎世联邦理工学院)RandallPlatt实验室的科学家们发表了一项重要发现,通过靶向mRNA,这是DNA的关键分子,进一步采取了这些方法。他们使用来自不同细菌物种的CRISPR系统代替记录由非天然DNA序列编码的图像,以产生细菌中天然mRNA基因表达的所谓生存记录。细胞中所有不同mRNA的组合决定了制备哪种蛋白质,因此决定了所有细胞功能。
为了记录细胞在不同时间点产生的mRNA,Platt实验室的科学家首先筛选了源自许多不同细菌菌株的CRISPR-Cas蛋白。该过程使他们能够鉴定能够将天然mRNA转化为DNA并将其编码到基因组中的蛋白质。他们发现来自细菌Fusicatenibactersaccharivorans的Cas1和Cas2蛋白能够这样做。通过使用专门病毒的一系列优雅研究,该团队在年证明了细胞准确记录了它们之前是否曾暴露于氧化应激,酸性条件甚至是除草剂。
这些结果非常令人兴奋,因为它们证明了在给定时间由细胞天然表达的基因可以记录到基因组中用于后续分析。随着Platt的实验室不断改进这项技术,蜂窝录音可能会变得越来越普遍。这一发展将使科学家能够追踪细胞如何变成癌症,随着时间的推移甚至年龄对感染作出反应。
无处不在的DNA存储
由于DNA被用于在越来越多的领域中生成,跟踪和存储信息,最明显的问题是DNA最终是否会与传统的电子存储设备竞争以维持人类产生的所有数字数据。目前答案是非硬盘驱动器和闪存设备在保持信息方面远远优于最先进的DNA系统。
但与所有技术一样,传统电子设备也有局限性。它们占用了物理空间并需要特定的环境条件;即使是最耐用的也不可能存活超过几十年。鉴于这些问题,我们很快就很难维护我们今天生成的所有数据。
相比之下,如果保持在凉爽干燥的环境中,DNA几乎可以持续数万年。它已经常规存储在-20或甚至-80摄氏度的实验室中,这些实验室需要非常寒冷的条件,并且还可以存储在典型电子设备无法承受的极端高温下。年,苏黎世联邦理工学院的RobertGrass和WendelinStark表明,储存在二氧化硅中的DNA可以在一周内承受70摄氏度的温度而不会引入任何错误。虽然硬盘驱动器可以容纳每平方英寸1太比特,但最近的估计表明,整个世界产生的所有信息理论上可以保存在不到一公斤的DNA中。
DNA存储变得普遍,仍然需要克服重大的技术进步。主要限制是存储信息与提取信息不同。从硬盘驱动器获取数据几乎是即时的;从DNA中提取它们需要测序,目前需要几分钟到一天才能完成。尽管DNA序列发生器在过去几年中实现了巨大的飞跃,但与硬盘驱动器相比,它们仍然庞大且昂贵。
在DNA储存充分发挥其潜力之前,这些障碍并不是我们必须解决的唯一因素。作为一个社会,我们需要承认,无处不在的DNA测序也意味着在为数据安全产生新的漏洞的同时跟踪人们会变得更加容易。在美国和全球范围内,隐私问题的例子比比皆是。
DNA测序已经被美国各地的警察部门使用,几乎没有监督。通过询问被捕的人-即使是轻微的罪行-他们的DNA,警方正在建立大型遗传信息数据库。有人认为这是21世纪相当于老式的指纹识别,但存在着重要的区别。指纹识别单个人;如果您的一位亲属提供了他或她的DNA,那么该人正在发布可以识别您或您家中任何其他人的信息。在中国,以健康计划为幌子,官员们收集了近万人的遗传信息。这一人口包括许多维吾尔族成员,他们是一个遭受歧视的穆斯林族群。目前尚不清楚政府将如何使用这些数据。
目前,围绕DNA存储的这些问题涉及一个人的遗传密码本身-讨论一直围绕着保护身份。但是在未来,如果将其他类别的信息(如医疗保健数据,法律合同和个人数字历史记录)存储在DNA中,这种情况将会引发更多关于物理安全和网络安全领域DNA存储漏洞的问题。因为可以在如此小的空间中保存如此多的信息,如何分配数据以避免在一个地方过度集中?即使可以简化提取,如何定期访问和返回数据,而不会将其暴露给恶意黑客或意外丢失?
当我考虑所有需要完成的艰苦工作-无论是科学的还是道德的-时,它似乎令人生畏。我喜欢考虑莱特兄弟,因为我在他们所在的俄亥俄州小镇长大。他们的首次飞行持续了12秒和37米。六十六年后,没有现代计算的优势,人类降落在月球上。这些壮举使我乐观地认为,我们可以在未来几十年利用DNA的自然力量,并通过积极承认其造成伤害的能力,帮助确保它主要做好事。
转载请注明:http://www.0431gb208.com/sjsbszl/2139.html