趋于实用、高容量、低成本的DNA信息存储

【背景】

数字化的产品、传输和存储已经彻底改变了我们访问和使用信息的方式,但是也使信息存储成为日益复杂的挑战。DNA以高密度信息编码的能力被用于研究挑战信息存储的新介质,在易于实现的条件下可长期保存,并且作为信息载体可被追踪。本文描述了一种比以前存储更多信息的扩展方法,文中将739千字节的计算机文件编码为约5.2×106字节的Shannon信息,合成了这个DNA,对其进行了测序,并以100%的精度重新构建了原始文件。分析表明,我们基于DNA的存储方案可以远远超出当前的全球信息量,并为大规模、长期和不经常访问的数字存储提供现实技术。

【方法】

  1. 数字化信息编码DNA
  2. 将所有文件通过ASCII码的二进制转化为数字化信息(蓝色),使用霍夫曼代码将每个字节替换为三进制数位,得到转换后的base-3编码(红色),通过与之前使用的三个核苷酸中不同的那个来代替每个trit,反过来将base-3编码的信息转换成我们的DNA代码(绿色),以此确保没有均聚物产生(图1)。

  3. 合成和存储DNA
  4. 将DNA序列合成后冻干保存,之后重悬,扩增和纯化,采用Illumina HiSeq 2000进行测序,形成的片段中有大量重叠部分,长度为100的碱基片段中重叠了75个碱基,产生四倍冗余(绿色部分,紫色部分是替代片段,反向补充以增加数据安全性)。再添加索引DNA编码(黄色),编码为非重复DNA核苷酸(图1)。
    DNA信息存储流程图

  5. 解码DNA存储信息
  6. 全长为104个碱基解析出7。96×107个可读对数,全长(117 nt)DNA字符串还原到计算机中,反转编码过程,并系统地去除冗余包含的错误字符串,所得到出的DNA序列结果代表已在计算机中读取出的所有文件。

  7. 基于DNA存储的扩展性和鲁棒性*
  8. 编码效率和成本随着存储信息量的增加而发生变化,图a中X轴(对数刻度)表示要编码的信息的总量。全球数据总量(红色)大约为3 ZB(3×1021字节),左侧Y轴表示编码效率(黑线),通过可用于数据编码的碱基比例来测定,右侧Y轴表示对对编码成本的影响(蓝色),无论是目前的综合成本水平(实线)还是减少一个数量级的情况(虚线)。

    *鲁棒性(Robustness):鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。

    DNA信息编码效率

    基本误码率(Y轴)作为序列覆盖的函数,由原始79.6×106个读取样本中采样的百分比表示(X轴,对数标度)。蓝色曲线表示在没有人工干预的情况下恢复的四个文件:当读取原始读取量2%及以上时,错误为零。灰色曲线利用模拟Monte Carlo通过我们的理论误差率得到的,橙色曲线表示需要手动矫正的文件(watsoncrick.pdf):最小可能的错误率为0.0036%。

    信息读取基本误码率

江苏快3 江苏快3 江苏快三 江苏快三 江苏快3 江苏快三 江苏快三 江苏快三 江苏快3 江苏快3

【结果】

  1. 5个文件中有4个被完全解码,无需干预。第5个文件中有2处断裂,各25个碱基,检查邻近区域内假设可以缺失的片段,手动插入50个碱基后,原始文件已经可被100%的精度还原;
  2. DNA存储是一种高容量、低成本的存储方式,这一新的趋势使存储密度达到每1g合成DNA能存储2.2 PB的数字化信息,这一技术的出现对存储效率、成本和时间上都有显著提升。基于DNA的存储模式是数字化存档问题的实际解决方案。

参考文献
Goldman, N., et al., Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature, 2013. 494(7435): p. 77-80.