小时候,一盘磁带长13cm,高2cm,能储存一张周杰伦的范特西专辑。
一张直径12cm的光盘,容量4.7Gb,能储存半部《亮剑》。
后来,一个长17cm,宽14cm的机械硬盘,容量4Tb,能存储14w首无损音乐,82部50G左右的4K电影。
理论上,1克DNA可携带455EB的数据。
根据国际机构IDC预测,全球数据产生量将从2018年的33ZB快速增长至2025年的175ZB,1ZB≈1000EB相当于10亿TB(太字节)的数据量存储。
所以,理论上,1kg的DNA就能储存全球的数据。
那么问题来了,怎么存呢?
我们知道,电脑上存储的数据都是依据电压的高和低代表0和1来表示的,每一个数字、字符和标点符号都由唯一的一串01组合来构成。
那么,DNA的存储实际上就是把原本这些用0和1来表示的内容,换成用碱基:A,C,G,T来表示,存储(编码)的时候就合成DNA序列,读取(解码)的时候再进行测序解读。
而仅针对编码这一步,国内外的科学家们就先后开发了多种转码算法。图片、音频、视频、文本、程序、压缩包,文件多样,需求各异。而在不同的环境和需求下,不同的算法可能会影响编码和解码的准确性,目前还没有统一的评价体系和标准。那么,在实际应用中,哪种“译法”才是最优解呢?
《合成生物学》是我国目前唯一专注于合成生物学领域的中文科技期刊,由化学工业出版社、中国生物工程学会及国投生物科技投资有限公司共同主办,主要刊载对该学科发展起指导作用的综述与专论、具有创造性的代表我国在该方面基础与应用研究水平的学术论文等。
Chamaeleo平台
DNA存储编解码与评估解决方案
Chamaeleo是一个DNA存储碱基编解码算法的可拓展集成与系统评估平台。“Chamaeleo”本意指“变色龙”,取变色龙可针对不同环境快速适应进行特征变换之义,旨在促进该领域的开发者进行协同开发,为应用端提供一个辅助的指导工具,以实现不同存储需求的应用。
集成6大算法,提供高效转码平台
Chamaeleo平台包含三个主要模块:转码模块、纠错模块和流程模块。除1种基准算法外,集成了5种现有经典算法Church(2012)、Goldman(2013)、Grass(2015)、Blawat(2016)、Erlich (2017),以及由深圳华大生命科学研究院、深圳国家基因库自主研发的“阴阳”(Yin-Yang)双编码算法,根据高聚合低耦合的方式,可满足不同需求下的定制化编码与解码。
纠错模块目前包含了 DNA 存储转码方案中最常用的两种纠错码——Hamming码和RS码,并实现了纠错码与校正序列信息两种功能的嵌入。
流程模块用于实际转码/评估任务的执行。转码模块中的转码算法、纠错模块中的纠错码都会通过实例化的方式,为流程模块中的具体流程所使用。
构建转码方案评估体系,按需推荐择优方案
Chamaeleo平台的评价体系集合了目前文献中已报道以及研究者关心的一些重要评价参数,通过预先设置不同格式和类型的测试文件,从基本效率、序列特征等方面对编解码算法给出相应评价。
Chamaeleo从四个层面对碱基编解码算法进行评估
进一步地,针对DNA信息存储主要应用于长期冷数据(无需频繁访问的数据)存储,碱基错误与序列丢失无可避免的问题,评价体系也将对编解码方案的稳健性进行评估。通过随机引入定量的碱基错误和序列丢失,再使用对应方案进行解码,Chamaeleo收集和计算所得的正确解码信息对原始信息的覆盖率,将其作为稳健性评估的指标。
Chamaeleo以开源方式运行,以便未来持续加载新的编解码方法和评价指标,促进该领域的开放交流。
Chamaeleo平台的建立,预计将促进领域内学者的交流以及新研究者的融入,有助于形成标准化的行业流程与评价指标,从而推动该领域规范、有序、快速发展。同时,该研究中首次提出基于图论的理论评估方法及 “特征”、“倾向性”等评价指标,旨在促进DNA存储整体评价体系的发展。
研究团队表示,期待在不久的将来,更多DNA存储领域的研究者将其独特的DNA存储转码方法嵌入Chamaeleo开源工具平台中,也希望能通过广泛的交流与讨论,形成更多有指导意义的评价指标和策略,推动DNA信息存储领域编解码方法理论体系的逐渐形成。
长按识别以下二维码,即刻体验Chamaeleo平台:
https://github.com/ntpz870817/Chamaeleo
深圳华大生命科学研究院、深圳国家基因库研究团队自2017年起启动DNA存储研究,与国内外该领域多家专业性团队展开深度合作,聚焦于DNA存储的编解码方法、标准化可集成系统平台开发及规模化多场景应用示范等方向的研究探索。
除了DNA存储方向的研究,深圳华大生命科学研究院在合成生物学研究领域还取得了诸多突破性成果。其中,该研究院参与的国际协作组通过对酵母染色体从头设计与全合成,获得了与野生型酵母菌高度一致的人工合成酵母菌,相关成果2017年在《科学》(Science)杂志以封面、专刊形式同时发表了7篇论文。这是第一个人工合成的真核生物,也标志着合成生物学正开启着全新的时代。
研究团队目前也完成了新一代DNA合成仪的研制,建成国内首个自动化DNA合成平台。掌握高通量高性能自主知识产权合成仪研制能力并实现性能提升,标志着我国在合成生物学领域关键技术的重要突破,成为生命科学高端设备研发的又一重大进展。
本期《合成生物学》DNA存储专辑针对DNA存储这座工程学大厦的根基——DNA单碱基分辨率的读写技术,对经历几十年更迭的DNA扩增、组装技术,和用于DNA分子封装的创新材料科学技术进行了详细归纳与总结;同时也围绕DNA存储的另一支柱——数字信息的编码理论,进行了详尽的综述;部分我国科研团队的最近研究成果也在本专辑中进行了报道。
更多精彩文章如下:
● 《DNA信息存储:生命系统与信息系统的桥梁》
http://www.synbioj.com/CN/10.12211/2096-8280.2021-001
● 《DNA数字信息存储的研究进展》
http://www.synbioj.com/CN/10.12211/2096-8280.2020-086
● 《细胞内大片段DNA数据存储的多RS码交织编码》
http://www.synbioj.com/CN/10.12211/2096-8280.2021-023
● 《DNA数据存储:保存策略与数据加密》
http://www.synbioj.com/CN/10.12211/2096-8280.2020-084
● 《人工DNA合成技术:DNA数据存储的基石》
http://www.synbioj.com/CN/10.12211/2096-8280.2020-088
● 《DNA微阵列原位化学合成》
http://www.synbioj.com/CN/10.12211/2096-8280.2020-089
长按识别二维码,查看DNA存储专辑全文
点击文末“阅读原文”,阅读研究论文全文。
延伸阅读