第14章 拉绳子(第2/7页)
汪海成刚想说话,安教授抬手打断了他,继续说道:“如果你们只是问我这些碱基数据是怎么回事儿,我给你们解释一下没问题。但别的事情就不要再麻烦我了。”
众人一时不知该如何接话。
安教授从椅子上坐直,转过头对白泓羽说:“上本科的时候,学校教你的东西都还记得吧?”
白泓羽点头,“基本都记得。”
“这些碱基序列全部都是启动子和终止子。”说了这句,他双手交叠,又沉默不语了。汪海成听得不明不白,只得看向白泓羽。白泓羽先是一愣,然后努力地一边从记忆里捞起这两个概念,一边拿起手上的资料来确认这些碱基数据。
安教授知道汪海成没听明白。现在科学界隔行如隔山,就像自己对“黑体辐射”半懂不懂,只能理解成“地球外的某种无线电信号”一样,汪海成自然也对分子生物学领域的东西一团雾水。他想了想,整理一下自己的思路,给汪海成解释起来。跟外行打交道他没有太多经验,要从头讲起也是困难重重。
“DNA你们都知道是什么吧?”
汪海成点了点头,好歹也是二十一世纪的科学工作者,不能连双螺旋的脱氧核糖核酸都不知道,就是遗传物质嘛。
“DNA是双螺旋结构,遗传信息可以看成是记录在DNA的碱基对上。DNA分子是链条非常非常长的螺旋长链结构,就好像是一张巨大连续的设计蓝图。跟修建筑一样,设计蓝图是需要一部分一部分进行解释的,钢筋要什么型号,水泥要什么型号,要分成很多很多有独立意义的信息才行。DNA也一样,需要表达成很多很多不同的蛋白质,每个蛋白质有自己的功能。”
“明白。”
“因为DNA的碱基是连续的,就是AGCT长链。一个DNA分子可能包含了很多个基因,多的甚至能上万,每个基因都只是这个DNA长链中的一段。那这就有一个很关键的问题:怎么识别一个基因从哪里开始是起点,到哪里是终点?注意,DNA分子翻译成蛋白质的过程并不是从头上第一个碱基开始翻译,一直翻译到尾巴上最后一个碱基。”
见汪海成有点半懂不懂,白泓羽插嘴解释道:“就好像电脑硬盘。一个2T容量的硬盘,整个磁片上2T都是有磁信息的。但硬盘肯定不能是一个2T的文件。系统会需要标记从哪个位置开始,到哪个位置结束,这些磁信息的01二进制数据是一个文件。这样就需要东西标记,把一个硬盘的信息分成很多很多个文件,每一段信息就可以翻译成一个蛋白质。”
“说得对,我以后给本科生上课用!”安森青一拍大腿,“当然实际要复杂得多,很多不同的基因信息彼此都有交叠。但总的来说,为了实现这个功能,DNA碱基对上有很多特殊的碱基序列,它们标识从某个位置开始可以进行蛋白质的转录翻译,这些特殊序列叫作启动子。而另外有一些特殊序列标记着转录翻译的终点,这些标记序列叫作终止子。一个文件头的标记,一个文件尾的标记,合起来就能让转录RNA识别怎么开始,怎么结束。”
汪海成为自己终于听懂了高兴了大约五秒时间,然后等把这些信息整理起来,又隐隐有些不安。他开始往下面想,这时候就感到了一种莫名的恐惧。
他有点明白了安森青教授看完材料之后,半晌才说出的第一句话是什么意思。
他有些害怕地确认自己的疑问,“小鼠的启动子……”
“不是小鼠的启动子。”安教授摇摇头。
“啊?什么……您什么意思?”
“启动子就是启动子,是所有真核生物基因表达共用的序列结构,不管是线虫,还是小鼠或人类,启动子和终止子序列都是通用的。”
“字典。”白泓羽在一边轻轻地说。
字典?
字典。
字典!
这把早就悬在心头的巨剑终于落了下来,汪海成觉得喉咙被扼住,呼吸越来越困难,在闷湿的空气里喘不过气来。他赶紧站起身抓着胸口,手忙脚乱地在旁边桌子上抓到一个不知道干什么用的纸袋,套住自己的口鼻用力开始喘气,半分钟之后,才重新镇定下来。
密码学上,把记录暗文密码和明文文字的对应关系,叫作字典。字典存在的第一个价值是隐藏原文的本意,第二个价值,是压缩信息量。
60K黑体辐射的信息并不是一个普通的数据,而是一个文件列表。它用启动子和终止子标记了文件的开始和结尾。而这个文件列表所检索的文件库,来自地球生命的基因数据。
汪海成激动起来,会议室的椅子像是长了手一样,让他全身每一寸都发痒,房间的墙壁和天花板好像摇晃着,活物一样扩展开去,离自己越来越远,狭小的会议室瞬间张开。他也不跟人答话,起身就朝外面走出去。珠海的天空青蓝如水洗过,汪海成仰头望天,这通透的天际之上淌下道道精光,如流蜜。