第一节 基因组结构与功能

DNA是基因的载体。基因组是细胞或生物体的全套遗传物质,或载有遗传信息的全部核酸,包括所有染色体上的核酸。因此,在细胞分裂时,进行染色体复制,均等分配到两个子细胞中;并承载稳定的遗传作用,遗传给下一代,其生物学意义重大。

一、染色质和染色体

(一)染色质和染色体的区别

染色质(chromatin)是细胞分裂间期胞核中由DNA和组蛋白构成的可被碱性染料着色的物质。在细胞分裂间期,染色质呈细丝状,形态不规则,弥散在细胞核内;当细胞进入分裂期时,染色质高度螺旋、折叠,缩短、变粗,最终凝集成条状的染色体,以保证遗传物质DNA能准确地分配到两个子代细胞中。因此,染色质和染色体是细胞核内同一物质在细胞周期不同时相的不同形态表现;细胞核是建立遗传物质稳定的活动环境,是遗传信息储存、复制和转录的场所,是细胞生命活动的控制中心。

(二)染色质

1.染色质中的DNA

染色质的成分主要包括DNA和组蛋白,两者的比率约为1:1;还含有非组蛋白和少量的RNA。在真核细胞中,染色质DNA序列根据其在基因组中分子组成的差异分为单一序列(unique sequence)和重复序列(repetitive sequence)两类。单一序列又称单拷贝序列(single-copy sequence),一般具有编码功能的基因,真核生物大多编码蛋白质的结构基因属于这种形式。

重复序列又分为中度重复序列和高度重复序列。前者重复次数可达几百到几百万拷贝,长度为几百到几千个bp多数不编码序列,构成基因内和基因间的间隔序列,起到DNA复制、RNA转录和转录后加工等调控作用;但rRNA、tRNA、组蛋白和核糖体蛋白等基因具有编码功能。后者的长度只有几个到几十个bp,但其拷贝数超过105,散在或串联重复分布在染色体的端粒和着丝粒(centromere)区,不能转录,主要构成结构基因的间隔,还可与减数分裂中同源染色体联会有关。

2.染色质中的组蛋白(histone)

组蛋白属于碱性蛋白质,pI在10以上;分为5种,即H1、H2A、H2B、H3和H4。H1为连接组蛋白(linker histone),由215个氨基酸残基组成,分子量较大,在构成核小体时起连接作用,与染色质高级结构的构建有关。H1在进化中不如另外4种组蛋白保守,有一定的种属特异性和组织特异性。在哺乳类动物细胞中,H1有6种密切相关的亚型。H2A、H2B、H3和H4为核小体组蛋白(nucleosomal histone),分子量较小,其间相互作用,具有形成聚合体的趋势,将DNA卷曲而形成核小体。这4种组蛋白高度保守,无种属及组织特异性;尤其是H3和H4,是已知蛋白质中最为保守的蛋白质,一旦其分子中任何氨基酸的改变,将对细胞产生重要的影响。

3.染色质中的非组蛋白(nonhistone protein)

非组蛋白为一类酸性蛋白质,富含天冬氨酸和谷氨酸等;其数量远少于组蛋白,但其种类多,功能多样;分子量在15~100kD之间,包括染色体骨架蛋白、调节蛋白及参与核酸代谢和染色质化学修饰的相关酶类。非组蛋白具有种属和组织特异性,在整个细胞周期都能合成,而组蛋白仅在S期合成。非组蛋白能识别特异的DNA序列,其识别位点在DNA双螺旋的大沟部分,靠近氢键和离子键。非组蛋白主要参与染色体的构建,协助DNA分子进一步盘曲、折叠,构建成染色质的高级结构;含有的启动蛋白、DNA聚合酶及引物酶等启动DNA复制;含有的转录调控因子调控基因转录。

4.常染色质(euchromatin)和异染色质(heterochromatin)

在间期细胞核中,依据染色质螺旋化程度和功能状态的不同,分为常染色质和异染色质两种。常染色质是指在间期细胞核中处于伸展状态,螺旋化程度低,碱性染料染色浅而均匀,位于细胞核的中央;在细胞分裂期,位于染色体的臂。构成常染色质的DNA主要是单一序列DNA和中度重复序列DNA。常染色质具有转录活性,但并不是其所有的基因都具有转录活性,处于常染色质状态只是基因转录的必要条件。

异染色质是指在间期细胞核中,螺旋化程度高,处于凝缩状态,碱性染料染色较深,位于细胞核的边缘,或围绕在核仁的周围,转录不活跃或无转录活性。异染色质分为组成性异染色质(constitutive heterochromatin)和兼性异染色质(facultative heterochromatin)两类。前者又称恒定性异染色质,是异染色质主要类型,在各种细胞周期中(除复制期外)都呈凝缩状态,是由高度重复的DNA序列构成;具有显著的遗传惰性,不转录也不编码蛋白质;较常染色质早聚缩晚复制,即多在S期晚期复制,而常染色质多在S期早和中期复制。后者是在某些类型细胞或一定发育阶段细胞处于凝缩失活状态,而在其他时期松展为常染色质;一般,在胚胎细胞含量少,在高度分化的细胞含量较多,即,随着细胞分化较多的基因渐次以聚缩状态关闭。

在多细胞生物,25%~90%的染色体区域具有异染色质结构,与基因组稳定、基因表达调控、细胞生长与分裂和细胞分化等直接相关。最近,孔道春等发现,当DNA复制叉障碍后,其周围的染色质结构变得更加紧密,并证明组蛋白去乙酰化和H3K9三甲基化等是复制叉障碍的重要原因。进一步研究发现,如果复制叉障碍诱发的紧密染色质结构被破坏,DNA复制解旋酶将离开DNA复制叉,导致复制叉失能。研究还发现,该调控不受检查点调控影响。因此,发现一种与DNA复制检查点平行的全新细胞调控机制,即通过调控核小体,改变组蛋白修饰,在障碍的复制叉周围形成更紧密的染色体结构,从而防止复制叉失能、基因突变、细胞死亡或癌变。这一调控机制被命名为“The Chromsfork Control”。研究证明,这些天然复制叉障碍点能激活“The Chromsfork Control”,导致该区域染色质更紧密,变成异染色质区域。因此,认为复制叉障碍诱发的染色质紧密结构应该是异染色质形成的最根本机制。一旦异染色质结构的形成被启动,辅助一些其他生化机制,最终将在某一个特定染色体区域形成异染色质结构。

5.染色质有序折叠包装为染色体

组成染色质的基本结构单位是核小体(nucleosome),后者包括约200bp的DNA、八聚体(除H1的其他4种组蛋白各两个分子组成)及其外表结合1个分子的组蛋白H1,即由10nm×5.5nm的组蛋白核心和盘绕于其核心之外的DNA构成;146bp的DNA在八聚体上缠绕1.75圈,形成核心颗粒。在两个相邻的核小体之间以DNA相连,其长度变异较大,典型的约60bp;在其上结合的组蛋白H1,锁定核小体DNA的进出端,起稳定核小体的作用(图2-1)。

一般DNA链上每间隔200nt重复出现一个核小体,但有些细胞中某些DNA区段不存在核小体;而且,这些区段往往位于某个特别活化的基因附近,其上面存在多个序列特异性DNA结合蛋白。由多个核小体形成一条直径约为10nm的念珠状纤维,即呈螺旋盘绕,每6个核小体螺旋1周,形成外径30nm、内径10nm的中空螺线管(solenoid),为染色质的二级结构,其组蛋白H1位于螺线管内部,是螺线管形成和稳定的关键因素。

对于外径30nm的螺线管组装成染色体的过程有不同的看法,其中多极螺旋模型(multiple coiling model)和支架-放射环结构模型(scaffold-radial loop structure model)得到广泛的认可。前者是指螺线管进一步螺旋盘绕,形成直径400nm的圆筒状结构,称为超螺线管(supersolenoid),这是染色质组装的三级结构;超螺线管再进一步螺旋、折叠,形成染色质的四级结构,即染色单体(chromatid);在染色质组装过程中,DNA分子经过核小体、螺线管、超螺线管到染色单体四级,连续螺旋、折叠后,其长度可压缩近万倍。后者指形成螺线管后的高级结构是由外径30nm螺线管纤维折叠成的袢状结构,螺线管一端与非组蛋白构成的染色体支架某一点结合,另一端向周围呈环状迂回后又返回到与其相邻近的点结合,形成一个个围绕支架的袢环;每个DNA袢环长约21μm,包含315个核小体,每18个袢环呈放射平面排列,结合在核基质上形成微带(miniband),再由微带沿纵轴排列成染色单体。

图2-1 DNA逐级螺旋压缩为染色体

引自龚守良.辐射细胞生物学,2014版。

6.RNA与染色质相互作用机制

2020年,美国华人学者Liu等揭示RNA的N6-甲基腺嘌呤(m6A)修饰调控染色质状态和转录活性机制。m6A是真核生物mRNA上常见的修饰类型,在胚胎发育、配子发生、免疫系统以及各种肿瘤发生等过程中具有重要作用。研究者利用m6A甲基转移酶METTL3调控小鼠胚胎干细胞,分离了处于胞质、核质和染色质3个空间中的RNA,发现其蛋白显著影响染色质上的RNA,尤其是在基因调控区域以及重复序列区域转录出的RNA(染色体相关调控RNA,chromosomeassociated regulatory RNA,carRNA)上获得m6A修饰。这些carRNA上的m6A可以被修饰蛋白YTHDC1识别,而后者一旦发现carRNA被m6A修饰,就会降解RNA。这种依赖于m6A的carRNA降解机制对于细胞功能活动非常重要。carRNA使用相同的RNA甲基化(RNA methylation)过程,但不编码蛋白,也不直接参与蛋白表达。然而,它们控制着DNA本身如何存储和转录。因此,这一发现揭示了RNA本身可以调节DNA的转录方式,而不是遗传指令从DNA到RNA再到蛋白的单向流动,这对理解人类疾病和药物设计具有重要意义。

(三)染色体

1.染色体结构

染色体(chromosome)在细胞学中是指细胞增殖周期有丝分裂中期核内易被碱性染料着色的小体。人类有23对染色体,46条,与常用实验动物的染色体数目不同。人类染色体的形态和结构在细胞分裂中期最为典型(图2-2A),图2-2B为间期染色体电镜图。

绝大多数高等动物都是二倍体(2n),即每一体细胞中有两套同样的染色体,分别来自该个体的两个亲本。来自亲本的每一配子的一套染色体称为单倍体(n)。非整倍体指的是细胞内染色体的数目发生非整套变异,是癌症的一个典型特征。据统计,实体瘤类型的癌症中有超过90%的细胞都是非整倍体,血液类型的癌症中则有超过75%的非整倍体细胞。例如,乳腺肿瘤中85%的细胞是非整倍体细胞;白血病患者中90%的造血干细胞是非整倍体。特别是癌细胞中的非整倍体变异往往涉及多条染色体,称为复杂非整倍体变异。

2.染色体功能

染色体功能主要体现其具有稳定遗传的作用。在真核生物细胞分裂时,首先进行染色体复制,然后均等分配到两个子细胞中。为了实现这一复杂的过程,染色体必须具有3个功能单位,即自主复制序列、着丝粒序列和端粒序列。

3.染色体遗传

染色体在细胞有丝分裂中,能够均等分成两份拷贝,并将自身的特性保存在世代中。在每一个DNA分子上有3种特殊的复制必需的核苷酸序列,即多个复制起点、一个着丝粒和两个端粒。复制起始位点在每条染色体有多个,其间隔3万~30万nt不等,在染色质的每一个袢环结构中可能有一个复制起点;其DNA序列特殊,如酵母细胞DNA复制起点起作用的是一段由11bp组成的“ARS共有序列(ARS consensus sequence)”,即A/TTTTATA/GTTTA/T。

图2-2 人类细胞有丝分裂中期染色体模式图及间期染色体电镜图

引自龚守良.辐射细胞生物学,2014版。A.有丝分裂中期染色体模式图;B.间期染色体电镜图。

(1)端粒和端粒酶:

着丝粒使染色体在细胞有丝分裂中期,连接于纺锤丝上,以保证分裂后的两个子细胞各得到一份DNA。端粒是真核细胞染色体末端的特殊序列,其主要作用是保证DNA分子两个末端的完全复制。然而,端粒酶在其中起到重要的作用。在DNA复制终末时,由于DNA双链中有一条链所进行的DNA合成是不连续的,DNA聚合酶催化的DNA合成不能进行到该链的3’末端,致使其末端最后一段序列不能进行复制,所形成的DNA新链5’末端将缺失一段DNA。端粒酶通过与该链的末端识别而结合,以自身RNA为模板,利用其反转录活性,对DNA末端富含G的链进行延长,通过回折补齐新链5’末端,避免DNA链随着一次次复制而逐渐增加,以保证DNA合成的完整性。人的胚细胞中有端粒酶活性而多数体细胞缺乏端粒酶活性。随着每一次细胞周期的进行,体细胞的端粒逐渐缩短;缩短至某种程度时,细胞即不再能进行有丝分裂,走向老化和死亡。在许多肿瘤细胞中,端粒酶活性重新出现,可能与肿瘤细胞无限分裂繁殖的能力有关。

(2)分离酶的作用:

在每个细胞分裂的过程中,染色体上的遗传信息必须在新产生的子细胞之间平均分配。分离酶(separase)在这个过程中起着决定性的作用。德国Hellmuth发现了调节分离酶活性的机制。在细胞开始分裂前,先复制存储在染色体上的遗传信息。然后,每个染色体均由两个相同的姐妹染色单体组成。黏连蛋白(cohesin)是由几种蛋白组成的环状结构,包围着每个染色体,并将一对染色单体保持在一起。在准备进行细胞分裂的过程中,黏连蛋白已从染色体的臂中移除。但是,只有当停留在染色体中部的黏连蛋白被分离酶切割后,一对姐妹染色单体才能完全分离开来。随后,这对姐妹染色单体迁移到纺锤体的两个相对的末端,在那里形成了子细胞的遗传基础。只有在子细胞不包含遗传缺陷的情况下才能保证它们的健康发育。分离酶必须在正确的时间保持活性。如果姐妹染色单体分离太早,那么它们只能随机分布。由此产生的子细胞包含错误的染色体并死亡,或者它们可以发育成肿瘤细胞。只有严格控制分离酶才能防止这些遗传缺陷。研究发现,蛋白shugoshin具有这种调节功能。shugoshin和分离酶抑制蛋白(securin)都可以防止分离酶在错误的时间启动染色体分离过程。如果分离酶抑制蛋白失效,那么shugoshin独自也能调节人细胞中的分离酶活性。同时,纺锤体组装检查点(spindle assembly checkpoint,SAC)控制着shugoshin和分离酶抑制蛋白的调节作用,即SAC对染色体遗传所涉及的所有过程都进行控制。

(3)早期胚胎染色体三维结构的动态变化:

基因组染色体的三维结构由拓扑相关结构域(topologically associated domain,TAD)基本单元构成。研究结果显示,在成熟的人类精子中没有TAD结构,并且没有检测到染色质调节蛋白CTCF(CCCTC结合因子,CCCTC binding factor,是CTCF基因编码的TF),这与在小鼠精子中的情况完全不同。2019年,我国刘江和陈子江等揭示了人类早期胚胎中的染色体三维结构的动态变化,并发现CTCF蛋白对于早期胚胎发育中TAD有着重要的调控功能。染色体三维结构与基因的表达调控密切相关,其结构的动态变化影响细胞功能的发挥、疾病的发生等。

4.创建单染色体酵母

在自然界,存在的生命体分为具有被核膜包裹染色体细胞核的真核生物和染色体裸露无核膜包裹的原核生物。真核生物通常含有线形结构的多条染色体,而原核生物通常含有环形结构的一条染色体。我国学者覃重军等首次将单细胞真核生物酿酒酵母天然的16条染色体人工创建为具有完整功能的单条染色体的酿酒酵母菌株SY14,其代谢、生理和繁殖功能及其染色体的三维结构发生了巨大变化,但其酵母具有正常的细胞功能,因此颠覆了染色体三维结构决定基因时空表达的传统观念,揭示了染色体三维结构与实现细胞生命功能的全新关系。该项工作是合成生物学的重大突破,即天然复杂的生命体系可以通过人工干预变简约,自然生命的界限可以被人为打破,甚至可以人工创造全新的自然界不存在的生命,建立了原核生物与真核生物之间基因组进化的桥梁,为人类对生命本质的研究开辟了新方向。

5.染色体断裂修复

西班牙Ortega等鉴别出对染色体断裂修复非常重要的新型因子,能够修复组蛋白。如缺乏这些蛋白质的细胞,由于黏连蛋白负载不足而无法修复这种染色体断裂。这种新型因子能够使姐妹染色单体一起配对,直至在减数分裂过程中发生分离;随着染色体单体之间的内聚力的减弱,修复就会表现出一定的缺陷,从而导致许多断裂无法修复,这就会增加染色体重组的概率。

6.显示染色体在早期发育过程

细胞核内遗传物质的空间排列在生物体的发育中起重要作用。美国研究者开发了一种在胚胎发育过程中追踪单个细胞染色体在线虫体内重组现象的方法。在早期的胚胎中,染色体被组织成一个非常规的杠铃状结构,其非活性区室被中央活性区隔开。要实现这种杠铃排列,就需要核层板(位于细胞核内表面的蛋白质网)的参与,核层板能够附着在非活动部分并拉伸染色体。只有在胚胎发育的后期阶段,才看到染色体分离成为活跃和不活跃的区域。利用染色体追踪手段,能够绘制整个3D染色体结构图,并显示出染色体在早期发育过程中会发生重排现象。

二、基因与基因编辑技术

基因组(genome)是细胞或生物体的全套遗传物质,或载有遗传信息的全体核酸,包括所有染色体上的核酸,对于真核生物,其基因组还包括线粒体上的核酸。各种生物体之间存在着差异,这种差异正是由基因组所决定的。各种生物体基因组的大小变化很大,但基因组的大小与生物体的复杂性没有直接的关系。基因组中某些成分的位置并非一成不变,而且同种生物的不同个体之间,其基因组大小或基因数目也不是绝对固定的,甚至由于基因组结构变化还会导致功能的变化。尽管如此,各类生物的基因组仍然有着基本的结构特点。人类基因组由3.2×109bp的DNA组成,包括细胞核染色体基因组和细胞质内线粒体基因组。细胞核染色体基因组中大约有一半为不同的重复序列,含2.5万~3.5万个基因。基因组控制生物体的生长发育、生命活动。

(一)基因

基因(gene)是合成有功能的多肽或RNA分子所必需的所有核酸序列,除了为蛋白质或RNA编码的序列之外,还包括控制基因转录的序列。基因是负载特定生物遗传信息的DNA分子片段,在一定条件下能够表达这种遗传信息,产生特定的生理功能。有的生物基因是RNA分子。

1.基因的基本特征

①基因是一种相对独立的遗传信息单位,可以通过各种方式在生物个体之间进行重新组合,并向后代传递;②基因是一段DNA分子,遗传信息贮存在DNA序列之中;③基因的信息内容通过相应的形式表现出来,即指导合成蛋白质或RNA,进而产生生理功能,或影响其他基因的表达。

2.基因种类

(1)结构基因(structural gene)和控制基因(controlling gene):

按照功能可以将基因分为结构基因和调控基因,前者可被转录形成mRNA,并被翻译成多肽链,构成各种结构的蛋白质、酶和激素;后者是指某些可调节、控制结构基因表达的基因,其突变可能影响一个或者多个基因的功能,导致蛋白质产物量的改变。此外,还有一些只转录而不翻译的基因,如rRNA基因,专门转录rRNA。同样,也有tRNA基因,称为tRNA基因,专门转录tRNA。

(2)断裂基因(split gene)和重叠基因(overlapping gene):

在真核生物,由外显子和内含子交替构成的基因,称为断裂基因,或称不连续基因。

如果2个或2个以上的基因共用一段DNA序列,就是重叠基因。重叠基因之间有多种重叠方式:大基因包含小基因;2个基因首尾重叠,有的甚至只重叠1个基因;多个基因形成多重重叠、反向重叠和重叠操纵子。

(3)跳跃基因(jumping gene):

或称可移动基因(movable gene),又称转座子(transposon;又称转座因子,transposable element),是指DNA可以从染色体基因组上的一个位置转移到另一个位置,甚至在不同染色体之间跃迁,跳跃基因能够进行自我复制,具有扰乱被介入基因组成结构的潜力,并被认为是导致生物基因发生渐变(有时是突变),并最终促使生物进化的原因。转座子约占人类基因组的一半,一些长散在核元件(long interspersed nuclear element,LINE)的逆转录转座子,在复制自己的同时留下一个旧的版本,从而导致基因组的扩增。真核生物中两个最丰富的逆转录转座子家族是LINE-1(L1)和Bovine-B(BovB)。转座子有助于哺乳动物基因组达到至关重要的平衡,美国Choudhary等证实,跳跃基因具有稳定细胞核内DNA分子的3D折叠构象。

(4)假基因(pseudogene):

在DNA链上,从基因的起始密码子开始到终止密码子为止的一个连续编码序列称为ORF。有些DNA序列与功能性基因密切相关,但由于缺失、插入和无义突变,在转录、翻译等环节出了问题,使它们丧失了基因功能。这些基因可能发生片段丢失,或缺失了某些调控信号,不能被转录;或缺失了剪切信号,转录产物不能被正确剪切;或在编码区产生终止信号,产生不完整的肽链。这些基因统称为假基因,或称为伪基因。

3.基因驱动(gene drive)

是指特定基因有偏向性地遗传给下一代的一种自然现象。基因驱动最早在2003年由英国进化遗传学家Austin Burt提出的,是一个能够快速将特定性状扩散到群体中去的系统。物种中都会存在这样一些基因,在其繁殖的过程被遗传的概率比普通基因高出50%。因此,这些基因很容易在群体中散播,即可能导致个体的适应性下降。借与这些特殊基因类似的遗传“偏向性”,基因驱动在理论上可将这些人为改造的基因散播到野生群体中。而这些改造可以包括基因的增添、破坏或者修饰,也可以包括减少个体的生育能力,从而可能导致整个物种的毁灭。成簇间隔短回文序列(clustered regularly interspaced short palindromic repeats,CRISPR)基因编辑技术对其有潜力构建、简化和改进,研发出人工基因驱动系统,并在酵母、果蝇和蚊子中证实可实现外部引入的基因多代遗传。人工改造的基因驱动有潜力将所需的基因在野生种群(wild population)中扩散,或者抑制有害的生物物种。

(二)基因编辑技术

这是一种对生物体基因组及其转录产物进行定点修饰或修改的技术,早期基因编辑(gene editing)技术包括归巢内切酶、锌指核酸内切酶和类转录激活因子效应物。近年来,以CRISPR/Cas9系统为代表的新型技术使基因编辑的研究和应用领域得以迅速拓展。美国Maji等发现,阻断CRISPR/Cas9基因组编辑的酿脓链球菌Cas9(SpCas9),能够精确地控制CRISPR/Cas9的基因组编辑。

1.CRISPR/Cas9系统

这个系统由CRISPR及其相关蛋白9(Cas9)组成,广泛存在于细菌和古菌中,是机体长期进化形成的由RNA指导的降解外源遗传物质的适应性免疫系统。由于该系统可以识别靶向序列完成DNA双链切割,因此自2013年起,CRISPR/Cas9系统被改造为基因编辑工具,具有设计简单、特异性强和效率高等优点,为基因组定向改造调控和应用带来了突破性革命,并在一些领域中得到广泛研究和应用。瑞典Jones等发现,被称为“分子剪刀(molecular scissors)”的CRISPR/Cas9能够利用一段人工遗传密码对这种分子进行编程,在基因组中寻找正确的序列。Cas9能够搜索任何一种DNA密码,但是要确定这种分子是否位于合适的位点上,必须打开DNA双螺旋,将寻找到的序列与编程的密码进行比较;搜索整个基因组过程中,不需要使用任何能量。另外,来自美国麻省理工学院的学者张峰教授及其同事证实,切割RNA的Cas13a酶能够特异性地降低哺乳动物细胞中的内源性RNA和报告RNA水平。

2.完整的CRISPR簇序列

该序列由一个前导区(leader region)、多个短而高度保守的重复序列区(repeat region)和多个间隔区(spacer region)组成。前导区一般位于CRISPR簇上游,是富含AT长度为300~500bp的区域,可能是CRISPR簇的启动子序列。重复序列区长度为21~48bp,含有回文序列,可形成发卡结构。重复序列之间被长度为26~72bp的间隔区隔开。间隔区域由俘获的外源DNA组成,当含有同样序列的外源DNA入侵时,可被细菌机体识别,并进行剪切使其表达沉默,达到保护自身安全的目的。

3.CRISPR/Cas9系统的作用机制

细菌对外来病毒的入侵分为三步:①病毒入侵时,CRISPR/Cas9系统将病毒DNA切成短片段,并插入重复序列之间,作为“记忆”储存;②同种病毒再次入侵时,CRISPR阵列及Cas9基因转录,Cas9翻译为蛋白,转录出的pre-crRNA(crRNA全称CRISPR RNA)与tracrRNA(全称trans-activating crRNA)互补配对,经过内源核糖核酸酶加工成熟,最后形成Cas9-crRNA-tracrRNA的三聚体;③在crRNA与病毒DNA互补配对之前,Cas9需要与特定的前间区序列邻近基序(protospacer adjacent motif,PAM)序列结合以区别病毒和自身基因组,Cas识别并结合PAM后将DNA双链解旋,crRNA在PAM上游与目标序列互补配对。在PAM和靶点序列均匹配时,Cas9构象发生改变,其双链内切酶的活性被激活,在PAM上游的特定位置将病毒的双链DNA切断。

4.CRISPR/Cas9技术的应用

目前,在CRISPR/Cas9技术上,已开展基因编辑的基础研究、体细胞和生殖(可遗传)基因编辑等领域的研究,广泛应用于细胞的基因编辑和基因调节、基因敲除动物模型的构建及人类疾病动物模型的治疗等领域;可以精确改变内源致病基因,有望从根本上治愈某些遗传疾病。对CRISPR/Cas9系统的进一步优化包括探索未知的CRISPR家族蛋白以及对已知的Cas蛋白进行改造。虽然研究者利用CRISPR/Cas系统开发了很多强有力的基因编辑工具,但是这些工具仍存在着一些问题。但随着基因编辑技术的发展、成熟,会逐步得到解决和完善。来自哈佛大学Datlinger等将CRISPR筛选与文库筛选结合起来,通过整合CRISPR基因组编辑与单细胞RNA测序,平行确定多个基因的基因调控影响,在单个实验中研究了数千个单细胞基因组编辑事件。

5.基因编辑工具脱靶检测技术

CRISPR/Cas9及其衍生工具单碱基编辑器已广泛应用于生命科学和医学研究。然而,其基因编辑造成的脱靶风险阻碍着该技术实际应用。我国杨辉等建立了新一代基因编辑工具脱靶检测技术——GOTI(genome-wide off-target analysis by two-cell embryo injection),并使用该技术发现之前普遍认为安全的单碱基基因编辑技术存在严重的、无法预测的DNA脱靶问题。该技术进一步将脱靶检测范围扩大至RNA水平,发现常用的两种单碱基编辑技术均存在大量的RNA脱靶,通过对单碱基编辑工具进行改造,筛选到既保留高效的单碱基编辑活性又不会造成额外脱靶的新一代高保真单碱基编辑工具,为单碱基编辑应用于临床治疗提供了重要的基础。

6.构建超精准的碱基编辑器

基于CRISPR的基因编辑具有潜在的治疗优势及存在的一些技术缺陷。美国学者构建超精准的碱基编辑器,可以重写组成DNA的四个碱基。研究者发明了新的CRISPR工具,通过改进碱基编辑器的精确度和基因组靶向能力,解决了一些重大问题。碱基编辑器的工作原理是靶向DNA的特定区域,然后将某些碱基转换为其他的碱基;在转换后,碱基编辑器(如将CG转化为TA的碱基)有时会执行不必要的脱靶编辑。研究者设计出新的胞嘧啶碱基编辑器,将脱靶编辑减少了10~100倍,从而使这些新的胞嘧啶碱基编辑器有望用于治疗人类疾病。研究者使现有的Cas9蛋白进化而获得了新一代CRISPR/Cas9蛋白,能够靶向更大部分的致病突变,包括一种导致镰状细胞贫血的突变。

7.新型Cas9突变体有望使基因编辑更加精准

Cas9的螺旋桥(bridge helix)是进化保守结构域。德国Bratovič等发现,这种螺旋桥在Cas9与其导向RNA和DNA靶点相互作用上的机制上起到关键作用,他们识别出一组氨基酸残基,能与导向RNA的磷酸骨架接触,从而促进稳定回路结构的形成,后者对于Cas9的活性非常重要;在这种回路结构中,Cas9结合导向RNA能与DNA靶向序列的互补链进行配对,同时还会替换第二股DNA链,使Cas9能切割两条DNA链。通过改变这些氨基酸残基,能产生新的Cas9突变体,多个突变体切割脱靶位点的频率明显变低,其中一种R63A/Q768A的突变体还能够增加人类细胞中Cas9基因编辑的特异性。

三、原核生物及真核生物基因组

(一)原核生物基因组

1.原核生物的两类DNA分子

原核生物基因组比较小,DNA量少,许多信息都是为了维持细胞的基本功能,如构造和复制DNA,产生新蛋白质,以及获得和存储能量。原核生物中,有两类DNA分子:一是染色体,携带细胞生存和繁殖所必需的所有遗传信息;二是质粒,是胞核外独立存在的DNA分子,与细胞的生长没有必然的关系。在原核基因组中,基因分布的密度非常高,其中的DNA分子绝大部分是用来编码蛋白质的,只有非常小的一部分不转录。细菌含有染色体和染色体外的质粒DNA。大肠杆菌的基因组DNA是单个双链环状DNA分子,有些细菌胞质中还含有小型环状双链DNA。染色体外的DNA也可能含有遗传信息,可以进行自我复制,并将遗传信息传递给子代细胞。

2.操纵子(operon)

许多基因蛋白质产物需要与其他基因蛋白质产物结合在一起,才能发挥作用。在原核生物DNA序列中,编码蛋白质和RNA的几个基因往往聚集在基因组的一个连续区域,形成一个功能单位或转录单元,它们可以被一起转录为含多个mRNA分子,形成多顺反子mRNA(polycistronic mRNA)。多个功能相关的基因共享一个启动子,这些基因排列成的结构称为操纵子。这就提供了一个简捷的方法,保证当其中一个基因被转录时,其他具有相关功能的基因也被转录。操纵子的转录合成一个长的多顺反子RNA分子,其中包含了核糖体翻译三种蛋白质所需要的编码信息。

操纵子是原核生物基因表达的协调单位,其中的遗传组分包括一个调节基因、一个操纵基因及一组结构基因(编码涉及细胞结构和代谢的蛋白质基因)。调节基因能产生作用于操纵基因的阻遏蛋白(repressor)。操纵基因靠近它所控制的结构基因,阻遏蛋白与操纵基因的结合能阻止结构基因的转录。启动子、操纵基因及与其相关的结构基因一起称为操纵子,绝大部分原核生物操纵子(大于90%)也包含标志转录终止的特异性信号,称作内在终止子(intrinsic terminator)。

3.大肠杆菌基因组

2019年,英国Chin及其同事重新编码大肠杆菌的全部基因组,只用59个密码子合成了所有的必需氨基酸,代表终止信号的密码子也从3个压缩为2个。而“节省”下来的密码子,可以为活细胞内生成非天然的“定制蛋白质”提供合成空间。在64个密码子中,TAA、TAG和TGA代表终止信号,研究者找出基因组ORF中的TAG密码子,全部替换为同样表达终止的TAA。而在编码必需氨基酸的61个密码子中,有6个密码子用来编码丝氨酸,研究者将其中的TCC和TCA替换为同义密码子(AGC和AGT)。

在实现替换的大肠杆菌细胞内,DNA信息“文本”很大,共由400万对碱基写成,经过重新编码设计,被“同义词”替换的密码子共有18 218个。为了在基因组中实现高效替换,研究者采用了一种拆解和替代的方法,将大肠杆菌4Mb的基因组先隔断为8大段,再每段隔为4~5个中片段,进而分解为长度10kb左右的小片段。接着,以人工合成的DNA序列取代大肠杆菌基因组中的小片段。研究者设计了一种GENESIS的基因组合成路线,通过不断迭代,逐步替换基因组中其他片段,最终将8个重编码的大片段装配成完整的基因组,创建出纯粹为人造基因组的大肠杆菌,这也是迄今为止科学家得到的基因组替换规模最大的生物体。测序结果显示,新合成的大肠杆菌“Syn61”中,三个目标密码子全部被同义密码子取代。同时,这些缺少了特定密码子的大肠杆菌仍能维持生命,可以在培养普通大肠杆菌的培养基中生长,说明重新编写成功。

4.重建基因组

德国研究者制作了一种基于DNA的合成蛋白质的体外表达系统,模拟基因组的复制和蛋白质合成。这个系统能够读取和复制相对较长的DNA序列。研究者将多达11个环形DNA片段组装成人工基因组。这种模块化结构能够轻松插入或去除某些DNA片段,复制的最大模块化基因组由116 000多个bp组成,已达到非常简单的细胞基因组长度。除了编码DNA复制很重要的聚合酶外,还包含其他蛋白质的编码基因,如来自大肠杆菌的30种翻译因子。研究者使用质谱分析法,还产生自己的翻译因子。通过这种分析方法,他们确定了系统产生蛋白质的含量。将来,希望通过其他DNA片段来扩展人工基因组。

5.病毒基因组

作为一种特别的生物体,病毒(包括嗜菌体)的核酸分子量最小。由于病毒依靠宿主细胞的许多功能来复制自身,所以它们所携带的遗传信息要比宿主细胞少得多。几乎所有植物病毒、某些细菌病毒和动物病毒的基因组都是由RNA组成的,一般特别小。最小的病毒基因组仅有约5kb,如单链嗜菌体φX174;最大的有200kb左右,如T2嗜菌体。病毒基因组虽然小,但是它们所编码的蛋白质种类却不少。有些病毒的基因组不够编码自己的蛋白质,于是采用重叠基因的办法编码蛋白质。

在暴发新型冠状病毒肺炎疫情之际,中国疾病预防控制中心向全球首发了第一株新型冠状病毒毒株信息,并报道发现过程、分离方法和基因组序列。随后,美国国立卫生研究院(National Institutes of Health,NIH)提供的新型冠状病毒电镜图。后来,全球20多个新型冠状病毒基因组测序结果,未出现太大变异。意大利Ceraolo和Giorgi报道,在病毒蛋白中鉴别出了一个高度可变的热点区域,最终确定了两种病毒亚型。我国科学出版社出版的综合性英文学术期刊《国家科学评论》,刊发的论文显示,研究者共在103株测序毒株的149个位点发现了突变;新型冠状病毒演化出两种主要类型(L型和S型)。

深圳国家感染性疾病临床医学研究中心和南方科技大学第二附属医院(深圳市第三人民医院)等研究者报道了带有融合后刺突蛋白的新型冠状病毒冷冻电镜结构,病毒体颗粒近乎球形或一定程度上是多形的,其直径在80~160nm。刺突蛋白呈钉子状向外,并长长地插在病毒衣壳上。刺突蛋白的宽度约为7nm,整个刺突的长度约为23nm。美国Mclellan团队采用冷冻电镜技术,绘制了新型冠状病毒附着并感染人类细胞部分的3D原子尺度的刺突蛋白(CoV刺突,S蛋白)结构图像,其分辨率为3.5Å。这种处于预融合构象的新型冠状病毒刺突蛋白三聚体的主要状态为3个受体结合结构域(receptor binding domain,RBD)之一向上旋转为受体可及构象。

中国医学科学院等研究者对新型冠状病毒进行深入的基因组注释,有14个ORF,编码27种蛋白。利用分子进化遗传学分析构建出基于全基因组的系统进化树,分为两个进化枝。针对pp1ab、pp1a、E、M、7a和N基因编码蛋白的系统进化树进行分析显示,2019-nCoV最接近于蝙蝠SARS-like CoV。

2020年2月,西湖大学等三家团队通过新型冠状病毒表面S蛋白(刺突糖蛋白,spike glycoprotein)受体结合结构域(RBD)与细胞表面受体血管紧张素转换酶2(angiotensin-converting enzyme 2,ACE2)全长蛋白的复合物,揭示其病毒入侵人体细胞的结构。这种冠状病毒进入宿主细胞是由跨膜刺突S蛋白介导的,其中S蛋白形成从病毒表面突出的同型三聚体,包含两个功能性亚基S1和S2。位于远端的S1亚基包含受体结合结构域,并有助于稳定膜锚定S2亚基的融合前状态。根据美国得克萨斯大学研究团队解析,新型冠状病毒S蛋白三聚体的每一个单体中约有1 300多个氨基酸,其中300多个氨基酸构成了RBD,即S蛋白与ACE2相联结处。受体分辨率2.9Å,其中S蛋白受体结合结构域部分的分辨率为3.5Å。

西湖大学周强等研究证实,这种病毒感染人体细胞的关键在于其S蛋白与人体ACE2蛋白的结合而入侵人体。清华大学王新泉团队获取了ACE2蛋白酶结构域与新型冠状病毒S蛋白受体结合结构域的复合物RBD-ACE2-B0AT1(其中的RBD是SARS-CoV-2刺突蛋白受体结合结构域)冷冻电镜密度图。

新型冠状病毒是一种冠状病毒科阳性单链RNA病毒。澳大利亚研究者在bioRxiv网站发文,提供了新型冠状病毒的RNA序列,详细介绍了该冠状病毒亚基因组长度的mRNA结构,并描述了从共享数据中揭示的冠状病毒进化遗传学的各个方面。韩国Narry等研究者绘制出严重急性呼吸系统综合征冠状病毒2(SARS coronavirus 2,SARS-CoV-2)的高分辨率基因图谱,并指出这种病毒的基因组RNA(gRNA),产生9个亚基因组RNA(subgenomic RNA)。这些亚基因组RNA用于合成SARS-Cov-2所需的各种蛋白,如刺突蛋白和包膜蛋白等。我国饶子和等团队成功解析新型冠状病毒RdRp(RNA依赖的RNA聚合酶)-nsp7-nsp8复合体的精细结构,揭示了该病毒遗传物质转录复制机器核心“引擎”的结构特征。

我国郭天南等发现,在新型冠状病毒重症患者的样本中发现93种特有的蛋白表达和204个特征性改变的代谢分子标志物。其中,50种蛋白,与患者体内的巨噬细胞、补体系统和血小板脱颗粒有关;在重症患者体内,有100多种氨基酸及100多种脂质均显著减少,并筛选出特征性的22个蛋白质和7个代谢物。这些蛋白质和代谢物有望成为提前诊断重症患者的生物标记物和治疗的靶点。

6.万种原生生物基因组计划

2019年12月30日,由中国科学院水生生物研究所联合5所大学和研究所在武汉启动的“万种原生生物基因组计划”,旨在绘制万种代表性原生生物基因组图谱,建立一个大规模的原生生物遗传资源数据库。据介绍,目前国内外针对生物五大界中的四界(动物界、植物界、真菌界和原核生物界)均启动了大型基因组测序计划,原生生物界成为唯一没有启动大规模基因组测序计划的生物类群。该计划的开展将对理解生物多样性形成机制、多细胞生物/有性生殖的起源与演化等重大基础生命科学问题具有重要意义。

(二)真核生物基因组

真核生物基因组远大于原核生物基因组,组织复杂,信息含量高。在整个DNA序列中,蛋白质编码区域仅占一小部分,而非编码序列则占了很大一部分。真核基因结构也远比原核基因结构复杂、多变。真核细胞含有细胞器,如线粒体DNA,但不同于细胞核基因组DNA,是很小的环状双链DNA分子。

1.真核细胞基因结构

大多真核基因都是由蛋白质编码序列外显子和非蛋白质编码序列内含子两部分组成的。在一个结构基因中,编码某一蛋白质不同区域的各个外显子并不是连续地排列在一起的,而是被长度不同的内含子所隔离,形成镶嵌排列的断裂方式;所以,真核基因有时被称为分裂基因。不同基因拥有内含子的数量和大小相差非常悬殊。

(1)外显子和内含子:

许多外显子为蛋白质分散的结构和功能单位编码,如血红蛋白基因的中央外显子为一个与血红素结合的区域编码,此区域能够可逆地与O2结合。其他外显子专一地编码α螺旋片段,这些片段使蛋白质插在细胞膜中。蛋白质的一个结构域可能是由单个外显子编码。在进化过程中,新蛋白质的出现可能是由于外显子的重新排列,这些外显子编码分散的结构单位、结构部位和催化部位。外显子的混合是产生新基因的迅速而有效的方法。分裂基因有另一个优点,即通过不同方式的剪接而新生RNA,可能产生一系列相关的蛋白质,这组蛋白质是根据一个发育程序而发生的一个基本特性的变异。

真核基因分裂结构的一个重要特点是外显子-内含子连接区具有高度保守性和特异性的碱基序列,其连接区是指外显子和内含子的交界,又称边界序列;连接区虽然很短,但却是高度保守,与剪切机制密切相关,是RNA剪切的信号序列。外显子-内含子在连接区的保守序列几乎存在于所有高等真核生物基因中,这表明在这些基因中可能存在一个共同的剪切机制。但是,在线粒体基因中不存在这类保守序列,还可能存在不同类型的加工过程。

序列分析表明,几乎每个内含子5’末端起始的两个碱基都是GT,3’末端最后两个碱基总是AG。由于这两个碱基序列的高度保守性和广泛存在性,有人将其称为GT-AG法则,即5’-GTAG-3’。由于内含子两端的接头序列不同,可定向标明内含子的两个末端,根据剪切加工过程沿内含子自左向右进行的原则,一般将内含子5’末端接头序列称为剪切供体(splice donor),3’末端接头序列称为剪切接纳体(splice acceptor)。有时,也将前者称为剪接供体位点(donor splicing site),后者称为剪接体位点(acceptor splicing site)。

一个完整的基因,不但包括编码区域,还包括5’和3’末端两侧长度不等的特异性序列。虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。严格的基因分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。真核基因的一般结构如图2-3所示。

图2-3 真核细胞基因的一般结构

(2)启动子:

RNA pol在基因表达起始阶段和基因5’末端上游区域的某一段核酸序列结合,然后开始转录,合成基因的RNA序列称为启动子。启动子决定DNA转录的方向、速度和准确性。RNA pol必须准确识别基因转录的起始位置。RNA pol在寻找基因的起点时不能寻找任意一个特定的核苷酸,因为在细胞的DNA分子中,单一核苷酸出现的频率非常高。然而,核苷酸间的特定组合却不容易随机出现,涉及核苷酸的数目越多,该组合出现的概率越小。

(3)增强子(enhancer):

在研究猿猴空泡病毒40(simian vacuolating virus 40,SV40)时发现,启动子上游的某些序列如果发生变化,则可能大大降低转录的活性。这些序列在正常的情况下能对转录起增强作用,称为增强子,一般能使转录频率增加10~200倍。

增强子有以下特点:①增强子的序列较长,可达数百个bp,有时是重复序列,其内部常含有一个核心序列“(G)TGGA/TA/TA/T(G)”;②作用无方向性,不受序列方向制约,顺反序列都有作用;③位置不固定,可以是在某个基因的5’末端上游或3’末端下游,甚至可在基因的内含子内;④一般,具有组织或细胞特异性;⑤无距离性,距结构基因可近可远,但只有当它们位于DNA双螺旋的某一特定相位时,才具有活性;⑥无基因特异性,多数增强子能对不同基因发挥效应,如位于鸡β珠蛋白下游和ε珠蛋白上游的增强子,对这两个蛋白基因均能产生效应;⑦有多个反式因子的结合点。

近期,日本Hirabayashi等开发出了一种NET-CAGE新技术,揭示了基因组中增强子的非编码基因结构,在人类发现多达2万个新的增强子,在“超级增强子”的聚类区域内精确定位了活性增强子,发现增强子在生成细胞类型特异性转录组中起到至关重要的作用。

(4)沉默子:

除了启动子和增强子之外,还有一种负调控元件,即沉默子。通过沉默子可以抑制基因的表达,或对基因进行有选择性的表达。

(5)转座子:

转座子是细胞中的一种寄生性遗传元件(parasitic genetic elements),如果未被严格控制,会从基因组的一个位置跳跃到另一个位置,诱发其他基因发生突变,同时会增加转座子自身的数量。美国Ninova等揭示了基因组自我调节的细胞沉默转座子表达的分子机制。piRNA的核酸分子能够识别并抑制有害的转座子,与小分子泛素相关修饰物蛋白(small ubiquitin-related modifier protein,SUMO)相互协作,修饰这些转座子上的染色质结构,并有效抑制其功能。研究者分析了SUMO和染色质在控制正常细胞基因表达上所起的关键作用,异染色质中存在的基因也会发生表达,因其处于染色质环境中。

2.单拷贝基因(single-copy gene)和基因家族

在基因组中仅出现一次的基因称为单拷贝基因。单拷贝基因多是编码蛋白质的基因,一般比较复杂,这些基因往往是断裂基因。在真核生物中也存在如同原核生物操纵子结构的转录单位,其转录的初级转录物可以通过不同的拼接方式产生一种以上的蛋白质,即一段DNA序列可编码多种蛋白质。

有25%~50%的真核细胞编码蛋白质的基因是以单个基因存在于基因组中,而其余编码蛋白质的基因都属于两个或两个以上相似基因构成的基因家族(gene family),也称多基因家族(multigene family)。在进化过程中,从一个祖先基因分歧产生多个基因,这些基因构成一族结构和功能上相关的基因群,它们或聚集在一起,或分散在基因组中。这种来自于同一个祖先基因,编码相似而不完全相同的蛋白质基因家族,其基因编码的蛋白质称为蛋白质家族(protein family)。基因家族有大有小,少则仅有几个基因,多则有数百个基因。同一基因家族的成员具有同源性,表现在碱基序列、编码产物的氨基酸序列及空间结构和功能的相似性,其中完全相同的称为多拷贝基因(multicopy gene)。

3.重复序列

真核生物细胞DNA中存在着大量的重复序列,尤其是脊椎动物。重复序列大致可以分成三类,即低度重复序列、中度重复序列和高度重复序列。

中度重复序列的重复次数在10~105之间,占总DNA的10%~40%,如小鼠基因组的中度重复序列占20%,果蝇的占15%。高度重复序列的重复次数大于106,基本的重复序列长度从几个碱基到几百个碱基或更长,占基因组的10%~60%。高度重复序列按其长度可分为:①卫星DNA(satellite DNA),重复序列的长度在5~200bp,这些序列聚集在一起,串联排列,总长度可达100Mb,在人群中的多态性不强;②小卫星DNA(minisatellite DNA),重复序列的长度从5bp到几十个bp,串联排列,总长度在0.5~30kb之间,这类重复序列在人群中存在高度的多态性;③微卫星DNA(microsatellite DNA),重复序列的长度在2~6bp之间,也有高度的多态性。

2019年,德国Giesselmann等报道,DNA重复序列在错误位置的扩增可能会产生严重的后果。然而,DNA重复序列的扩增非常难以分析。研究者开发的一种方法可以检测这些以前无法进入的基因组区域,即结合纳米孔测序及干细胞和CRISPR/Cas技术,将会改善各种先天性疾病和癌症的诊断。

4.遗传和变异

基因组的结构不是完全静止的,每一代都有变异(variation)。变异是产生进化的基本条件。可遗传的变异包括基因突变(genetic mutation)、基因重组(genetic recombination)和染色体畸变(chromosome aberration)。基因重组和基因移动是生物进化的动力,具有重要的生物学意义。染色体可能发生畸变,从而使遗传物质发生变化。染色体畸变包括染色体的丢失(loss)、易位(translocation)和转座(transposition)等。这些变化实际上也是DNA分子的变化,如染色体的部分丢失,实际上就是DNA分子的一部分丢失。

5.基因重组

这是指来源于两个或两个以上不同亲本的DNA序列组合成一条新的基因DNA序列。基因重组是生物界的普遍现象。同源重组(homologous recombination,HR)是任何具有一段同源序列的两个基因DNA序列之间的交换。发生同源重组的条件是两个DNA分子之间存在同源序列,与实际的碱基序列次序无关。只要它们相似,而且相似区段越长,重组发生的频率就越高。若同源序列太短,则很难发生重组。同源重组也是DNA损伤修复的重要机制。当损伤的一条链需要修复,而又不能用另一条互补链作为修复模板时,就要用另外的同源序列,利用同源重组修复机制来修复被损伤的链。另一种重组方式是位点特异性重组(site-specific recombination),发生在位点特异性的短序列区,重组时发生精确的切割反应和连接反应,DNA既不丢失,也不合成。在基因组中还存在一类可移动的基因序列,可以从染色体的一个部位转移到同一条染色体或另一条染色体上某一新的位置。一个基因通过各种方式从一处移动到另一处,称为基因移动(gene movement),可以移动的基因称为可移动基因。可移动基因一般通过转座子(transposon)的形式进行移动。重组和移动可产生新的序列和功能,或改变原有序列的功能。