第二节 人类基因组计划

一、人类基因组计划实施及研究内容

(一)人类基因组计划实施

人类基因组的研究主要在20世纪80年代开始形成。1984年,美国能源部(United States Department of Energy)召开了专业会议讨论测定人类整个基因组DNA序列的意义和前景。1985年5月,美国再次提出了测定人类基因组全序列的动议,形成了“人类基因组计划(human genome project,HGP)”草案。1986年,正式宣布实施这一计划。1990年10月1日,经美国国会批准美国人类基因组计划正式启动。后来,意大利(1987)、英国(1989)、法国(1990)、德国(1995)和中国(1999)先后加入HGP。在此期间,建立了酵母人工染色体(yeast artificial chromosome,YAC)库的筛选与克隆、特异细胞系、DNA探针、基因组DNA、cDNA文库、比较生物基因组DNA序列和信息分析等的“英国人类基因组分析中心(The Genome Analysis Centre,TGAC)”。

HGP的目的是测出人类基因组DNA的30亿个bp序列,发现所有人类基因,并找出其染色体上的位置,破译人类全部遗传信息;其研究内容还包括创建计算机分析管理系统,检验相关的伦理、法律及社会问题,进而通过转录组学(transcriptomics)和蛋白质组学(proteomics)等相关技术对基因表达谱、基因突变进行分析,可获得与疾病相关基因的信息。

2017年,江苏省正式启动“百万人群基因组测序计划”,拟在南京江北新区建立超大规模的DNA测序平台和生物医学大数据分析中心,通过队列研究和百万人基因组DNA测序,建立中国人群特有的遗传信息数据库。2018年,哈尔滨工业大学牵头的“中国十万人基因组计划暨中国人群多组学参比数据库与分析系统建设”项目正式启动,进入为期4年的项目实施阶段。项目最终将绘制完成十万人规模的中国人基因组图谱和中国人健康地图,精细绘制中国人基因组变异图谱和多组学健康地图,揭示中国人群特有基因组变异、变异频率及其影响,为个性化医疗与健康管理提供参比数据资源,加快推进健康中国的建设。

2019年,Genome Asia 100K联盟对亚洲人群的基因进行的一项新研究,填补了对人类遗传学认识的巨大空白,阐明了人类迁徙的历史,并最终可能有助于提高治疗疾病的能力。来自弗吉尼亚大学医学院(University of Virginia School of Medicine)在内的全球数十个机构的研究者正在寻求解决亚洲人群在基因研究中代表性不足的问题。作为Genome Asia 100K联盟的成员,已检测了来自亚洲64个国家/地区的219个不同人群1 739个人的基因组。该研究小组的最终目标是对亚洲10万人口的基因组进行测序,并将产生大量的遗传信息,以帮助医学研究人员和医生更好地理解和治疗遗传疾病,识别有风险的疾病,甚至确定患者对药物的反应。

人类基因组的编码区域只有DNA序列的2%,基因数为2万~2.5万。人类基因组中重复序列占了很大一部分,约为50%,这些重复序列可能具有一定的功能,也可能没有功能。可以将人类基因组的重复序列分成四种:①短散在重复序列(short interspersed repeated sequence);②长散在重复序列(long interspersed repeated sequence);③长末端重复序列(long terminal repeat,LTR);④DNA转座子。基因组剩余的DNA序列包含启动子、转录调控序列及其他未知特性的序列。

2018年,美国Abascal等发现,高达20%的编码基因可能根本无法进行编码,因其具有非编码或假基因(即过时的编码基因)的特征,由此导致人类基因组的缩小或对生物医学领域产生重要的影响。研究者对来自数据库GENCODE/Ensembl、RefSeq和UniProtKB中参考蛋白质组的详细对比分析后,发现了22 210个编码基因,但这些基因中仅有19 446个基因出现在数据库中;而剩下的2 764个基因似乎仅存在于一个或两个数据库的注释中,这些基因几乎可能是非编码或假基因。实际上,这些基因连同另外1 470个编码基因都无法像典型的蛋白质编码基因一样进化,总共有4 234个基因都不能编码产生蛋白质。

(二)人类基因组计划的研究内容

HGP的主要任务是人类的DNA测序,同时绘制人类基因图(遗传图、物理图、序列图和转录图),还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学以及教育培训等内容。

1.遗传图(genetic map)

遗传图又称连锁图(linkage map),是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。遗传图的建立为基因识别和完成基因定位创造了条件。绘制遗传图的意义在于,5 000多个遗传标记能够将人类基因组分成5 000多个区域,可将某一致病基因定位于一定的已知区域,再对基因进行分离和研究。能够提高寻找基因和基因分析的效率,对于疾病而言,寻找基因和分析基因是关键。

通过遗传图可以大致了解各个基因或DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒或端粒等。遗传距离是通过遗传连锁分析确定的。两个遗传位点之间的交换或重组频率,遗传距离用厘摩(centimorgan,cM)来表示;cM值越大,两者之间距离越远。研究中所使用的遗传标志越多、越密集,所得到的遗传连锁图的分辨率就越高。遗传图的建立为人类疾病相关基因的分离克隆奠定了基础。

2019年,来自冰岛Halldorsson等发布了首个使用全基因组序列数据开发的全分辨率人类基因组遗传图。该图谱提供了关于人类进化的两个关键驱动因素之间的位置、速率和关联性的最详细观察,即重组和新发突变(de novo mutation)。研究者观察到,随机遗传变化过程实际上是由基因组本身以及重组和新发突变之间存在关联性的事实系统地进行调节。

2.物理图(physical map)

物理图是指有关构成基因组的全部基因的排列和间距的信息,是通过对构成基因组的DNA分子进行测定而绘制的,主要使用限制性内切酶水解DNA片段,再通过酶切片段在DNA链上的限制性内切酶酶切片段排列起来,从而将有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来所形成的图谱。DNA物理图是DNA分子结构的特征之一。由于首先要解决限制性内切酶在DNA片段中所处的位置关系才能绘制出物理图,所以在绘制DNA物理图的同时也要进行DNA序列的分析。DNA测序从物理图制作开始,这是测序工作的第一步。

人类基因组物理图以已知的核苷酸序列的DNA片段序列标签位点(sequence-tagged site,STS)为“路标”,以bp作为基本测量单位的基因组图。任何DNA序列,只要了解其基因组中的位置,都能被用作STS标签。物理图的主要内容是建立相互重叠连接的“相连DNA片段重叠群(contig)”,并用PCR方法予以证实。

3.序列图(sequence map)

序列图也称表达序列标签图(expressed sequence tag map)。随着遗传图和物理图的完成,测序就成为最重要的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图。目前,使用的DNA测序技术主要有逐个克隆法和全基因组鸟枪法等。基因组全序列图测定,由30亿nt组成的全序列。

近年来,单细胞RNA测序方法的规模和能力迅速扩展,从而实现了重大发现和大规模的细胞作图工作,单细胞RNA测序被视为基因组研究中下一个重大的计划。但是,这些方法尚未得到系统和全面的基准测试。为了确保单细胞RNA测序能够使用最好的方法,西班牙Mereu等对13种方法进行了基准性的测试发现,日本理化所开发的Quartz-seq2方法是进行单细胞RNA测序的最佳手段。

4.转录图(transcription map)

转录图,或者基因的cDNA片段图,即表达序列标签(expressed sequence tag,EST),是人类基因组图的重要组成部分。因此,可通过一段cDNA或1个EST,筛选出全长的转录物,并根据其序列的特异性将该转录物所代表的基因准确地定位于基因组上。另外,通过测定同一转录物的数量,可以进一步得到各转录物表达量的信息。将收集的组织和细胞的基因表达谱进行比较,所获得的表达信息标记到相应的组织和细胞中,可以绘出区分200余种人体基本组织或不同细胞的人体基因图谱(genetic map)。基因图可在识别基因组外显子的基础上,绘制结合有关基因序列、位置及表达模式等信息。在人类基因组中鉴别全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

二、有关组学的研究

对于生物遗传信息,其传递具有方向性和整体性,即DNA转录为RNA,RNA翻译为蛋白质,蛋白质发挥生理功能而产生代谢产物。随着这种生物遗传信息方向的传递,引发基因组学、转录组学、蛋白质组学和代谢组学等,这显示了生物遗传信息传递的整体性。因此,生命科学研究发生重大转变,从“微观”(实验医学)向“宏观”(整合生物学)的方向发展。

(一)基因组学

基因组是基因和染色体两个名词的组合,即一个生命单元所拥有的全部遗传物质(包括核内和核外遗传信息),其本质是DNA/RNA。基因组学(genomics)是阐明整个基因组结构、结构与功能关系以及基因之间相互作用的科学。根据研究的目的不同而分为结构基因组学(structural genomics)、功能基因组学(functional genomics)和比较基因组学(comparative genomics)。

结构基因组学主要通过人类基因组计划的实施,解析人类自身DNA序列和结构;其研究内容是通过基因组作图和大规模序列测定等方法,构建人类基因组图谱,即遗传图、物理图、序列图和转录图。功能基因组学的主要研究内容包括基因组的表达、基因组功能注释、基因组表达调控网络及机制的研究等;从整体水平上研究一种组织或细胞在同一时间或同一条件下所表达基因的种类、数量和功能,或同一细胞在不同状态下基因表达的差异;可以同时对多个表达基因或蛋白质进行研究,使生物学研究从以往的单一基因或单一蛋白质分子研究转向多个基因或蛋白质的系统研究。比较基因组学是在基因组序列的基础上,通过与已知生物基因组的比较,鉴别基因组的相似性和差异性,一方面可为阐明物种进化关系提供依据,另一方面可根据基因的同源性预测相关基因的功能;比较基因组学可在物种间和物种内进行,前者称为种间比较基因组学,后者称为种内比较基因组学,两种均可采用基本局部比对搜索工具(basic local alignment search tool,BLAST)等序列比对工具。

(二)转录组学

转录组(transcriptome)指生命单元所能转录出来的全部转录物,包括mRNA、rRNA、tRNA和其他ncRNA。因此,转录组学(transcriptomics)是在整体水平上研究细胞编码基因(编码RNA和蛋白质)转录产生的全部转录的种类、结构和功能及其相互作用的科学。与基因组对比,转录组最大的特点是受到内外多种因素的调节,是动态可变的;同时,也决定了转录组学揭示不同物种、不同个体、不同细胞、不同发育阶段和不同生理病理状态下的基因差异表达的信息。因此,转录组学是基因组功能研究的重要部分,即上承基因组,下接蛋白质组,其研究内容为大规模基因表达谱分析和功能注释。

大规模表达谱或全表达谱(global expression profile)是组织和细胞在某一状态下基因表达的整体状况,也决定组织和细胞的生物学行为。近年来,建立的整体性基因表达分析,如微阵列(或芯片)、表达系列分析和大规模平行信号测序系统等技术,可以同时监控成千上万个基因在不同状态(如生理、病理、发育不同时期和诱导刺激等)下的表达变化,从而推断基因间的相互作用,揭示基因和疾病发生、发展的内在关系。

瑞典Uhlen等通过流式细胞仪分选出的18种免疫细胞群体进行了转录组学的表达分析,将血细胞表达谱与组织表达谱相结合,包括来自外源的转录组学数据以扩大这个开放式数据库中包含的组织类型和大脑区域的数量。他们依据血细胞和组织中的表达特异性和分布对蛋白编码基因进行了全基因组分类,提供了人体血细胞中所有蛋白编码基因的表达图谱,并根据人体所有主要组织和器官中所有蛋白编码基因的特异性和分布进行分类。有1 448个蛋白编码基因在单个免疫细胞类型中大量表达。研究者对分选出的血液免疫细胞群体中的蛋白编码基因进行了全基因组范围的转录组分析,以描述所有细胞类型中每个基因的表达水平。所有数据均作为人类蛋白质图谱(human protein atlas)的一部分提供在交互式的可以开放存取的血液图谱(blood atlas)中,并与所有主要组织的表达谱整合在一起,以提供所有蛋白编码基因的空间分类,允许对人类免疫细胞群体中的表达谱以及所有主要人类组织和器官中的表达谱进行全基因组探索。

(三)蛋白质组学

蛋白质是生物功能的主要载体。蛋白质组(proteome)是指细胞、组织或机体在特定时间和空间上表达的所有蛋白质。蛋白质组学(proteomics)以所有这些蛋白质为研究对象,分析细胞内动态变化的蛋白质组成、表达水平和修饰状态,了解蛋白质之间的相互作用与联系,并在整体水平上阐明蛋白质调控的活动规律,故又称全蛋白质表达谱(global protein expression profile)。

蛋白质组学研究主要涉及结构蛋白质组学(structural proteomics)和功能蛋白质组学(functional proteomics)。由于蛋白质的种类和数量总是处在一个新陈代谢的动态过程中,同一细胞的不同细胞周期,所表达的蛋白质是不同的;同一细胞在不同的生长条件(正常、疾病或外界环境刺激)下,所表达的蛋白质也是不同的。这种动态变化,增加了蛋白质组研究的复杂性。

经过近十年的努力,来自美国、加拿大等国家的80多名研究者共同研究绘制出了全球最大的人类蛋白质互作组图谱,这张人类参考蛋白互作组图谱(Human Reference Protein Interactome map;也称人类参考蛋白互作组图谱项目,The Human Reference Protein Interactome Mapping Project)中包含有8 275个人类蛋白的52 569种互作模式。如今能利用这张人类参考蛋白互作组图谱来预测蛋白质的功能,也能寻找其感兴趣的蛋白,并获得与该蛋白质相互作用的蛋白质相关信息;相关数据能够给研究者提供很多思路,如人类蛋白的新作用以及在分子水平上发生什么问题而引发疾病等。

(四)代谢组学

代谢是生物体内所有生物化学反应的全过程,代谢活动是生物体维持生命的物质基础,对代谢物的分析是研究生命活动分子基础的一个重要方面。代谢组学(metabonomics)是将人体的生理病理过程作为一个动态的系统,研究生物体被内、外环境因素扰动后其内源代谢产物种类、数量及其变化规律的科学。

代谢组学是测定生物或细胞中所有的小分子组成,描绘其代谢动态变化规律,建立系统代谢图谱,确定这些变化与生物过程的联系。代谢组学分为四个层次:一是代谢物靶标分析(metabolite target analysis),对某个或某几个特定组分进行分析;二是代谢谱分析(metabolic profiling analysis),对一系列预先设定的目标代谢物进行定量分析,如某一类结构、性质相关的化合物或某一代谢途径中所有代谢物或一组由多条代谢途径共享的代谢物进行定量分析;三是代谢组学,对某一生物或细胞所有代谢物进行定性和定量分析;四是代谢指纹分析(metabolic fingerprinting analysis),不分离鉴定具体单一组分,而是对代谢物整体进行高通量的定性分析。

代谢组学主要以生物体液为研究对象,如血样、尿样等,另外还可采用完整的组织样品、组织提取液或细胞培养液等进行研究。血样中的内源性代谢产物比较丰富,信息量较大,有利于观测体内代谢水平的全貌和动态变化过程。尿样信息量相对有限,但样品采集不具损伤性。

近些年,开展的单细胞代谢组学研究具有重要意义。以往的研究证实,形成相同组织的同一群细胞个体之间存在细胞异质性。如果能够在细胞层面上对参与生理病理过程的一些关键生物化学成分进行描述,将有助于了解细胞实现可塑性和稳定性的特定机制。单细胞代谢组学为解答这些问题提供了很好的机会。因此,如何对单个活细胞进行代谢组学分析也是科学家们努力的方向。检测和理解癌细胞是单细胞代谢组学潜在的应用领域。通过单细胞代谢组学技术获得建立细胞代谢数学模型所需要的输入和输出数据,可对衰老和干细胞命运进行更多的了解。

由于脂质代谢的复杂多样及重要性,研究者逐渐将脂质组学(lipidomics)从代谢组学中单独划分出来,认为两者的研究方法不一样。脂质组学是对整体脂质进行系统分析的一门新兴学科,通过比较不同生理状态下脂代谢网络的变化,进而识别代谢调控中关键的脂质生物标志物,最终揭示脂质在各种生命活动中的作用机制。然而,代谢组学和脂质组学对提高疾病进展细胞机制的理解作出了重大贡献,但单一组学方法未能考虑到两种方法所涵盖分析物的细胞代谢中的高水平关联性。将代谢组学和脂质组学结合起来处理临床和生物学问题显然是完整的代谢整体所必需的,能提供一整套分子变化和全局特征,突出脂质和其他代谢物之间的共同细胞机制,使全面的网络分析能够识别疾病病理学中的关键代谢驱动因素,促进脂质和其他代谢产物在疾病进展中相互联系的研究。

三、人类基因组计划在识别疾病相关基因中的作用

在科学家测出人类基因组全序列后,对人体这个复杂的系统有了更深刻的认识,针对基因缺陷的基因疗法也将会有更加可观的前景。

(一)疾病的遗传学研究

HGP在医学领域的重要意义是确定各种疾病的遗传学基础,即基因结构基础,这将有利于对已知的单基因遗传疾病进行定位克隆。在这一点上,新的鉴定遗传病基因的方法,即定位候选克隆正在发挥越来越大的作用。一旦致病基因的染色体定位得以确认,就可以利用基因网站所提供的基因序列数据鉴定出候选致病基因,此方法被称为定位候选基因克隆策略,此策略将加速致病基因克隆的研究工作。人类基因与其疾病有相关性,与疾病直接相关的基因5 000~6 000条。一旦弄清某基因与某疾病有关,利用基因疗法可以治疗一些遗传病。

另外,基因诊断是在DNA水平上进行分析,鉴定遗传性疾病所涉及的基因的置换、缺失或插入等突变,直接检测基因结构及表达水平是否正常,从而对疾病做出诊断的方法。

现代医学对于一些与基因变异或表达异常密切相关的疾病,缺乏最有效的防治措施,近年来基因治疗的兴起为上述疾病开辟了新的途径,认为最理想的根治手段应该在基因水平上予以纠正。遗传学长期以来期望能够在了解人类基因变异的基础上确定疾病的易感状态。随着大规模分析的展开,尤其是对患者与正常人群间最精细的新一代DNA遗传标志单核苷酸多态性(single-nucleotide polymorphism,SNPs)的比较,SNP在人类基因组中平均每1 000bp出现1个,将提供数万个遗传标志,可以精确对基因组进行分区,同时也将成为致病基因定位的有力工具。

(二)癌症研究

鉴定肿瘤相关基因是癌症研究的中心目标之一。人类细胞中的DNA在生命过程中持续暴露于各种诱变剂中,并且在复制过程中不可避免地发生错误。一旦不能纠正在关键基因中发生的有害突变,肿瘤细胞就可产生,因此,癌症是最常见的基因病。研究表明,要使人类基因组工作草图或最后的人类基因组序列成为研究癌症的工具,还需要更重要的工作。例如,全部序列完成后进行正常人和癌症患者的全部序列的系统比较,以发现各种突变。所以,导致癌基因活化或抑癌基因失活的因素都将有可能从基因组信息中获得,包括基因大片段丢失、重排、碱基替换、小片段插入或缺失及扩增或甲基化等。

2019年,来自荷兰和澳大利亚多个研究机构的研究者对转移性实体瘤开展了有史以来最大规模的全基因组研究,对2 399例癌症患者的2 520个肿瘤样本进行全基因组测序(whole genome sequencing,WGS),并对这些患者的血液样本进行同样的操作。在对每例患者的样本进行测序时,将描述这些样本的信息输入到随着研究的开展而不断扩大的目录中。这些研究者指出,这些数据中最重要的部分是描述基因突变的信息。他们还注意到,该目录将被添加到已开发的其他目录中,从而为科学家提供更大的数据集,以供研究。值得注意的是,这些研究者在62%的肿瘤患者的研究中,发现了与治疗结果相关的突变。

另外,加拿大Shuai等通过在人类癌症基因组中的大量非编码区域研究中发现了一种新型的致癌突变。这种名为U1 snRNA的RNA突变会干扰正常RNA的剪接过程,从而改变致癌基因的转录,这些分子机制或能提供新型通路帮助治疗携带特殊突变的癌症类型。研究者表示,只要DNA编码出现一个“错误”,就会产生数百种突变蛋白,研究者能够利用当前现有的免疫疗法来锁定这些突变蛋白。

癌症基因组是极其复杂的。2020年,国际全基因组泛癌分析联盟(Pan-Cancer Analysis of Whole Genomes Consortium,PCAWGC)揭示了癌症基因组及其复杂性。当前,人们认识的编码蛋白质的基因序列,仅为人类基因组的约2%,而其余的98%中有哪些变异可能与癌症有关尚未了解清楚。为此,在这个合作项目下,来自全球四个大洲744个组织的科研人员,分16个工作组,对2 658份癌症样本做了全基因组测序工作,同时对来自同一癌症患者的相匹配的非癌细胞基因组进行测序,涵盖了38种不同的癌症类型。这些数据得到1 188个转录组(肿瘤中RNA转录物的序列和丰度)的补充。通过使用一系列研究工具对肿瘤全基因组范围的测序数据进行研究,可以分析肿瘤上的每一个遗传变异以及形成变异的过程,甚至一些关键变异的发生顺序。研究者阐述了近乎所有与癌症相关的生物学通路及其在癌症中的作用。研究发现,在4 700万种遗传突变中,只有超过20%的基因突变被认为是肿瘤发展早期的事件,其中一些变化发生在发现癌症出现之前的几年甚至几十年;仅有13%的癌症样本DNA发生的突变与此前已知的端粒延长机制有关,绝大多数内部都有端粒酶基因活性增强的现象,但基因组中没有相关的变化,表观遗传学机制可能参与了端粒延长的表型形成;13%的样本中发现了病毒DNA的痕迹,11种病原体能够引发癌症,并进一步确定了这些病毒DNA触发致癌突变的相关机制;染色体碎裂(chromothripsis)事件发生很普遍,可直接与癌症基因组的常见标志物联系起来,包括癌基因的扩增(增加促进癌症发生基因的拷贝)和肿瘤抑制基因的缺失(调节细胞生长和分裂)等,某些癌症类型的发生频率甚至超过了50%,与癌症患者预后不良直接相关;另外,对线粒体基因组和相关的RNA测序数据进行了多维综合分析,揭示了最明确的线粒体基因组突变图谱,并确定了一些高突变性(hypermutation)病例。深圳华大生命科学研究院肿瘤研究团队参与了关于RNA变异的研究,并承担了RNA编辑变异检测和分析相关工作,基于1 188例RNA测序数据,系统检测泛癌种RNA水平的多种变异,并阐述了DNA与RNA变异之间的关联机制。这些研究,通过全基因组变异图谱可以准确地鉴定癌症种类,可能有助于在常规临床检测无法确诊时对患者的癌症种类进行诊断,因为确定癌症类型后才方便针对性治疗。

(三)药物基因组学

每一个体都是基因与环境相互作用的产物。药物基因组学是研究遗传变异如何影响每个患者对药物的反应性。研究将促进药物开发和使用的个性化,使其更为经济、有效。同一疾病的不同患者,将根据他们基因差别,预测他们对药物的反应性。药物基因组学包括利用人类基因组数据资料选择药物靶位,一是针对疾病易感基因,另外针对重要的受体和蛋白酶。而且,人们可用基因直接制药,或通过筛选后制药,其科学价值和经济效益十分明显。