最后一块拼图补齐,一个全新的基因组图谱在全人类面前徐徐打开。 近日,Science杂志以封面形式介绍了“人类基因组计划”的最新成果,公布了首个完整无间隙人类基因组序列,并发表了六篇论文报告这一成就,使人类在破解自身遗传密码道路上更进一步。 为更加全面了解“人类基因组计划”,并揭示它为疾病预防和诊断、新药研发、新疗法探索等带来的革命性进展,今天特别邀请威尼斯电子游戏大厅教授张国捷和GigaScience编辑周红玲一起为我们详述——
人类基因组计划 因何跻身人类三大科学计划
“人类基因组计划”正式启动之初,就确立了六个目标:
1) 识别人类DNA中大约20,000~25,000个基因(IDENTIFY all the approximately 20,000-25,000 genes in human DNA);
2) 确定构成人类DNA的30亿个化学碱基对的序列(DETERMINE the sequences of the 3 billion chemical base pairs that make up human DNA);
3) 存储相关信息于数据库中(STORE this information in databases);
4) 改进数据分析工具(IMPROVE tools for data analysis);
5) 转让相关技术给私营企业(TRANSFER related technologies to the private sector);
6) 解决项目可能出现的伦理、法律和社会问题(ADDRESS the ethical, legal, and social issues (ELSI) that may arise from the project)。
如果只是实现目标1)和2),“人类基因组计划”很难比肩“曼哈顿原子弹计划”和“阿波罗登月计划”而成为人类三大科学计划之一。目标3)和4)奠定了当今基因组学和生物信息学的基础,也使得“21世纪是生命科学的世纪”的口号更加深入人心。目标5)和6)将“人类基因组计划”的研究成果上升到惠及全人类的高度。
不仅产生经济效应
更帮助人类战胜自身遗传疾病
“人类基因组计划”带来了相当大的经济效应,2011年Battelle Memorial Institute发表了一项研究,认为总投资38亿美元的“人类基因组计划”在1988至2010年间为美国带来了7,960亿美元的经济效益,其中包含2,440亿美元个人收入的增长和每年约382.7万个就业岗位(Battelle Technology Partnership Practice, 2011)。
“人类基因组计划”不仅在经济上促进了人类社会进步,更为战胜人类自身的遗传疾病做出了重要贡献。循证医学的发展使得这些遗传疾病已经被人类认识逾百年,但诊疗方法进展缓慢;遗传学的发展可以识别出携带致病基因的个体,但除了预防别无他法。基因组序列破译并定位到基因后,这些遗传疾病才有了更精确的诊疗方式,也为靶向药的开发和基因治疗提供了可能(图1)。
图1 人类基因组各条染色体上携带的遗传疾病代表,红点表示目前能通过DNA检测诊断的疾病。
2015年美国宣布实施全国范围内的“精准医疗倡议(Precision Medicine Initiative)”之后,开展精准医疗的呼声成为学界和民间的共识(Ashley, 2016),使得疾病相关的基因组研究在“人类基因组计划”完成后进一步取得了跨越式的发展(图2)(Raskin & Casdin, 2011)。这些基因组研究的开展也极大地促进了针对治疗罕见病的“孤儿药”研发。“人类基因组计划”公布后,开始研发和上市的“孤儿药”的数目翻倍增长(图3),让越来越多罕见病患者看到希望(US FDA, 2013)。
“人类基因组计划”的成果不仅促进了“孤儿药”等药物研发,更为大规模精准识别致病位点提供了可能。临床基因组资源(Clinical Genome Resource)数据库已经收集了人类识别出的1,649个疾病相关位点,并且每一个都由专家审核并发布。根据证据的可靠程度,分为七个等级:确定的(Definitive)、强烈支持的(Strong)、中度支持的(Moderate)、有限支持的(Limited)、无关的(No Known Disease Relationship)、有争议的(Disputed Evidence)和驳斥性的(Refuted Evidence)(图4)(Rehm et al., 2015)。基于海量临床基因组学数据下建立起来的疾病基因位点规范化信息为医学遗传诊断提供了重要的指导,为开展“精准医疗”奠定了基础。
图4 ClinGen数据库疾病相关位点分级统计。
人群大队列的完整基因组比较
将是下一步重点研究方向之一
全新的人类完整基因组图谱不仅发现了近200个过去未报道的基因,而且补充了数千个基因紧邻的序列信息,完善了对调控这些基因表达的重要元件的认识。另外,过去人类参考基因组缺失了许多高度重复的基因,极大地限制了对个体间结构性变异和基因拷贝数差异性的检测效率,严重阻碍了人类对结构性变异多态性影响表型和疾病的认知。此外,以新的完整基因组作为参考序列,不仅发现了数百万个新的遗传多态性位点,而且极大地提高了多态性位点的检测精度。这些过去漏掉或者错检的多态性位点,可能可以帮助确定过去罕见病相关遗传研究无法找到的真正的致病位点。
真正意义的精准医疗必须建立在对完整基因组的分析基础之上。有了精准完整的基因组参考,加上大规模人群的基因组数据库,以及合理的队列研究,可以更好地提升基于基因组数据的精准医疗与健康产业发展。目前已有多个规模超过两万人大队列的精准医疗基因组测序计划(表1)正在开展,这些项目不仅关注常见疾病也关注到了罕见病相关的遗传研究(Chung et al., 2021)。相信这些精准医疗项目的基础数据,在新的参考基因组基础上,将能寻找到更多过去被忽略的相关致病位点。
可以预见,人群大队列的完整基因组的比较将是人类基因组学领域下一步重点研究方向之一。不同群体存在广泛的从单碱基到各种结构性遗传多态性差异,对各地区人群完整基因组的解读和人群遗传多态性的普查将是下一步的研究重点。随着技术的进一步成熟,未来的精准医疗也将从过去基于单个参考序列的比对分析转变为对每个个体、每个细胞完整基因组的全面解读。
参考文献:
1.Ashley, E.A., 2016. Towards precision medicine. Nat. Rev. Genet. 17, 507–522. https://doi.org/10.1038/nrg.2016.86
2.Battelle Technology Partnership Practice, 2011. Economic impact of the Human Genome Project. Battelle Memorial Institute. 1–58.
3.Chung, B.H.Y., Chau, J.F.T., Wong, G.K.S., 2021. Rare versus common diseases: a false dichotomy in precision medicine. npj Genomic Med. 6, 1-5.
https://doi.org/10.1038/s41525-021-00176-x
4.Raskin, A., Casdin, E., 2011. The dawn of molecular medicine: The transformation of medicine and its consequences for investors. New York, NY: Alliance Bernstein.
5.Rehm, H.L., Berg, J.S., Brooks, L.D., Bustamante, C.D., Evans, J.P., Landrum, M.J., Ledbetter, D.H., Maglott, D.R., Martin, C.L., Nussbaum, R.L., Plon, S.E., Ramos, E.M., Sherry, S.T., Watson, M.S., 2015. ClinGen — The Clinical Genome Resource. N. Engl. J. Med. 372, 2235–2242.
https://doi.org/10.1056/nejmsr1406261
6.US FDA, 2013. Paving the way for personalized medicine: FDA’s role in a new era of medical product development. 1–61.
图片来源;
图1:翻译自Ігор Пєтков - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=57928376
图2:US FDA, 2013 Figure 6;引自Raskin & Casdin, 2011.
图3:US FDA, 2013 Figure 5.
图4:修改自https://search.clinicalgenome.org/kb/reports/stats
表1:参考Chung et al., 2021 Table 1.