.

精准医学大数据的分析与同享

精准医学大数据的分析与同享

作者:李艳明,杨亚东,张昭军,方向东(中国科学院北京基因组研究所 中国科学院基因组科学与信息重点实验室,北京)

年Google成立10周年,英国Nature杂志曾出版关于“讨论大数据处理的技术问题和未来挑战”的专辑,最早提出了“BigData”的概念。随着计算机科学技术和信息工程技术的迅猛发展和普及运用,各行业数据呈爆炸性增长,大数据处理的迫切性和重要性已取得全球学术界、工业界和各国政府的高度

人类基因组计划(humangenomeproject,HGP)、基因组单体型图计划(hapmapproject)、全基因组关联分析(genome-wideassociationstudy,GWAS)、DNA元件百科全书(encyclopediaofDNAelements,ENCODE)、表观路线图(NIHroadmapepigenomics)等大型组学计划的顺利完成,带动了生命科学领域的重大变革。高通量测序、高性能质谱等组学技术得以快速发展,生命科学研究产生了大量有价值的包括基因组学、转录组学、蛋白质组学、代谢组学等在内的“生物大数据”。整合分析多重组学数据和临床资料,构建健康与疾病的知识络,将有望对疾病发展和不同病理状态进行更加准确的分类,为不同遗传背景的患者提供个体化诊断及精准医治。

1 精准医学大数据的系统整合与发掘分析

1.1 生物医学大数据的集成与管理 随着信息技术的飞速发展,生物医学领域进入了海量数据时期。一方面,传统医疗领域每天都在产生大量的诊断影象图象、病理分析图等,而且患者的数据通常需要保存最少50年以上,这些数据不但包括大量或实时数据,还包括临床决策支持中的诊断和用药建议、各种结构化数据表、非(半)结构化文本文档、医疗影象、电子录音等多种数据。另一方面,各种组学数据是目前生物医学领域增长最快的数据类型,是精准医学研究的重要组成部分。

测序技术的发展日新月异,年来自多个国家的科学家花费30亿美金、10年时间完成了一个人的基因图谱序列,年测定一个亚洲人基因图谱序列花费万人民币。目前测定一个人的基因图谱序列只需数千元人民币,Illumina公司生产的HiSeqXTen测序仪1年最少可以完成人的全基因组测序。在此背景下,生命健康领域快速产生了大量的组学数据。与此同时,各国也纷纭展开以组学为基础、以个性化医治为目的精准医学计划。来自16个国家的科学家共同参与的肿瘤基因组图谱计划(thecancergenomeatlas,TCGA)已收入上万例患者样本,涵盖42种肿瘤类型,目前已发现近万个与癌症相干的基因突变,数据量超过5PB。美国万人基因组研究的精准医疗(precisionmedicineinitiative)计划正在全面展开;英国“10万基因组计划”也进行到了关键时刻。基因组技术正在以超乎人们想象的速度成为诊断和医治疾病的实用工具,NEnglJMed专门为此向临床医师发布基因组测序的临床运用指南,希望帮助他们更有效地利用这一新技术。

对生物医学大数据的有效管理和利用是使其体现出巨大科学与产业价值的关键,同时也是大数据运用的技术瓶颈。20世纪80~90年代,美国、日本、欧洲等发达国家和地区即已率先建立世界3大生物数据中心:美国国家生物技术信息中心(NCBI)、日本DNA数据库(DDBJ)、欧洲生物信息研究所(EBI),掌握并管理全球的生物数据和知识资源,并处于垄断地位。我国人口众多,具有丰富的生物样本资源,但是,我国产生的许多科研数据资源不能不提交至上述数据中心,致使我国投入大量资金与人力产生的生物数据严重流失,严重威逼我国生物数字主权。

尽快建设一个国家级的生命信息中心不但意义重大,而且非常紧急。为了更加有效地管理与利用生物医学大数据,科技部已率先启动面向精准医学大数据管理和服务需求的“生物大数据开发与利用关键技术研究”等重大研究计划,积极建设“组学大数据中心和知识库”“疾病大数据处理分析与运用”“基于区域医疗与健康大数据处理分析与运用”等国家级的研究中心和技术同盟。在技术层面,相对世界3大数据中心建设之初,计算机硬件和软件技术均已取得了长足的进步,我国已制造出稳定高性能和高并行化的超级计算机,并掌握了高输入输出的分布式存储技术。我国有条件发挥后发优势,尽快满足精准医学快速发展所面临的数据和分析的需求。

1.2 生物医学大数据的发掘与分析 面对生物医学领域以几何级数增长的多样化、海量数据,建立标准化的分析方法极其重要,这是不同医疗单位、科研团体之间实现数据同享、资源整合,并进一步实现精准医疗的条件。在医疗病历的数据汇总和整合方面,美国初创公司FlatironHealth采取了匹配算法和人工复核的手段实现临床数据的发掘,代表着行业内的标准策略。整体来讲,传统医疗数据的发掘仍处于开始阶段,依赖于模式识别、自然语言处理、混合型人机学习等技术的发展。

组学数据类型较传统医疗数据少,产生平台相对一致,主要集中于Illumina、LifeTechnologies和Roche3家公司,但面临单一数据量大、可重复性差、处理流程多样等问题。基因组方面,已有大量的工具来鉴定个体基因组中的SNP、indel、copynumbervariation、基因融会等,但不同工具结果间的一致性相对较低。在转录组学研究领域,Su等通过比较不同平台、不同实验室、不同分析流程处理的RNA-Seq数据发现未被注释的exonexonjunction超过80%可以被qPCR证实,而基因表达水平若需在不同平台和实验室之间获得较高的一致性则需设定特殊的过滤标准。这些现状显示出建立准确、统一、可追溯的分析标准的必要性。在此背景下,美国肿瘤研究所联合Broad研究所、系统生物学研究所(InstituteforSystemsBiology,ISB)和7桥基因组公司(SevenBridgesGenomics)展开了云试点项目(thecloudpilotsprogram,

上述分析层面的整合集中于研究阶段,运用层面的整合和同享是提高大数据再利用率和用于精准医学的进一步要求。在数据整合方面,理清数据集之间的关系,如原始数据集、元数据集和知识型数据集之间的关系,平衡搜索速度和结果的特异性等尤其重要。云计算支持大数据的解决方案为:结构化数据采取数据库和数据仓库技术管理。半结构化数据采取页、搜索引擎等技术展现。非结构化数据用深度学习、络交互和群体智能处理。对非结构化数据随着发掘进程的自适应简约,频繁使用的热数据逐渐变成半结构化乃至结构化,其余转为冷存储。在数据同享方面,一方面要有高性能的互联架构,实现高效率的存储和传输;另一方面要注意数据的隐私和安全,通过数据加密、屏蔽隐私数据等技术手段和国家层面的法律法规的束缚和引导才能得到保证。

2 生物大数据的精准医学运用

2.1 大数据时期的疾病风险评估与健康指点 在过去很长一段时间,人们只有在身体不适、已患某种疾病时才去寻求专业医疗的帮助。而此时疾病常常已进展至较为严重的阶段,错过了最好的医治时间。大数据时期的到来,特别是基因组、转录组、表观组、蛋白质组、代谢组、微生物组等生物大数据的不断积累,为利用多重组学数据评估健康人群的得病风险提供了重要的理论依据,《黄帝内经》提出的“上治疗未病”有望成为现实(图1)。

美国影星AngelinaJolie面对本身BRCA基因缺点、家族女性亲属患乳腺癌去世等肿瘤多发风险,接受乳腺和卵巢的外科切除手术已为大家熟知。美国斯坦福大学遗传与个体化组学中心主任MichaelSnyder教授是利用组学数据评估个体健康研究的先行者,54岁时开始收集本身血液样本,历经14个月,共取得20个时间点的样品。通过整合分析样品的基因组、转录组、蛋白质组、代谢组和自身抗体谱,MichaelSnyder团队不但全面揭露了个体在疾病和健康状态下各份子的动态变化,也表明其患2型糖尿病等疾病的风险较高。虽然Michael家族并未有人罹患2型糖尿病,其本身也不超重,但通过咨询临床医师,发现其糖代谢已超过正常界限。根据医师的建议,MichaelSnyder教授调剂了自己的饮食结构和生活规律,加入了锻炼计划。6个月后,其血糖水平恢复正常。

人类基因组计划的总负责人、美国NIH现任主任llins博士也曾尝试了3家公司(23andMe、deCODE、Navigenics)的精准医学定制服务,根据检测结果“联系了私人教练,下定决心节食并增加运动,以减少罹患糖尿病的风险。另外,还查阅了关于黄斑变性的研究文献,发现多摄取不饱和脂肪酸对预防该病大有裨益。因此,在食谱中增加了更多的鱼类。鉴于我可能有罹患青光眼的风险,我也下定决心每一年进行1次眼部检查,包括眼压丈量”。

在我国,随着测序技术日益成熟、测序本钱日趋下降,为临床服务的测序服务商不断增多。相信在不远的将来,随着基因检测服务的逐渐完善与规范,更多的普通人群也能像Snyder教授和Collins教授一样,取得专业解读的个人基因组学信息,监控个人健康状况,更好地计划自己的生活和未来。

2.2 整合分析多组学和临床数据肯定疾病靶点 自Pauling等肯定镰刀型细胞贫血症(sicklecellanemia)的份子遗传机制以来,目前已被肯定的遗传病超过种,主要包括单基因遗传病、多基因遗传病、染色体异常遗传病等3大类。高通量测序和生物大数据分析已成功用于多基因遗传病检测、无创产前筛查(NIPT)和胚胎植入前遗传学检测(PGD)等临床实践,取得了良好的社会效益和经济效益。另外,高通量测序在检测外周循环血液中的肿瘤细胞或肿瘤DNA/RNA,用于初期肿瘤筛查、检测肿瘤复发、视察临床疗效等方面也具有其独特的优势。

我国科学家已在疾病队列人群的全基因组关联分析(genome-wideassociationstudy,GWAS)等多组学研究中积累了丰富的工作经验,为阐明复杂疾病产生的份子机制提供了重要的理论依据。年,中南大学夏家辉院士等成功地克隆人类遗传性神经性耳聋的致病基因GJB3。交通大学贺林院士的团队率先完成第1例孟德尔常染色体遗传病A-1型短指(趾)症致病基因的克隆与突变检测;通过对得病家系的遗传连锁分析,定位了第1例以中国人姓氏命名的罕见恒齿缺失的孟德尔常染色体显性遗传病“贺-赵缺点症”的致病基因。安徽医科大学张学军教授等在银屑病、系统性红斑狼疮、麻风、白癜风等复杂疾病的GWAS研究中发现一系列疾病易感基因。医院曾益新院士等展开的鼻咽癌GWAS除证实人类白细胞抗原与鼻咽癌的关联性外,发现多个新的易感基因。军事医学科学院贺福初院士和周钢桥教授展开的肝脏蛋白质组和肝癌的GWAS研究,发现乙型肝炎病毒相干肝癌的易感基因。中国医学科学院基础医学研究所张学教授对遗传性脱发相干药物靶点和他与沈岩院士合作的反常性痤疮家族基因的研究。中国医学科学院肿瘤研究所詹启敏院士团队在广东潮汕地区展开食管鳞状细胞癌研究。林东昕院士课题组展开的肺癌、食管癌流行病学研究;林东昕院士与郑州大学王立东教授等对河南安阳地区的食管癌队列研究等。

一些复杂疾病常常是由遗传、环境等多重因素致使的,仅依赖于临床上的影象诊断和病理分析等难以对疾病作出准确的诊断和分类。综合分析多种组学数据和临床数据,能够更加准确地肯定各疾病的亚型。在乳腺癌中,不同的份子亚型在临床症状、医治反应和效果方面有明显差异。由转录组数据肯定的胰腺癌三种亚型,患者医治后的反应具有差异性。而不同份子亚型的结直肠癌患者的存活时间显著差异。除癌症外,这类综合分析也被用于其他复杂疾病的诊疗,如自闭症谱系障碍。综合分析外显子组数据、基因表达谱、蛋白质表达谱和临床上的心理测试和影象诊断,研究人员提出了新的自闭症亚型,这1成果不但加强了自闭症诊断,也为后期选择有效的医治方案提供了根据。

2.3 精准医学药物研发及用药指点 单一靶点的药物可以靶向特定的肿瘤细胞。肿瘤是多基因疾病,需要多靶点的药物医治。肿瘤的特点是过度增殖,因此开发的抗肿瘤药物主要用于抑制肿瘤生长,相应的份子靶标大多数属于激酶与受体。多组学数据与临床数据的整合分析,为疾病新靶点的肯定提供了更加有效的技术手段。20世纪80年代后期,研究人员针对发现的一种过度表达HER2蛋白的侵袭性乳腺癌亚型研发了曲妥珠单抗(赫赛汀)用于医治HER2过度表达的转移性乳腺癌。尔后,曲妥珠单抗也被用于医治HER2过度表达性胃癌或食管胃结合部癌和尿道癌,是基因靶向药物的成功范例。在精准医疗时期,相信更多的药物研发将集中针对一种或多种疾病的靶点。

在用药指点方面,临床上多数仅根据症状体征、辅助检查和影象学资料进行诊断,针对具有相同或类似症状指标的患者,将使用一样的医治方案。而实际上,不同患者对同一种药物的敏感性存在差异。个体间的用药差异与患者本身的遗传背景有紧密的关系。精准医疗能够根据份子特点将患者进行细致分类,为有效医治提供参考。在指点临床用药方面,以经常使用抗凝药物华法林为例,美国食品和药物管理局(FDA)于年2月修改了华法林的药物说明书,建议在使用该处方药前,要对维生素K环氧化物还原酶和P代谢酶CYP2C9进行基因检测,针对不同的基因类型,配合抗凝药学实践,进行药物剂量调剂,可减少抗凝过量的产生,具有积极的临床意义。医院院长王辰院士介绍,目前美国已有种药物的说明书标注有相干的基因信息,欧洲药品管理局(EMA)有88种,日本药品和医疗器械局(PMDA)有28种,而中国唯一不超过10种药物使用说明提出模糊要求而且不强制执行。如果能坚持推行精准用药临床医学指点,可望能有效避免卡马西平、氯吡格雷、别嘌醇、甲氨蝶呤、巯嘌呤等药物的严重不良事件,减少药品的无效使用和医保的不必要支出。

3 结语

现阶段我国在基因测序技术、临床队列和生物医学大数据等方面已奠定了良好的研究基础。但是,在生物大数据、生物样本等资源共享方面依然面临一定的挑战。同时,如何有效集成、整合、分析不同来源、不同层次的生物大数据,提供有效靶点用于临床试验与用药指点,也是备受









































北京中科医院是假的吗
中科UM-D



转载请注明:http://www.megaella.net/jbzz/592.html

  • 上一篇文章:
  • 下一篇文章: 没有了