建构精准医疗知识库的必要性 这些年归功于测序技术,尤其是二代高通量测序技术的发展,使我们普通人群较慢低廉地提供自身基因组信息沦为有可能,同时推展传统医学较慢地发展到精准医学。然而,不管是一代Sanger测序、二代高通量测序,还是PCR、生物芯片、免疫组化等常规分子水平检测,都不能告诉他我们受检对象组学上的一些变异信息,而无法必要告诉他我们根据这些信息临床上该如何决策。 组学变异与临床表型、化疗效果的关联关系不是一个个体样本可以确认的,而是必须大样本的群体研究来证实,也就是说必须循证依据。所以,建构基于客观循证依据的组学变异、临床信息关联知识库沦为构建精准医疗临床应用于的必定之路。
最近FDA、CSCO争相发售指南,明确指出必须通过循证的遗传变异知识库对测序分析结果展开临床注解理解来开具报告。譬如FDA认为,在评估基于NGS的检测时,所应用于的知识库必需统合多层次科学证据,并有适当的权重;数据的自由选择和载入必需有详尽具体的标准操作程序并严苛按其操作者。早在2011年,为朔的创立者就前瞻性地看见了这一市场需求和必然趋势,启动建构基于循证文献的精准医学知识库iCMDB。 精准医学知识库的信息来源可分成三类:第一类是公共的组学数据库,如NCBI、Ensembl、dbSNP、OMIM、PharmGKB、ClinVar、COSMIC等,我们可以借此萃取变异的组学属性;第二类是FDA、CFDA、EMA、Drugbank、ClinicalTrial、NCCN指南、ASCO、ESMO等医疗数据库,可借此萃取临床医疗方案;第三类则就是指公众文献库如Pubmed中提供的海量文献。
这些文本文献中的研究获取了关联临床表型、组学变异与医疗效果这三方面的关系证据。iCMDB在从这些文献中结构化萃取信息时,不会针对每一项研究获取的证据,萃取其研究设计方案、研究对象、样本量大小等数据,得出详尽的循证等级和权重,并经多重人工审查,尽量获取精确客观的依据。因此iCMDB已在新加坡取得三类医疗器械资质,CFDA、FDA也已在实时审批中。
(所附,最新消息,iCMDB已作为美国西奈山医院得精准医学整体流程的一部分通过了FDACAP证书) 建构知识库的难题 建构知识库的仅次于难题在于如何统合有所不同来源、有所不同层次、有所不同结构的多维数据和信息。 给定有所不同的系统来源的数据 临床纬度的信息,第一要素是疾病病种。而关于疾病命名及分类的系统有WHO的ICD系、OMIM、NLM的MeSH、SNOMEDCT、MedGene等多个有所不同的系统。这些有所不同的系统对疾病的命名与分级并不完全一致,在统合使用有所不同系统的数据库时就必需做到数据给定。
规范各变异层次的元数据 组学方面,其层次纬度也很多,有基因组学、mRNA组学、蛋白质组学、新陈代谢组学、表观遗传组学等。意味着在基因组学上就有单核苷酸变异、放入、缺陷、更换、反复、拷贝数变化、转座、染色体微变化、核型等多种不同层次变异。有所不同层次的变异的数据特征差异相当大,必须制订好各变异层次的元数据规范,展开有效地的数据统合接入。 统一标准化组学数据 这些年来,分子生物和遗传学界为统一标准化组学数据作出了很多希望。
比如HGNC对人类基因,还包括蛋白编码基因、非编码RNA、假基因等都做到了统一的命名;HGVS对基因组、mRNA组和蛋白质组学水平变异的阐释格式做到了统一的规定。令人遗憾的是,目前这些标准并没被广泛应用。
荐个小例子解释,对坐落于同聚序列内的放入或缺陷,HGVS规定在变异结果完全相同的情况下,变异方位不应注解在mRNA本的3末端;如果基因坐落于正链,变异方位再次发生在参照序列(正链)最右端。忽略如果基因坐落于负链,变异方位则再次发生在参照序列(正链)最左端。但目前市场上的变异辨识软件并不区分正负链,而是将变异方位统一注解在参照序列(正链)的最左端;即便像COSMIC、ClinVar这样被大家广泛应用的公众数据库在这方面也没做统一。
COSMIC载入的变异大多不区分正负链,统一注解在最左端;ClinVar则大多注解在最右端。如果不对这些有所不同的格式展开统一转化成,可想而知不会影响下游注解的准确性和全面性。
本文来源:皇冠游戏中心官网-www.sriingenieria.com
Copyright © 2003-2023 www.sriingenieria.com. 皇冠游戏中心官网科技 版权所有 ICP备16604452号-7 XML地图 网站模板