迈杰转化医学研究(苏州)有限公司

杰论系列 | 生物信息与肿瘤研究
来源: 时间:2024-01-18
背景

生物信息学 是一个使用计算从生物数 据中提取知识的研究领域 由其他科学和生物学、计算机科学、统计学、化学、数学 等领 结合而成 它包括通过开发算法和软件来收集、存储、检索、操作和建模数据,以便进行分析、可视化或预测。

20210705143929001060/resource/images/90eff40348ac4f60bead49a55b777dc5_12.png

图1:生物信息学是一个跨学科的领域 [1]  

在肿瘤研究中,生物信息学可以在生物学中执行的大量不同任务,在越来越多的肿瘤研究中采用了多组学整合的生物信息研究,多组学显示了来自生物研究中需要生物信息学专家的不同学科的任务范围:建立机器学习模型来基于生物数据进行预测或分类,是一种基于大型复杂数据集进行检测模式的新方法。大数据是指生物信息学家必须处理的生物数据(如测序数据、基因表达数据、种群水平数据),其数量呈指数级增长。运行一个DNA/RNA测序工作流程来检测基因变异已经成为诊断罕见疾病、遗传性肿瘤基因、肿瘤生物标志物、化疗和肿瘤个体化用药指导、肿瘤监测、肿瘤异质性的新方法 [1]

20210705143929001060/resource/images/90eff40348ac4f60bead49a55b777dc5_14.png

图2:生物信息学任务示例。复杂疾病研究的生物信息学技术包括建立机器学习模型、测序DNA样本、构建进化树、对比疾病组和对照组之间的表达数据以及可视化数据 [1]



生物信息相关指南与共识

肿瘤研究项目逐渐转向高通量测序和三代测序技术,生物信息分析人员可能不可避免地会遇到错误的数据集(即主要由实验失败引起的低质量数据集,例如实验设计不足、样本采集和处理不当、样品污染、降解、测序、杂交、文库制备、设备和试剂故障等)。这些问题的出现从本质上讲凸显了生物信息学和数据生成研究人员之间有效合作以提供有效支持和分析的重要性。对此,由美国病理协会(AMP)、美国病例学家协会(CAP)领导的工作小组联合制定、发布了《NGS生物信息流程验证标准和指南》,针对二代测序的生物信息学流程提出了17条共识,建议实验室在验证生物信息学流程时充分考虑这些问题。指南提出了NGS生物信息学流程概述、设计、开发、验证、实施和质量控制指标,强调了受过培训的分子医学专业人员的重要性 [2] 。同时也有科学家提出提供有效的生物信息学研究支持的十个简单的规则和在医院内提供生物信息学支持的十个简单规则 [3-4] ,这些规则强调了数据生成和生物信息学本质上是相互联系的,并且高度依赖彼此才能有效运作,有效的合作旨在进行高质量的研究并减少边缘数据的产生,建议生物信息学家在项目开发阶段应参与设计实验,对数据的管理和质量进行把控,更耐心的与医生沟通,保护患者的隐私和权益等。国内生信专家于2021年发布了首篇《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》,此外生信相关的指南与共识还包括《ctDNA高通量测序临床实践专家共识》、《肿瘤二代测序生物信息学分析规范化管理江苏专家共识》等。

20210705143929001060/resource/images/90eff40348ac4f60bead49a55b777dc5_16.png

图3: AMP/CAP《NGS生物信息流程验证标准和指南》共识 【2】


肿瘤生物信息数据库及其应用

大规模癌症组学数据的快速积累催生了癌症中“大数据”的概念,其分析需要大量的计算资源,并有可能为基本问题带来新的见解。事实上,大数据、生物信息学和人工智能的结合已经使我们对癌症生物学的基本理解和转化技术方面取得了显著的进展。在利用大数据资源时,临床决策、基础研究和新疗法的开发需考虑两个正交维度;整合跨许多数据模式的数据,整合来自不同队列的数据,这可能包括从已有的数据集转移知识。在组学数据的指导下,研究者可使用超说明书药物进行前瞻性临床研究。多项整合基因组学临床试验通过生成和分析全基因组数据——包括DNA测序、基因表达分析和拷贝数分析的数据,专注于入组患者肿瘤的多组学分析,以确定治疗的优先级。经过多组学分析后,由临床医生领导的多学科分子肿瘤委员会根据目前已知的药物、基因和肿瘤脆弱性之间的关系,选择最佳的治疗方法 [5]
20210705143929001060/resource/images/90eff40348ac4f60bead49a55b777dc5_18.png

图4:常用肿瘤数据库 [5-6]

随着FDA批准IVD病理图像人工智能辅助决策软件——Paige Prostate,通过数据驱动的人工智能来支持癌症诊断逐渐应用到肿瘤诊断治疗中。在癌症检测中常用的人工智能(AI)框架使用卷积神经网络(CNN)从诊断图像中检测癌细胞的存在。cnn使用卷积(一个区域补丁的加权和)和池化(将一个区域中的值汇总为一个值)将图像区域编码为低维数值向量,可以通过机器学习模型进行分析。CNN架构通常使用ImageNet数据进行预训练,这比任何癌症生物学成像数据集都要大得多。为了提高人工智能框架的可靠性,可以通过旋转或模糊组织图像来增强输入数据,以增加数据的大小。将数据分为不重叠的训练、调优和测试集,分别训练人工智能模型、调优超参数和估计对新输入的预测精度。假阳性预测通常是重新训练人工智能模型的基本数据点。从一个穿刺样本中,病理学家可以决定是否存在癌细胞。如果结果是阴性或医生不能做出明确的诊断,Paige Prostate可以分析图像,如果发现任何图像,可以提示病理学家潜在的癌症位置。替代程序包括评估多个活检样本,并对前列腺癌标记物进行免疫组化检测,独立于人工智能检测 [5] 。无法确定癌症的原发部位,这些肿瘤被称为原发灶不明癌(CUP)。CUP原发部位隐匿、预后极差,中位生存期仅为6-16个月,是癌症死亡的重要原因之一。美国丹娜-法伯癌症研究所、纪念斯隆-凯特琳癌症中心等机构的研究团队开发了一个名为OncoNPC的AI模型,并使用来自3家机构的22种常见癌症类型(共包括36,445个肿瘤)的NGS数据对其进行训练。在65.2%的肿瘤样本,OncoNPC实现了高置信度预测,加权F1值为0.942。OncoNPC不仅能确定CUP起源,还可区分CUP患者的预后,其使本可接受基因组指导治疗的CUP患者增加2.2倍,为CUP精准靶向治疗带来曙光 [7]
20210705143929001060/resource/images/90eff40348ac4f60bead49a55b777dc5_20.png
图5 :通过数据驱动的人工智能来支持癌症诊断 [5]



四、迈杰医学数据生信中心

迈杰医学数据生信中心致力于提供“从方案设计、分析到解读”的高端及个性化生信数据‍分析服务,为基础科研、临床研究和临床检测提供行业内可靠的一站式生物信息学数据解决方案! 拥有多种自主研发且经系统验证的核心算法、多组学自动化分析系统,结构化知识库和解读平台、及大数据分析挖掘新生物标志物的完整解决方案。2023年支持并完成了HRD产品在MGI2000平台上数据分析、算法优化和报证软件开发至注册检,E1L3N图像处理软件报证注册检和申报,构建图像AI算法软硬件能力,内部开发AI算法,完成泛实体瘤MRD项目多重扩增子引物设计系统开发和验证,具备支持多类分子产品开发潜力;开发WGD新检测算法并获得客户项目;完成建立慢病毒插入位点基因数据注释库,支持多个客户IND项目申报;完成STARLIMS自动化报告生信系统;开启单样本检测流程优化和验证。完成生信分析一体机开发任务,知识库和自动化报告双语支持,助力海外市场拓展。


参考文献

[1] Rutik Patel; A beginner’s guide to bioinformatics. Biochem (Lond) 28 April 2023; 45 (2): 11–15.  doi: https://doi.org/10.1042/bio_2022_136

[2] Roy S, Coldren C, Karunamurthy A, Kip NS, Klee EW, Lincoln SE, Leon A, Pullambhatla M, Temple-Smolkin RL, Voelkerding KV, Wang C, Carter AB. Standards and Guidelines for Validating Next-Generation Sequencing Bioinformatics Pipelines: A Joint Recommendation of the Association for Molecular Pathology and the College of American Pathologists. J Mol Diagn. 2018 Jan;20(1):4-27. doi: 10.1016/j.jmoldx.2017.11.003. Epub 2017 Nov 21. PMID: 29154853.

[3] Kumuthini, Judit & Chimenti, Michael & Nahnsen, Sven & Peltzer, Alexander & Meraba, Rebone & Mcfadyen, Ross & Wells, Gordon & Taylor, Deanne & Maienschein-Cline, Mark & Li, Jian-Liang & Thimmapuram, Jyothi & Murthy-Karuturi, Radha & Zass, Lyndon. (2020). Ten simple rules for providing effective bioinformatics research support. PLOS Computational Biology. 16. e1007531. 10.1371/journal.pcbi.1007531.

[4] Chicco D, Jurman G. Ten simple rules for providing bioinformatics support within a hospital. BioData Min. 2023 Feb 23;16(1):6. doi: 10.1186/s13040-023-00326-0. PMID: 36823520; PMCID: PMC9948383.

[5] Pavlopoulou A, Spandidos DA, Michalopoulos I. Human cancer databases (review). Oncol Rep. 2015 Jan;33(1):3-18. doi: 10.3892/or.2014.3579. Epub 2014 Oct 31. PMID: 25369839; PMCID: PMC4254674.

[6] Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer. 2022 Nov;22(11):625-639. doi: 10.1038/s41568-022-00502-0. Epub 2022 Sep 5. PMID: 36064595; PMCID: PMC9443637.

[7] Moon I, LoPiccolo J, Baca SC, Sholl LM, Kehl KL, Hassett MJ, Liu D, Schrag D, Gusev A. Machine learning for genetics-based classification and treatment response prediction in cancer of unknown primary. Nat Med. 2023 Aug;29(8):2057-2067. doi: 10.1038/s41591-023-02482-6. Epub 2023 Aug 7. Erratum in: Nat Med. 2023 Nov 15;: PMID: 37550415.

相关资讯