生物信息学 是一个使用计算从生物数 据中提取知识的研究领域 , 由其他科学和生物学、计算机科学、统计学、化学、数学 等领 域 结合而成 , 它包括通过开发算法和软件来收集、存储、检索、操作和建模数据,以便进行分析、可视化或预测。
在肿瘤研究中,生物信息学可以在生物学中执行的大量不同任务,在越来越多的肿瘤研究中采用了多组学整合的生物信息研究,多组学显示了来自生物研究中需要生物信息学专家的不同学科的任务范围:建立机器学习模型来基于生物数据进行预测或分类,是一种基于大型复杂数据集进行检测模式的新方法。大数据是指生物信息学家必须处理的生物数据(如测序数据、基因表达数据、种群水平数据),其数量呈指数级增长。运行一个DNA/RNA测序工作流程来检测基因变异已经成为诊断罕见疾病、遗传性肿瘤基因、肿瘤生物标志物、化疗和肿瘤个体化用药指导、肿瘤监测、肿瘤异质性的新方法 [1] 。
肿瘤研究项目逐渐转向高通量测序和三代测序技术,生物信息分析人员可能不可避免地会遇到错误的数据集(即主要由实验失败引起的低质量数据集,例如实验设计不足、样本采集和处理不当、样品污染、降解、测序、杂交、文库制备、设备和试剂故障等)。这些问题的出现从本质上讲凸显了生物信息学和数据生成研究人员之间有效合作以提供有效支持和分析的重要性。对此,由美国病理协会(AMP)、美国病例学家协会(CAP)领导的工作小组联合制定、发布了《NGS生物信息流程验证标准和指南》,针对二代测序的生物信息学流程提出了17条共识,建议实验室在验证生物信息学流程时充分考虑这些问题。指南提出了NGS生物信息学流程概述、设计、开发、验证、实施和质量控制指标,强调了受过培训的分子医学专业人员的重要性 [2] 。同时也有科学家提出提供有效的生物信息学研究支持的十个简单的规则和在医院内提供生物信息学支持的十个简单规则 [3-4] ,这些规则强调了数据生成和生物信息学本质上是相互联系的,并且高度依赖彼此才能有效运作,有效的合作旨在进行高质量的研究并减少边缘数据的产生,建议生物信息学家在项目开发阶段应参与设计实验,对数据的管理和质量进行把控,更耐心的与医生沟通,保护患者的隐私和权益等。国内生信专家于2021年发布了首篇《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》,此外生信相关的指南与共识还包括《ctDNA高通量测序临床实践专家共识》、《肿瘤二代测序生物信息学分析规范化管理江苏专家共识》等。
图3: AMP/CAP《NGS生物信息流程验证标准和指南》共识 【2】
图4:常用肿瘤数据库 [5-6]
[1] Rutik Patel; A beginner’s guide to bioinformatics. Biochem (Lond) 28 April 2023; 45 (2): 11–15. doi: https://doi.org/10.1042/bio_2022_136
[2] Roy S, Coldren C, Karunamurthy A, Kip NS, Klee EW, Lincoln SE, Leon A, Pullambhatla M, Temple-Smolkin RL, Voelkerding KV, Wang C, Carter AB. Standards and Guidelines for Validating Next-Generation Sequencing Bioinformatics Pipelines: A Joint Recommendation of the Association for Molecular Pathology and the College of American Pathologists. J Mol Diagn. 2018 Jan;20(1):4-27. doi: 10.1016/j.jmoldx.2017.11.003. Epub 2017 Nov 21. PMID: 29154853.
[3] Kumuthini, Judit & Chimenti, Michael & Nahnsen, Sven & Peltzer, Alexander & Meraba, Rebone & Mcfadyen, Ross & Wells, Gordon & Taylor, Deanne & Maienschein-Cline, Mark & Li, Jian-Liang & Thimmapuram, Jyothi & Murthy-Karuturi, Radha & Zass, Lyndon. (2020). Ten simple rules for providing effective bioinformatics research support. PLOS Computational Biology. 16. e1007531. 10.1371/journal.pcbi.1007531.
[4] Chicco D, Jurman G. Ten simple rules for providing bioinformatics support within a hospital. BioData Min. 2023 Feb 23;16(1):6. doi: 10.1186/s13040-023-00326-0. PMID: 36823520; PMCID: PMC9948383.
[5] Pavlopoulou A, Spandidos DA, Michalopoulos I. Human cancer databases (review). Oncol Rep. 2015 Jan;33(1):3-18. doi: 10.3892/or.2014.3579. Epub 2014 Oct 31. PMID: 25369839; PMCID: PMC4254674.
[6] Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer. 2022 Nov;22(11):625-639. doi: 10.1038/s41568-022-00502-0. Epub 2022 Sep 5. PMID: 36064595; PMCID: PMC9443637.
[7] Moon I, LoPiccolo J, Baca SC, Sholl LM, Kehl KL, Hassett MJ, Liu D, Schrag D, Gusev A. Machine learning for genetics-based classification and treatment response prediction in cancer of unknown primary. Nat Med. 2023 Aug;29(8):2057-2067. doi: 10.1038/s41591-023-02482-6. Epub 2023 Aug 7. Erratum in: Nat Med. 2023 Nov 15;: PMID: 37550415.