南方网讯(记者/邹长森)近日,2019年《岭南科学论坛·双周创新论坛》之“精准医学高峰论坛”在广州举行。院士专家称,生物医学进入了大数据时代,亟需加速AI技术应用。
中国科学院基因组科学与信息重点实验室、中国科学院北京基因组研究所研究员方向东在会上作了报告。报告披露了两组数据:一个人的基因组长度为3GB,约30亿个字母,或3x109(字节),这些序列编成新华字典,每本72万字,约2144本;而一个人产生的临床诊疗数据、影像数据、电子病历数据、体检基线数据、组学数据等将达到10TB。
海量爆发的医学数据为精准医疗提供了资源,大数据技术的发展也为医学发展奠定了基础。当前,我国在精准医学领域,特别基因科技某些领域暂时处于国际领先地位。广东是中国改革开放先行地,培育了一批全国乃至全球领先水平的精准医疗机构,基因组学和蛋白质组学研究处于世界前沿,在临床治疗、分子成像、药物靶点发现和大数据技术方面发展快速,为进一步促进精准医学发展奠定了强有力的基础。
不过,就目前来看,医学大数据的质量与应用水平仍然不高,共享水平较低,这成为了精准医学快速发展的关键制掣。
在国际社会上,美日欧均建立相关的组学数据库,形成了事实上的数据资源垄断。方向东呼吁,中国应加紧建立并更新组学原始数据归档库(Genome Sequence Archive),打破组学数据国际垄断,保护数据主权。据介绍,该系统采用国际兼容规范,是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台,已经接收了来自149个研究机构511余位科研人员的共超过1PB数据,国家重点研发计划项目实施以来,接受数据量持续上升。
建立和打通医学数据库还只是第一步,学习数据的结构和其内在模式,建立模型,以达到对疾病预测和分类、用药指导、疾病诊断才是最终的目的。候凡凡院士认为,除了精准医学应用外,还应注重精准医学研究,建立科研创新思路,充分利用好临床大数据和生物样本大数据,开展精准疾病定义和分型、精准疾病风险预测以及精准疾病干预等研究,不断提供精准医学研究和应用水平。方向东告诉记者,“AI技术在皮肤肿瘤的精准医疗、肿瘤早期筛查、辅助糖尿病视网膜病变早期筛查、辅助开发创新药物等方面已经有了应用。通过AI学习,甚至可以实现识别脸部图像诊断遗传病。”