首页 健康内容详情
科技强企!人和未来领跑国内基因组数据计算加速软件市场

科技强企!人和未来领跑国内基因组数据计算加速软件市场

分类:健康

标签: # 足球贴士网

网址:

SEO查询: 爱站网 站长工具

点击直达

作为数字经济时代的核心生产力,大数据计算加速已经成为促进多个行业发展的重要基础设施。随着测序技术不断升级,测序通量越来越高,测序成本直线下降……基因组数据正以超摩尔定律增长。如何将基因测序的原始数据读取出来、数字化并对其进行相应的解读?是制约基因行业快速发展的瓶颈,也是激励行业科研人员持续进步、不断创新的契机。

基因组数据有多“大”?

从生物学上讲,基因组数据的大小一般与其复杂性、等级高低相关。哺乳类动物的基因组数据大于鸟类,鸟类大于真菌,原核生物大于病毒。植物由于是多倍体,而成为生物界最特殊的存在。它的基因组测序数据量比较大,部分植物的基因组学数据甚至要大于人类。例如:单个人类的基因组数据大约为3Gb;猪的全基因组和人的基因组大小接近,约为2.51Gb;小麦为异源多倍体基因组,数据大小约17 Gb,是人类的5~6倍。全球有近70亿人口,这会产生多大的数据量,可想而知。

当前,目前已经普及商用的高通量基因测序仪单台每天产生的测序数据可高达6TB,每年各测序仪新增下机的数据则高达数百PB。有了这些大数据,我们就能够从分子水平上了解物种生长、发育、正常生理活动的本质和基础,还能够通过对比健康与患病物种基因组学数据的差异找到各种疾病在分子水平的病因,从而针对性地进行新药研发和改良育种。相应的,数据量越大分析难度越高,数据解读的效率远远跟不上数据的产出速度,为基因行业甚至是整个生命科学的高质量发展带来了极大的挑战。

基因组数据分析有多“难”?

随着测序技术的发展,测序价格越来越低。人类全基因组测序的成本已由2007年时的100万美元降低到1000美元以下。与此同时,大量测序数据的积累让除测序外的数据研究成本增高,后续数据存储、传输、计算、应用对各生物院校、实验室及医疗机构的计算机配置提出了更高的要求。动辄几十万、几百万甚至上千万的硬件投入,让众多科研单位不堪重负。

而基因组数据分析的“难”,不仅仅难在基础设施的采购成本过高,也难在数据处理过程的繁杂。以当前的技术条件,基因数据的分析过程包括:1.样本上机测序,即将化学信号转换为数字信号;2.原始数据下机,将数据记录成响应的数据文本格式后,对其进行解读、对比、分析,以此来知道样本所对应的物种的表型是什么?为什么可以抗病虫害等。同时,在人类中知道患者从基因层面来解释为何会患病?患的什么病?怎么治疗和改善?3.最终形成数据交付报告。根据应用场景的不同,这一过程需要用到生物学、医学、农学、统计学、计算机学等专业知识,涉及到的分析方法、软件、算法非常多。

 当前暂无评论,快来抢沙发吧~

发布评论