主页(http://www.kuwanit.com):人和未来,刷新IT纪录的生物公司
文/动脉网 周梦亚
动脉网曾在一篇《基因检测碰壁大数据,42家基因企业来支招!》的文章中提到过,随着测序技术日益趋于市场化,基因信息大数据的存储、传输、分析以及解读将是继测序成本之后的下一个急需攻克的壁垒。
测序环节产生的基因数据——每个人动辄百G以上——是急需挖掘的矿藏。因此,数据的存储、传输、分析和解读是必须的过程,这就对大比例的压缩算法、高效的传输策略、超快速的计算平台和专业的解读服务提出了很高的要求。
在前几天Intel举办的英特尔生命科学信息技术论坛上,数据压缩存储、高性能计算相关的讨论是重头戏。Broad Institute登陆中国,与Intel、华大基因、阿里云和浪潮联合成立了GATK中国社区。FPGA则首次成为贯穿全场的关键词,预示Intel在未来几年将加大在异构计算方面的投入。
这些巨头公司之外,一家创业公司——人和未来也引起了大家的关注:成立仅3年,其研发的数据压缩算法将传统压缩算法的效率提升了20倍;开发的基因数据云计算系统将全基因组计算时间从以天为单位减少到10分钟;研制的FPGA芯片更是将堪比超算的生物信息分析能力浓缩于一张硬件加速卡,可以使一台普通PC机具有了百台服务器的基因数据分析能力。
就在去年,这家公司在第11届国际基因组学大会(ICG)的全球公开竞赛中一举拿下数据压缩和计算加速竞赛双料冠军,这个成绩更是刷新了数据压缩和加速运算当前的世界纪录。
令人惊奇的是,他们并非IT企业,而是一家生物科技公司。一家生物技术公司,如何成为攻城狮,刷新了IT的世界纪录呢?
当商业碰上技术,有备而来的创业
人和未来成立于2014年,由袁梦兮、黄文静和宋卓博士共同创立。初创的十余人团队中,不仅聚集了多位留学北美的遗传学、生物信息学、计算机及医学博士,也完美的融合了创始团队金融和商业的背景。
2014年是中国基因检测产业的创业高潮年,这可以从去年动脉网发布的行业年终盘点中就可以看出来。这一年新成立的企业超过35家,其中就包括人和未来。
其实当年,国家发改委曾经叫停了所有高通量测序临床应用服务。与其说人和未来逆政策而行是看准了行业风口,不如说这家公司实际经过了多年沉淀才终于振翅而飞。在公司正式成立之前,三位创始人已经筹划了5年。
2009年的美国,以23andme、Knome为代表的创业企业掀起了第一波基因检测产业化的热潮。受其感召和鼓舞,当时还在美国读书的袁梦兮和宋卓利用暑假各自回国调研国内检测市场。无巧不成书的是,他们几乎同时拜访了当时湘雅附三体检中心的主任,并因此相识。从某种意义上讲,这次旅程对公司的最终成立具有历史意义。两人在长沙火车站肯德基的第一次会面,开启了Genetalks-人和未来筹建的序幕。同年,袁梦兮在康奈尔商学院的同学黄文静加入创业团队。团队借助圣地亚哥华人科学家的技术平台,于2009年开始了最早的研发和数据分析工作。公司的第一个疾病与基因信息的数据库,以及低频突变单分子标记测序方法便在这一期间完成了雏形。
2011年团队再次回国考察基因检测的市场,打算启动商业转化,大干一场,但慎重分析后,认定当时国内的基因检测市场仍处于无准入无监管的状态,时机尚未成熟。团队决定继续积累,并等待最佳入场时机。此后,除了继续在北美各研究院所和机构继续协同研发的团队外,袁梦兮、宋卓、黄文静分别去了IDG资本,贝瑞和康和礼来制药,从创业投资管理、生物技术转化、医疗市场运营等不同视角,带领职业化团队进行了成功探索。直到2014年,基因测序叫停,团队兴奋的意识到产业序幕即将揭开,迅速召回美国成员,在两个月时间即完成了融资、检验所规划、核心技术和国内团队落地。并在长沙研发检测基地开启了全新里程。
厚积薄发,超前意识遇见未来趋势
作为技术团队的核心,宋卓博士的背景是人类遗传学和生物信息学,BT+IT打一开始就烙入了技术团队的精神内核。早在美国攻读学位期间,宋卓博士就醉心于提升生物信息的计算效率,也许在那个时候,就本能地预见了数据处理和分析将成为未来整个行业的瓶颈。
因此,从成立之初,公司便在IT领域特意进行了布局。
2014年,人和未来先后与亚马逊AWS、阿里云和Intel进行合作。基于这些IT巨头提供的底层服务,人和未来勇于创新,开发了多个令人耳目一新的高性能生物信息解决方案。
布局基因大数据,刷新世界纪录
目前公司大数据产品线包括两个解决方案:基因数据的传输压缩,高性能计算解读。
1.传输压缩解决方案GTZ
GTZ是人和未来开发的数据传输压缩解决方案。通过将数据传输、压缩、分发集于一体,GTZ能实现将大规模基因组数据传输时间缩减90%,同时还能减少90%的磁盘存储空间,与老牌传输工具Aspera 相比,相同带宽下,传输能力提高10倍;与传统常用的压缩算法gzip相比压缩速度提高10倍,压缩率提高3倍 。为基因组大数据的传输和存储提供了高效率低成本的解决方案。
传输速度对比一览表(200GB Fastq文件):
方案
时间(小时)
GTZ
0.75
Aspera
4.6
gzip+Aspera
4
存储成本对比一览表(200GB Fastq 文件):
方案
成本(元/年)
不压缩
400
gzip压缩
140
GTZ压缩
40
一个人的基因组数据的大小约为3GB,如果测序深度为30X,算上碱基质量等数据,最终全基因组数据的大小超过200GB,将测序数据保存在云端(比如,亚马逊云S3对象存储服务),如果不压缩,需要400元/年,如果使用gzip压缩,需要140元/年,如果使用GTZ压缩可以将保存成本降至40元。单个基因组数据不足以震撼人心,我们看一下国内的测序盛况。目前国内已经购买了大量的Illumina 生产的NovaSeq新型测序仪,单台NovaSeq测序仪可以在30小时内产出6TB 数据,一年满负荷运转可以产出超过1.5PB数据。如果采用GTZ压缩,可以为每台NovaSeq 减少超过150万的存储成本。单单只按照目前国内 NovaSeq的订购量100台来计算,如果国内所有测序数据全部采用GTZ压缩,将为国内的基因测序企业减少超过1.5亿元的存储费用。
另外,不同于传统的传输方案,GTZ采用边传输边压缩的专利技术,实现了满带宽稳定高效传输,极大提升了大规模基因数据的传输、共享和分发体验。让大数据传输彻底告别邮寄硬盘这种原始的数据交换方式。
2.高性能计算解决方案
1)GT-WGS
发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。