數百萬幅圖像迫使科學家尋找儲存數據新方法

2020-01-27 09:41:47 来源: 内蒙古信息港

数百万幅图像迫使科学家寻找储存数据新方法

对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担

美国宇航局太阳动力学天文台每天会收集1.5兆兆字节关于太阳活动的数据

图片来源:SDO/NASA

随着果蝇幼虫在视频中向前蠕动,呈裂纹状的神经活动快速传导至其半毫米长的身体当它向后蠕动时

,“波浪”朝另一个方向起伏这段在YouTube上被观看了10万多次的11秒长视频剪辑,以几乎单个神经元的分辨率展现了该幼虫的中枢神经系统创建这段视频的试验则产生了几百万张图像和几万亿字节的数据

美国霍华德·休斯医学研究所珍利亚农场研究园区发育生物学家Philipp Keller领导的团队制作了该视频对于Keller来说,这类产生大量图像的试验带来了巨大挑战“过去5年里,我们光在用于数据处理的计算方法上便花费了约40%的时间”问题并不在于储存图像——数据存储的花费并不高,而在于组织和处理图像,以便其他科学家能理解它们并且获得想要的东西

对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担Keller和两个其他领域——天文学和结构生物学——的科学家向《自然》杂志解释了他们正如何解决这个问题

为太阳成像

在新墨西哥州拉斯克鲁塞斯市上空地球同步轨道的某个地方,太阳动力学天文台(SDO)追踪着天空中的一个八字结该对太阳进行着持续观察,并利用3台仪器记录它的每一次“打嗝”这些仪器通过10个滤镜对太阳进行成像,记录其紫外线输出量并追踪它的地震活动随后,这些数据被传送到下方的地面接收站美国宇航局(NASA)的承包商——ADNET系统的太阳科学家Jack Ireland介绍说,SDO每天产生“约1.5万亿字节的图像数据”根据NASA的说法,这一数据量相当于音乐软件iTunes上约50万首歌曲

Ireland表示,为帮助研究人员驾驭这些图像,ADNET团队和欧空局一起开发了用于浏览SDO图像的站Helioviewer以及可下载的应用程序利用这些工具的研究人员和天文学爱好者看到的并非初始数据,而是其较低分辨率的图像

每张原始SDO科学图像是4096像素×4096像素的正方形,大小约有12兆它们每隔12秒被拍摄下来,迄今已收集了数千万幅图像

用户可跳转到自SDO于2010年启动以来的任何特定时间,选择滤色镜并获取到数据随后,他们可放大图像,浏览、裁切,并将其串在一起形成影片,从而使太阳动力学可视化Ireland介绍说,用户每天平均创建约1000个影片,而且自2011年起,至少有7万个影片被上传到YouTube

一旦他们选择了某张图像或某个被裁剪的区域,比如围绕特定太阳耀斑的区域,用户仍能下载初始的高分辨率图像如果需要,他们还能下载较小的1兆图像的完整档案

更快速的文件格式

对于Keller在珍利亚农场研究园区的发育生物学团队来说,将他们的数据发布到上供外部人员获取并不存在此类问题如果其他人想要数据,该团队可利用专门的文件传输工具,或者简单地通过运送硬盘,实现图像共享不过,该团队首先必须管理并分类以每秒10亿字节从实验室显微镜下流出的图像“这是一项巨大的挑战”Keller说

Keller实验室利用显微镜向诸如果蝇、斑马鱼、小鼠等小型生物体的大脑和胚胎内发射光这些生物体经过了基因改造,因此它们的细胞能发出荧光作为回应,从而使该团队得以数小时对3D下的每个细胞进行成像和追踪为储存这些数据,实验室在可提供约1拍字节存储量的文件服务器上花费了约14万美元

这些服务器上数百万张图像的高度结构化组织,让团队成员保持着理智每台显微镜都在自己的目录内储存着相应的数据;文件按照树状结构排列,而该结构描述着一项既定试验完成的数据、哪种模式生物被利用及其发育阶段、用于可视化细胞的荧光标记蛋白等信息Keller介绍说,实验室构建的数据处理管道便按照上述结构行事

然而,目录并未包括大多数显微镜学家所熟悉的JPEG图像文件JPEG格式会压缩图像文件的大小,使其更容易处理和传送,但在读取并将这些数据写入磁盘方面要相对缓慢,并且对3D数据来说效率太低Keller的显微镜在收集图像方面是如此的迅速,以至于他需要一种能像JPEG那样进行高效压缩但被读写时要快很多的文件格式由于该实验室通常研究的是单独的数据子集,因此Keller需要一种简单的方法提取特定空间位置或时间点

Keller及其团队开发了凯勒实验室数据块(KLB)文件格式它将图像数据切割成可被多个计算机处理器同时压缩的组块这使文件读取速度快了3倍,因此KLB在压缩文件大小方面表现得和JPEG格式一样好

共享原始数据

拍摄照片以判定分子结构的生物学家还产生了海量的图像数据一项日趋流行因此也产生了更多数据的技术是冷冻电镜技术(cryoEM)

CryoEM用户向快速冻结的蛋白质溶液发射电子束,收集上千幅图像,并将它们结合起来以接近原子水平的分辨率重建蛋白的3D模型大多数这样的重建小于10千兆字节,而研究人员可将它们存放在电子显微镜数据银行(EMDB)中不过,如此存放用于创建它们的原始数据却行不通,因为后者比得到的模型要大两个数量级左右在英国剑桥附近的欧洲生物信息研究所(EBI)领导EMDB欧洲蛋白质数据库(PDBe)项目的Ardan Patwardhan表示,成立EMDB并不是为了处理这些数据再现性因此遭殃:在无法获取到原始数据的情况下,研究人员既不能验证其他试验的有效性,也无法开发新的分析工具

2014年10月,PDBe启动一项试点方案:同样由Patwardhan主导、被称为冷冻电镜试验性图像档案(EMPIAR)的原始cryoEM数据资料库目前,EMPIAR包括49个条目,其中每个条目的大小平均有700千兆字节,的超过12太字节,同时整个系列约有34太字节总体上,用户每个月下载约15太字节

下载如此大量的数据带来了自身的问题:用于在电脑间传输文件的标准协议FTP不得不应对大规模数据集;连接损耗变得很常见,而下载速度会在长距离内大幅放慢EBI为EMPIAR用户支付了获取两项高速文件传输服务——Aspera和Globus的费用Patwardhan介绍说,两项服务均以“每24小时若干兆兆字节”的速度传输数据同样利用这些服务传输大规模基因组学数据集的EBI为这项业务的另一面付出了代价EBI提供Aspera服务的开支每年高达好几万美元

不过,EMPIAR原始数据已证实了它的价值弗吉尼亚大学结构生物学家Edward Egelman与别人合作发表了一种被称为MAVS的蛋白结构MAVS是一种聚合性的丝状结构蛋白,而发表的成果与此前的另一种模型存在分歧Egelman通过下载并且重新处理原始数据集,证实此前的结构是错误的EMPIAR的资助将在2017年用完,但Patwardhan表示,cryoEM研究人员告诉他,他们已将EMPIAR视为一种必需,并且想把“试验性”字眼从档案的名字中去掉“他们觉得,这应当被视为生物学界的一份重要档案听上去还不错”Patwardhan说

月经量多吃什么食物补
维生素D缺乏增加肺炎发生率
脑梗塞严重不严重
本文标签: