天文学,大数据和云-技术如何帮助研究宇宙





天文学家通常如何工作?他们同意天文台使用望远镜的日期和时间,并在指定的日期进行观察,并上传收集的数据。但是由于望远镜会产生越来越多的有用信息,因此传统方法无法使用。科学家们通过使用云技术找到了出路。 Cloud4Y解释了Stargazers现在的工作方式。



智利的维拉鲁宾天文台每晚可以收集20 TB的数据。这主要是由于其优越的地理位置。研究广角镜望远镜位于ElPeñon(智利北部)峰顶2715 m处。望远镜的设计独特,因为它具有非常宽的视野:直径3.5度或9.6平方度。相比之下,从地球上可以看到太阳和月亮,它们都是水平0.5度或0.2平方度的物体。结合大孔径,这使其具有极高的收集力。换句话说,望远镜能够同时从广阔的天空中获取数据。计划于2021年5月接收“工程”的第一盏灯,整个系统-2021年10月以及2022年10月开始全面运行



20 TB与Sloan Digital Sky Survey差不多,后者提供了最详细的宇宙3D地图,并收集了2000年至2010年的所有数据。但这还不是全部。所述平方公里阵项目,这是由于在开始工作2020,将通过100倍增加该体积,以每天2千万亿字节(当它在2028年达到最大容量)。据天文台负责人说,下一代设备(ngVLA)将产生数百PB的数据。



处理如此大量的数据并不容易。您不能只下载它们并将它们存储在某个地方。为工作的本地计算资源提供支持太昂贵了。根据一些估计,从头开始组织IT基础架构和维护维拉鲁宾天文台所需的人员的成本在10年内可能接近1.5亿美元。因此,来自智利的天文学家像他们的许多同事一样,转向了云端。这是他们已经得出的结论。



对计算能力的投资有益于科学



仅将数据移到云中是不够的;研究人员必须能够与之交互。当天文学家将数据传输到他们的计算机时,他们不再下载传统的工作模型,而是下载代码以与云中可用的数据一起使用。由于可以在线访问天文台的科学平台(使用Python,Julia,R等进行编程的Jupyter笔记本,用于分析,查看和搜索数据的应用程序编程接口(API)),用户可以编写和运行Python代码以对所有内容进行远程分析伊利诺伊州厄巴纳市国家超级计算应用国家中心托管的服务器上的观测台数据集。而且您无需将任何内容下载到计算机。



在其他科学领域,这种方法非常有效。例如,Pangeo项目是地球科学的大数据分析平台,它使PB级的气候数据公开且可计算,从而使研究人员更易于合作。



即使没有大数据也很方便



Evelina Momcheva在马里兰州巴尔的摩的太空望远镜上工作,她说她遇到过一些案例,其中仅使用中型数据的项目已从云计算中受益。仅仅是因为研究人员能够访问远远超出其笔记本电脑性能的资源。而且,重要的是,以相对较低的成本。一些云提供商出于教育目的提供免费资源。



在2015年,Momcheva和她的同事们只有一个8核服务器用于其3D-HST项目,该服务器分析了哈勃太空望远镜的数据,以了解塑造遥远宇宙中星系的力。资源稀缺,他们转向云以五台32核机器为例。为什么?但是由于经过初步计算,结果表明,在我们自己的计算机上进行分析至少需要三个月。使用云提供商,只花了五天时间,不到1000美元。”



价格不是一切



如果云服务消退,关于云服务是否比其自己的IT基础架构便宜的争议将不会很快出现。双方都有很强的论点。例如,美国麦哲伦能源部2011年关于云计算的报告得出结论,该部门的计算中心通常比租用云服务便宜。但是,自那时以来,桥下流了很多水,技术发生了巨大变化。



华盛顿大学表示,通过云服务优化工作可以弥补这些差异。研究人员能够证明,经过几个月的工作和成本优化,43美元的云计算实验仅需6美元。他们还计算出,使用自己的资源在可比较的时间内完成相同的任务将使团队花费大约75,000美元(用于硬件,电力和员工工资),而服务器必须在三年内87%的时间处于活动状态。



节省时间通常会影响决策。当您的IT基础结构需要9个月来处理您的数据,而云只需要1个月,并且花费大约相同的钱时,那8个月的差异就变得非常有趣。



天文学家说,他们不想越过一侧。相反,将本地基础结构用于日常任务和“云”(用于复杂计算)是许多研究中心的最佳模型。



数据整合开辟了新视野



天文学家非常喜欢的另一件事是能够组合多个大数据集。它们的组合可以提供一些信息,这些信息对于每个集合来说都不是显而易见的。也就是说,天文学家收集的信息越多,它就越有用。



NIH数据共享项目启发研究人员计划在该处存储和交换生物医学和行为数据及软件,研究人员计划创建天文学数据共享库。华盛顿大学的科学家已经发布了一个名为Zwicky瞬变设施的数据集,其中包括对大约20亿个天体的1000亿次观测。如果这项工作有用,其他天文学家可能也会效仿。然后,将创建一个完整的天文生态系统,其梦想只能实现。



转到云还不够,您需要知道如何使用它



要使用云中的数据,用户需要创建一个帐户,选择与信息进行交互的众多选项之一,安装自己的(通常是自行编写或定制的)软件。此外,配置所有内容,以便该软件可以同时在多台计算机上运行。错误是不可避免的,并且可能使研究人员付出沉重的代价,从而阻止了人们对云技术的兴趣。有一种情况是,无能的研究生“浪费”了数千个小时的处理器时间而一无所获。因此,建议科学家首先训练“猫”,使用他们自己的基础设施启动小型试点项目。



同样重要的是不要忘记安全要求。尽管云中的隐私和安全性比本地资源要好,但是建立云基础架构可能是具有挑战性的。没有经验的程序员的错误将导致这样一个事实,即您的数据将对全世界可用。当使用我们自己的IT园区时,此类问题得到了更严格的控制。在云中,如果您不听提供商的技术专家的建议,很容易搞砸。



通常,天文学家希望使用云资源来研究恒星系统,建立宇宙形成模型并存储“数据湖”的愿望是可以理解的。长期以来,重型计算已外包给数据中心的设备。云平台极大地改变了科学和商业,成为发展人类思想的重要工具。最主要的是正确使用此工具。Cloud4Y



博客中还有什么有趣的内容



自己动手,还是从南斯拉夫购置一台计算机

美国国务院将创建自己的强大防火墙

人工智能唱着革命

宇宙的几何形状是什么?

瑞士地形图上的复活节彩蛋



订阅我们的电报频道,以免错过其他文章。我们每周写不超过两次,并且仅在商务上写。



All Articles