备战主网上线|星际大陆服务器上架纪实

2020-02-05 13:03:59

今天是春节之后,为防控疫情宅在家的第十天,湖北仍在最前线与病毒决战,全国井然有序地开展保卫战。有的人已经看完了几部长篇连续剧,有的人躺睡几天之后终于受不了开始了抖音拍摄之旅。但对于星际大陆矿场部运维团队来说,却没有什么区别,一直在忙碌,只不过从线下转移至线上。

  今天是春节之后,为防控疫情宅在家的第十天,湖北仍在最前线与病毒决战,全国井然有序地开展保卫战。有的人已经看完了几部长篇连续剧,有的人躺睡几天之后终于受不了开始了抖音拍摄之旅。但对于星际大陆矿场部运维团队来说,却没有什么区别,一直在忙碌,只不过从线下转移至线上。

  星际大陆矿场运维团队对星际大陆所有业务进行基层支持。有关基础IT资源的一切,包括设备采购的需求对接、机房服务器上架、操作系统部署、服务器运维保障等都是他们来完成实现的。没有他们,线上业务就没有了物理基础,他们承载了服务器设备从上架安装到交付使用的全部环节。

  元宵过后,Filecoin测试网第二阶段、主网上线接踵而来,这是分布式存储生态参与者的“狂欢”之日,也是矿场运维团队肩负重任之时。全球分布式存储服务器,被分为多个批次和多个时间点,从各大厂商发货,无论是空运还是陆运,最终都会先交付给运维的同事们。


ipfs矿机


  服务器上架的五个阶段

  设备运输到矿场之后,服务器上架前后的工作是重要而繁重的。据星际大陆矿场部负责人Daniel 介绍,服务器上架要分五个阶段。

  第一阶段:两条线。第一条:供应链采购元器件,交给工厂组装成服务器,经过检测,运输到机房。第二条:运维要完成网络耗材和网络设备的采购,之后要在机房布好网线。

  第二阶段:服务器在机房上架、安装硬盘、点亮测试。

  第三阶段:网络设置。

  第四阶段:系统化检查。

  第五阶段:运行业务。

  服务器上架之前:机房环境改造工程


ipfs矿机上架


  在设备上架之前,首先要完成的就是机柜验收、综合布线等准备工作。运维同事使用业内先进仪器,完成机房内综合布线的数据探勘,再进行机房综合布线的施工改造,最终交付给机房团队和网络团队使用。

  Barry Li是矿场部最早的成员之一,结婚前二天和蜜月都是在IDC机房中度过的。据他介绍,在机房投入使用之前,先要完成机房网络的综合布线工作,机房输出和网络规划输出后,工程师会先做机房的综合布线工程探勘,根据网络核心机柜的规划、网络架构的规划及现场机柜物理环境的分布,完成综合布线耗材的测量工作,然后提交线缆耗材的采购申请。

  测量数据包括:线缆数量、长度、各个桥架的线缆走线方向等。还要根据网络的规划及现场机柜弱电桥架的走向,进行合理的改造建议。因为每个机房物理环境都不太一样,这样提前探勘是为了保证综合布线数据的准确性,以及在确保方案正常实施的同时,减少不必要的资源浪费。

  这些工作一般在设备到达现场之前半个月到一个月就要开始准备了,网络综合布线完成后,再继续解决排障线路等问题。


Filecoin矿机


  再者,在服务器上架之前,还需要事先根据机柜的尺寸以及用电量来规定每个机柜服务器的台数。

  中心机房的机柜都是有一定的规格,不同的规格放置的服务器台数也不会相同。

  一般来说,一个42U的机柜,1U服务器会放置16台左右;2U尺寸的服务器,一般是放置12台左右;4U大尺寸的服务器一般会在7台上下。在进行服务器布置的时候,要考虑到服务器之间的散热问题,因此一般来说,服务器与服务器之间会有一定的空隙位置,大概也就是1U这样大的尺寸空间,这样是便于很好的进行散热,保障服务器的正常使用。

  服务器上架机柜的时候,还需要考虑机柜里面涉及到的交换机空间的大小,以及PDU位置等。这些设备都是会占据服务器机柜的一定空间,会导致可上架服务器的台数相应的减少。

  机柜一般还会有一个额定的电源量。当超出了规定的电源量的时候,即使服务器机柜还有空间,也不能再上架服务器了。否则会导致其他的服务器用电量不足等情况的发生。

  服务器上架,时间紧任务重

  机房物理环境准备完毕后,开始上架服务器。

  Daniel Cao具体介绍了他们的工作:

  “设备上架工作内容十分庞杂。我们日常要对机房内的所有动作进行严格把控和管理,比如设备移动、设备的硬件扩容、机柜内布线、设备信息反馈以及日常的维护工作等。”


filecoin矿机


  设备到货后,要开始拆箱、验收、上架、硬件配置、连线、测试一直到最后的交付。每一环节单列出来都是一份耗时耗力、需要耐心的工程:

  验收:按照厂商当天的到货数量、硬件配置信息、外观验收等,进行现场逐一核对;

  测试:主要测试带外管理的连通性测试、测试设备可以正常加电开机运行。

  ……

  为了正常交付、保障业务正常运行。在服务器上架期间,团队成员必须加班加点地工作。

  “到时,我们不仅没时间吃饭还可能经常睡机房。”Daniel笑着说道。

  服务器上架后 工作只进行到一半


服务器上架


  据运维部同事了解,其实服务器上架后,工作才进行到一半。所有新上架的服务器都要进行以下检查工作:

  修改主机名,并做相关初始化(磁盘,时间,nrpe,snmp等)

  备份并修改机器列表

  增加信任关系

  增加防火墙配置

  crontab检查

  关联关系更新

  文档更新

  日志检查,负载检查

  单点备份及预案

  搭建好环境测试后,再加相关监控。

  注意服务器情况

  配置时间服务器

  确认主从是否同步

  检查确认iptables

  任何步骤都需要先备份

  确认日志正常滚动,无错误日志

  确认supervisor正常

  确认无遗漏机器

  日志备份,日志切割脚本修改

  系统服务开启检查

  网卡 路由检查

  磁盘检查

  ……

  工作环环相扣,任何一项都需要专人负责。

  云存储爆发在即 服务器备战正当时


云存储

随着数字化、网络化的发展,越来越多的公司构建在以数字组成的产品服务之上,苹果、亚马逊和微软等公司已经超越以物质为主进行建设的传统公司。数字化、网络化的建设过程中,公司和个人正在产生越来越多的数据。据统计,从2010年到2020年,世界每年创造的数据在以42%的复合增长率增长;到2020年将达到每年44ZB的数据量。

5G落地带动新一轮数据浪潮来袭,Filecoin等分布式存储项目作为当前最让人期待的大数据存储解决方案,将在5G时代迎来大发展,而分布式存储服务器作为产业链核心环节必将率先受益。

其实,从2017年开始,星际大陆矿场运维团队就开始对全球IDC机房进行了深入的考察和对比。团队分为两大组,一组与研发部合作,对Filecoin挖矿原理和网络进展进行研究讨论,不断完善服务器矿场运维方案。一组分成几拨人马,同时在不同的机房进行高效率、高质量、低成本的工作。


矿场运维


  当爆发期真正到来之时,矿场运维还将遇到哪些的挑战呢?

  “我们必须具备充足的人员、大规模精细化的采购、稳定精细的运维软件、千锤百炼的挖矿方案、运维现场的人事协调和稳定。任何一个环节都必须重视,不能掉以轻心。不过运维部同事一直是在实战中敢于面对、不停地一个个解决问题。”Barry Li说道。

  Daniel最后表示:“生态参与者越多,我们压力越大,但我们敢于迎接挑战,现在的团队大都是具备十几年经验的资深运维人员。团队里任何一个人都有能力独挑大梁!保证服务器的运维安全,提高服务器的性能是我们工作中的重中之重,服务器备战正当时,我们一直在行动!”


最新推荐