CentOS中如何部署Slurm
导读:本文共8673.5字符,通常情况下阅读需要29分钟。同时您也可以点击右侧朗读,来听本文内容。按键盘←(左) →(右) 方向键可以翻页。
摘要: SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。1. 前期准备1.1 关闭SELinux#vi/etc/sysc... ...
目录
(为您整理了一些要点),点击可以直达。SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。
安装与配置时间同步NTP服务,运行下列命令:
此处推荐下载离线包进行MariaDB的安装。如果进行再现安装,请先进行2.1.1步骤后,在terminal键入yum install -y MariaDB-server
即可。
打开/etc/yum.repos.d/
,新建MariaDB.repo文件
打开https://downloads.mariadb.org/mariadb/repositories/,选择CentOS版本后,看到如下类似的的内容,在文件中粘贴内容,退出保存。
下载离线包,解压并进行安装
在创建用户和用户组前,需要键入命令vi /etc/group
查看用户组是否冲突
安装MUNGE进行身份验证。确保集群中的所有节点具有相同的munge.key。确保Munge的守护程序munged在Slurm的守护进程之前启动。
在Master Node进行设置,创建一个在每个结点全局使用的密钥。
密钥创建成功后,需要将该密钥发送到所有计算节点:
设置正确的所有权限和模式
如果rpmbuild出现如下错误:
利用cpanm安装Perl模块后再进行rpmbuild。
进入http://slurm.schedmd.com/configurator.easy.html,按照如下范例进行自定义设置:
点击Submit确认后,将页面的配置信息复制到slurm.conf中,保存退出;
设置正确的Master Node节点的slurm.conf发送给其他的Compute Node,同时对Compute Node进行配置;
确保Master Node具有所有正确的配置和文件
查看slurmd配置是否正确
开启Master Node的slurmctld服务
Accounting records可以为slurm收集每个作业步骤的信息。Accounting records可以写入一个简单的文本文件或数据库。
通过将文本文件指定为Accounting存储类型从而可以轻松地将数据存储到文本文件中。但是这个文件会变得越来越大,难以使用。因此,最简单且推荐的方法是使用数据库来存储信息。而Mysql是目前唯一支持的数据库。
slurm_acct_db数据库的配置:
修改slurm.conf配置文件,同时同步到Compute Node
在AccountingStorageType=accounting_storage/mysql
后添加这几行
安装MUNGE进行身份验证
设置Compute Node的MUNGE权限和启动MUNGE服务
在下列操作之前,Master Node应该将munge.key传到Compute Nodes
在Master Node测试访问Compute Node
确保Compute Node具有所有正确的配置和文件
在下列操作之前,确保Master Node将slurm.conf发送给其他的Compute Nodes
开启Compute Node的slurmd服务
Compute Nodes中出现Failed to start slurm node daemon.
时候,同时cat /var/log/slurm.log
后看到cannot create proctrack context for proctrack/cgroup
错误的时候,执行:
如果Compute Nodes的State=DOWN
,则如下执行,将状态变成IDLE
:
CentOS中如何部署Slurm的详细内容,希望对您有所帮助,信息来源于网络。