CentOS中如何部署Slurm(centos,slurm,开发技术)

时间:2024-05-02 09:16:34 作者 : 石家庄SEO 分类 : 开发技术
  • TAG :

    CentOS%E4%B8%AD%E5%A6%82%E4%BD%95%E9%83%A8%E7%BD%B2Slurm

SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。

安装与配置时间同步NTP服务,运行下列命令:

此处推荐下载离线包进行MariaDB的安装。如果进行再现安装,请先进行2.1.1步骤后,在terminal键入yum install -y MariaDB-server即可。

打开/etc/yum.repos.d/,新建MariaDB.repo文件

打开https://downloads.mariadb.org/mariadb/repositories/,选择CentOS版本后,看到如下类似的的内容,在文件中粘贴内容,退出保存。

下载离线包,解压并进行安装

在创建用户和用户组前,需要键入命令vi /etc/group查看用户组是否冲突

安装MUNGE进行身份验证。确保集群中的所有节点具有相同的munge.key。确保Munge的守护程序munged在Slurm的守护进程之前启动。

在Master Node进行设置,创建一个在每个结点全局使用的密钥。

密钥创建成功后,需要将该密钥发送到所有计算节点:

设置正确的所有权限和模式

如果rpmbuild出现如下错误:

利用cpanm安装Perl模块后再进行rpmbuild。

进入http://slurm.schedmd.com/configurator.easy.html,按照如下范例进行自定义设置:

点击Submit确认后,将页面的配置信息复制到slurm.conf中,保存退出;

设置正确的Master Node节点的slurm.conf发送给其他的Compute Node,同时对Compute Node进行配置;

确保Master Node具有所有正确的配置和文件

查看slurmd配置是否正确

开启Master Node的slurmctld服务

Accounting records可以为slurm收集每个作业步骤的信息。Accounting records可以写入一个简单的文本文件或数据库。

通过将文本文件指定为Accounting存储类型从而可以轻松地将数据存储到文本文件中。但是这个文件会变得越来越大,难以使用。因此,最简单且推荐的方法是使用数据库来存储信息。而Mysql是目前唯一支持的数据库。

slurm_acct_db数据库的配置:

修改slurm.conf配置文件,同时同步到Compute Node

AccountingStorageType=accounting_storage/mysql后添加这几行

安装MUNGE进行身份验证

设置Compute Node的MUNGE权限和启动MUNGE服务

在下列操作之前,Master Node应该将munge.key传到Compute Nodes

在Master Node测试访问Compute Node

确保Compute Node具有所有正确的配置和文件

在下列操作之前,确保Master Node将slurm.conf发送给其他的Compute Nodes

开启Compute Node的slurmd服务

Compute Nodes中出现Failed to start slurm node daemon.时候,同时cat /var/log/slurm.log后看到cannot create proctrack context for proctrack/cgroup错误的时候,执行:

如果Compute Nodes的State=DOWN,则如下执行,将状态变成IDLE

本文:CentOS中如何部署Slurm的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:RHEL、CentOS中怎么安装Drupal8下一篇:

111 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18