Splunk Attack Range中Linux服务器SSH连接重置问题分析与解决

2025-07-03 23:55:10作者：龚格成

问题背景

在使用Splunk Attack Range进行Linux服务器部署时，部分用户在执行审计服务(auditd)安装后的服务器重启任务时遇到了SSH连接问题。具体表现为Ansible在执行linux_install_auditd角色的重启任务时，返回"Connection reset by peer"错误，导致自动化部署流程中断。

错误现象

当Ansible执行到重启服务器的任务时，控制台会显示以下错误信息：

TASK [linux_install_auditd : Reboot the server] 
fatal: [ar-linux-attack-range-key-pair-ar-0]: FAILED! => {"msg": "Failed to connect to the host via ssh: kex_exchange_identification: read: Connection reset by peer\r\nConnection reset by 127.0.0.1 port 2205"}

问题原因分析

SSH连接超时问题：当服务器执行重启操作时，Ansible会尝试重新建立SSH连接。如果服务器重启时间超过预设的超时时间，Ansible会放弃等待并报错。
硬件性能因素：不同的硬件环境下，服务器完成重启所需的时间会有差异。特别是在资源受限的环境中，重启过程可能比预期更长。
审计服务影响：auditd服务的安装和配置可能会略微延长系统重启时间，因为系统需要确保审计规则被正确加载。

解决方案

通过修改/attack_range/terraform/ansible/roles/linux_install_auditd/tasks/install_auditd.yml文件中的reboot_timeout参数值，可以有效解决此问题：

- name: Reboot the server
  reboot:
    msg: "Rebooting server after installing auditd"
    connect_timeout: 5
    reboot_timeout: 400  # 从300增加到400
    pre_reboot_delay: 0
    post_reboot_delay: 30
    test_command: uptime
  become: yes

技术建议

超时设置优化：根据实际环境调整超时参数：
- 对于物理服务器或资源受限的虚拟机，建议设置为400-600秒
- 对于云环境或高性能虚拟机，300秒可能足够
环境检查：在部署前检查目标服务器的：
- 硬件配置(CPU、内存)
- 磁盘I/O性能
- 当前系统负载
日志分析：如果问题持续出现，建议检查：
- /var/log/messages中的系统日志
- /var/log/audit/audit.log中的审计日志
- Ansible的详细日志(使用-vvv参数运行)