单机部署Yarn：从零到一的完整指南与优化实践

作者：carzy2025.09.17 10:41浏览量：1

简介：本文详细介绍单机环境下部署Yarn的完整流程，涵盖环境准备、安装配置、依赖管理及性能调优，适合开发者与运维人员参考。

单机部署Yarn：从零到一的完整指南与优化实践

一、引言：为何选择单机部署Yarn？

Yarn（Yet Another Resource Negotiator）是Apache Hadoop生态中的核心资源管理框架，负责集群中CPU、内存等资源的分配与调度。单机部署Yarn的典型场景包括：

开发测试环境：快速验证任务逻辑，避免依赖复杂集群。
轻量级数据处理：处理小规模数据或单节点任务（如日志分析、ETL）。
教学与学习：理解Yarn工作原理，避免集群配置的复杂性。
单机部署的优势在于简化环境、降低资源消耗，但需注意其局限性：无法体现分布式调度特性，仅适用于特定场景。

二、环境准备：硬件与软件要求

1. 硬件配置建议

CPU：至少4核（建议8核以上，支持多任务并行）。
内存：16GB以上（Yarn默认分配内存需预留系统及进程空间）。
磁盘：SSD优先，空间需满足HDFS存储需求（若启用本地HDFS）。
操作系统：Linux（推荐CentOS/Ubuntu）或macOS（开发环境）。

2. 软件依赖清单

Java JDK：Yarn依赖Java运行环境，建议使用JDK 1.8或11（兼容性最佳）。
Hadoop：Yarn是Hadoop的子项目，需安装对应版本的Hadoop（如3.3.4）。
SSH服务：本地需启用SSH（用于启动Yarn守护进程）。
依赖工具：wget、tar、systemd（服务管理）。

3. 环境变量配置

在~/.bashrc或/etc/profile中添加：

export JAVA_HOME=/path/to/jdk
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

执行source ~/.bashrc生效。

三、安装与配置：分步详解

1. 下载与解压Hadoop

从Apache官网下载稳定版Hadoop（如3.3.4）：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
ln -s /opt/hadoop-3.3.4 /opt/hadoop  # 创建软链接

2. 配置Yarn核心文件

修改$HADOOP_HOME/etc/hadoop/yarn-site.xml，关键参数如下：

<configuration>
  <!-- 启用单机模式 -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
  <!-- 节点管理器内存配置 -->
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>8192</value> <!-- 8GB -->
  </property>
  <property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>4</value> <!-- 4核 -->
  </property>
  <!-- 日志聚合（单机可禁用） -->
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>false</value>
  </property>
</configuration>

3. 配置MapReduce（可选）

若需运行MapReduce作业，修改mapred-site.xml：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

4. 格式化HDFS（若启用）

若使用本地HDFS存储，需格式化命名空间：

hdfs namenode -format

四、启动与验证：关键步骤

1. 启动Yarn服务

# 启动HDFS（若启用）
$HADOOP_HOME/sbin/start-dfs.sh
# 启动Yarn
$HADOOP_HOME/sbin/start-yarn.sh

验证进程是否运行：

jps | grep -E "ResourceManager|NodeManager"

2. 提交测试任务

运行一个简单的Pi计算任务：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 2 5

输出应包含近似值3.14，表明任务成功执行。

3. 查看Web UI

访问http://localhost:8088，查看ResourceManager的Web界面，确认节点状态、资源使用情况及运行任务。

五、常见问题与解决方案

1. 内存不足错误

现象：Container [pid=...] exited with a non-zero exit code 137。
原因：NodeManager内存分配超过物理内存。
解决：调整yarn-site.xml中的yarn.nodemanager.resource.memory-mb为可用内存的80%。

2. 端口冲突

现象：启动失败，提示端口已被占用。
解决：修改yarn-site.xml中的默认端口（如8088改为8089）：

<property>
  <name>yarn.resourcemanager.webapp.address</name>
  <value>localhost:8089</value>
</property>

3. 权限问题

现象：Permission denied错误。
解决：确保运行用户对$HADOOP_HOME及数据目录有读写权限：

chown -R $USER:$USER $HADOOP_HOME
chmod -R 755 $HADOOP_HOME

六、性能调优：单机场景优化

1. 资源分配策略

内存调优：根据任务类型调整mapreduce.map.memory.mb和mapreduce.reduce.memory.mb（默认1024MB）。
CPU调优：通过mapreduce.map.cpu.vcores和mapreduce.reduce.cpu.vcores限制任务使用的核心数。

2. 日志管理

禁用日志聚合以减少I/O开销：

<property>
  <name>yarn.log-aggregation-enable</name>
  <value>false</value>
</property>

3. 本地化优化

启用本地数据读取，减少网络传输：

<property>
  <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
  <value>3600000</value> <!-- 1小时清理一次 -->
</property>

七、总结与扩展建议

单机部署Yarn适合快速验证与轻量级任务，但需注意：

资源隔离：通过cgroups或Docker限制Yarn进程的资源使用，避免影响系统稳定性。
扩展性：若未来需扩展至集群，可复用当前配置，仅需调整yarn-site.xml中的主机名与端口。
监控集成：结合Prometheus+Grafana监控Yarn资源使用，提前发现瓶颈。

通过本文的步骤与优化建议，读者可高效完成单机Yarn的部署，并根据实际需求调整配置，平衡性能与资源消耗。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

单机部署Yarn：从零到一的完整指南与优化实践

单机部署Yarn：从零到一的完整指南与优化实践

一、引言：为何选择单机部署Yarn？

二、环境准备：硬件与软件要求

1. 硬件配置建议

2. 软件依赖清单

3. 环境变量配置

三、安装与配置：分步详解

1. 下载与解压Hadoop

2. 配置Yarn核心文件

3. 配置MapReduce（可选）

4. 格式化HDFS（若启用）

四、启动与验证：关键步骤

1. 启动Yarn服务

2. 提交测试任务

3. 查看Web UI

五、常见问题与解决方案

1. 内存不足错误

2. 端口冲突

3. 权限问题

六、性能调优：单机场景优化

1. 资源分配策略

2. 日志管理

3. 本地化优化

七、总结与扩展建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者