Linux文本处理利器：sort与uniq命令深度解析

作者：梅琳marlin2026.02.09 11:27浏览量：0

简介：掌握Linux文本处理核心命令sort与uniq，轻松实现数据排序、去重与结构化分析。本文通过实战案例与参数详解，助您快速掌握文本处理技巧，提升数据处理效率。

一、文本处理场景与核心需求

在Linux系统运维与数据分析场景中，文本处理是高频操作。典型需求包括：对日志文件按时间戳排序、合并多个数据源后去重、按字段提取关键信息等。传统方法依赖脚本编写，而Linux原生命令sort与uniq组合可高效完成此类任务，其优势体现在：

零依赖部署：无需安装第三方工具
高性能处理：支持GB级文件处理
灵活组合：通过管道实现复杂处理链

二、sort命令详解：从基础到进阶

2.1 基础排序操作

sort命令默认按ASCII码顺序对文本行进行排序，基本语法为：

sort [options] [input_file]

示例：对data.txt进行排序

sort data.txt

输出结果将按行首字符顺序排列，若首字符相同则继续比较后续字符。

2.2 关键参数解析

2.2.1 排序规则控制

-d：字典序排序（仅识别字母、数字、空格和制表符）
-f：忽略大小写差异
-r：反向排序（降序排列）
-n：数值排序（将字符串转换为数字比较）

示例：数值排序应用

# 对包含数字的行进行数值排序
echo -e "10 apple\n2 banana\n100 orange" | sort -n

输出结果：

2 banana
10 apple
100 orange

2.2.2 字段定位与分隔

-t：指定字段分隔符（默认为空白字符）
-k：指定排序字段（格式：-k start[,end]）

示例：按CSV文件第二列数值排序

# data.csv内容：
# Alice,25,Engineer
# Bob,30,Doctor
# Carol,22,Student
sort -t',' -k2,2n data.csv

输出结果：

Carol,22,Student
Alice,25,Engineer
Bob,30,Doctor

2.2.3 特殊字符处理

-b：忽略行首空白字符
-i：忽略非打印字符
-u：排序后去重（等同于sort | uniq组合）

2.3 性能优化技巧

大文件处理：添加-S参数指定内存缓冲区大小（如-S 50%使用50%可用内存）
并行处理：通过--parallel=N启用多线程排序（N为线程数）
稳定排序：添加-s参数保持相同键值的原始顺序

三、uniq命令详解：数据去重策略

3.1 基础去重操作

uniq命令用于删除相邻的重复行，基本语法：

uniq [options] [input_file]

典型应用场景：

# 合并文件后去重
cat file1 file2 | sort | uniq > unique_data.txt

3.2 高级参数解析

3.2.1 重复行统计

-c：统计每行出现次数
-d：仅显示重复行
-D：显示所有重复行（不压缩）

示例：统计访问日志中的高频IP

# access.log每行格式：IP - - [timestamp] "GET /path"
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -10

3.2.2 字段级去重

-f N：忽略前N个字段
-s N：忽略每行前N个字符

示例：忽略域名前缀去重

# urls.txt内容：
# https://example.com/page1
# https://demo.com/page1
# https://example.com/page2
sort urls.txt | uniq -s 8  # 忽略前8个字符（https://）

3.3 组合应用案例

3.3.1 日志分析流水线

# 提取错误日志并按时间排序
grep "ERROR" app.log | awk '{print $1,$2,$5}' | sort -k1,2 | uniq -c

处理流程：

筛选错误日志行
提取时间戳和错误代码
按日期时间排序
统计错误类型分布

3.3.2 数据清洗流程

# 合并三个数据源并清洗
cat source1.csv source2.csv source3.csv | \
awk -F',' 'NR==1 || $3!="NULL"' | \  # 保留标题行且第三列非空
sort -t',' -k1,1 | \                 # 按ID排序
uniq -f0 -s0                         # 全行去重

四、最佳实践与常见误区

4.1 性能优化建议

预排序：对已知有序数据使用comm命令替代sort | uniq
内存控制：处理大文件时通过-S参数限制内存使用
管道设计：避免在管道中多次排序，尽量合并处理步骤

4.2 常见错误案例

4.2.1 未排序直接去重

# 错误示范：uniq前未排序
cat data.txt | uniq  # 只能删除相邻重复行

正确做法：

cat data.txt | sort | uniq

4.2.2 字段分隔符误用

# 错误示范：未指定分隔符导致字段错位
sort -k2 data.csv  # 默认按空白字符分隔

正确做法：

sort -t',' -k2 data.csv

五、扩展工具链

awk协作：实现复杂字段提取与预处理

# 提取日志中的状态码并统计
awk '{print $9}' access.log | sort | uniq -c

join命令：合并两个已排序文件

sort file1.txt > sorted1.txt
sort file2.txt > sorted2.txt
join sorted1.txt sorted2.txt

xz压缩：处理后直接压缩存储

sort large_file.txt | uniq | xz > output.txt.xz

通过系统掌握sort与uniq命令的组合应用，开发者可构建高效的文本处理流水线，显著提升数据清洗、日志分析和报表生成等任务的执行效率。建议通过man sort和man uniq查阅完整参数说明，结合实际场景进行针对性优化。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜