计算机视觉中的数学：几何变换与矩阵运算全解析

作者：谁偷走了我的奶酪2025.10.10 15:23浏览量：1

简介：本文深入探讨计算机视觉中几何变换与矩阵运算的核心原理，从二维到三维空间解析平移、旋转、缩放等变换的数学实现，结合齐次坐标与矩阵运算规则，为开发者提供理论推导与代码实践指南。

计算机视觉中的数学：几何变换与矩阵运算详解

引言

计算机视觉的核心任务之一是理解图像中物体的空间关系，而几何变换（Geometric Transformations）正是实现这一目标的基础工具。无论是图像校正、目标跟踪还是三维重建，几何变换都通过数学方法描述物体在空间中的位置、方向和尺寸变化。矩阵运算作为几何变换的数学载体，提供了高效的计算框架，使得复杂的空间操作可以通过简单的矩阵乘法完成。本文将系统解析几何变换的类型、数学表示及其在计算机视觉中的应用，并辅以代码示例帮助读者深入理解。

一、几何变换的分类与数学基础

几何变换可分为刚性变换（Rigid Transformations）和非刚性变换（Non-Rigid Transformations）。刚性变换保持物体的形状和大小不变，仅改变位置和方向，包括平移、旋转和反射；非刚性变换则允许物体发生形变，如缩放、剪切和仿射变换。

1. 二维几何变换

（1）平移变换（Translation）

平移是将物体沿x轴和y轴移动指定距离。设平移向量为 ( \mathbf{t} = [t_x, t_y]^T )，则点 ( \mathbf{p} = [x, y]^T ) 平移后的坐标为：
[ \mathbf{p}’ = \mathbf{p} + \mathbf{t} = \begin{bmatrix} x + t_x \ y + t_y \end{bmatrix} ]
矩阵表示的挑战：平移无法直接用2×2矩阵表示，因为矩阵乘法无法实现加法操作。为此引入齐次坐标（Homogeneous Coordinates），将二维点扩展为三维向量 ( \mathbf{p}_h = [x, y, 1]^T )，平移矩阵表示为：
[ \mathbf{T} = \begin{bmatrix} 1 & 0 & t_x \ 0 & 1 & t_y \ 0 & 0 & 1 \end{bmatrix}, \quad \mathbf{p}_h’ = \mathbf{T} \cdot \mathbf{p}_h ]

（2）旋转变换（Rotation）

旋转是绕原点逆时针旋转角度 ( \theta ) 的变换。在二维空间中，旋转矩阵为：
[ \mathbf{R} = \begin{bmatrix} \cos\theta & -\sin\theta \ \sin\theta & \cos\theta \end{bmatrix} ]
在齐次坐标下，旋转矩阵扩展为：
[ \mathbf{R}_h = \begin{bmatrix} \cos\theta & -\sin\theta & 0 \ \sin\theta & \cos\theta & 0 \ 0 & 0 & 1 \end{bmatrix} ]

（3）缩放变换（Scaling）

缩放改变物体的大小，沿x轴和y轴的缩放因子分别为 ( s_x ) 和 ( s_y )。缩放矩阵为：
[ \mathbf{S} = \begin{bmatrix} s_x & 0 \ 0 & s_y \end{bmatrix} ]
齐次坐标下的表示为：
[ \mathbf{S}_h = \begin{bmatrix} s_x & 0 & 0 \ 0 & s_y & 0 \ 0 & 0 & 1 \end{bmatrix} ]

（4）仿射变换（Affine Transformation）

仿射变换是线性变换（旋转、缩放、剪切）与平移的组合，其一般形式为：
[ \mathbf{p}’ = \mathbf{A} \cdot \mathbf{p} + \mathbf{t} ]
在齐次坐标下，仿射变换可统一表示为矩阵乘法：
[ \mathbf{M} = \begin{bmatrix} a{11} & a{12} & tx \ a{21} & a_{22} & t_y \ 0 & 0 & 1 \end{bmatrix}, \quad \mathbf{p}_h’ = \mathbf{M} \cdot \mathbf{p}_h ]

2. 三维几何变换

三维几何变换的扩展需引入第四维齐次坐标 ( \mathbf{p}_h = [x, y, z, 1]^T )。

（1）三维平移

平移矩阵为：
[ \mathbf{T} = \begin{bmatrix} 1 & 0 & 0 & t_x \ 0 & 1 & 0 & t_y \ 0 & 0 & 1 & t_z \ 0 & 0 & 0 & 1 \end{bmatrix} ]

（2）三维旋转

三维旋转需指定旋转轴（x、y或z轴）。绕z轴旋转的矩阵为：
[ \mathbf{R}_z = \begin{bmatrix} \cos\theta & -\sin\theta & 0 & 0 \ \sin\theta & \cos\theta & 0 & 0 \ 0 & 0 & 1 & 0 \ 0 & 0 & 0 & 1 \end{bmatrix} ]
绕x轴和y轴的旋转矩阵类似，分别替换对应的行和列。

（3）三维缩放

缩放矩阵为：
[ \mathbf{S} = \begin{bmatrix} s_x & 0 & 0 & 0 \ 0 & s_y & 0 & 0 \ 0 & 0 & s_z & 0 \ 0 & 0 & 0 & 1 \end{bmatrix} ]

二、矩阵运算在几何变换中的应用

矩阵运算的核心优势在于组合变换和逆变换的高效计算。

1. 组合变换

多个变换可通过矩阵乘法组合。例如，先旋转后平移的变换矩阵为：
[ \mathbf{M} = \mathbf{T} \cdot \mathbf{R} ]
注意顺序：矩阵乘法不满足交换律，( \mathbf{T} \cdot \mathbf{R} \neq \mathbf{R} \cdot \mathbf{T} )。

2. 逆变换

逆变换用于还原原始坐标。若变换矩阵为 ( \mathbf{M} )，则逆矩阵 ( \mathbf{M}^{-1} ) 满足：
[ \mathbf{M}^{-1} \cdot \mathbf{M} = \mathbf{I} ]
对于平移矩阵 ( \mathbf{T} )，逆矩阵为：
[ \mathbf{T}^{-1} = \begin{bmatrix} 1 & 0 & -t_x \ 0 & 1 & -t_y \ 0 & 0 & 1 \end{bmatrix} ]
旋转矩阵的逆是其转置（正交矩阵性质）：
[ \mathbf{R}^{-1} = \mathbf{R}^T ]

3. 代码实现示例

以下Python代码使用NumPy实现二维平移、旋转和组合变换：

import numpy as np
def translate_2d(tx, ty):
    return np.array([[1, 0, tx],
                     [0, 1, ty],
                     [0, 0, 1]])
def rotate_2d(theta):
    c, s = np.cos(theta), np.sin(theta)
    return np.array([[c, -s, 0],
                     [s, c, 0],
                     [0, 0, 1]])
def apply_transform(point, matrix):
    # 点需转换为齐次坐标 [x, y, 1]
    point_h = np.array([point[0], point[1], 1])
    transformed = np.dot(matrix, point_h)
    return transformed[:2]  # 返回非齐次坐标
# 示例：先旋转45度，再平移(2,3)
point = np.array([1, 0])
theta = np.pi / 4  # 45度
rotate_matrix = rotate_2d(theta)
translate_matrix = translate_2d(2, 3)
combined_matrix = np.dot(translate_matrix, rotate_matrix)  # 注意顺序
transformed_point = apply_transform(point, combined_matrix)
print("Transformed point:", transformed_point)

三、几何变换在计算机视觉中的应用

图像校正：通过仿射变换校正透视畸变（如文档扫描）。
目标跟踪：利用旋转和平移矩阵预测目标运动。
三维重建：通过相机外参矩阵（旋转+平移）将像素坐标转换为世界坐标。
数据增强：在深度学习中，随机几何变换用于扩充训练数据集。

结论

几何变换与矩阵运算是计算机视觉的数学基石，其核心在于通过齐次坐标和矩阵乘法统一描述空间操作。理解这些原理不仅有助于解决实际问题（如图像对齐、三维重建），还能为优化算法性能提供理论支持。开发者应熟练掌握矩阵运算规则，并结合具体场景选择合适的变换类型。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

计算机视觉中的数学：几何变换与矩阵运算全解析

计算机视觉中的数学：几何变换与矩阵运算详解

引言

一、几何变换的分类与数学基础

1. 二维几何变换

（1）平移变换（Translation）

（2）旋转变换（Rotation）

（3）缩放变换（Scaling）

（4）仿射变换（Affine Transformation）

2. 三维几何变换

（1）三维平移

（2）三维旋转

（3）三维缩放

二、矩阵运算在几何变换中的应用

1. 组合变换

2. 逆变换

3. 代码实现示例

三、几何变换在计算机视觉中的应用

结论

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者