霍夫变换底层原理

你是否遇到过拍摄的文档、黑板或屏幕歪歪斜斜，想把它调成规整的角度？这就是典型的图像自动回正问题。它的核心任务是检测出图像中主要直线的倾斜角，然后反向旋转即可。而检测直线最经典、最优雅的工具之一，就是霍夫变换。

1. 为什么用“投票”找直线？

想象一下，给你一张二值边缘图，上面散落着很多白色像素点。如何找出哪些点共线？

在图像空间 (x, y) 中，一条直线可以表示为斜截式：
$$y = kx + b$$
但这会遇到麻烦：垂直线斜率无穷大，无法表示。于是霍夫变换选择了一个更优雅的参数化方式——极坐标：
$$\rho = x \cos\theta + y \sin\theta$$
其中 $\rho$ 是原点到直线的距离，$\theta$ 是该垂线与 x 轴的夹角（范围通常 [0, π) 或 [0, 180°)），这样任何直线都能被唯一、有限地描述。

现在转换视角：一个图像点 (x₀, y₀) 可以经过无数条直线，每条对应一组 $(\rho, \theta)$。如果把 $(\rho, \theta)$ 看成一个参数空间（也叫霍夫空间），固定点 (x₀, y₀) 就对应参数空间中的一条正弦曲线：
$$\rho = x_0 \cos\theta + y_0 \sin\theta$$
假设三个边缘点恰好在同一条直线上（即有相同的真实 $\rho_0, \theta_0$），那么它们在参数空间中的三条正弦曲线会交于同一点 $(\rho_0, \theta_0)$。

于是，寻找共线点的问题，转变成了寻找参数空间中曲线交点的问题。而寻找交点最直接的方法，就是投票：把参数空间划分成一个个小格子（累加器），让每个边缘点去投票（使其经过的 $(\rho, \theta)$ 格子计数+1）。票数最高的格子，就代表最可能的一条直线。

这就是霍夫变换的核心：证据累积。底层原理非常简单，却对噪声和局部断裂非常鲁棒。

2. 徒手实现一个霍夫直线检测

下面我们来用 NumPy 写一个简化版的霍夫变换，体验从边缘图到直线参数的全过程。

import numpy as np

def hough_lines_simple(edge_img, theta_res=1, rho_res=1, vote_thresh=150):
    """
    简易霍夫直线检测
    :param edge_img: 二值边缘图，0/255 或 0/1
    :param theta_res: θ 的步长（度数）
    :param rho_res: ρ 的步长（像素）
    :param vote_thresh: 投票阈值，超过该值的才认为是一条直线
    :return: 检测到的直线列表 [(rho, theta), ...]
    """
    h, w = edge_img.shape
    # 距离范围：图像对角线长度
    max_rho = int(np.hypot(h, w)) + 1
    # 角度范围：0 到 180度，不含180
    thetas = np.deg2rad(np.arange(0, 180, theta_res))
    num_theta = len(thetas)

    # 累加器：行对应ρ，列对应θ
    accumulator = np.zeros((2 * max_rho, num_theta), dtype=np.uint32)

    # 获取边缘点的坐标
    y_idxs, x_idxs = np.nonzero(edge_img)

    # 开始投票
    for i in range(len(x_idxs)):
        x = x_idxs[i]
        y = y_idxs[i]
        for theta_idx, theta in enumerate(thetas):
            # 计算ρ
            rho = x * np.cos(theta) + y * np.sin(theta)
            # 量化到最近的格子，并偏移到非负索引
            rho_idx = int(round(rho) + max_rho)
            accumulator[rho_idx, theta_idx] += 1

    # 找出票数超过阈值的所有点（非极大抑制可简化）
    lines = []
    for rho_idx in range(accumulator.shape[0]):
        for theta_idx in range(accumulator.shape[1]):
            if accumulator[rho_idx, theta_idx] >= vote_thresh:
                rho = rho_idx - max_rho
                theta = thetas[theta_idx]
                lines.append((rho, theta))
    return lines

代码解析：

遍历所有边缘点，对每个可能的 $\theta$，计算 $\rho$，在累加器对应格子 +1。
最后遍历累加器，票数大于阈值的格子就输出为一条直线。

这个实现没有做非极大值抑制，所以同一条粗线附近可能检测出多个相近参数，但对求主方向来说影响不大。实际使用时，OpenCV 的 cv2.HoughLines 内部做了更精细的投票和边界处理，性能也高得多，但原理一模一样。

3. 集成“自动回正”管线

有了直线检测能力，我们就可以进行图像的自动回正：

预处理：转灰度、高斯模糊，降低噪声。
边缘检测：Canny 算子提取边缘。
霍夫直线检测：得到一堆 $(\rho, \theta)$。
计算主倾斜角度：从所有检测到的直线的 (\theta) 中统计出最代表图像旋转的角度。
旋转变换：根据角度计算旋转矩阵，反向旋转图像。

下面我们用Python来实现这个图像自动回正的功能，但为了获得更好的效果，我们使用OpenCV的霍夫变换函数。

import cv2
import numpy as np

def auto_rotate(image_path, output_path=None):
    # 1. 读图 & 预处理
    img = cv2.imread(image_path)
    if img is None:
        raise FileNotFoundError("图像未找到")
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    blurred = cv2.GaussianBlur(gray, (5, 5), 0)

    # 2. Canny 边缘检测
    edges = cv2.Canny(blurred, 50, 150, apertureSize=3)

    # 3. 标准霍夫直线检测（OpenCV版本）
    #    threshold: 投票阈值，越小线条越多
    lines = cv2.HoughLines(edges, 1, np.pi/180, 150)

    angles = []
    if lines is not None:
        for line in lines:
            rho, theta = line[0]
            # theta 是弧度，这里仅关心直线的角度
            # 将角度转换到 [-90, 90) 范围，方便平均
            angle = np.rad2deg(theta)  # 0~180
            # 文本行通常接近水平，倾斜角度不会太大，但我们仍处理所有角度
            # 规范化：让直线角度映射到第一象限的倾斜表示
            if angle < 90:
                adjusted = angle
            else:
                adjusted = angle - 180
            angles.append(adjusted)

    if not angles:
        print("未检测到足够直线，返回原图")
        return img

    # 4. 估计主角度：取所有直线角度的中位数或平均（中位数更抗噪）
    median_angle = np.median(angles)
    print(f"检测到的倾斜角度：{median_angle:.2f}°")

    # 5. 旋转矫正
    h, w = img.shape[:2]
    center = (w // 2, h // 2)
    # 旋转矩阵：负角度表示反向旋转（矫正）
    M = cv2.getRotationMatrix2D(center, median_angle, 1.0)
    # 计算旋转后的边界框尺寸并完整显示
    cos = abs(M[0, 0])
    sin = abs(M[0, 1])
    new_w = int(h * sin + w * cos)
    new_h = int(h * cos + w * sin)
    M[0, 2] += (new_w / 2) - center[0]
    M[1, 2] += (new_h / 2) - center[1]
    rotated = cv2.warpAffine(img, M, (new_w, new_h), 
                             borderMode=cv2.BORDER_CONSTANT, 
                             borderValue=(255,255,255))

    if output_path:
        cv2.imwrite(output_path, rotated)
    return rotated

if __name__ == "__main__":
    result = auto_rotate("tilted_doc.jpg", "straight_doc.jpg")
    cv2.imshow("Rotated", result)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

如果我们想用前面手写的 hough_lines_simple 代替 cv2.HoughLines，只需修改一行，并同样提取 theta 值即可。但由于自实现版没有做梯度方向过滤，引入噪声较多，实际工程还是推荐用 OpenCV。

4. 底层原理的再思考：为什么它适合“回正”？

你可能会问，为什么非得用霍夫变换？直接用直线拟合或投影法行不行？当然可以，但霍夫变换有几个贴合特性：

非参数化：不需要预先假设文本行的具体位置，只需存在平行直线结构。
全局投票：个别噪声点或非直线纹理不会主导结果，因为真正的直线能得到集中投票。
天然输出角度：直线参数中包含 $\theta$，直接就是方向角，省去计算主轴的步骤。
可处理多条平行线：文档图像包含多行文本，多条平行直线的角度可以取平均或中位数，进一步提高精度。

对于票据、扫描件、黑板板书等典型场景，Canny 边缘阈值和霍夫投票阈值调好后，一次回正成功率非常高。

5. 注意事项与参数调优

Canny 阈值：edges = cv2.Canny(blurred, low, high)，常用 low=50, high=150。若边缘太密，增大 low；太稀疏，减小 low。
霍夫投票阈值：cv2.HoughLines(edges, rho_res, theta_res, threshold)。阈值设太低，会检测到很多无用短线；太高可能丢失真正的主直线。一般取图像高度的 1/6 到 1/3 作为起点。
角度的换算：注意霍夫输出的 $\theta$ 是弧度制。OpenCV 文档中，水平线 $\theta = \pi/2$，垂直线 $\theta = 0$。所以一套归一化至 [-90,90) 的转换方法如上代码所示。
旋转后画布扩展：直接用 cv2.warpAffine 并指定原图尺寸会裁掉角落内容，推荐使用上面计算新宽高的方式保留所有像素。