Python自动化实战：Selenium+百度OCR破解网站登录验证码

作者：半吊子全栈工匠2025.10.10 16:52浏览量：30

简介：本文详细讲解如何使用Python的Selenium库实现网站自动登录，并结合百度文字识别（Baidu-AIP）服务破解验证码，提供从环境配置到完整代码实现的分步指南。

一、技术选型与原理说明

1.1 Selenium自动化测试框架

Selenium是一个开源的Web自动化测试框架，支持通过浏览器驱动（如ChromeDriver）模拟用户操作。其核心优势在于：

跨浏览器支持（Chrome/Firefox/Edge）
元素定位方式多样（ID/XPath/CSS选择器）
支持JavaScript渲染页面
提供丰富的API接口（点击/输入/等待等）

典型应用场景包括：

自动化测试
数据爬取
重复性Web操作自动化

1.2 百度文字识别（Baidu-AIP）

百度文字识别是百度智能云提供的OCR服务，具有以下特点：

高精度识别（支持中英文、数字、特殊字符）
多场景适配（通用文字、网络图片、身份证等）
快速响应（API调用平均耗时<1s）
免费额度充足（每月500次免费调用）

验证码识别流程：

截取验证码图片
调用OCR接口
解析返回的文本结果
输入识别结果

二、环境准备与依赖安装

2.1 系统要求

Python 3.6+
Chrome浏览器（最新稳定版）
稳定的网络连接

2.2 依赖库安装

pip install selenium pillow baidu-aip requests

2.3 浏览器驱动配置

下载对应Chrome版本的ChromeDriver
解压后将路径添加到系统PATH

验证安装：

from selenium import webdriver
driver = webdriver.Chrome()
driver.quit()

2.4 百度OCR服务开通

登录百度智能云控制台
创建文字识别应用
获取API Key和Secret Key

安装SDK：

from aip import AipOcr
APP_ID = '您的App ID'
API_KEY = '您的API Key'
SECRET_KEY = '您的Secret Key'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

三、核心功能实现

3.1 基础登录流程

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
def basic_login(url, username, password):
    driver = webdriver.Chrome()
    try:
        driver.get(url)
        # 等待页面加载（显式等待更佳）
        time.sleep(2)
        # 定位元素并输入
        driver.find_element(By.ID, 'username').send_keys(username)
        driver.find_element(By.ID, 'password').send_keys(password)
        # 点击登录按钮
        driver.find_element(By.ID, 'loginBtn').click()
        # 验证登录结果
        assert 'dashboard' in driver.current_url
        print("登录成功")
    except Exception as e:
        print(f"登录失败: {str(e)}")
    finally:
        driver.quit()

3.2 验证码处理模块

3.2.1 验证码截取

from PIL import Image
import numpy as np
def capture_captcha(driver, element_locator):
    """截取验证码元素并保存为图片"""
    captcha_element = driver.find_element(*element_locator)
    location = captcha_element.location
    size = captcha_element.size
    # 截取整个屏幕
    screenshot = driver.get_screenshot_as_png()
    screenshot = Image.open(io.BytesIO(screenshot))
    # 裁剪验证码区域
    left = location['x']
    top = location['y']
    right = left + size['width']
    bottom = top + size['height']
    captcha = screenshot.crop((left, top, right, bottom))
    # 保存临时文件（实际可优化为内存处理）
    captcha.save('captcha.png')
    return 'captcha.png'

3.2.2 百度OCR识别

def recognize_captcha(image_path):
    """调用百度OCR识别验证码"""
    with open(image_path, 'rb') as f:
        image = f.read()
    # 通用文字识别（高精度版）
    result = client.basicAccurate(image)
    if 'words_result' in result:
        # 提取识别结果（简单场景下直接取第一个）
        captcha_text = result['words_result'][0]['words']
        return captcha_text.strip()
    else:
        raise Exception("OCR识别失败: " + str(result))

3.3 完整登录实现

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def auto_login_with_captcha(url, username, password):
    driver = webdriver.Chrome()
    try:
        driver.get(url)
        # 输入用户名密码
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, 'username'))
        ).send_keys(username)
        driver.find_element(By.ID, 'password').send_keys(password)
        # 处理验证码
        captcha_locator = (By.ID, 'captchaImg')
        img_path = capture_captcha(driver, captcha_locator)
        captcha_text = recognize_captcha(img_path)
        print(f"识别结果: {captcha_text}")
        # 输入验证码
        driver.find_element(By.ID, 'captcha').send_keys(captcha_text)
        # 提交登录
        driver.find_element(By.ID, 'loginBtn').click()
        # 验证结果
        WebDriverWait(driver, 10).until(
            EC.url_contains('dashboard')
        )
        print("自动化登录成功")
    except Exception as e:
        print(f"发生错误: {str(e)}")
    finally:
        driver.quit()

四、优化与进阶

4.1 异常处理机制

def robust_login():
    max_retries = 3
    for attempt in range(max_retries):
        try:
            auto_login_with_captcha(url, username, password)
            break
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            print(f"第{attempt+1}次尝试失败，重试...")
            time.sleep(2)

4.2 识别率提升技巧

预处理验证码图片：
```python
from PIL import ImageEnhance, ImageFilter

def preprocess_image(image_path):
img = Image.open(image_path)

# 增强对比度
enhancer = ImageEnhance.Contrast(img)
img = enhancer.enhance(2)
# 二值化处理
img = img.convert('1')
# 降噪
img = img.filter(ImageFilter.MedianFilter())
img.save('processed_captcha.png')
return 'processed_captcha.png'


2. 多模型组合识别：
```python
def hybrid_recognition(image_path):
    try:
        # 先尝试高精度识别
        return client.basicAccurate(open(image_path, 'rb').read())
    except:
        # 失败后使用通用识别
        return client.basicGeneral(open(image_path, 'rb').read())

4.3 性能优化建议

使用无头模式减少资源消耗：
```python
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument(‘—headless’)
driver = webdriver.Chrome(options=options)


2. 实现验证码缓存机制：
```python
import hashlib
captcha_cache = {}
def get_cached_captcha(image_bytes):
    img_hash = hashlib.md5(image_bytes).hexdigest()
    if img_hash in captcha_cache:
        return captcha_cache[img_hash]
    else:
        result = recognize_captcha(image_bytes)
        captcha_cache[img_hash] = result
        return result

五、法律与伦理考量

合规使用：
- 仅用于授权测试
- 遵守目标网站的robots.txt
- 控制请求频率（建议≥3秒/次）
验证码识别边界：
- 禁止用于破解付费服务
- 不得绕过安全验证机制
- 尊重网站的反爬策略
数据安全：
- 敏感信息脱敏处理
- 避免存储用户凭证
- 使用HTTPS协议通信

六、完整示例代码

# 完整实现请参考上述模块组合
# 实际使用时需要替换：
# 1. 目标网站的元素定位方式
# 2. 百度OCR的认证信息
# 3. 异常处理逻辑
if __name__ == "__main__":
    # 配置参数
    CONFIG = {
        'login_url': 'https://example.com/login',
        'username': 'test_user',
        'password': 'secure_password',
        'max_retries': 3
    }
    # 执行自动化登录
    try:
        robust_login(CONFIG)
    except Exception as e:
        print(f"自动化流程终止: {str(e)}")

七、总结与展望

本文实现的Selenium+百度OCR自动化登录方案具有以下优势：

高可扩展性：通过修改定位器即可适配不同网站
高识别率：百度OCR在清晰验证码场景下可达95%+准确率
低成本：免费额度可满足中小规模需求

未来改进方向：

集成深度学习模型处理复杂验证码
实现分布式任务队列
添加日志分析与可视化模块

建议开发者在实际应用中：

添加详细的日志记录
实现邮件/短信报警机制
定期更新浏览器驱动
监控OCR服务调用情况

通过合理使用自动化技术，可以显著提升工作效率，但必须始终遵守法律法规和道德准则。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜