Python如何生成图片姿态估计的数据集

作者：KAKAKA2025.09.26 22:11浏览量：0

简介：本文详细介绍了如何使用Python生成图片姿态估计数据集的方法，包括数据采集、标注工具选择、标注文件生成、数据增强及数据集组织等关键步骤，为开发者提供实用指导。

Python如何生成图片姿态估计的数据集

姿态估计（Pose Estimation）是计算机视觉领域的重要任务，旨在从图像或视频中识别并定位人体或物体的关键点（如关节、面部特征等）。生成高质量的姿态估计数据集是训练和评估模型的关键环节。本文将详细介绍如何使用Python生成图片姿态估计的数据集，涵盖数据采集、标注工具选择、标注文件生成、数据增强及数据集组织等关键步骤。

一、数据采集与预处理

1. 数据来源选择

姿态估计数据集的数据来源多样，包括公开数据集（如COCO、MPII、Human3.6M等）和自定义采集的数据。自定义采集的数据能更好地满足特定场景的需求，但需投入更多资源。

自定义采集步骤：

设备准备：使用高清摄像头或智能手机进行视频录制，确保光线充足、背景简洁。
场景设计：根据目标应用场景（如运动分析、医疗康复等）设计动作序列。
多视角采集：从不同角度录制同一动作，增加数据多样性。

2. 数据预处理

采集到的原始视频需进行预处理，包括帧提取、尺寸统一和格式转换。

Python实现示例：

import cv2
import os
def extract_frames(video_path, output_folder, frame_interval=1):
    """
    从视频中提取帧并保存为图片
    :param video_path: 视频文件路径
    :param output_folder: 输出文件夹
    :param frame_interval: 每隔多少帧提取一帧
    """
    cap = cv2.VideoCapture(video_path)
    frame_count = 0
    saved_count = 0
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    while True:
        ret, frame = cap.read()
        if not ret:
            break
        if frame_count % frame_interval == 0:
            output_path = os.path.join(output_folder, f"frame_{saved_count:04d}.jpg")
            cv2.imwrite(output_path, frame)
            saved_count += 1
        frame_count += 1
    cap.release()
    print(f"共提取 {saved_count} 帧")
# 使用示例
extract_frames("input_video.mp4", "output_frames")

二、标注工具选择与标注文件生成

1. 标注工具选择

姿态估计数据集的标注需标记关键点位置及连接关系。常用标注工具包括：

LabelImg：支持矩形框标注，但需扩展以支持关键点标注。
VGG Image Annotator (VIA)：支持自定义标注类型，包括关键点。
COCO Annotator：专为COCO格式设计，支持关键点标注。
SageMaker Ground Truth（AWS服务，非纯Python，但可集成）：提供托管标注服务。

推荐工具：对于Python开发者，VIA是轻量级且灵活的选择，支持JSON格式输出，便于后续处理。

2. 标注文件生成

使用VIA标注后，需将标注文件转换为模型训练所需的格式（如COCO、OpenPose等）。

COCO格式标注文件结构：

{
    "images": [
        {
            "id": 1,
            "file_name": "frame_0000.jpg",
            "width": 640,
            "height": 480
        }
    ],
    "annotations": [
        {
            "id": 1,
            "image_id": 1,
            "category_id": 1,
            "keypoints": [x1, y1, v1, x2, y2, v2, ...],  # x,y坐标及可见性标记
            "num_keypoints": 17,
            "bbox": [x, y, width, height]
        }
    ],
    "categories": [
        {
            "id": 1,
            "name": "person",
            "keypoints": ["nose", "neck", ...],  # 关键点名称列表
            "skeleton": [[16, 14], [14, 12], ...]  # 关键点连接关系
        }
    ]
}

Python转换示例：

import json
def via_to_coco(via_annotations, output_path):
    """
    将VIA标注转换为COCO格式
    :param via_annotations: VIA导出的JSON标注
    :param output_path: COCO格式输出文件路径
    """
    coco_data = {
        "images": [],
        "annotations": [],
        "categories": [{
            "id": 1,
            "name": "person",
            "keypoints": ["nose", "neck", "r_shoulder", "r_elbow", "r_wrist",
                          "l_shoulder", "l_elbow", "l_wrist", "r_hip", "r_knee",
                          "r_ankle", "l_hip", "l_knee", "l_ankle", "r_eye",
                          "l_eye", "r_ear", "l_ear"],
            "skeleton": [[16, 14], [14, 12], [17, 15], [15, 13], [12, 13],
                          [6, 12], [7, 13], [6, 7], [6, 8], [7, 9],
                          [8, 10], [9, 11]]
        }]
    }
    image_id = 1
    annotation_id = 1
    for img_ann in via_annotations["annotations"]:
        # 假设via_annotations中包含关键点坐标和可见性
        keypoints = []
        for kp in img_ann["keypoints"]:
            x, y, v = kp["x"], kp["y"], 1 if kp["visible"] else 0
            keypoints.extend([x, y, v])
        coco_data["images"].append({
            "id": image_id,
            "file_name": img_ann["filename"],
            "width": img_ann["width"],
            "height": img_ann["height"]
        })
        coco_data["annotations"].append({
            "id": annotation_id,
            "image_id": image_id,
            "category_id": 1,
            "keypoints": keypoints,
            "num_keypoints": len(keypoints) // 3,
            "bbox": img_ann["bbox"]  # 假设VIA标注中包含bbox
        })
        image_id += 1
        annotation_id += 1
    with open(output_path, "w") as f:
        json.dump(coco_data, f, indent=4)
# 使用示例（需先通过VIA标注并导出JSON）
via_annotations = json.load(open("via_annotations.json"))
via_to_coco(via_annotations, "coco_annotations.json")

三、数据增强与扩充

为提升模型泛化能力，需对数据集进行增强，包括几何变换、颜色空间调整和模拟遮挡等。

Python实现示例（使用Albumentations库）：

import albumentations as A
from albumentations.core.transforms_interface import ImageOnlyTransform
class PoseKeypointAugmentation(A.DualTransform):
    """自定义关键点增强，确保关键点与图像同步变换"""
    def __init__(self, rotate_limit=30, scale_limit=0.2, always_apply=False, p=0.5):
        super().__init__(always_apply, p)
        self.rotate_limit = rotate_limit
        self.scale_limit = scale_limit
    def get_params(self):
        return {
            "angle": self.rotate_limit * (2 * self.random.random() - 1),
            "scale": 1 + self.scale_limit * (2 * self.random.random() - 1)
        }
    def apply(self, img, angle=0, scale=1, **params):
        # 图像旋转与缩放
        h, w = img.shape[:2]
        center = (w // 2, h // 2)
        M = cv2.getRotationMatrix2D(center, angle, scale)
        img_rotated = cv2.warpAffine(img, M, (w, h))
        return img_rotated
    def apply_to_keypoints(self, keypoints, angle=0, scale=1, **params):
        # 关键点同步变换
        transformed_kps = []
        center = (params["columns"] // 2, params["rows"] // 2)  # 假设params包含图像尺寸
        for kp in keypoints:
            x, y, v = kp
            # 旋转
            x_rot = (x - center[0]) * math.cos(math.radians(angle)) - (y - center[1]) * math.sin(math.radians(angle)) + center[0]
            y_rot = (x - center[0]) * math.sin(math.radians(angle)) + (y - center[1]) * math.cos(math.radians(angle)) + center[1]
            # 缩放
            x_scaled = x_rot * scale
            y_scaled = y_rot * scale
            transformed_kps.append([x_scaled, y_scaled, v])
        return transformed_kps
# 定义增强管道
aug = A.Compose([
    A.HorizontalFlip(p=0.5),
    PoseKeypointAugmentation(p=0.8),
    A.RandomBrightnessContrast(p=0.2),
], keypoint_params=A.KeypointParams(format="xyas"))  # xyas: x,y,angle,scale（此处简化为xyv）
# 应用增强
def augment_sample(image, keypoints):
    augmented = aug(image=image, keypoints=keypoints)
    return augmented["image"], augmented["keypoints"]

四、数据集组织与验证

1. 数据集组织

遵循标准目录结构，便于模型加载：

dataset/
├── train/
│   ├── images/
│   └── annotations/
├── val/
│   ├── images/
│   └── annotations/
└── test/
    ├── images/
    └── annotations/

2. 数据集验证

检查标注文件与图像的匹配性，确保无缺失或错误。

Python验证示例：

import os
import json
def validate_dataset(images_dir, annotations_path):
    annotations = json.load(open(annotations_path))
    image_files = set(os.listdir(images_dir))
    annotated_files = {ann["file_name"] for ann in annotations["images"]}
    missing_files = annotated_files - set(image_files)
    extra_files = set(image_files) - annotated_files
    print(f"缺失的文件: {missing_files}")
    print(f"多余的文件: {extra_files}")
    assert not missing_files and not extra_files, "数据集验证失败"
# 使用示例
validate_dataset("dataset/train/images", "dataset/train/annotations/coco_annotations.json")

五、总结与建议

生成姿态估计数据集需经历数据采集、标注、格式转换、增强及验证等环节。Python生态提供了丰富的工具（如OpenCV、Albumentations、JSON处理库）以支持高效开发。

实践建议：

标注质量控制：采用多人标注与交叉验证，减少误差。
数据平衡：确保不同动作、视角的数据分布均匀。
持续更新：根据模型表现反馈，迭代扩充数据集。

通过系统化的数据集生成流程，开发者能构建出高质量、多样化的姿态估计数据集，为模型训练提供坚实基础。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Python如何生成图片姿态估计的数据集

Python如何生成图片姿态估计的数据集

一、数据采集与预处理

1. 数据来源选择

2. 数据预处理

二、标注工具选择与标注文件生成

1. 标注工具选择

2. 标注文件生成

三、数据增强与扩充

四、数据集组织与验证

1. 数据集组织

2. 数据集验证

五、总结与建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者