ICT Express 2025

 

Keywords: Human pose estimation, Human pose refinement, Deep learning

 

Abstract

  • Human Pose Estimation(인체 포즈 추정, HPE)은 빠르고 가려진 신체 움직임을 정확하게 포착해야 하기 때문에 어려운 문제, 이로 인해 예측 결과에 불확실성이 자주 발생
  • 야구 스윙과 같은 고속 스포츠 동작의 경우 기존 HPE 방법들은 domain-specific prior knowledge(도메인 특화 사전 지식)을 충분히 활용하지 못하고 있음
  • 본 연구에서는 Baseball Player Pose Corrector(BPPC)를 제안
  • BPPC는 고품질의 3D standard motion 데이터를 활용하여 야구 스윙 영상에서 추정된 2차원 키포인트를 refine(보정)하는 최적화 기반 프레임 워크
    1. action recognition(동작 인식), offset learning, 3D-to-2D 투영을 통해 3차원 표준 동작을 테스트 스윙 영상에 정렬
    2. movement-aware optimization(동작 인지 최적화)를 적용하여 키포인트를 보정함으로써 스윙 패턴의 변형에도 강인한 결과 보장
  • BPPC는 추가적인 데이터셋에 의존하지 않으며, 야구 스윙에 대해 수작업으로 주석된 3차원 표준 동작 데이터만을 필요로 함

Introduction

  • HPE(Human Pose Estimation)은 인간의 신체 자세를 정확하게 분석하고 이해하고자 하는 컴퓨터 비전 분야의 핵심 문제
  • 다양한 연구들이 복잡하고 다양한 환경에서도 HPE의 강인성과 효율성을 크게 향상시켰음
  • 그럼에도 불구하고, 빠르거나 가려진 움직임을 포함하는 자세 추정에는 많은 어려움이 존재
  • 비디오 기반 2차원 포즈 추정 방법들은 연속된 프레임에서의 시간적 정보를 활용함으로써 문제를 해결하고자 했음
    • CNN, LSTM, CNN-Transformer 기반의 하이브리드 모델 탐구
    • 범용 목적(general-purpose)에 초점, 야구 스윙과 같은 특정한 동작 패턴에 특화된 분석에 한계
  • Baseball Player Pose Corrector(BPPC)를 제안
    • 야구 스윙에 특화된 새로운 포즈 refinement(보정)방법, 고품질의 3차원 야구 스윙 표준 동작 데이터를 사전지식으로 활용
    • 표준 동작을 테스트 비디오의 스윙 동작과 정렬한 뒤, movement-aware optimization(동작 인지 기반 최적화)를 통해 기존 포즈 추정 모델로부터 얻어진 2차원 키포인트 보정
    • 표준 동작은 스윙 비디오를 기반으로 한 사람의 수작업 주석을 통해 획득됨

사전 데이터(Motion Prior), 수작업 키포인트(3D Standard Motion), BPPC 후 refine된 결과 2D Refined Pose Sequence

 

  • BPPC는 대규모 데이터셋에 의존하지 않고, 도메인 특화 사전 지식에 집중하여 동작함
  • 테스트 비디오와 표준 동작 간의 차이는 크게 네 가지 범주로 구분됨
    1. 프레임 수의 차이
    2. 스윙 시작 및 종료 시점(또는 프레임)의 차이
    3. 스윙 패턴의 불일치
    4. 카메라 시점(viewpoint)의 변화
  • BPPC는 1과2를 처리하기 위해 스윙의 시작 및 종료 프레임을 식별하는 temporal alignment(고급 시간 정렬)을 사용하고, 3을 해결하기 위해 표준 동작을 다양한 스윙 패턴에 맞추는 offset learning을 적용하며, 4를 처리하기 위해 3차원 표준 동작을 2차원 테스트 비디오로 투영하는 viewpoint alignment(시점 정렬)을 수행함
  • 범용 포즈 추정과 도메인 특화 응용 사이의 간극 연결, 특수한 작업에서 사전 동작 지식(prior motion knowledge)을 활용하는 것의 중요성을 강조

본 연구의 기여

 

  • 본 연구에서는 3차원 스윙 동작에 대한 사전 지식을 활용하여 야구 타격 동작에서의 키포인트를 보정하는 최적화 기반 방법 BPPC를 제안한다.
  • 표준 동작과 테스트 스윙 비디오 간의 차이에 관계없이, 3차원 표준 동작을 2차원 테스트 비디오에 정확하게 정합시키는 4차원 키포인트 투영 방법을 제안한다.
  • 키포인트의 신뢰도와 움직임을 기반으로 포즈를 적응적으로 최적화하는 손실 함수(loss function) 를 제안한다.
  • BPPC는 벤치마크 데이터셋에서 최신 HPE 모델들의 정량적 및 정성적 성능을 모두 향상시킨다.

Proposed method

  • BPPC는 타격 동작의 prior knowledge인 standard motion을 활용
    • 추정된 키포인트와 표준 동작 간의 차이를 해결하기 위한 전체 최적화 목적 함수
    • 표준 동작을 추정된 키포인트에 정렬하기 위한 미분가능한 투영 방법
    • 최적화된 표준 동작을 기반으로 키포인트를 보정하기 위한 손실 함수 제시
  • 기존 HPE가 뽑은 2D 키포인트(x)를 야구 스윙의 3D 표준 동작(s)을 기준으로 최적화해서 더 정확한 2D 키포인트(y)로 만든다

3.1 Problem Formulation(문제 정의)

  • 테스트 비디오에서 기존 HPE 가 뽑은 2D 포즈

현실 세계 영상(노이즈 많음), 현실적(data)

  • 야구 스윙의 3D  표준 동작 (고속카메라 + 수작업 주석으로 만든 정답에 가까운 기준)

실험실 기준(노이즈 없음), 이상적인 기준(prior)

  • K는 키포인트 개수
  • F는 각각 xs의 프레임 수 의미
  • 추정된 2차원 포즈 x는 타격 동작 전후의 상태 포함, 동작 블러와 가림 현상으로 인해 검출 어려움 자주 발생
  • 3차원 표준 동작 s는 고속 카메라로 촬영된 영상 프레임을 활용하여 생성됨
  • BPPC는 학습 데이터셋 필요하지 않음, 보정된 2차원 포즈

보정된 2D 포즈

를 직접 최적화 함. 최적화 목적 함수는 다음과 같이 정의됨.

기존 결과 x(data)와 너무 멀어지면 안되고, 표준 동작 s(prior)와도 잘 맞아야 함

  • Ldata는 테스트 포즈 시퀀스 x를 입력으로 사용
  • Lprior는 표준 동작 s를 활용
  • Lprior를 경사 하강법으로 최적화하기 위해 미분가능한 4차원(3D 공간 + 시간) 투영 방법을 도입하여 s와 x 정렬

 

3.2 Step 1: 4D Motion Projection

  • 테스트 비디오의 추정 키포인트x와 표준 동작 s간의 차이 네 가지 유형(s를 그대로 쓸 수 없는 이유) 
    1. 프레임 수의 차이
    2. 스윙 시작 및 종료 시점(또는 프레임)의 차이
    3. 스윙 패턴의 불일치
    4. 카메라 시점(viewpoint)의 변화
  • s를 x에 맞추는 단계, 정렬이 필요함

(1) Action Recognition via Key point Grid Sampler

  • 테스트 비디오에서 스윙 구간의 시작과 끝 프레임 찾아서 표준 동작과 시간 축 맞추는 것
  • 테스트 비디오에서 스윙의 시작과 종료 프레임을 나타내는 인덱스를 각각 정의 

스윙 시작 프레임 인덱스, 스윙 끝 프레임 인덱스

동작 인식은 학습 가능한(연속 값) 파라미터 (시작/끝 위치를 나타내는 연속값)

인덱스를 정수로 표현X, 연속 파라미터로 표현

를 통해 시간-공간 정렬 수행, 표준 동작이 스윙 시작부터 종료까지 클리핑되어 있다고 가정. 시간- 공간 정렬 연산은 다음과 같다.

잘라내기(cropping),resampling해서 프레임 수 맞춤

원래 포즈 시퀀스 x에서 [ts,te]구간 (스윙 시작/끝 구간)을 기준으로 스윙 부분만 뽑고, 그 결과를 길이 F로 맞춰서 𝒙̄를 만든다

G는 그리드 샘플러를 의미(시작/끝은 정수 프레임으로 자르면 미분 불가하여 t 학습하기 어려움), 결과적으로

생성. 동일한 연산이 추정 키포인트의 신뢰도 점수(confidence, c)에도 적용됨.

표준 동작 길이 F에 맞추려고 resampling하여 길이 통일

 

(2) Action Offset Learning for Swing Discrepancies

  • 사람마다 다른 신체조건 ·자세 ·위치 차이 때문에 생기는 절대 위치 차이를 표준 동작 전체를 이동시켜서 맞춤
  • 형태는 유지하고, 위치만 보정하는 단계
  • offset: 표준 동작 전체를 같은 벡터만큼 평행 이동, 모든 프레임에 동일한 양만큼 키포인트 이동

원래의 3D 표준 동작, 수작업으로 만든 순수한 기준 스윙

모든 프레임에 대해 동일한 벡터로 평행이동시킴(전역 평행이동하기 때문에 1)

학습가능한 offset, 프레임 차원 F가 없음

 

위치 보정 후 3D 표준 동작 s-hat은 offset이 적용됨을 나타냄

 

(3) Viewpoint Alignment through 3D to 2D

  • 3차원에서 2차원으로의 투영을 위해 3차원 비동차 좌표를 동차 좌표로 변환(이동을 행렬로 표현하기 위함)

3D heterogeneous에서 3D homogeneous로 변환
f번째 프레임의 k번째 관절의 3차원 위치

 

동차좌표(x,y,z,1)
투영행렬, 8개의 학습 가능한 파라미터

3D 좌표를 현재 테스트 영상의 카메라 시점에 맞는 2D 좌표로 바꿈

(4) Optimization for 4D Motion Projection

  • 표준 3D 동작을 현재 테스트 영상에 가장 잘 맞는 2D 기준 동작으로 만든다

최적화 대상(학습 대상), 시간+위치+시점을 동시에 맞춤

  • Lmse: 정렬된 표준 동작과 테스트 포즈가 최대한 가깝게 되도록 만듦
  • confidence-weighted MSE(ohkm): 신뢰도가 낮은 관절은 덜 믿고, 높은 관절은 강하게 맞춤
  • 정규화(reg): offset이 너무 커지는 걸 방지, 표준 동작을 망가뜨리지 않도록 제한

  • 영상에 맞게 투영된 2D 표준 동작


3.3 Step 2: Pose refinement

 

  • 기존 2D 추정 포즈 x를 표준동작 s*를 참고하여 더 좋은 포즈 y로 보정

 

  • 보정된 포즈 y는 움직임 패턴이 표준 동작과 비슷하고, 시간적으로 부드럽고, 원래 추정 결과 x와도 너무 다르지 않도록 한다

 

  • Velocity Loss(속도 손실)
    • 포즈 자체를 맞추는 게 아니라 움직임 패턴을 맞춤
    • 움직임 패턴 유지

  • Acceleration Loss(가속도 손실)
    • 동작을 더 부드럽게 만들고 갑작스러운 튐을 줄임
    • 부드러움 유지

프레임 간 변화의 변화 = 가속도, 급격한 흔들림 억제

  • Confidence Loss(신뢰도 기반 손실)
    • 모델이 자신 있는 건 유지하고 자신 없는 건 고쳐줌
    • 기본 anchor 역할, 원본 보존


Experiment

  • 데이터셋 Penn Action(정량 평가용)
    • 총 2,326개 영상/ 15개 액션 중 야구 스윙 165개 시퀀스만 사용
    • 사람 수동 주석 존재
    • PCKh@0.5로 정량 평가
  • MLB-YouTube(정성 평가용)
    • MLB 포스트시즌 20경기
    • 42시간 이상 영상
    • 키포인트 정답 없음
  • 평가지표 PCKh@0.5
    • 예측 키포인트 오차가 머리 크기의 50%이내이면 correct
  • Baseline
    • Simple(ResNet-50/ 101/152)
    • HRNet (W32/ W48)
    • DARK(HRNet 기반)
  • 구현 세부사항
    • Optimizer: Adam
    • 하이퍼파라미터: 
    • Step1 1000 iteration
    • Step2 1000 iteration
    • 총 2,000 iteration

Results

 

 

 

 

 

 

 

 

 

 

  • 전체 평균 성능 (Penn Action)
    • PCKh@0.5 기준
    • 모든 baseline 대비 평균 0.2~0.3% 향상
  • 관절별 성능 개선
    • 빠른 가림 동작에서 prior 기반 보정이 효과적임
  • Confidence 구간별 분석
    • Low confidence [0,0.5)
      • 2.1%이상 정확도 향상
      • HRNet, DARK에서 뚜렷
    • High confidence[0.9, 1]
      • 개선 서의 없음
    • 원래 잘 맞는 건 유지하면서 틀리기 쉬운 구간만 보정
    • prior기반 최적화가 data-driven 모델 보완
  • BPPC는 평균 정확도는 소폭 향상시키지만, 특히 빠르고 가려진 저신뢰도 관절에서 의미 있는 개선을 보이며, 기존 데이터 기반 HPE 모델을 보완하는 prior 기반 최적화 기법임을 실험적으로 입증하였다.

 

  • 하이퍼파라미터 민감도 분석
    • Ablation 결과는 velocity 기반 prior가 BPPC의 핵심 기여임을 보여주며, acceleration은 보조적 역할을 하고 confidence weighting은 기존 예측과의 균형을 조절함


오늘은 Accurate baseball player pose refinement using motion prior guidance 논문을 읽어봤습니다.

이 논문은 일반 HPE가 아니라 야구 스윙이라는 도메인 특화 동작에 대한 연구이며, 핵심 기술인 BPPC는 데이터 재학습이 아니라 사전 정의된 3D 표준 동작을 활용하여 최적화 기반 보정을 실시합니다. 또한 위치 자체가 아니라 움직임의 변화를 정렬하였습니다.

 

이 논문의 핵심 기여는 다음과 같습니다.

  1. 3D 표준 스윙 동작을 prior로 사용
  2. 4D projection(시간 + 공간 정렬)
  3. velocity/ accleration 기반 보정
  4. low-confidence 관절에서 성능 개선

다음은 이 논문의 한계점 입니다.

  1. 표준 동작 하나에 의존
    • 하나의 이상적인 스윙만 사용하여 사람별, 스타일별 다양성 반영이 부족함
    • 타격 결과(성공/실패) 구분 없음
    • 스윙 품질 차이를 학습하지 않음
  2. 평귱 성능 개선이 작음
    • 평균 PCKh 향상이 0.2~0.3%로 구조적 개선보다는 정제 모듈 수준의 성능
  3. 결과 분석이 포즈 정확도에만 국한
    • 타격 결과 예측 없음
    • 스윙 품질 평가 없음
    • 동작의 으미ㅣ 분석 없음
    • pose refinement에 불과함
  4. 수작업 3D 표준 동작 필요
    • 실용성 제한, 새로운 스포츠나 동작에 확장 적용하기 어려움

 

+ Recent posts