GT-Score: 과적합을 목적함수로 막는 트레이딩 전략 최적화
2026-03-28

GT-Score: 과적합을 목적함수로 막는 트레이딩 전략 최적화

서론: 백테스팅의 원죄 — 과적합

트레이딩 전략 개발자들이 공통적으로 경험하는 좌절이 있다: 백테스트에서는 훌륭해 보이던 전략이 실전 배포 후 급격히 성과가 나빠진다. 이 “과적합 문제”의 근본 원인은 최적화 목적함수 자체에 있다.

샤프 비율, 소르티노 비율, 총 수익률 같은 표준 목적함수는 표본 내 성과를 선택한다. 최적화 알고리즘이 많은 파라미터 조합을 평가할수록 다중 검정 문제가 발생해 표본 내 유의성이 허구적으로 부풀어 오른다.

Journal of Risk and Financial Management(2026년 1월)에 발표된 Sheppert의 GT-Score는 이 문제를 근본적으로 다르게 접근한다: 과적합 억제 제약을 최적화 목적함수 자체에 내장한다.


본론: GT-Score의 설계 원리

수식과 각 구성요소

$$GT_Score = \frac{\mu \cdot \ln(z) \cdot r^2}{\sigma_d}$$

기호의미역할
μ관측당 평균 전략 수익률기본 수익성
z = (μ−μ_m)/(σ/√N)벤치마크 대비 Z-점수통계적 유의성 게이트
ln(z)Z-점수의 자연로그유의성 게이트 (z≤1이면 음수)
수익률의 결정계수일관성·평활성 측정
σ_d하방편차소르티노 분모

게이트 메커니즘: 모든 조건 동시 충족

ln(z) 게이트의 핵심:

  • z ≤ 1이면 ln(z) ≤ 0 → GT-Score ≤ 0 → 최적화기가 해당 파라미터 조합 거부
  • 벤치마크를 최소 1 표준오차 이상 초과하지 않으면 양의 점수를 받을 수 없다

r² 일관성 게이트:

  • 수익의 80%가 3번의 이벤트에서 발생하는 전략 → 높은 평균 수익, 낮은 r² → GT-Score 패널티
  • 실전 배포에서 이벤트 주도 급등을 재현할 수 없다. 올바른 거부다.

즉, GT-Score를 양수로 만들려면 동시에 네 가지 조건이 필요하다:

  1. 벤치마크 초과 수익
  2. 통계적 유의성
  3. 수익의 일관성
  4. 낮은 하방편차

검증 결과

S&P 500 50개 종목, 2010~2024, 9개 순차 학습/검증 분할:

일반화 비율 개선: 기준 목적함수 대비 +98% — 이것이 핵심 지표다.

일반화 비율 = 검증 기간 수익 / 학습 기간 수익. 이상적으로 ~1.0이 되어야 한다. 표준 샤프/소르티노 최적화는 이 비율이 낮다. GT-Score는 극적으로 개선한다.

워크포워드 엠바고: 필수 설계

GT-Score 논문에서 강조하는 방법론적 요구사항:

  • 30일 엠바고(일별 데이터) / 5일 엠바고(시간별 데이터)
  • 학습-검증 경계에서 피처 누출 방지
  • k-fold 교차검증은 시계열에서 엠바고 없이 잘못된 결과를 낸다

결론: 백테스팅 파이프라인의 재설계

GT-Score가 제시하는 변화:

  1. 목적함수 교체: 샤프/소르티노 → GT-Score (최적화 탐색 중 과적합 거부)
  2. 크립토용 z-임계값 상향: 두꺼운 꼬리를 고려해 z ≥ 1.5 권장 (주식: z ≥ 1.0)
  3. r² 게이트 적용: r² < 0.3이면 다른 지표와 관계없이 일관성 검토 플래그
  4. 일반화 비율 필수 보고: 절대 성과 지표 옆에 항상 일반화 비율 기재
  5. GT-Score는 1차 필터: DSR(편향 수정 샤프)와 PBO(백테스트 과적합 확률)는 GT-Score 통과 후 최종 검증에 사용

중요한 경고: GT-Score는 과적합 가능성을 크게 줄이지만 완전히 제거하지는 않는다. 더 큰 탐색 예산은 여전히 과적합된 해를 찾을 수 있다. 이것은 도구가 아니라 필터다. 파이프라인의 여러 층 중 하나로 사용해야 한다.


📚 출처 및 참고자료

이 분석은 교육·리서치 목적입니다. 투자 조언이 아닙니다.

← BACK TO BLOG