2026-03-28

VLSTM이 최강: 금융 시계열 딥러닝 15년 대규모 벤치마크

서론: 금융 ML 벤치마크는 왜 의미 없었나

날씨 예측, 전력 수요 같은 표준 ML 벤치마크 데이터셋은 높은 계절성과 신호 대비 잡음비를 갖는다. 금융 시계열은 정반대다 — 낮은 SNR, 비정상성, 두꺼운 꼬리, 레짐 전환. 기존 벤치마크에서 좋은 성능을 보인다고 해서 실전 트레이딩에서도 좋은 성능을 보인다는 보장이 없다.

옥스퍼드 ML Research Group과 Oxford-Man Institute의 Adir Saly-Kaufmann, Kieran Wood, Jan Peter-Calliess, Stefan Zohren 팀이 arXiv:2603.01820(2026년 3월)에 발표한 이 연구는 2010~2025년 15년 OOS 데이터로 13개 현대 딥러닝 아키텍처를 엄밀하게 비교한다. 결론은 명확했다: VLSTM(VSN + LSTM)이 샤프 비율 2.40으로 압도적 1위.

본론: 무엇이 실전 금융 ML을 결정하는가

실험 설계: 엄밀성의 기준

이 연구가 기존 금융 ML 벤치마크와 차별화되는 이유:

50개 다각화 선물 (2010~2025, 15년 OOS)
각 모델 50번 독립 실행 (랜덤 시드) → 상위 10개 앙상블
HAC t-통계량 (이분산성·자기상관 일관 추정) 필수 보고
순 수익률: 거래 비용 차감 후 성과
10% 연환산 변동성 목표 (EWMA 조건부 변동성 정규화)

핵심 공식 — 변동성 목표 포지션 사이징:
w_{t,k} = ŷ_{t,k} · (σ_tgt / σ_{t,k})
σ_tgt = 10% (연환산)

핵심 결과: 아키텍처별 성과

모델	샤프 비율	CAGR	HAC t-stat	최대낙폭
VLSTM	2.40	23.9%	8.81	보통
LPatchTST	2.32	25.5%	—	—
TFT	2.20	—	—	—
xLSTM	1.80	—	—	—
VxLSTM	1.69	—	—	-11.8%
LSTM	1.48	—	—	—
Mamba2	0.64	—	—	—
iTransformer	0.35	—	유의하지 않음	—

VLSTM 적중률: 58.8% — 방향 예측에서도 가장 안정적

VSN: 가장 중요한 단일 차별점

**VSN(Variable Selection Network)**은 타임스텝별로 입력 피처에 소프트 가중치를 적응적으로 부여해 노이즈 피처를 억제한다. 이것이 LSTM보다 VLSTM이 샤프 2.40 vs 1.48로 훨씬 좋은 핵심 이유다.

즉, VSN이 금융 딥러닝의 가장 중요한 단일 개선 요소다. 어떤 기본 아키텍처든 VSN을 붙이면 성능이 올라간다.

아키텍처별 핵심 인사이트

xLSTM — 지수 게이팅 + 행렬 메모리로 희귀하지만 경제적으로 의미있는 신호를 유지. 거래 비용 손익분기점(breakeven cost) 효율성이 가장 좋아 비용 민감 실전 배포에 최적.

iTransformer — 턴오버가 극단적으로 낮음(36). 이는 과소 반응 = 알파 없음을 의미. 어텐션 전용 모델은 시간적 상태가 없어 레짐 경계에서 취약하다.

Mamba2 — 이론적으로 우아하지만 실증적으로 불일치. 좋은 해(2020, 2022)와 나쁜 해가 혼재. VSN 보강 없이는 경쟁 어렵다.

선형 모델(DLinear/AR) — 샤프 비율 1.0 미만, HAC t-통계량 거의 0. 금융 시계열에서 선형 모델의 완전한 한계 확인.

직접 샤프 비율 손실함수

def sharpe_loss(positions, returns):
    port_ret = (positions * returns).mean(dim=0)
    sr = port_ret.mean() / (port_ret.std() + 1e-9) * (252**0.5)
    return -sr

MSE 대신 샤프 비율을 직접 최적화하면 투자자 효용과 훈련 목적함수가 정렬된다.

거래 비용 손익분기점 진단

모든 백테스트 신호에 적용해야 할 실용적 기준:

c < 5bp* → 실전 배포 불가 (크립토 테이커 수수료 35bp)
c < 3bp* → “페이퍼 트레이딩 전용” 표시

유동성이 낮은 자산은 총 수익이 좋아 보여도 c*가 의미없이 낮을 수 있다.

결론: 금융 ML의 새로운 기준

이 연구가 정립하는 금융 딥러닝의 실증적 기준:

VSN은 선택이 아닌 필수다. 어떤 기본 아키텍처든 VSN 없이 VLSTM을 이길 수 없다.
샤프 손실로 직접 훈련하라. MSE 최적화는 투자자 목표와 정렬되지 않는다.
최소 10개 시드, HAC t-통계량 필수. 단일 시드 결과는 출판/실행 기준으로 삼을 수 없다.
거래 비용 손익분기점을 항상 보고하라. c* < 5bp인 전략은 실전 의미가 없다.
변동성 목표 포지션 사이징은 기본이다. 고변동성 레짐에서 자동 포지션 축소가 핵심 리스크 관리다.

크립토 환경(더 높은 첨도, 24/7 거래, 다른 틱 구조)에서 아키텍처 순위가 동일하게 유지될지는 별도 검증이 필요하다.

📚 출처 및 참고자료

원본 논문: Deep Learning for Financial Time Series: Large-Scale Benchmark
분석: Luxon AI ORACLE 리서치팀
원본 파일: oracle-2026-03-28-vlstm-sharpe-benchmark.md
게시일: 2026-03-28

이 분석은 교육·리서치 목적입니다. 투자 조언이 아닙니다.

← BACK TO BLOG