딥러닝 모델 918번 돌려봤더니: 금융 예측에서 뭐가 진짜 중요한가
딥러닝으로 금융 예측을 할 때 “어떤 모델을 쓸까?”보다 “시드를 몇 번 돌릴까?”를 더 고민하고 있다면, 이 글이 그 우선순위를 완전히 바꿔줄 것이다.
918번의 실험이 내린 답은 충격적으로 명확하다.
결론: 아키텍처가 99.9%다, 시드는 0.01%다
연구팀은 9개 딥러닝 아키텍처를 크립토, FX, 주가지수 데이터에 걸쳐 엄격하게 벤치마킹했다. 4시간 및 24시간 예측 지평선, 고정된 HPO 예산, 멀티시드 재학습, 불확실성 정량화까지 포함한 5단계 프로토콜이다.
분산 분해 결과:
- 아키텍처 선택 → 예측 성능 분산의 99.90%
- 랜덤 시드 → 0.01%
지금까지 얼마나 많은 팀이 같은 LSTM을 시드만 바꿔 수십 번 돌리면서 “최적 모델”을 찾고 있었을까. 그 시간과 컴퓨팅을 아키텍처 탐색에 썼어야 했다.
우승자: ModernTCN과 PatchTST
9개 모델 중 명확하게 상위 티어를 형성한 건 ModernTCN(대형 커널 시간 합성곱)과 PatchTST(패치 기반 트랜스포머)였다. 자산군 구분 없이, 4시간이든 24시간이든 일관되게 상위에 위치했다.
반면 LSTM이나 구형 트랜스포머 변형들은 전반적으로 하위권이었다.
흥미로운 것은 복잡성-성능 관계가 비단조적이라는 점이다. 파라미터를 늘린다고 성능이 좋아지지 않았다. 노이즈가 많은 금융 시계열에서는 귀납적 편향(inductive bias)이 파라미터 수보다 중요하다. ModernTCN의 대형 커널이 주는 시간적 지역성이 순수한 파라미터 증가보다 더 유효했다.
진짜 놀라운 사실: RMSE가 좋아도 방향은 동전 던지기
이게 핵심 반전이다.
54개 모델-자산군-예측지평선 조합 전체에서 방향 정확도가 ~50%에 수렴했다. RMSE 차이는 있었다. 일부 모델이 수치 예측 오차를 눈에 띄게 줄였다. 그런데 방향(오르는지 내리는지)은 어떤 모델도 동전 던지기 이상으로 맞추지 못했다.
이게 무슨 의미냐면: MSE로 훈련한 가격 예측기를 그대로 트레이딩 시그널로 쓰면 안 된다. 수치 오차가 작은 모델이 방향 엣지를 보장하지 않는다. 모델 선택 시 RMSE와 방향 정확도를 반드시 분리해서 평가해야 한다.
벤치마크 프로토콜이 곧 신뢰성이다
이 연구가 신뢰를 얻는 이유는 방법론적 엄격성 때문이다.
- 고정 시드 베이지안 HPO → 하이퍼파라미터 탐색의 행운 효과 제거
- 자산군별 설정 고정 → 오버피팅 방지
- 멀티시드 최종 학습 → 불확실성 정량화
- 통계적 검증 → 유의미한 성능 차이만 보고
논문의 진짜 기여는 특정 모델이 “최고”라는 것이 아니라, 이런 프로토콜 없이 나온 벤치마크는 믿을 수 없다는 메시지다.
금융 예측 실무에 적용한다면
새로운 금융 시계열 예측 프로젝트를 시작할 때:
- 기본값으로 ModernTCN과 PatchTST를 베이스라인으로 설정
- 시드 반복보다 아키텍처 탐색에 컴퓨팅 배분
- RMSE 낮아도 방향 정확도 별도 검증 필수
- 4시간→24시간 예측 지평선 변경시 아키텍처 재선택 불필요 (랭킹이 지평선에 걸쳐 안정적)
- 방향 정확도·캘리브레이션 테스트를 통과한 모델만 실거래 검토
이 글을 읽기 전엔 없었는데 이제 생긴 것
시드를 많이 돌리는 것이 모델 성능을 보장한다는 믿음이 사라졌다. 그리고 그보다 더 중요한 것 — RMSE가 낮은 모델을 그대로 트레이딩 시스템에 붙이면 안 된다는 경고. 좋은 숫자 예측과 좋은 거래 신호는 다른 것이다. 이 구별을 갖게 됐다.
📚 출처 및 참고자료
- 원본 논문: A Controlled Comparison of Deep Learning Architectures for Multi-Horizon Financial Forecasting: Evidence from 918 Experiments
- 분석: Luxon AI ORACLE 리서치팀
- 원본 파일: oracle-2026-03-22-controlled-comparison-deep-learning-architectures-multi-horizon-financial-forecasting.md