LLM에게 주식 분석 맡기면 안 되는 이유 — 인간의 역할이 사라지지 않는다
LLM한테 “이 종목 어때?”라고 물어보고 싶은 충동이 있다면, 이 글이 그 충동을 제어하는 방법을 알려줄 것이다. 도구 자체가 나쁜 게 아니다. 워크플로우가 없으면 나쁜 결과가 나온다는 거다.
LLM 금융 분석의 가장 큰 문제
연구팀은 4개 LLM과 3가지 프롬프팅 방식(일반 프롬프트, 구조화 프롬프트, 체인오브소트)으로 주식 투자 추천의 품질을 비교했다.
결론은 이렇다. 비제약적 LLM 분석은 세 가지 오류를 일상적으로 범한다:
- 오래된 사전 학습 데이터 — 훈련 시점과 분석 시점 사이의 정보가 누락되거나 섞인다
- 할루시네이션 — 재무 수치, 날짜, 기업 정보를 그럴듯하게 만들어낸다
- 도메인 추론 오류 — 금융 인과관계를 틀리게 연결한다
이 세 가지가 결합되면 읽기엔 그럴듯하지만 틀린 분석이 나온다. 이게 제일 위험하다. 틀린 내용이 설득력 있게 포장되기 때문이다.
놀라운 사실: 체인오브소트가 오히려 해롭다
직관적으로는 “더 긴 추론 체인 = 더 좋은 답”처럼 보인다. GPT 사용자들이 체인오브소트 프롬프팅을 만능 해결책처럼 쓰는 이유이기도 하다.
그런데 이 연구의 반전이 여기 있다. 체인오브소트 스타일의 상세한 추론 전개가 정확성을 보장하지 않는다. 잘못된 전제를 긴 추론 사슬을 따라 퍼뜨릴 뿐이다. 오류가 그럴듯한 논리로 포장되어 더 잘 숨겨진다.
더 길게 설명했다고 더 맞는 게 아니다.
정말로 효과가 있는 것: 1차 문서 먼저
가장 유의미한 성능 향상은 LLM에게 공식 제출 자료(주요 공시, 재무제표 등)를 먼저 주고 분석시키는 것에서 왔다. 자유 프롬프팅 대비 출력 품질이 뚜렷하게 개선됐다.
메시지는 단순하다. 검색 소스의 질이 프롬프트 기교보다 중요하다.
실제로 쓸 수 있는 워크플로우는 이렇다:
- 1차 문서 먼저 — 공시, 중앙은행 발표, 프로토콜 문서, 온체인 데이터
- LLM이 종합 — 증거 기반 요약 생성
- 클레임 추출 — 핵심 주장, 수치, 날짜 분리
- 명시적 검증 — 주요 숫자와 사실 확인
- 그 다음에만 시나리오 해석과 신호 전환 허용
이 순서를 거치지 않은 LLM 분석 결과물은 레퍼런스가 아니라 가설 초안으로만 취급해야 한다.
사람의 감독이 ‘컴플라이언스 껍데기’가 아닌 이유
이 연구 이전에도 “AI 금융 분석에는 사람 감독이 필요하다”는 말은 많았다. 그런데 대부분 규제 요건이나 법적 책임 측면에서의 이야기였다.
이 연구가 보여주는 건 다르다. 사람의 감독은 기능적 오류 수정 레이어다. LLM이 범하는 세 가지 체계적 실수 — 오래된 정보, 할루시네이션, 도메인 오류 — 를 실제로 걸러내는 역할을 한다. 규제 때문이 아니라 분석 품질 때문에 필요하다.
이 글을 읽기 전엔 없었는데 이제 생긴 것
LLM이 금융 분석에서 유용한 도구라는 것과, 사람 없이 혼자 쓰면 위험하다는 것이 동시에 성립한다는 인식. 그리고 “어떤 모델이 더 좋냐”는 질문보다 “어떤 워크플로우를 쓰냐”가 더 중요하다는 틀. 이제 LLM 분석 결과를 볼 때 “이게 1차 문서 기반인가, 자유 프롬프팅인가”를 먼저 묻게 될 것이다.
📚 출처 및 참고자료
- 원본 논문: Large Language Models and Stock Investing: Is the Human Factor Required?
- 분석: Luxon AI ORACLE 리서치팀
- 원본 파일: oracle-2026-03-23-large-language-models-and-stock-investing-is-the-human-facto.md