Claude Code 토큰 비용 실전 절약법: 공식 문서 기반 7가지 전략

Claude Code 평균 비용은 하루 $6, 90%의 사용자가 $12 이하다. 공식 문서에 명시된 수치다.

하지만 모델을 잘못 고르거나, 컨텍스트 관리를 안 하거나, 팀을 과하게 돌리면 이 수치를 훌쩍 넘긴다. 이 글은 공식 문서와 검증된 커뮤니티 사례에서 가져온 비용 절약 전략 7가지를 정리한 것이다.

먼저 요금 체계
- 구독 플랜
- API 토큰 단가 (1M 토큰)
- Max vs API: 어느 쪽이 유리한가
전략 1: 컨텍스트를 적극적으로 관리하라
- /compact — 대화 요약
- /clear — 작업 전환 시 즉시 실행
전략 2: 모델을 전환하라
전략 3: Effort 레벨을 조절하라
전략 4: Hooks로 불필요한 토큰 유입을 차단하라
전략 5: 서브에이전트에 장황한 작업을 위임하라
전략 6: CLAUDE.md를 200줄 이하로 유지하라
전략 7: 프롬프트를 구체적으로 쓰라
비용 추적 도구
Agent Teams 비용 주의
요약

먼저 요금 체계

구독 플랜

플랜	가격	기본 모델	용량
Pro	$20/월	Sonnet	기본
Max 5x	$100/월	Opus	Pro의 5배
Max 20x	$200/월	Opus	Pro의 20배

API 토큰 단가 (1M 토큰)

모델	Input	Output
Haiku 4.5	$1	$5
Sonnet 4.6	$3	$15
Opus 4.6	$5	$25

프롬프트 캐시 히트 시 입력 비용 90% 할인. Batch API 사용 시 50% 추가 할인.

Max vs API: 어느 쪽이 유리한가

실사용 사례: 한 개발자가 Max $200 플랜으로 월 440세션, 18,000턴을 사용했다. 같은 사용량을 API로 환산하면 $1,588. 구독이 8배 저렴했다.

결론: 하루 $6~~12 쓰는 패턴이면 Max 5x($100)가 API 대비 2~~2.5배 저렴. 하루 $20 이상이면 Max 20x($200)가 압도적. API가 유리한 경우는 간헐적/저빈도 사용뿐이다.

전략 1: 컨텍스트를 적극적으로 관리하라

토큰 비용은 컨텍스트 크기에 비례한다. 컨텍스트가 클수록 매 메시지마다 더 많은 토큰을 소비한다.

/compact — 대화 요약

/compact Focus on code samples and API usage

auto-compact는 컨텍스트의 95%에서 작동한다. 그때는 이미 늦다. 70% 정도에서 수동 실행을 권장한다. 뒤에 키워드를 붙이면 요약 시 보존할 내용을 지정할 수 있다.

CLAUDE.md에 압축 규칙을 상시 적용할 수도 있다:

# Compact instructions
When you are using compact, please focus on test output and code changes

/clear — 작업 전환 시 즉시 실행

오래된 컨텍스트가 매 메시지마다 토큰을 낭비한다. 작업이 바뀌면 /clear로 즉시 비워라. /rename으로 세션 이름을 지어두면 나중에 /resume으로 돌아올 수 있다.

전략 2: 모델을 전환하라

일상 코딩의 90%는 Sonnet으로 충분하다. Opus는 복잡한 아키텍처 판단에만 쓰면 60~80% 비용 절감이 가능하다.

claude --model sonnet          # Sonnet으로 시작

# 세션 중 전환
/model opus                    # 복잡한 아키텍처 판단
/model haiku                   # 단순 반복 작업

환경변수로 기본값을 고정할 수도 있다:

export ANTHROPIC_MODEL=sonnet

핵심 팁: /model opusplan — Plan 단계만 Opus, 실행은 Sonnet으로 자동 전환. 설계 품질과 비용 효율을 동시에 잡는 조합이다.

전략 3: Effort 레벨을 조절하라

Extended thinking이 기본 활성화되어 있다. thinking 토큰은 output으로 과금된다. 단순한 작업에 deep reasoning은 과잉이다.

/effort low       # 단순 작업 (thinking 토큰 대폭 절감)
/effort medium    # 일반 코딩
/effort high      # 복잡한 디버깅

더 세밀하게 제어하려면:

export MAX_THINKING_TOKENS=8000

전략 4: Hooks로 불필요한 토큰 유입을 차단하라

10,000줄 로그를 Claude가 읽으면 수만 토큰이 소비된다. PreToolUse 훅으로 에러만 추출하면 수백 토큰으로 줄일 수 있다.

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

#!/bin/bash
# filter-test-output.sh
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

테스트 실행 시 실패한 부분만 Claude에게 보여준다. 성공한 수천 줄의 출력은 컨텍스트에 들어가지 않는다.

전략 5: 서브에이전트에 장황한 작업을 위임하라

테스트 실행, 문서 조회, 로그 분석 같은 작업을 서브에이전트에 위임하면, 상세 출력은 서브에이전트 컨텍스트에 머물고 메인 대화에는 요약만 반환된다.

서브에이전트에 model: haiku를 지정하면 비용을 더 줄일 수 있다.

전략 6: CLAUDE.md를 200줄 이하로 유지하라

CLAUDE.md는 세션 시작 시 컨텍스트에 로드된다. 500줄짜리 CLAUDE.md는 관련 없는 작업에서도 매번 토큰을 소비한다.

특정 워크플로우 지침은 Skills로 분리하라. Skills는 호출될 때만 로드된다.

.claude/skills/
├── pr-review/SKILL.md      # PR 리뷰 시에만 로드
├── db-migration/SKILL.md   # DB 마이그레이션 시에만 로드
└── deploy/SKILL.md         # 배포 시에만 로드

전략 7: 프롬프트를 구체적으로 쓰라

# 나쁜 예: 넓은 스캔 유발
이 코드베이스를 개선해줘

# 좋은 예: 정확한 타겟
auth.ts의 login 함수에 입력 검증을 추가해줘

모호한 요청은 광범위한 파일 탐색을 유발한다. 구체적인 요청은 최소한의 파일 읽기로 작업을 끝낸다.

비용 추적 도구

도구	용도
`/cost`	현재 세션 토큰/비용 표시 (API 사용자용)
`/stats`	구독자용 사용 패턴 확인
ccusage	로컬 JSONL 로그 분석, 월별/세션별 리포트
claude-usage	로컬 대시보드, Pro/Max 진행률 바
Statusline	실시간 컨텍스트 사용률 표시

Agent Teams 비용 주의

Agent Teams는 단일 세션의 약 7배 토큰을 사용한다. 팀원마다 별도 컨텍스트 윈도우를 갖기 때문이다.

팀원에 Sonnet 사용
팀 크기 3~5명 제한
작업 완료 후 반드시 cleanup
idle 팀원도 토큰을 소비하므로 빠른 종료 필요

요약

전략	예상 절감
모델 전환 (Opus → Sonnet 기본)	60~80%
/compact 수동 실행 (70%에서)	매 메시지당 토큰 감소
/effort low (단순 작업)	thinking 토큰 대폭 절감
Hooks로 출력 필터링	수만 → 수백 토큰
서브에이전트 위임	메인 컨텍스트 오염 방지
CLAUDE.md → Skills 분리	베이스 컨텍스트 축소
구체적 프롬프트	불필요한 파일 탐색 제거

가장 임팩트 큰 것은 모델 전환이다. Sonnet을 기본으로 쓰되, Opus는 정말 필요할 때만 꺼내라. 나머지는 습관의 문제다.

관련글:

Claude Code 비용 추적 분석: 토큰 하나하나를 관리하는 구조 (해부학 Part 17) — 내부 비용 추적 메커니즘
Claude Code Statusline 커스터마이징: 터미널 하단을 나만의 대시보드로 — 실시간 컨텍스트 사용률 표시

'AI 코딩 에이전트' 카테고리의 다른 글

Claude Code Hooks 실전 활용법: 커밋 전 자동 검사부터 Slack 알림까지 (0)	2026.04.11
Claude Code CLAUDE.md 작성법 완전 가이드: 프로젝트 성패를 가르는 파일 하나 (0)	2026.04.11
GitHub Agent HQ: Copilot 안에서 Claude와 Codex를 동시에 돌리는 구조 (0)	2026.04.10
Claude Code Agent Teams: AI 여러 마리를 동시에 굴리는 법 (0)	2026.04.10
Claude Agent SDK: Claude Code를 라이브러리로 써서 나만의 에이전트 만들기 (0)	2026.04.09

ClOr

Claude Code 해부학 (완결)

백엔드 트러블슈팅

최신 글

먼저 요금 체계

구독 플랜

API 토큰 단가 (1M 토큰)

Max vs API: 어느 쪽이 유리한가

전략 1: 컨텍스트를 적극적으로 관리하라

/compact — 대화 요약

/clear — 작업 전환 시 즉시 실행

전략 2: 모델을 전환하라

전략 3: Effort 레벨을 조절하라

전략 4: Hooks로 불필요한 토큰 유입을 차단하라

전략 5: 서브에이전트에 장황한 작업을 위임하라

전략 6: CLAUDE.md를 200줄 이하로 유지하라

전략 7: 프롬프트를 구체적으로 쓰라

비용 추적 도구

Agent Teams 비용 주의

요약

'AI 코딩 에이전트' 카테고리의 다른 글

티스토리툴바

ClOr

Claude Code 해부학 (완결)

백엔드 트러블슈팅

최신 글

먼저 요금 체계

구독 플랜

API 토큰 단가 (1M 토큰)

Max vs API: 어느 쪽이 유리한가

전략 1: 컨텍스트를 적극적으로 관리하라

/compact — 대화 요약

/clear — 작업 전환 시 즉시 실행

전략 2: 모델을 전환하라

전략 3: Effort 레벨을 조절하라

전략 4: Hooks로 불필요한 토큰 유입을 차단하라

전략 5: 서브에이전트에 장황한 작업을 위임하라

전략 6: CLAUDE.md를 200줄 이하로 유지하라

전략 7: 프롬프트를 구체적으로 쓰라

비용 추적 도구

Agent Teams 비용 주의

요약

'AI 코딩 에이전트' 카테고리의 다른 글

검색 태그

티스토리툴바