ClOr

ClOr

백엔드 실무 트러블슈팅과 AI 에이전트 구조 분석을 기록합니다.

Claude Code 해부학 (완결)

51만 줄 소스코드를 19편에 걸쳐 분석한 완결 시리즈

전체 시리즈 보기 →

백엔드 트러블슈팅

실무에서 겪은 장애와 해결 과정 기록

전체 시리즈 보기 →

최신 글

article thumbnail

Claude Opus 4.7(클로드 오퍼스 4.7)이 2026년 4월 16일 공개됐습니다. 같은 가격에 SWE-bench Verified 87.6%, 새 추론 레벨 xhigh, 그리고 토크나이저 교체까지 — 현장에서 바로 알아야 할 변화만 정리했습니다.


목차

  • Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)
  • Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지
  • SWE-bench 87.6% — 벤치마크와 실전 의미
  • xhigh effort level이란? Claude Code에서 설정하는 3가지 방법
    • 1) 슬래시 커맨드
    • 2) 환경 변수
    • 3) CLI 플래그
  • 토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나
  • 새 기능: /ultrareview와 task budget 사용법
    • /ultrareview — 전용 코드 리뷰 세션
    • task budget — 토큰 폭주 방지 (퍼블릭 베타)
  • Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교
  • FAQ
    • Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?
    • Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?
    • Q3. xhigh와 max는 뭐가 다르죠?
    • Q4. Opus 4.7이 Mythos보다 약한가요?
    • Q5. Opus 4.6을 그대로 써도 괜찮나요?
    • Q6. 한국어 작업에서 실제 성능 차이가 있나요?
    • Q7. /ultrareview와 task budget은 언제부터 쓸 수 있나요?
  • 요약

Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)

  • 출시일: 2026년 4월 16일
  • 모델 ID: claude-opus-4-7
  • 가격: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25 — Opus 4.6과 동일
  • 컨텍스트: 1M 입력 / 128K 출력. 1M 구간 장문 프리미엄 없음
  • 지식 cutoff: 2026년 1월 (4.6 대비 +8개월)
  • 제공 채널: Claude (Pro/Max/Team/Enterprise), API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry
  • Claude Code 기본 모델로 자동 승격: 기본 effort가 highxhigh로 상향

가격은 동결이지만 실제 청구액은 다를 수 있습니다. 이유는 아래 "토크나이저 변경" 섹션에서 자세히 다룹니다.


Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지

항목 Opus 4.6 Opus 4.7
추론 레벨 low / medium / high / max low / medium / high / xhigh / max
이미지 최대 해상도 1,568px (약 1.13MP) 2,576px (약 3.75MP)
비전 정확도 (내부 벤치) 54.5% 98.5%
토크나이저 기존 신규 (같은 입력이 1.0~1.35배 토큰)
파일시스템 기반 메모리 제한적 멀티세션 노트 적극 활용
자체 검증 약함 테스트 작성·실행·결과 점검 후 보고
신규 기능 /ultrareview, task budget (퍼블릭 베타)

표에 없는 체감 변화 하나를 덧붙이면, Opus 4.7은 장기 에이전트 작업에서 스스로 검증하고 멈추지 않는 경향이 뚜렷합니다. Anthropic 내부 평가 기준으로 프로덕션 작업 완수율이 3배 개선됐다고 밝혔습니다.


SWE-bench 87.6% — 벤치마크와 실전 의미

실무에서 가장 눈에 띄는 숫자는 코딩 벤치마크입니다.

벤치마크 Opus 4.6 Opus 4.7 GPT-5.4 Gemini 3.1 Pro
SWE-bench Verified 80.8% 87.6% 80.6%
SWE-bench Pro 53.4% 64.3% 57.7% 54.2%
CursorBench 58% 70%
93-task 코딩 벤치 (내부) 기준 +13% 향상

주목할 지점은 SWE-bench Pro에서 +10.9p라는 점입니다. Verified는 상대적으로 덜 오른 건데, 이는 이미 Verified가 포화 구간에 들어섰다는 뜻이고 Pro처럼 어렵고 덜 풀린 문제에서 실질 개선이 집중됐다는 신호로 읽힙니다. 직역하면 "쉬운 문제"가 아니라 "지금까지 못 풀었던 문제"에서 강해졌다는 얘기입니다.

GDPval-AA(금융·법률·지식 업무)에서도 1,753점으로 GPT-5.4(1,674점), Gemini 3.1 Pro(1,314점)를 앞섰습니다.


xhigh effort level이란? Claude Code에서 설정하는 3가지 방법

Opus 4.7이 추가한 xhighhighmax 사이의 새 추론 깊이입니다. 기존 max는 비용·지연이 부담됐고 high는 때때로 추론 깊이가 부족했는데, 그 사이에 중간 단계를 하나 끼워 넣은 겁니다.

Claude Code는 Opus 4.7로 올라가면서 기본 effort를 자동으로 xhigh로 승격했습니다. 별도 설정 없이도 복잡한 작업에서 더 깊게 사고합니다. 명시적으로 바꾸고 싶다면 세 가지 방법이 있습니다.

1) 슬래시 커맨드

대화 세션 안에서 즉석 변경할 때 가장 빠릅니다.

/effort xhigh

2) 환경 변수

세션 시작 전에 고정값으로 걸어두는 방식입니다.

export CLAUDE_CODE_EFFORT_LEVEL=xhigh

3) CLI 플래그

일회성 실행에 유용합니다.

claude --effort xhigh

한 가지 주의: xhigh는 내부 추론 토큰을 더 많이 씁니다. max_tokens64K 이상으로 잡아야 출력이 중간에 잘리지 않습니다.


토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나

공식 발표에서 가장 덜 강조됐지만 실무에는 가장 크게 영향을 주는 부분입니다.

Opus 4.7은 새 토크나이저를 씁니다. 같은 입력도 1.0~1.35배의 토큰으로 변환됩니다. 즉 단가는 그대로지만 같은 프롬프트·같은 결과물에 최대 35% 더 많은 토큰이 청구될 수 있습니다.

콘텐츠 유형 토큰 증가율 경향
영어 일반 산문 거의 동일 (1.0x 근처)
코드 (특히 정적 타입, 심볼 많은 언어) 증가 뚜렷
구조화된 데이터 (JSON, XML) 증가 뚜렷
한국어 등 비영어 텍스트 증가 뚜렷

한국어 블로그·문서·API 응답을 주로 다룬다면 실비용 체감이 큽니다. 예산 산정을 기존 토큰 기준 +20~35% 버퍼를 두고 잡는 편이 안전합니다. 실측이 필요하면 /v1/messages/count_tokens 엔드포인트로 Opus 4.7 기준 토큰 수를 다시 측정하세요.

비용을 누르는 실질 수단은 여전히 프롬프트 캐싱(최대 90% 절감)과 배치 처리(50% 절감)입니다. 캐시 히트는 표준 입력 단가의 10%로 처리되므로, 같은 컨텍스트를 여러 번 돌리는 에이전트 워크플로에서 효과가 큽니다.


새 기능: /ultrareview와 task budget 사용법

/ultrareview — 전용 코드 리뷰 세션

Claude Code에서 현재 변경분을 대상으로 버그·설계 문제를 집중 점검하는 슬래시 커맨드입니다. 일반 대화에서 리뷰를 요청하는 것보다 검증 루프가 더 촘촘히 돕니다.

/ultrareview

task budget — 토큰 폭주 방지 (퍼블릭 베타)

에이전트가 긴 작업에서 "하다 보니 $40 태운" 케이스를 막는 제어 장치입니다. 작업 시작 전에 토큰 상한을 주면, 모델이 추론과 도구 호출 페이싱을 그 예산에 맞춰 조정합니다.

/config task_budget 50000

한계에 근접하면 계속 진행할지 멈출지 확인 프롬프트가 뜹니다. xhigh + task_budget 조합이 실무에서 가장 안정적인 설정입니다. 깊이는 확보하되 상한은 닫아두는 식입니다.


Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교

공개 모델 중에서는 코딩·에이전트 성능이 가장 강하다는 평가입니다. 비공개 프론티어 모델인 Claude Mythos Preview는 대략 40여 개 엔터프라이즈·정부 파트너에게만 제공돼 있어 비교 대상에서 제외합니다.

항목 Claude Opus 4.7 GPT-5.4 Gemini 3.1 Pro
출시 2026-04-16
SWE-bench Pro 64.3% 57.7% 54.2%
SWE-bench Verified 87.6% 80.6%
GDPval-AA (지식업무) 1,753 1,674 1,314
컨텍스트 창 1M (프리미엄 없음)
입력 단가 $5/M
출력 단가 $25/M
강점 장기 에이전트·자체검증·비전 추론 품질 멀티모달 범용
추천 용도 Claude Code, 자동화 파이프라인, 에이전트 워크플로 범용 챗봇·작문 문서·이미지 혼합

비교표에서 핵심은 단순합니다. 코딩·에이전트·장기 작업이면 현재 Opus 4.7이 사실상 기본값입니다. 순수 챗·범용 용도라면 취향에 따라 갈릴 수 있습니다.


FAQ

Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?

단가는 동일합니다($5/$25). 다만 새 토크나이저 때문에 같은 프롬프트가 최대 1.35배 토큰으로 계산되므로, 월별 청구액은 오를 수 있습니다. 한국어·코드·JSON이 많은 사용 패턴일수록 체감이 큽니다.

Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?

없습니다. 업그레이드와 함께 기본 모델이 Opus 4.7로, 기본 effort가 xhigh로 자동 승격됩니다. 원하면 /effort 커맨드로 조정만 하면 됩니다.

Q3. xhigh와 max는 뭐가 다르죠?

xhigh는 high와 max 사이의 새 단계입니다. max만큼 깊이 추론하지 않지만 high보다는 철저합니다. 비용·지연과 품질의 균형이 필요한 코딩·에이전트 시나리오에 적합합니다.

Q4. Opus 4.7이 Mythos보다 약한가요?

Anthropic 자체 공개상 Mythos Preview가 사이버 역량·전반 능력에서 더 높다고 명시했습니다. 다만 Mythos는 일반 공개 모델이 아닙니다. 지금 쓸 수 있는 모델 중에서는 Opus 4.7이 최상위입니다.

Q5. Opus 4.6을 그대로 써도 괜찮나요?

단가가 같고 기능이 확장됐으니 기본적으로는 4.7로 옮기는 게 낫습니다. 다만 토큰 증가분을 감당하기 어려운 월 예산 고정 환경이거나, 특정 파이프라인이 구 토크나이저 기준으로 정밀 튜닝돼 있다면, 토큰 측정 후 전환 시점을 늦출 수 있습니다.

Q6. 한국어 작업에서 실제 성능 차이가 있나요?

공식 벤치는 영어 기반이지만, 한국어 입력 토큰이 더 많이 쓰이는 만큼 긴 한국어 문서 처리·요약·번역 작업에서 추론 여력이 늘어난 체감이 있다는 초기 리포트가 있습니다. 다만 정량 수치는 아직 부족하므로 본인 파이프라인에서 직접 비교하는 걸 권합니다.

Q7. /ultrareview와 task budget은 언제부터 쓸 수 있나요?

둘 다 2026년 4월 16일 출시와 함께 제공됩니다. task budget은 퍼블릭 베타 상태이므로, 기능·옵션이 변경될 수 있습니다.


요약

  • Opus 4.7은 2026-04-16 출시, 단가 동결($5/$25), Claude Code 기본 모델 승격.
  • SWE-bench Verified 87.6%, Pro 64.3% — 공개 모델 중 코딩·에이전트 최상위.
  • xhigh effort level 신설: /effort xhigh, 환경변수, CLI 플래그 세 가지 설정.
  • 새 토크나이저로 같은 입력이 1.0~1.35배 토큰 → 한국어·코드 비중이 높으면 실비용 상승.
  • /ultrareview, task budget으로 리뷰 루프와 토큰 상한 제어가 기본 기능으로 들어옴.
  • 전환 우선순위는 단순합니다: 코딩·에이전트·장기 작업이면 바로 올려라, 단 비용 버퍼 +20~35% 확보.
profile

ClOr

@ClOr

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!

ClOr · 백엔드 트러블슈팅과 AI 에이전트 구조 분석을 기록합니다.