Claude Opus 4.7 출시 총정리: SWE-bench 87.6%·xhigh·토크나이저 변경 (2026)

Claude Opus 4.7(클로드 오퍼스 4.7)이 2026년 4월 16일 공개됐습니다. 같은 가격에 SWE-bench Verified 87.6%, 새 추론 레벨 xhigh, 그리고 토크나이저 교체까지 — 현장에서 바로 알아야 할 변화만 정리했습니다.

Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)
Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지
SWE-bench 87.6% — 벤치마크와 실전 의미
xhigh effort level이란? Claude Code에서 설정하는 3가지 방법
- 1) 슬래시 커맨드
- 2) 환경 변수
- 3) CLI 플래그
토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나
새 기능: /ultrareview와 task budget 사용법
- /ultrareview — 전용 코드 리뷰 세션
- task budget — 토큰 폭주 방지 (퍼블릭 베타)
Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교
FAQ
- Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?
- Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?
- Q3. xhigh와 max는 뭐가 다르죠?
- Q4. Opus 4.7이 Mythos보다 약한가요?
- Q5. Opus 4.6을 그대로 써도 괜찮나요?
- Q6. 한국어 작업에서 실제 성능 차이가 있나요?
- Q7. /ultrareview와 task budget은 언제부터 쓸 수 있나요?
요약

Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)

출시일: 2026년 4월 16일
모델 ID: claude-opus-4-7
가격: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25 — Opus 4.6과 동일
컨텍스트: 1M 입력 / 128K 출력. 1M 구간 장문 프리미엄 없음
지식 cutoff: 2026년 1월 (4.6 대비 +8개월)
제공 채널: Claude (Pro/Max/Team/Enterprise), API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry
Claude Code 기본 모델로 자동 승격: 기본 effort가 high → xhigh로 상향

가격은 동결이지만 실제 청구액은 다를 수 있습니다. 이유는 아래 "토크나이저 변경" 섹션에서 자세히 다룹니다.

Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지

항목	Opus 4.6	Opus 4.7
추론 레벨	low / medium / high / max	low / medium / high / xhigh / max
이미지 최대 해상도	1,568px (약 1.13MP)	2,576px (약 3.75MP)
비전 정확도 (내부 벤치)	54.5%	98.5%
토크나이저	기존	신규 (같은 입력이 1.0~1.35배 토큰)
파일시스템 기반 메모리	제한적	멀티세션 노트 적극 활용
자체 검증	약함	테스트 작성·실행·결과 점검 후 보고
신규 기능	—	`/ultrareview`, `task budget` (퍼블릭 베타)

표에 없는 체감 변화 하나를 덧붙이면, Opus 4.7은 장기 에이전트 작업에서 스스로 검증하고 멈추지 않는 경향이 뚜렷합니다. Anthropic 내부 평가 기준으로 프로덕션 작업 완수율이 3배 개선됐다고 밝혔습니다.

SWE-bench 87.6% — 벤치마크와 실전 의미

실무에서 가장 눈에 띄는 숫자는 코딩 벤치마크입니다.

벤치마크	Opus 4.6	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	80.8%	87.6%	—	80.6%
SWE-bench Pro	53.4%	64.3%	57.7%	54.2%
CursorBench	58%	70%	—	—
93-task 코딩 벤치 (내부)	기준	+13% 향상	—	—

주목할 지점은 SWE-bench Pro에서 +10.9p라는 점입니다. Verified는 상대적으로 덜 오른 건데, 이는 이미 Verified가 포화 구간에 들어섰다는 뜻이고 Pro처럼 어렵고 덜 풀린 문제에서 실질 개선이 집중됐다는 신호로 읽힙니다. 직역하면 "쉬운 문제"가 아니라 "지금까지 못 풀었던 문제"에서 강해졌다는 얘기입니다.

GDPval-AA(금융·법률·지식 업무)에서도 1,753점으로 GPT-5.4(1,674점), Gemini 3.1 Pro(1,314점)를 앞섰습니다.

xhigh effort level이란? Claude Code에서 설정하는 3가지 방법

Opus 4.7이 추가한 xhigh는 high와 max 사이의 새 추론 깊이입니다. 기존 max는 비용·지연이 부담됐고 high는 때때로 추론 깊이가 부족했는데, 그 사이에 중간 단계를 하나 끼워 넣은 겁니다.

Claude Code는 Opus 4.7로 올라가면서 기본 effort를 자동으로 xhigh로 승격했습니다. 별도 설정 없이도 복잡한 작업에서 더 깊게 사고합니다. 명시적으로 바꾸고 싶다면 세 가지 방법이 있습니다.

1) 슬래시 커맨드

대화 세션 안에서 즉석 변경할 때 가장 빠릅니다.

/effort xhigh

2) 환경 변수

세션 시작 전에 고정값으로 걸어두는 방식입니다.

export CLAUDE_CODE_EFFORT_LEVEL=xhigh

3) CLI 플래그

일회성 실행에 유용합니다.

claude --effort xhigh

한 가지 주의: xhigh는 내부 추론 토큰을 더 많이 씁니다. max_tokens를 64K 이상으로 잡아야 출력이 중간에 잘리지 않습니다.

토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나

공식 발표에서 가장 덜 강조됐지만 실무에는 가장 크게 영향을 주는 부분입니다.

Opus 4.7은 새 토크나이저를 씁니다. 같은 입력도 1.0~1.35배의 토큰으로 변환됩니다. 즉 단가는 그대로지만 같은 프롬프트·같은 결과물에 최대 35% 더 많은 토큰이 청구될 수 있습니다.

콘텐츠 유형	토큰 증가율 경향
영어 일반 산문	거의 동일 (1.0x 근처)
코드 (특히 정적 타입, 심볼 많은 언어)	증가 뚜렷
구조화된 데이터 (JSON, XML)	증가 뚜렷
한국어 등 비영어 텍스트	증가 뚜렷

한국어 블로그·문서·API 응답을 주로 다룬다면 실비용 체감이 큽니다. 예산 산정을 기존 토큰 기준 +20~35% 버퍼를 두고 잡는 편이 안전합니다. 실측이 필요하면 /v1/messages/count_tokens 엔드포인트로 Opus 4.7 기준 토큰 수를 다시 측정하세요.

비용을 누르는 실질 수단은 여전히 프롬프트 캐싱(최대 90% 절감)과 배치 처리(50% 절감)입니다. 캐시 히트는 표준 입력 단가의 10%로 처리되므로, 같은 컨텍스트를 여러 번 돌리는 에이전트 워크플로에서 효과가 큽니다.

새 기능: /ultrareview와 task budget 사용법

/ultrareview — 전용 코드 리뷰 세션

Claude Code에서 현재 변경분을 대상으로 버그·설계 문제를 집중 점검하는 슬래시 커맨드입니다. 일반 대화에서 리뷰를 요청하는 것보다 검증 루프가 더 촘촘히 돕니다.

/ultrareview

task budget — 토큰 폭주 방지 (퍼블릭 베타)

에이전트가 긴 작업에서 "하다 보니 $40 태운" 케이스를 막는 제어 장치입니다. 작업 시작 전에 토큰 상한을 주면, 모델이 추론과 도구 호출 페이싱을 그 예산에 맞춰 조정합니다.

/config task_budget 50000

한계에 근접하면 계속 진행할지 멈출지 확인 프롬프트가 뜹니다. xhigh + task_budget 조합이 실무에서 가장 안정적인 설정입니다. 깊이는 확보하되 상한은 닫아두는 식입니다.

Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교

공개 모델 중에서는 코딩·에이전트 성능이 가장 강하다는 평가입니다. 비공개 프론티어 모델인 Claude Mythos Preview는 대략 40여 개 엔터프라이즈·정부 파트너에게만 제공돼 있어 비교 대상에서 제외합니다.

항목	Claude Opus 4.7	GPT-5.4	Gemini 3.1 Pro
출시	2026-04-16	—	—
SWE-bench Pro	64.3%	57.7%	54.2%
SWE-bench Verified	87.6%	—	80.6%
GDPval-AA (지식업무)	1,753	1,674	1,314
컨텍스트 창	1M (프리미엄 없음)	—	—
입력 단가	$5/M	—	—
출력 단가	$25/M	—	—
강점	장기 에이전트·자체검증·비전	추론 품질	멀티모달 범용
추천 용도	Claude Code, 자동화 파이프라인, 에이전트 워크플로	범용 챗봇·작문	문서·이미지 혼합

비교표에서 핵심은 단순합니다. 코딩·에이전트·장기 작업이면 현재 Opus 4.7이 사실상 기본값입니다. 순수 챗·범용 용도라면 취향에 따라 갈릴 수 있습니다.

FAQ

Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?

단가는 동일합니다($5/$25). 다만 새 토크나이저 때문에 같은 프롬프트가 최대 1.35배 토큰으로 계산되므로, 월별 청구액은 오를 수 있습니다. 한국어·코드·JSON이 많은 사용 패턴일수록 체감이 큽니다.

Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?

없습니다. 업그레이드와 함께 기본 모델이 Opus 4.7로, 기본 effort가 xhigh로 자동 승격됩니다. 원하면 /effort 커맨드로 조정만 하면 됩니다.

Q3. xhigh와 max는 뭐가 다르죠?

xhigh는 high와 max 사이의 새 단계입니다. max만큼 깊이 추론하지 않지만 high보다는 철저합니다. 비용·지연과 품질의 균형이 필요한 코딩·에이전트 시나리오에 적합합니다.

Q4. Opus 4.7이 Mythos보다 약한가요?

Anthropic 자체 공개상 Mythos Preview가 사이버 역량·전반 능력에서 더 높다고 명시했습니다. 다만 Mythos는 일반 공개 모델이 아닙니다. 지금 쓸 수 있는 모델 중에서는 Opus 4.7이 최상위입니다.

Q5. Opus 4.6을 그대로 써도 괜찮나요?

단가가 같고 기능이 확장됐으니 기본적으로는 4.7로 옮기는 게 낫습니다. 다만 토큰 증가분을 감당하기 어려운 월 예산 고정 환경이거나, 특정 파이프라인이 구 토크나이저 기준으로 정밀 튜닝돼 있다면, 토큰 측정 후 전환 시점을 늦출 수 있습니다.

Q6. 한국어 작업에서 실제 성능 차이가 있나요?

공식 벤치는 영어 기반이지만, 한국어 입력 토큰이 더 많이 쓰이는 만큼 긴 한국어 문서 처리·요약·번역 작업에서 추론 여력이 늘어난 체감이 있다는 초기 리포트가 있습니다. 다만 정량 수치는 아직 부족하므로 본인 파이프라인에서 직접 비교하는 걸 권합니다.

Q7. `/ultrareview`와 task budget은 언제부터 쓸 수 있나요?

둘 다 2026년 4월 16일 출시와 함께 제공됩니다. task budget은 퍼블릭 베타 상태이므로, 기능·옵션이 변경될 수 있습니다.

요약

Opus 4.7은 2026-04-16 출시, 단가 동결($5/$25), Claude Code 기본 모델 승격.
SWE-bench Verified 87.6%, Pro 64.3% — 공개 모델 중 코딩·에이전트 최상위.
xhigh effort level 신설: /effort xhigh, 환경변수, CLI 플래그 세 가지 설정.
새 토크나이저로 같은 입력이 1.0~1.35배 토큰 → 한국어·코드 비중이 높으면 실비용 상승.
/ultrareview, task budget으로 리뷰 루프와 토큰 상한 제어가 기본 기능으로 들어옴.
전환 우선순위는 단순합니다: 코딩·에이전트·장기 작업이면 바로 올려라, 단 비용 버퍼 +20~35% 확보.

'AI 코딩 에이전트' 카테고리의 다른 글

구글 2026 3월 코어 업데이트 이후 개발자 블로그 생존법: GEO 시대 5가지 액션 (1)	2026.04.15
기업이 Claude Code로 실제 일하는 방식 2026: NYSE·Spotify·Intercom·Block 사례 (1)	2026.04.15
클로드 AI for Word 베타 출시: Word 안에서 클로드가 문서를 직접 고쳐준다 (0)	2026.04.11
클로드 AI 숨겨진 기능 10가지: 대부분 모르는 실전 팁 (1)	2026.04.11
클로드 AI로 코딩하는 법: 개발자가 실제로 쓰는 3가지 방식 (0)	2026.04.11

ClOr

Claude Code 해부학 (완결)

백엔드 트러블슈팅

최신 글

Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)

Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지

SWE-bench 87.6% — 벤치마크와 실전 의미

xhigh effort level이란? Claude Code에서 설정하는 3가지 방법

1) 슬래시 커맨드

2) 환경 변수

3) CLI 플래그

토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나

새 기능: /ultrareview와 task budget 사용법

/ultrareview — 전용 코드 리뷰 세션

task budget — 토큰 폭주 방지 (퍼블릭 베타)

Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교

FAQ

Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?

Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?

Q3. xhigh와 max는 뭐가 다르죠?

Q4. Opus 4.7이 Mythos보다 약한가요?

Q5. Opus 4.6을 그대로 써도 괜찮나요?

Q6. 한국어 작업에서 실제 성능 차이가 있나요?

Q7. `/ultrareview`와 task budget은 언제부터 쓸 수 있나요?

요약

'AI 코딩 에이전트' 카테고리의 다른 글

티스토리툴바

ClOr

Claude Code 해부학 (완결)

백엔드 트러블슈팅

최신 글

Claude Opus 4.7 출시일과 가격 ($5/$25 그대로)

Claude Opus 4.7 vs 4.6 — 핵심 변화 7가지

SWE-bench 87.6% — 벤치마크와 실전 의미

xhigh effort level이란? Claude Code에서 설정하는 3가지 방법

1) 슬래시 커맨드

2) 환경 변수

3) CLI 플래그

토크나이저 변경 — 같은 프롬프트가 왜 토큰을 더 먹나

새 기능: /ultrareview와 task budget 사용법

/ultrareview — 전용 코드 리뷰 세션

task budget — 토큰 폭주 방지 (퍼블릭 베타)

Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro 비교

FAQ

Q1. Claude Opus 4.7 가격이 정말 4.6과 같나요?

Q2. Claude Code를 쓰는데 따로 설정할 게 있나요?

Q3. xhigh와 max는 뭐가 다르죠?

Q4. Opus 4.7이 Mythos보다 약한가요?

Q5. Opus 4.6을 그대로 써도 괜찮나요?

Q6. 한국어 작업에서 실제 성능 차이가 있나요?

Q7. /ultrareview와 task budget은 언제부터 쓸 수 있나요?

요약

'AI 코딩 에이전트' 카테고리의 다른 글

검색 태그

티스토리툴바

Q7. `/ultrareview`와 task budget은 언제부터 쓸 수 있나요?