GPT-5.4 vs Claude Opus 4.6, 결론은 "둘 다 써라"? 정보 정리해봤습니다
요즘 AI 모델 업데이트 속도가 장난이 아닌데요.
올해 2~3월에 OpenAI랑 Anthropic이 거의 동시에 최신 플래그십 모델을 출시했습니다. Anthropic의 Claude Opus 4.6이 2월 5일, OpenAI의 GPT-5.4가 3월 5일에 나왔고, 커뮤니티에서 비교글이 엄청 쏟아졌더라고요. 이번 글은 그 내용들을 보기 편하게 정리한 겁니다.
코딩 성능, 기준에 따라 결과가 달라진다
이번 비교에서 가장 많이 나온 얘기가 코딩 성능인데, 재밌는 게 두 회사가 서로 다른 벤치마크를 내세웁니다.
Anthropic은 SWE-Bench Verified라는 표준 코딩 테스트를 강조하고, 여기서 Claude Opus 4.6이 80.8%로 1위입니다. 반면 OpenAI는 더 어려운 버전인 SWE-Bench Pro를 앞세우는데, 여기서는 GPT-5.4가 57.7%로 Claude의 약 45%를 앞선다고 해요.
각자 유리한 기준을 들고 나온 셈이라 직접 비교가 좀 애매하긴 한데, 대체로 이렇게 정리되는 것 같습니다.
* 코드 자체의 품질이나 가독성은 → Claude Opus 4.6이 낫다는 평이 많고
* 예측 어려운 실전 엔지니어링 문제 해결은 → GPT-5.4가 낫다는 평이 많다고 합니다
개발자 커뮤니티에서 요즘 꽤 통용되는 말이 "빠른 프로토타입은 GPT, 큰 코드베이스 뜯어고칠 땐 Claude"라고 하더라고요.
GPT-5.4에서 눈에 띄는 기능 — AI가 마우스를 직접 움직인다
이번 GPT-5.4의 특징 중에서 가장 화제가 된 게 컴퓨터 직접 조작 기능입니다. AI가 화면을 보고 마우스를 클릭하거나 키보드를 입력하는 건데요. OSWorld라는 벤치마크에서 GPT-5.4가 75%를 기록했고, 인간 평균이 72.4%라 사실상 사람보다 잘한다는 결과가 나왔다고 합니다.
"엑셀 파일 열어서 데이터 정리해줘" 같은 걸 AI가 직접 프로그램을 켜서 처리하고 저장까지 해주는 수준이라고 해요. 아직 완벽하진 않다는 얘기도 있지만, 방향 자체가 꽤 달라진 거라는 반응이 많습니다.
글쓰기와 창작은 Claude가 위라는 평이 많다
코딩 외 영역에서는 얘기가 좀 다릅니다. 실제 사용자 선호도를 집계하는 챗봇 아레나 순위에서 Claude Opus 4.6이 글로벌 1위를 기록 중이고, GPT-5.4는 3위라고 합니다.
리포트 작성이나 긴 글 다듬기, 아이디어 구체화 같은 작업에서 Claude가 더 자연스럽다는 후기가 많고, "글의 결이 다르다"는 표현을 쓰는 사람들도 있더라고요.
가격 차이도 꽤 납니다
API 단가 기준으로 GPT-5.4가 Claude Opus 4.6보다 절반 정도 저렴합니다. 성능 차이가 크지 않은 작업에서는 GPT-5.4가 비용 면에서 확실히 유리하다는 얘기가 나오고 있어요.
다만 구독 서비스를 이용하면 조건이 달라지기도 해서, API를 자주 쓰는 개발자 기준의 얘기라고 보시면 됩니다.
정리하면
전반적으로 GPT-5.4는 가성비 좋은 올라운더, Claude Opus 4.6은 코딩 품질과 글쓰기에서 깊이 있는 결과물이 필요할 때 강점을 보인다는 평이 많습니다. 그래서인지 요즘은 "하나만 쓴다"보다 용도에 따라 번갈아 쓴다는 사람들이 늘고 있다고 하더라고요.
양쪽 다 무료 플랜이 있으니, 직접 써보고 본인 작업 스타일에 맞는 걸 찾는 게 가장 좋을 것 같습니다.