AI가 드디어 사람보다 컴퓨터를 잘 쓰기 시작했습니다 — GPT-5.4 이야기
"AI가 내 일자리를 뺏는다"는 말, 몇 년째 들어왔지만 실감하기 어려우셨을 겁니다. 그런데 올해 3월, 그 이야기를 숫자로 뒷받침하는 결과가 나왔습니다. 오픈AI가 공개한 최신 모델 GPT-5.4가 처음으로 컴퓨터 작업 능력에서 인간 전문가를 앞질렀다는 평가가 나온 것입니다.
### 어떤 테스트에서 이긴 걸까요?
'OSWorld'라는 벤치마크가 있습니다. 간단히 말하면 AI에게 실제 컴퓨터 화면을 보여주고, 사람처럼 마우스와 키보드를 사용해 주어진 작업을 완료하도록 하는 테스트입니다. 파일을 특정 폴더로 정리하거나, 브라우저에서 원하는 정보를 찾아 양식을 채우거나, 소프트웨어 설정을 변경하는 것처럼 우리가 매일 하는 업무들로 구성되어 있습니다.
이 테스트에서 전문 인간 테스터들의 평균 점수는 72.4점이었습니다. GPT-5.4가 받은 점수는 75점. 처음으로 AI가 사람보다 높은 점수를 받은 것입니다. 이 기준을 넘어선 범용 AI 모델은 GPT-5.4가 최초라고 알려져 있습니다.
### 얼마나 빠르게 발전한 걸까요?
더 놀라운 건 발전 속도입니다. 바로 이전 모델인 GPT-5.2가 같은 테스트에서 기록한 점수는 47점대였습니다. 불과 한 세대 만에 약 28점이 뛰어오른 셈입니다. 그 기간이 채 4개월도 되지 않는다는 점에서, 업계에서는 이 추세가 이어진다면 1~2년 안에 80~90점대 진입도 가능하다는 전망도 나오고 있습니다.
### 실제로 어떤 일을 할 수 있다는 건가요?
GPT-5.4의 컴퓨터 활용 능력은 단순히 질문에 답하는 것과 차원이 다릅니다. 화면을 직접 '보고', 클릭하고, 입력하고, 결과를 확인하는 일련의 과정을 스스로 처리할 수 있습니다. 예를 들면 이런 식입니다.
회사 내부 시스템에 접속해서 데이터를 추출하고, 그 내용을 정해진 양식에 자동으로 입력한 뒤, 결과 파일을 지정 폴더에 저장하는 작업. 이런 반복적인 사무 업무들을 사람의 개입 없이 수행하는 것이 기술적으로 가능해진 단계에 진입했다는 게 이번 결과가 주는 의미입니다.
또한 GPT-5.4는 한 번에 처리할 수 있는 문서의 양도 대폭 늘어났습니다. 이전 모델 대비 두 배 수준인 약 100만 토큰의 문맥을 한 번에 다룰 수 있어서, 방대한 문서나 코드베이스 전체를 한꺼번에 읽고 작업하는 것도 가능하다고 합니다.
### 그렇다면 사람은 이제 필요 없는 걸까요?
그렇게 단정 짓기엔 이릅니다. 현재 수준에서 이 기술이 가장 잘 작동하는 영역은 **규칙이 명확하고 반복적인 작업**에 한정되는 경향이 있습니다. 내부 시스템처럼 AI가 학습하지 않은 인터페이스나, 예외 상황이 빈번한 업무에서는 아직 사람의 판단이 필요한 순간들이 적지 않다는 현장의 평가도 함께 나오고 있습니다.
다만, 이번 GPT-5.4의 결과가 중요한 이유는 단순히 점수 하나 때문이 아닙니다. "AI가 컴퓨터를 얼마나 잘 쓰는가"라는 기준에서 처음으로 인간 전문가 수준을 넘어섰다는 사실 자체가, AI를 단순한 대화 도구가 아닌 실제 업무 수행자로 보는 시각 전환의 신호탄이 될 수 있기 때문입니다.
앞으로 이 기술이 어디까지 발전할지, 그리고 실제 업무 환경에서 어떤 방식으로 도입될지가 올해 하반기의 가장 주목할 만한 흐름 중 하나가 될 것 같습니다.