techcrunch 통신에 따르면 OpenAI가 새로운 인공지능 모델 제품군인 GPT-4.1을 공개했다. 이번에 발표된 GPT-4.1은 기존 GPT-4o의 성능을 한층 개선한 모델로, 코딩 및 명령 수행 능력에 탁월한 성능을 발휘한다고 OpenAI는 설명했다.
이번 발표에는 GPT-4.1 mini와 GPT-4.1 nano도 포함되어 있으며, 이들 모델은 처리 속도가 빠르고 비용 효율적이라는 장점이 있다. 특히 GPT-4.1은 100만 개의 토큰 컨텍스트 창을 지원해, 한 번에 약 75만 단어를 입력할 수 있어 기술 문서 전체나 장편 소설도 다룰 수 있을 만큼의 처리 능력을 보여준다.
OpenAI는 이 모델이 구글의 Gemini 2.5 Pro, 앤트로픽의 Claude 3.7 Sonnet, 중국 DeepSeek의 최신 AI 모델과 경쟁할 수 있는 성능을 보유했다고 밝혔다. 실제로 SWE-bench Verified 코딩 벤치마크에서 GPT-4.1은 52%~54.6%의 정확도를 기록했다. 이는 경쟁 모델보다 다소 낮은 수치이지만, OpenAI는 실사용 최적화에 초점을 맞춘 결과라고 강조했다.

OpenAI 측은 “프론트엔드 코딩, 편집 최소화, 형식 일관성 유지 등 실질적인 개발자가 겪는 문제에 대한 해결 능력이 향상되었다”며 “GPT-4.1은 에이전트형 소프트웨어 엔지니어 개발의 초석”이라고 밝혔다.OpenAI는 GPT-4.1의 성능이 입력 토큰 양이 많아질수록 감소할 수 있음을 인정했다. 8,000개의 토큰 입력 시 84%의 정확도를 기록하던 것이, 100만 토큰 입력 시에는 50%로 낮아졌다고 밝혔다. 또한 GPT-4.1은 기존 모델보다 더 문자 그대로 해석하는 경향이 있어, 보다 명시적이고 구체적인 프롬프트가 필요하다는 점도 언급했다.
한편, GPT-4.1은 Video-MME 테스트에서도 ‘자막 없는 긴 영상 이해’ 분야에서 72%의 정확도를 기록하며, 멀티모달 능력 역시 인정받았다.
OpenAI는 “미래의 모델은 전체 앱을 종단 간 설계하고, QA 테스트와 문서 작성까지 처리할 수 있을 것”이라며 AI 기술이 단순한 도우미에서 ‘진짜 개발자’로 진화하고 있다고 강조했다.