OpenAI o1이란 무엇이며 이 모델이 GPT-4o보다 나은 점

2024년 9월 12일, ChatGPT로 유명한 OpenAI는 새로운 인공 지능 모델 시리즈인 OpenAI o1을 출시했습니다. 이 기사에서는 OpenAI o1이 GPT-4o와 어떻게 다른지, 그 강점은 무엇이며 어떤 분야에서 사용할 수 있는지 분석해 보겠습니다.

OpenAI o1이란 무엇인가요?

정확성과 논리적 사고가 필요한 복잡하거나 특히 어려운 작업을 해결하기 위해 설계된 새로운 챗봇 제품군 또는 더 정확하게는 인공 지능 기반 언어 모델입니다.

현재 o1 제품군에는 다음이 포함됩니다:

o1-preview - 기본 모델('미리보기'라는 단어에서 알 수 있듯이 아직 초기 버전),
o1-mini - 특히 코딩에 효과적인 더 가볍고 빠른 모델입니다.

“o1"이라는 이름 자체에 상징성이 있습니다:

그러나 복잡한 추론 작업의 경우 이는 상당한 진전이며 새로운 수준의 인공 지능 기능을 나타냅니다. 이를 고려하여 카운터를 다시 1로 재설정하고 이 시리즈의 이름을 OpenAI o1로 명명합니다.

GPT-4o와의 차이점

OpenAI o1은 GPT-4o의 대안이지만 직접 대체하지는 않습니다. 그렇지 않으면 이 모델을 단순히 GPT-5라고 부릅니다.

비교적 개발 초기 단계에 있는 OpenAI o1은 아직 GPT-4o가 할 수 있는 많은 작업을 수행할 수 없습니다. 예를 들어, 파일 및 이미지 업로드를 지원하지 않습니다.

그러나 o1 모델은 응답의 정확성, 추론의 일관성 및 논리성이 뛰어나 다음과 같은 분야에 성공적으로 적용될 수 있습니다:

양자 물리학,
유전학
의학
소프트웨어 개발.

OpenAI o1은 단순히 질문에 대한 답을 생성하는 것이 아니라 추론의 사슬을 구축합니다. 이 때문에 다른 챗봇보다 응답하는 데 일반적으로 5~10초, 경우에 따라 최대 20~30초가 더 오래 걸릴 수 있습니다. 이는 큰 불편을 초래할 정도로 길지는 않습니다. 응답에 대한 신중한 고려 덕분에 OpenAI o1 모델은 경쟁사에 비해 환각 현상이 덜 발생합니다. 환각이란 챗봇이 허무맹랑한 사실을 지어내어 잘못된 정보를 제공하는 것을 말합니다.

OpenAI o1의 강점 및 평가

위에서 우리는 이미 응답의 정확성과 환각에 대한 약한 감수성 등 OpenAI o1의 강점에 대해 언급했습니다. 이제 이 모든 것이 수치로 어떻게 변환되는지, 즉 다양한 테스트에서 o1 모델이 어떤 점수를 받았는지 살펴 보겠습니다.

OpenAI o1은 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위수에 속하고, 미국 수학 올림피아드(AIME) 예선에서 미국 내 상위 500명 안에 들었으며, 물리학, 생물학, 화학 문제(GPQA) 벤치마크에서 인간 박사급 정확도를 뛰어넘는 결과를 얻었습니다.

왼쪽에서 오른쪽으로: 대회 수학, 대회 코드, 박사급 과학 문제

2024년 AIME 시험에서 GPT-4o는 13%의 문제만 정답을 맞힌 반면, o1은 83%를 득점했습니다.

물리학, 생물학, 화학 분야의 박사급 과학 문제가 포함된 GPQA 다이아몬드 테스트에서 o1 모델은 인간 전문가보다 더 나은 성적을 거두었습니다. 이전에는 이 테스트에서 인공지능이 인간을 뛰어넘지 못했습니다.

청록색: GPT-4o, 빨간색: o1

위의 이미지는 수학에서 영문학에 이르기까지 다양한 분야에서 o1의 우수성을 보여줍니다. MMLU 시험은 57개 영역으로 구성되어 있습니다. o1 모델은 그 중 54개 부문에서 우승했습니다. 그 중 7개만 그림에 들어갑니다:

글로벌 팩트
대학 화학
대학 수학
전문 법률
홍보학
계량경제학
형식 논리

흥미롭게도 Codeforces와 HumanEval 벤치마크에서 알 수 있듯이, o1-mini는 o1-preview보다 코딩 성능이 더 뛰어납니다:

코딩 숙련도 벤치마크

시험 및 학업 벤치마크 외에도 OpenAI는 o1-preview와 GPT-4o in에 대한 인간의 선호도도 평가했습니다:

개인 작문
텍스트 편집
컴퓨터 프로그래밍
데이터 분석
수학적 계산

이 평가에서 인간 트레이너는 o1-preview와 GPT-4o의 익명화된 답변을 보고 어떤 답변을 선호하는지 투표했습니다.

O1-프리뷰 승률 대 GPT-4o(%)

데이터 분석, 코딩, 수학 등 추론이 많이 필요한 카테고리에서는 o1-preview가 GPT-4o보다 큰 차이로 선호됩니다. 그러나 텍스트 작성 및 편집과 같은 일부 자연어 작업에서는 o1-preview가 선호되지 않는 것으로 나타나, o1-preview 모델이 모든 사용 사례에 적합하지 않다는 것을 알 수 있습니다.

OpenAI o1과 다른 대규모 언어 모델 비교

OpenAI o1-preview는 정말 똑똑합니다. 얼마나 똑똑할까요? 노르웨이 멘사 테스트에 따르면 IQ가 120으로 다른 테스트 언어 모델보다 훨씬 높습니다. 그래프의 정점은 인간의 평균 IQ를 나타냅니다. 정점 왼쪽의 모든 항목은 평균 이하이고 오른쪽의 모든 항목은 평균 이상입니다.

OpenAI o1은 주요 벤치마크와 자체 테스트에서 모두 경쟁사를 압도했습니다.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

이러한 테스트를 이해할 필요도 없습니다. 상단의 OpenAI o1만 확인하면 됩니다.

생각의 연쇄

o1 시리즈의 모델은 추론하도록 훈련되어 생각의 사슬을 구축합니다. 따라서 챗봇은 기성품 답변을 제공할 뿐만 아니라 그 답변에 도달하기까지 걸었던 경로도 보여줍니다. 이 경로를 따라가는 것은 매우 흥미로울 수 있습니다.

앞서 언급한 IQ 테스트의 어려운 문제 중 하나를 살펴봅시다.

봇은 옵션 D를 답으로 선택했으며, 이에 대한 설명은 다음과 같습니다:

옵션 D - 그리드의 패턴을 분석하면 각 열이 특정 구성 요소를 결합하여 세 번째 행까지 모든 요소(V, 거꾸로 된 V, 직사각형 변)를 포함한다는 것을 알 수 있습니다. 세 번째 열에는 왼쪽과 오른쪽(직사각형의 변)의 구성 요소가 아직 나타나지 않았습니다. 따라서 빈 칸의 정답은 일반 'V'와 직사각형의 두 변을 포함하여 해당 열의 구성 요소 집합을 완성하는 옵션 D입니다.

이제 더 간단한 퍼즐(IQ 테스트가 아닌)을 살펴봅시다:

질문: 스미스 부부와 두 자녀는 전형적인 미국인 가족입니다. 수다스러운 이웃 중 한 명에 따르면 조지와 도로시는 혈육이라고 합니다: 조지와 도로시는 혈육입니다. 하워드는 조지보다 나이가 많습니다. 버지니아는 하워드보다 어리다. 버지니아가 도로시보다 나이가 많다. 이 진술 중 두 개만 사실이라면, 각 가족 구성원의 이름은 무엇입니까?

생각의 연쇄: 이 퍼즐을 풀려면 주어진 진술과 정확히 두 진술이 참이라는 조건에 따라 각 가족 구성원의 이름을 결정해야 합니다. 정보를 단계별로 분석해 보겠습니다.

이제 모델은 가족 구성원, 가능한 역할 및 이름을 나열하고, 진술을 분석하여 어떤 것이 참이고 어떤 것이 거짓인지 알아냅니다. 그런 다음 이 모든 것을 바탕으로 모델이 최종 답변을 제공합니다.

정답: 스미스 씨는 조지, 스미스 부인은 버지니아, 아들은 하워드, 딸은 도로시입니다.

결론

o1-프리뷰 모델은 복잡한 과학 및 수학 문제를 푸는 데 필요한 논리적 추론이 가능합니다. o1-mini 모델은 코드 작성에 뛰어납니다. 그러나 두 OpenAI o1 모델은 모두 다소 전문화된 도구로, GPT-4o만큼 다용도로 활용되지 않으며 텍스트 작업, 문학 번역, 편집 등 일상적이거나 창의적인 작업에는 적합하지 않습니다. 그러나 해당 분야(수학, 자연과학 및 정밀 과학)에서는 OpenAI o1 모델이 타의 추종을 불허합니다.