GPT-3.5, GPT-4: 차이점 알아보기
ChatGPT는 OpenAI에서 개발한 챗봇 애플리케이션입니다. 다양한 버전의 GPT(예: GPT-3.5 및 GPT-4)는 챗봇의 '두뇌'로서 ChatGPT가 사람과 같은 방식으로 텍스트를 인식, 이해 및 생성할 수 있도록 하는 인공 지능입니다.
GPT-3.5
GPT-3.5는 생성형 사전 학습 트랜스포머의 3번째 반복의 하위 클래스입니다. 방대한 양의 텍스트 데이터를 학습하여 자연어(한국어, 영어, 스페인어, 프랑스어 등)를 이해하고 응답하는 트랜스포머 아키텍처에 기반한 대규모 언어 모델입니다. 이를 자연어 처리라고 합니다. 트랜스포머 아키텍처는 기존의 반복신경망 아키텍처보다 더 발전된 형태입니다. 간단히 말해, 언어 모델이 텍스트를 더 잘 이해하고 파악할 수 있도록 도와줍니다.
트랜스포머는 문맥을 더 잘 이해하고, 문장 및 단락에서 단어 간의 연결을 인식하며, 텍스트 내의 핵심 아이디어를 강조할 수 있습니다.
GPT-3.5에는 1,750억 개의 학습 매개변수가 있습니다. 당시에는 다른 대규모 언어 모델 중 가장 많은 수였습니다. 이러한 매개변수는 신경 연결과 같아서 많을수록 좋습니다. 가장 놀라운 점은 매개변수의 수가 증가하면 어느 순간 모델이 한 언어에서 다른 언어로 번역하거나 논리 및 수학적 문제를 푸는 등 아무도 특별히 훈련시키지 않은 영역에서도 전문가가 된다는 것입니다.
GPT-3.5와의 상호 작용을 더욱 자연스럽고 안전하게 만들기 위해 사람의 피드백을 통한 강화 학습이라는 기법이 적용되었는데, 사람의 입력을 활용하여 머신러닝 알고리즘을 개선하는 방식입니다.
ChatGPT-4와 ChatGPT-3.5와의 차이점
GPT-4에는 100조 개의 파라미터가 있습니다!
새 모델은 몇 배 더 발전했습니다. 눈에 띄는 중요한 차이점 중 하나는 GPT-4가 이미지를 인식하는 방법을 학습했다는 점입니다. 다음은 이 제품이 할 수 있는 일입니다:
- 사진에 무엇이 있는지 설명합니다,
- 시각적 농담을 설명합니다,
- 사진에 대한 캡션을 생각해냅니다,
- 사진 속 음식에 기반한 레시피를 제안합니다,
- 그래프, 차트 및 필기 텍스트를 이해합니다.
예를 들어, 손으로 그린 템플릿을 기반으로 GPT-4는 생성하려는 웹 페이지의 코드를 작성할 수 있습니다.
또한 GPT-4는 문맥을 더 잘 이해할 수 있도록 많은 양의 텍스트를 암기하고 40% 더 정확한 답변을 제공하는 등 텍스트 정보 처리 능력이 이전 버전보다 향상되었습니다. GPT-4는 한 번의 프롬프트에서 300페이지(128,000토큰)에 해당하는 텍스트를 처리할 수 있는 반면, GPT-3.5는 14페이지(16,000토큰) 정도만 처리할 수 있습니다.
GPT-4는 변호사 시험을 통과하여 상위 10%에 들 정도로 똑똑합니다(GPT-3.5는 결국 인간보다 약 17% 뒤처졌습니다). 많은 테스트에서 이 모델은 인간보다 더 뛰어난 성능을 보였습니다. 특히 수학, 물리학, 화학 시험에서 GPT-4는 응시자의 88%를 능가했습니다.
GPT-3.5 | GPT-4 | |
최초 출시일 | 2022년 3월 15일 | 2023년 3월 14일 |
세계 이벤트에 대한 지식 | 2021년 9월까지 | 2023년 4월까지 |
파라미터 | 175억 | 100조 |
입력 | 텍스트 전용 | 텍스트 및 이미지 |
컨텍스트 창 | 16,000 토큰* | 128,000 토큰* |
사실 응답 | 간헐적인 오류 | 40% 더 정확한 |
*1000토큰은 약 750단어
GPT-4는 작곡, 대본 작성, 기술 문서 작성, 언어 번역 등 다양한 영역에서 GPT-3.5보다 뛰어난 성능을 발휘합니다.
GPT-4 비판
GPT-4는 결코 완벽하지 않습니다. 신경망은 매일 더 좋아지고 있는 것처럼 보이지만, 2023년 6월 스탠포드에서 실시한 연구에 따르면 3월 이후 GPT-4 결과가 악화되었다는 결과가 나왔습니다.
2023년 3월과 6월에 GPT-4와 GPT-3.5를 테스트합니다.
이 모델은 수학 문제 해결과 코드 생성에서 상당한 성능 저하를 보였습니다:
- 예를 들어, 숫자 17077이 소수인지 판단하는 데 어려움을 겪었습니다,
- 그리고 LeetCode에서 쉬운 것으로 분류된 작업에서 작업 코드를 작성할 수 있는 시간은 10%에 불과했습니다.
동시에 GPT-4는 시각적 추론과 민감한 질문(답변이 해를 끼치거나 법을 위반할 수 있는 경우)에 대한 답변이 개선된 것으로 나타났습니다.
이 연구에 대한 비평가들은 방법론의 오류 가능성을 지적하고 그 결과로 나타나는 역학 관계를 기능 저하가 아닌 행동 변화로 보아야 한다고 지적했습니다.