쌍둥이 자리: 혁신적인 기능과 모델의 개요

Gemini는 구글이 개발한 인공지능 기반의 챗봇 제품군입니다. 현재 Gemini는 시장 점유율 측면에서 모든 챗봇 중 3위이며, 그 뒤를 ChatGPT와 Microsoft Copilot가 따르고 있습니다. 동시에, 제미니는 경쟁사들보다 더 빠른 속도로 성장하고 있으며 꾸준히 인기를 얻고 있습니다: 신규 사용자 유입 측면에서 4위를 차지하고 있으며, 잘 알려진 챗봇 중에서는 클로드만이 더 빠른 속도로 성장하고 있습니다. 이 글에서는 제미니의 역사, 현재 모델, 그 특징과 한계에 대해 살펴보겠습니다.

구글 제미니의 간략한 역사

구글은 대규모 언어 모델 아키텍처의 선구자이며, 자체 인공지능 모델을 개발하기 위해 강력한 연구를 활용하고 있습니다.

2017년: 구글 연구원들이 오늘날의 많은 대규모 언어 모델의 기반이 되는 트랜스포머 아키텍처를 발표합니다.
2020년: 구글이 26억 개의 매개 변수를 가진 신경망 기반 챗봇인 미나(Meena)를 출시합니다. 당시 구글은 미나가 기존의 다른 모든 챗봇보다 우수하다고 주장했습니다.
2021년: 미나의 데이터와 컴퓨팅 성능이 향상되면서 이름이 라마다(LaMDA, Language Model for Dialogue Applications의 약자)로 변경됩니다.
2022년: LaMDA에 비해 더 발전된 기능을 갖춘 PaLM(Pathways Language Model)이라는 새로운 언어 모델이 출시됩니다.
2023년: 가볍고 최적화된 LaMDA 버전을 바탕으로 Google Bard라는 챗봇이 1분기에 출시됩니다. 그리고 2분기에는 코딩, 다국어 기능, 향상된 추론 기술이 개선된 PaLM 2가 도입되었고, Bard가 이를 채택했습니다. 마지막으로, 지난 분기에 구글은 제미니 1.0을 발표했습니다.
2024년: 구글은 바드를 제미니로 이름을 바꾸고, 다중 모드 인공지능 모델을 버전 1.5로 업그레이드합니다. 제미니 2.0 모델은 12월에 소개됩니다.

2024년 4월, 구글 딥마인드 CEO 데미스 하사비스는 시간이 지남에 따라 회사가 인공지능 기술 개발에 1,000억 달러 이상을 지출할 것이라고 말했습니다.

데미스 하사비스

Gemini의 특징

모든 챗봇은 한정된 기간 동안의 훈련 데이터만을 가지고 있기 때문에 최근의 사건에 대한 지식이 제한적입니다. 챗봇의 종료 날짜는 모델이 데이터에 대해 훈련되어 정보를 제공할 수 있는 시점을 의미합니다. 예를 들어, 챗봇의 종료 날짜가 2023년 10월이라면, 챗봇이 접근할 수 있는 모든 지식과 데이터는 그 날짜까지만 유효하다는 의미입니다. 해당 날짜 이후에 발생한 사건, 발전, 또는 변화는 챗봇의 답변에 반영되지 않습니다. 이 제한 사항은 특히 기술, 정치, 시사 등 빠르게 변화하는 분야에서 제공되는 정보의 정확성과 관련성에 영향을 미치기 때문에 사용자가 이해해야 하는 중요한 사항입니다. 그러나 Gemini는 Google 검색을 통해 온라인 검색 정보를 액세스하고 처리함으로써 이 제한 사항을 해결할 수 있으며, 이를 통해 보다 최신 답변을 제공할 수 있습니다.

따라서 사용자는 최신 업데이트나 통찰력을 얻으려면 더 최근의 출처에서 정보를 확인해야 할 수 있습니다. 때때로, 제미니는 응답 내용과 그 아래에 있는 출처와 관련 콘텐츠를 보여줍니다. 여기에는 더 깊이 파고들 수 있도록 유사한 정보와 링크가 있는 웹 출처가 포함됩니다. 제미니는 독창적인 콘텐츠를 생성하도록 설계되었지만, 웹 페이지에서 직접 인용하는 경우, 인용된 출처와 해당 페이지에 대한 링크가 있는 인용 부호를 볼 수 있습니다. 출처 및 관련 콘텐츠에는 Gemini가 인용한 웹사이트 또는 Gemini의 답변 내용과 관련된 웹사이트가 포함될 수 있습니다. Gemini의 답변에 웹에서 가져온 이미지의 축소판이 포함되어 있는 경우, 출처를 표시하고 해당 이미지에 직접 연결되는 링크를 제공합니다.

Gemini는 처음부터 멀티모달로 설계되었기 때문에 여러 데이터 유형에 대해 훈련을 받았으며, 이제는 다양한 유형의 콘텐츠와 원활하게 작동할 수 있습니다. 위 그림에서 볼 수 있듯이, 봇은 응답에 이미지를 포함할 수 있습니다. 제미니는 텍스트, 오디오, 비디오 조각, 필기 노트, 그래프, 다이어그램을 이해할 수 있고, 사진 속의 물체를 식별할 수 있으며, 그뿐만 아니라 구글의 가장 진보된 텍스트-이미지 모델인 Imagen 3를 사용하여 이미지를 생성할 수 있습니다.

또한 46개 언어로 제공되는 챗봇은 다양한 다국어 기능을 갖추고 있습니다.

현재 모델, 그 강점과 기능

Gemini는 특정 사용 사례에 최적화된 다양한 모델을 제공합니다. 여기에서 이용 가능한 변형에 대한 간략한 개요를 확인할 수 있습니다.

모델	입력	산출물	설명
Gemini 2.0 Flash	오디오, 이미지, 비디오, 텍스트	텍스트, 이미지(곧 제공 예정), 오디오(곧 제공 예정)	다양한 작업을 위한 차세대 기능, 속도, 멀티모달 생성
Gemini 2.0 Flash Thinking	텍스트, 이미지	텍스트	과학 및 수학에 탁월한 향상된 추론 모델
Gemini 1.5 Flash	오디오, 이미지, 비디오, 텍스트	텍스트	다양한 작업에 걸쳐 빠르고 다양한 성능
Gemini 1.5 Flash-8B	오디오, 이미지, 비디오, 텍스트	텍스트	양은 많고 지능은 낮은 작업
Gemini 1.5 Pro	오디오, 이미지, 비디오, 텍스트	텍스트	더 많은 지능을 필요로 하는 복잡한 추론 작업

Gemini 1.5 Flash는 1백만 토큰의 컨텍스트 창을, Gemini 1.5 Pro는 2백만 토큰의 컨텍스트 창을 제공합니다. 이는 대규모 언어 모델 중 가장 긴 창입니다.

토큰 1개는 제미니 모델의 경우 약 4자 분량에 해당합니다. 토큰 100개는 약 60-80개의 영어 단어에 해당합니다.

실제로 1백만 개의 토큰은 다음과 같이 보일 것입니다.

50,000줄의 코드(줄당 80자 기준).
평균 길이 200분 이상의 팟캐스트 에피소드 스크립트.
평균 길이 8권의 영어 소설.
지난 5년 동안 보낸 모든 문자 메시지.

Gemini 1.5 Flash and Flash-8B
입력 토큰 제한	1,048,576
출력 토큰 제한	8,192
이미지 최대 개수	3,600
최대 비디오 길이	한 시간
최대 오디오 길이	약 9시간 30분

Gemini 1.5 Pro는 다양한 양식에서 긴 문맥 검색 작업에 대한 거의 완벽한 리콜을 달성하여, 긴 문서, 수천 줄의 코드, 몇 시간 분량의 오디오, 비디오 등을 정확하게 처리할 수 있는 능력을 제공합니다.

Gemini 1.5 Pro
입력 토큰 제한	2,097,152
출력 토큰 제한	8,192
이미지 최대 개수	7,200
최대 비디오 길이	2시간
최대 오디오 길이	약 19시간

각 이미지는 258 토큰에 해당합니다. 지원되는 이미지 유형:

PNG
WEBP
JPEG
HEIC
HEIF

이미지의 픽셀 수에는 특별한 제한이 없지만, 모델의 컨텍스트 창을 제외하고는, 큰 이미지는 원래의 가로 세로 비율을 유지하면서 최대 해상도 3072x3072로 축소되고, 작은 이미지는 768x768 픽셀로 확대됩니다.

비전 기능:

이미지에 대한 캡션과 질문에 답변합니다.
최대 2백만 토큰의 문맥 창을 포함한 긴 문서를 포함한 PDF를 전사하고 분석합니다.
최대 90분 길이의 시각적 프레임과 오디오를 포함한 비디오에서 정보를 설명, 분할, 추출합니다.

Gemini는 모든 필기 내용을 정확하게 인식하고 추론을 검증할 수 있습니다.

Gemini의 오디오 기능:

오디오 콘텐츠에 대한 설명, 요약, 또는 질문에 대한 답변.
오디오의 텍스트 변환본 제공.
오디오의 특정 부분에 대한 답변 또는 텍스트 변환본 제공.

지원되는 오디오 형식:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

오디오의 1초는 25 토큰에 해당합니다. 예를 들어, 오디오 1분은 1,500 토큰으로 표시됩니다.

Gemini 2.0 Flash
입력 토큰 제한	1,048,576
출력 토큰 제한	8,192

Gemini 2.0 Flash 는 Gemini 제품군 중 가장 강력하고 다재다능한 모델입니다. 이 모델은 기본적으로 이미지를 생성하고 음성을 생성할 수 있으며, 성능 면에서 거의 모든 주요 벤치마크에서 다른 모델들을 능가합니다. 직접 확인해 보세요.

능력	기준	설명	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
일반	MMLU-Pro	기계 학습 모델이 자연어를 얼마나 잘 이해하는지 평가합니다	67.3%	75.8%	76.4%
코드	Natural2Code	Python, Java, C++, JS, Go를 통한 코드 생성	79.8%	85.4%	92.9%
코드	Bird-SQL (Dev)	자연어 질문을 실행 가능한 SQL로 변환하는 것을 평가합니다	45.6%	54.4%	56.9%
사실성	FACTS Grounding	사실에 입각한 올바른 답변을 제공하는 능력, 문서 및 다양한 사용자 요청에 대한 응답	82.9%	80.0%	83.6%
수학	MATH	수학 문제 풀기(대수, 기하, 미적분 등 포함)	77.9%	86.5%	89.7%
수학	HiddenMath	경쟁 수준의 수학 문제	47.2%	52.0%	63.0%
추론	GPQA (diamond)	생물학, 물리학, 화학 분야의 전문가들이 작성한 도전적인 질문 모음	51.0%	59.1%	62.1%
이미지	MMMU	다학제 대학 수준의 다중 모드 이해 및 추론 문제	62.3%	65.9%	70.7%
오디오	CoVoST2 (21 lang)	자동 음성 번역	37.4	40.1	39.2
비디오	EgoSchema (test)	영상 분석	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking 은 속도와 성능을 결합하여 수학 및 과학 분야의 복잡한 문제를 해결하는 데 탁월한 전문성을 보여줍니다. 백만 개의 토큰 컨텍스트 창을 통해 긴 텍스트를 더 깊이 분석할 수 있습니다. 향상된 사고는 생각과 답변 간의 일관성을 높여줍니다.

Gemini 2.0 Flash Thinking
입력 토큰 제한	1,048,576
출력 토큰 제한	65,536

엄청나게 큰 출력 토큰 창을 주목해 주세요. 이 창을 통해 모델은 긴 요청을 처리할 수 있을 뿐 아니라, 예를 들어, 대량의 코드를 생성하는 데 유용할 수 있는 광범위한 응답을 제공할 수 있습니다.

Gemini 2.0 Flash Thinking이 수학, 과학, 다중 모드 추론에서 Gemini 1.5 Pro와 Gemini 2.0을 어떻게 능가하는지 확인해 보세요. 일반적으로 이 두 모델만큼 다재다능하지는 않지만, 이러한 특정 영역에서는 Gemini 2.0 Flash Thinking이 타의 추종을 불허합니다.

수학, 과학, 추론

수학, 과학

비판

제미니 챗봇은 2023년에 출시된 이후로 시작이 순탄치 않았습니다. 개발자들이 ChatGPT에 대항할 수 있는 경쟁자를 출시하기 위해 너무 서두르다 보니, 출시된 버전의 챗봇에 버그가 가득했습니다. 사용자들은 봇의 답변에 사실 오류와 부정확성이 많다고 불평했습니다.

가장 주목을 받은 것은 이미지 생성 논란이었습니다. 제미니는 부적절한 경우에도 인종적 다양성을 최대한 표현하려고 했습니다. 챗봇에 따르면, 1943년 독일군의 모습은 다음과 같았습니다.

그리고 1800년대 미국 상원의원들의 모습은 다음과 같습니다:

사용자들의 불만으로 인해 회사의 주가가 4.5% 하락했는데, 이는 약 9천만 달러의 손실에 해당합니다. 개발자들은 또한 사람들의 이미지를 생성하는 기능을 일시적으로 차단해야 했습니다.

이미지 생성 논란에 이어 일부 사용자는 Gemini의 텍스트 응답이 좌파에 편향되어 있다고 비난하기 시작했습니다. 한 예로 Gemini는 엘론 머스크와 나치 독재자 아돌프 히틀러 중 어느 쪽이 사회에 더 부정적인 영향을 미쳤는지 “확실히 말하기 어렵다”고 말했습니다. 또한 다른 사용자들에 따르면, 제미니는 좌파 성향의 정치인들과 양성평등, 낙태권리 같은 이슈를 지지하는 반면, 우파 인사, 육식, 화석연료에 대해서는 지지하지 않는 것으로 나타났습니다.

그러나 이러한 어려움은 대부분 과거의 일이라고 할 수 있습니다. 현재 제미니는 아무런 문제 없이 세계에서 가장 성공적이고 인기 있는 챗봇 중 하나입니다.