Gemini: Yenilikçi Özelliklerine ve Modellerine Genel Bir Bakış

Gemini, Google tarafından geliştirilen yapay zekaya dayalı bir chatbot ailesidir. Şu anda Gemini, pazar payı açısından tüm sohbet botları arasında ChatGPT ve Microsoft Copilot'un ardından üçüncü sırada yer almaktadır. Aynı zamanda, Gemini rakiplerinden daha hızlı büyümeye devam ediyor ve istikrarlı bir şekilde popülerlik kazanıyor: yeni kullanıcı girişi açısından 4. sırada yer alıyor ve tanınmış sohbet botları arasında sadece Claude daha hızlı büyüyor. Bu yazıda Gemini'nin tarihçesine, mevcut modellerine, özelliklerine ve sınırlamalarına bakacağız.

Google Gemini'nin kısa tarihçesi

Google, büyük dil modelleri mimarisinde öncü olmuştur ve kendi yapay zeka modellerini geliştirmek için sağlam araştırmalarından yararlanmaktadır.

2017: Google araştırmacıları, günümüzün büyük dil modellerinin çoğunun temelini oluşturan transformatör mimarisini sunuyor.
2020: Şirket, 2,6 milyar parametreye sahip sinir ağı tabanlı bir sohbet robotu olan ve Google'ın o sırada mevcut olan diğer tüm sohbet robotlarından daha üstün olduğunu iddia ettiği Meena'yı tanıttı.
2021: Meena'nın veri ve hesaplama gücü arttıkça adı LaMDA (Diyalog Uygulamaları için Dil Modeli'nin kısaltması) olarak değiştirildi.
2022: LaMDA'ya kıyasla daha gelişmiş yeteneklere sahip PaLM (Pathways Language Model) adlı yeni bir dil modeli piyasaya sürüldü.
2023: Yılın ilk çeyreğinde LaMDA'nın hafif ve optimize edilmiş bir versiyonuyla desteklenen Google Bard adlı bir chatbot piyasaya sürüldü. Ardından, ikinci çeyrekte, gelişmiş kodlama, çok dilli yetenekler ve gelişmiş muhakeme becerileri içeren PaLM 2'yi tanıttılar ve Bard daha sonra bunu benimsedi. Son olarak, son çeyrekte Google Gemini 1.0'ı duyurdu.
2024: Google, Bard'ın adını Gemini olarak değiştirdi ve çok modlu yapay zeka modellerini 1.5 sürümüne yükseltti. Gemini 2.0 modelleri Aralık ayında tanıtıldı.

Nisan 2024'te Google DeepMind CEO'su Demis Hassabis, şirketin zaman içinde yapay zeka teknolojisi geliştirmek için 100 milyar dolardan fazla harcayacağını söyledi.

Demis Hassabis

Gemini'nin ayırt edici özellikleri

Her sohbet robotunun son olaylar hakkında sınırlı bilgisi vardır çünkü eğitim verileri yalnızca sınırlı bir zaman dilimini kapsar. Sohbet robotları bağlamında bir son tarih, modelin veriler üzerinde eğitildiği ve bilgi sağlayabileceği zaman noktasını ifade eder. Örneğin, bir chatbotun son tarihi Ekim 2023 ise, erişebildiği tüm bilgi ve verilerin yalnızca bu tarihe kadar geçerli olduğu anlamına gelir. Bu tarihten sonra meydana gelen herhangi bir olay, gelişme veya değişiklik chatbot'un yanıtlarına yansıtılmayacaktır. Bu sınırlama, özellikle teknoloji, politika veya güncel olaylar gibi hızlı değişen alanlarda sağlanan bilgilerin doğruluğunu ve alaka düzeyini etkilediği için kullanıcıların anlaması açısından önemlidir. Bununla birlikte, Gemini, Google Arama aracılığıyla çevrimiçi aramalardan gelen bilgilere erişerek ve bunları işleyerek daha güncel yanıtlar sağlayarak bu sınırlamayı aşabilir.

Sonuç olarak, kullanıcılar en son güncellemeleri veya içgörüleri arıyorlarsa, bilgileri daha yeni kaynaklardan doğrulamaları gerekebilir. Gemini bazen size yanıtının içinde ve altında kaynakları ve ilgili içeriği gösterir. Bunlar, benzer bilgilere sahip web kaynaklarını ve daha derine inmeniz için bağlantıları içerir. Gemini orijinal içerik üretmek üzere tasarlanmıştır, ancak bir web sayfasından doğrudan uzun bir alıntı yaparsa, alıntı yapılan kaynakla birlikte bir tırnak işareti ve o sayfaya bir bağlantı görürsünüz. Kaynaklar ve ilgili içerik, Gemini'nin alıntı yaptığı veya yanıtının bazı bölümleriyle ilgili web sitelerini içerebilir. Gemini'nin yanıtı web'den bir görüntünün küçük resmini içeriyorsa, kaynağı gösterecek ve doğrudan ona bir bağlantı sağlayacaktır.

Gemini New York'un fotoğraflarını gösteriyor

Gemini en başından itibaren çok modlu olarak tasarlandı, yani birden fazla veri türü üzerinde eğitildi ve şimdi farklı içerik türleriyle sorunsuz bir şekilde çalışabiliyor. Yukarıdaki resimde de görebileceğiniz gibi, bot yanıtlarına görüntüleri de dahil edebiliyor. Gemini metin, ses, video parçaları, el yazısı notlar, grafikler, diyagramları anlayabilir, fotoğraflardaki nesneleri tanımlayabilir ve bunun da ötesinde Google'ın en gelişmiş metinden görüntüye modeli olan Imagen 3'ü kullanarak görüntüler oluşturabilir.

Sohbet robotu ayrıca 46 farklı dilde kullanılabildiği için geniş çok dilli yeteneklere sahiptir.

Mevcut modeller, güçlü yönleri ve yetenekleri

Gemini, belirli kullanım durumları için optimize edilmiş farklı modeller sunar. İşte mevcut varyantlara kısa bir genel bakış:

Model	Giriş	Çıktı	Açıklama
Gemini 2.0 Flash	Ses, görüntü, video ve metin	Metin, resim (çok yakında) ve ses (çok yakında)	Çok çeşitli görevler için yeni nesil özellikler, hız ve çok modlu üretim
Gemini 2.0 Flash Thinking	Metin, resimler	Metin	Fen ve matematikte üstünlük sağlayan gelişmiş muhakeme modeli
Gemini 1.5 Flash	Ses, görüntü, video ve metin	Metin	Çok çeşitli görevlerde hızlı ve çok yönlü performans
Gemini 1.5 Flash-8B	Ses, görüntü, video ve metin	Metin	Yüksek hacimli ve düşük istihbarat gerektiren görevler
Gemini 1.5 Pro	Ses, görüntü, video ve metin	Metin	Daha fazla zeka gerektiren karmaşık muhakeme görevleri

Gemini 1.5 Flash 1 milyon token'lık bir bağlam penceresi ile gelir ve Gemini 1.5 Pro 2 milyon token'lık bir bağlam penceresi ile gelir, bu da herhangi bir büyük dil modelinin en uzunudur.

Bir token Gemini modelleri için yaklaşık 4 karaktere eşdeğerdir. 100 token yaklaşık 60-80 İngilizce kelimedir.

Pratikte, 1 milyon token şöyle görünür:

50.000 satır kod (satır başına standart 80 karakter ile).
Ortalama uzunlukta 200'den fazla podcast bölümünün transkripti.
8 ortalama uzunlukta İngilizce roman.
Son 5 yıl içinde gönderdiğiniz tüm kısa mesajlar.

Gemini 1.5 Flash and Flash-8B
Giriş token sınırı	1,048,576
Çıkış token limiti	8,192
Maksimum görüntü sayısı	3,600
Maksimum video uzunluğu	1 saat
Maksimum ses uzunluğu	Yaklaşık 9,5 saat

Gemini 1.5 Pro, uzun belgeleri, binlerce kod satırını, saatlerce ses, video ve daha fazlasını doğru bir şekilde işleme yeteneğinin kilidini açarak, modaliteler arasında uzun bağlamlı geri çağırma görevlerinde mükemmele yakın geri çağırma elde eder.

Gemini 1.5 Pro
Giriş token sınırı	2,097,152
Çıkış token limiti	8,192
Maksimum görüntü sayısı	7,200
Maksimum video uzunluğu	2 saat
Maksimum ses uzunluğu	Yaklaşık 19 saat

Her görüntü 258 token'a eşdeğerdir. Desteklenen görüntü türleri:

PNG
WEBP
JPEG
HEIC
HEIF

Modelin bağlam penceresi dışında bir görüntüdeki piksel sayısına ilişkin belirli bir sınır bulunmamakla birlikte, daha büyük görüntüler orijinal en boy oranları korunarak maksimum 3072x3072 çözünürlüğe kadar ölçeklendirilirken, daha küçük görüntüler 768x768 piksele kadar ölçeklendirilir.

Görme yetenekleri:

Görüntüler hakkında altyazı ekleyin ve soruları yanıtlayın.
PDF'ler üzerinde, 2 milyon token bağlam penceresine kadar uzun belgeler de dahil olmak üzere yazıya dönüştürme ve mantık yürütme.
Hem görsel kareler hem de ses dahil olmak üzere 90 dakikaya kadar uzunluktaki videoları tanımlayın, bölümlere ayırın ve videolardan bilgi çıkarın.

Gemini, el yazısıyla yazılmış tüm içeriği doğru bir şekilde tanıyabilir ve gerekçeyi doğrulayabilir.

Gemini'nin ses özellikleri:

Ses içeriği hakkında açıklama yapın, özetleyin veya soruları yanıtlayın.
Sesin transkripsiyonunu sağlayın.
Sesin belirli bir bölümü hakkında yanıtlar veya transkripsiyon sağlayın.

Desteklenen ses formatları:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Sesin her saniyesi 25 token'a eşdeğerdir; örneğin, bir dakikalık ses 1.500 token olarak temsil edilir.

Gemini 2.0 Flash
Giriş token sınırı	1,048,576
Çıkış token limiti	8,192

Gemini 2.0 Flash, Gemini ailesinin en güçlü ve çok yönlü modelidir. Doğal olarak görüntü oluşturabilir ve konuşma üretebilir ve performans söz konusu olduğunda, neredeyse tüm temel karşılaştırmalarda diğer modelleri geride bırakır. Kendiniz görün.

Yetenek	Benchmark	Açıklama	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Genel	MMLU-Pro	Makine öğrenimi modellerinin doğal dili ne kadar iyi anladığını değerlendirir	67.3%	75.8%	76.4%
Kod	Natural2Code	Python, Java, C++, JS, Go genelinde kod oluşturma	79.8%	85.4%	92.9%
Kod	Bird-SQL (Dev)	Doğal dil sorularını çalıştırılabilir SQL'e dönüştürmeyi değerlendirir	45.6%	54.4%	56.9%
Gerçeklik	FACTS Grounding	Belgelere ve çeşitli kullanıcı taleplerine gerçeklere dayalı doğru yanıtlar verebilme	82.9%	80.0%	83.6%
Matematik	MATH	Zorlu matematik problemleri (cebir, geometri, pre-kalkülüs ve diğerleri dahil)	77.9%	86.5%	89.7%
Matematik	HiddenMath	Yarışma düzeyinde matematik problemleri	47.2%	52.0%	63.0%
Akıl yürütme	GPQA (diamond)	Biyoloji, fizik ve kimya alan uzmanları tarafından yazılmış sorulardan oluşan zorlu veri seti	51.0%	59.1%	62.1%
Resim	MMMU	Çok disiplinli üniversite düzeyinde çok modlu anlama ve muhakeme problemleri	62.3%	65.9%	70.7%
Ses	CoVoST2 (21 lang)	Otomatik konuşma çevirisi	37.4	40.1	39.2
Video	EgoSchema (test)	Video analizi	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking hız ve performansı bir araya getirerek hem matematik hem de fen bilimlerindeki karmaşık problemlerin üstesinden gelmede olağanüstü bir uzmanlık sergiliyor. Bir milyon tokenlık bağlam penceresi, uzun metinlerin daha derinlemesine analiz edilmesini sağlar. Geliştirilmiş düşünme, düşünceler ve cevaplar arasında daha fazla tutarlılık sağlar.

Gemini 2.0 Flash Thinking
Giriş token sınırı	1,048,576
Çıkış token limiti	65,536

Lütfen devasa çıktı token penceresine dikkat edin. Bu, modelin yalnızca uzun istekleri işlemesine değil, aynı zamanda örneğin büyük kod parçaları oluşturmak için kullanışlı olabilecek kapsamlı yanıtlar vermesine de olanak tanır.

Gemini 2.0 Flash Thinking 'in Matematik, Bilim ve Çok Modlu akıl yürütmede Gemini 1.5 Pro ve Gemini 2.0 'ı nasıl geride bıraktığını görün. Genel olarak bu iki model kadar çok yönlü olmayabilir, ancak bu belirli alanlarda Gemini 2.0 Flash Thinking eşsizdir.

Matematik, bilim ve muhakeme

Matematik ve fen bilimleri

Eleştiri

Gemini sohbet robotu 2023 yılında piyasaya sürüldüğünde zor bir başlangıç yaptı. Geliştiriciler ChatGPT'ye bir rakip çıkarmak için çok acele ediyorlardı. İşte bu yüzden chatbotun piyasaya sürülen versiyonu hatalarla doluydu. Kullanıcılar, botun yanıtlarındaki çok sayıda olgusal hata ve yanlışlıktan şikayet etti.

En yüksek profilli olanlardan biri de görüntü oluşturma tartışmasıydı. Gemini, uygunsuz olduğu durumlarda bile maksimum ırksal çeşitlilik sunmaya çalıştı. Sohbet robotuna göre 1943 yılında Alman askerleri böyle görünüyordu:

1943'te Gemini tarafından üretilen Alman askerleri

İşte 1800'lerin ABD senatörleri böyle görünüyordu:

Gemini tarafından oluşturulan 1800'lerin ABD senatörleri

Kullanıcıların hoşnutsuzluğu nedeniyle şirketin hisseleri %4,5 oranında düştü ve bu da kabaca 90 milyon dolarlık bir kayba karşılık geliyor. Geliştiriciler ayrıca insanların görüntülerini oluşturma yeteneğini geçici olarak engellemek zorunda kaldı.

Görüntü üretimiyle ilgili tartışmaların ardından bazı kullanıcılar Gemini'nin metin yanıtlarını sola karşı önyargılı olmakla suçlamaya başladı. Bu örneklerden birinde Gemini, Elon Musk'ın mı yoksa Nazi diktatörü Adolf Hitler'in mi toplum üzerinde daha büyük bir olumsuz etkisi olduğunu “kesin olarak söylemenin zor” olduğunu belirtti. Buna ek olarak, diğer kullanıcılar Gemini'nin sol eğilimli politikacıları ve pozitif ayrımcılık ve kürtaj hakları gibi konuları desteklerken, sağcı figürleri, et tüketimini ve fosil yakıtları desteklemekte isteksiz göründüğünü belirtti.

Ancak tüm bu zorlukların artık çoğunlukla geride kaldığını söylemek gerekir. Artık Gemini'nin hiçbir sorunu yok ve dünyanın en başarılı ve popüler sohbet robotlarından biri.