Gemini: Ikhtisar Fitur dan Model Inovatifnya

Gemini adalah keluarga chatbot berdasarkan kecerdasan buatan yang dikembangkan oleh Google. Saat ini, Gemini berada di posisi ketiga di antara semua chatbot dalam hal pangsa pasar, hanya di belakang ChatGPT dan Microsoft Copilot. Pada saat yang sama, Gemini terus tumbuh lebih cepat daripada para pesaingnya dan terus mendapatkan popularitas: ia berada di urutan ke-4 dalam hal arus masuk pengguna baru, dengan hanya Claude yang tumbuh lebih cepat di antara chatbot terkenal. Pada artikel ini kita akan melihat sejarah Gemini, model saat ini, fitur dan keterbatasannya.

Sejarah singkat Google Gemini

Google telah menjadi pelopor dalam arsitektur model bahasa yang besar dan memanfaatkan penelitiannya yang kuat untuk mengembangkan model kecerdasan buatannya sendiri.

2017: Peneliti Google menghadirkan arsitektur transformator, yang mendasari banyak model bahasa besar saat ini.
2020: Perusahaan memperkenalkan Meena, chatbot berbasis jaringan saraf dengan 2,6 miliar parameter, yang diklaim Google lebih unggul daripada semua chatbot yang ada saat itu.
2021: Meena berganti nama menjadi LaMDA (singkatan dari Language Model for Dialogue Applications) seiring dengan peningkatan data dan daya komputasinya.
2022: Model bahasa baru yang disebut PaLM (Pathways Language Model) dirilis, dengan kemampuan yang lebih canggih dibandingkan dengan LaMDA.
2023: Sebuah chatbot bernama Google Bard dirilis pada kuartal pertama tahun ini, didukung oleh versi LaMDA yang ringan dan dioptimalkan. Kemudian, pada kuartal kedua, mereka memperkenalkan PaLM 2, yang menampilkan pengkodean yang lebih baik, kemampuan multibahasa, dan kemampuan penalaran yang lebih baik, yang kemudian diadopsi oleh Bard. Terakhir, pada kuartal terakhir, Google mengumumkan Gemini 1.0.
2024: Google mengganti nama Bard menjadi Gemini dan meningkatkan model kecerdasan buatan multimodalnya ke versi 1.5. Model Gemini 2.0 diperkenalkan pada bulan Desember.

Pada bulan April 2024, CEO Google DeepMind, Demis Hassabis, mengatakan bahwa seiring berjalannya waktu, perusahaan akan menghabiskan lebih dari $100 miliar untuk mengembangkan teknologi kecerdasan buatan.

Demis Hassabis

Fitur khas Gemini

Setiap chatbot memiliki pengetahuan yang terbatas tentang kejadian terkini karena data pelatihannya hanya mencakup periode waktu yang terbatas. Tanggal batas akhir dalam konteks chatbot mengacu pada titik waktu di mana model telah dilatih pada data dan dapat memberikan informasi. Misalnya, jika chatbot memiliki tanggal batas akhir Oktober 2023, itu berarti semua pengetahuan dan data yang dapat diaksesnya hanya berlaku hingga tanggal tersebut. Setiap peristiwa, perkembangan, atau perubahan yang terjadi setelah tanggal tersebut tidak akan tercermin dalam tanggapan chatbot. Keterbatasan ini penting untuk dipahami oleh pengguna, karena hal ini memengaruhi keakuratan dan relevansi informasi yang diberikan, terutama di bidang yang cepat berubah seperti teknologi, politik, atau peristiwa terkini. Namun, Gemini, dapat mengatasi keterbatasan ini dengan mengakses dan memproses informasi dari pencarian online melalui Google Search, memberikan jawaban yang lebih mutakhir.

Akibatnya, pengguna mungkin perlu memverifikasi informasi dari sumber yang lebih baru jika mereka mencari pembaruan atau wawasan terbaru. Terkadang, Gemini menampilkan sumber dan konten terkait di dalam dan di bawah jawabannya. Ini termasuk sumber web dengan informasi dan tautan yang serupa untuk Anda gali lebih dalam. Gemini dirancang untuk menghasilkan konten orisinal, tetapi jika Gemini mengutip secara langsung dari halaman web, Anda akan melihat tanda kutip dengan sumber yang dikutip dan tautan ke halaman tersebut. Sumber dan konten terkait dapat mencakup situs web yang dikutip Gemini atau yang berhubungan dengan bagian dari tanggapannya. Jika tanggapan Gemini menyertakan thumbnail gambar dari web, Gemini akan menampilkan sumbernya dan memberikan tautan langsung ke gambar tersebut.

Gemini dirancang multimodal sejak awal, yang berarti bot ini dilatih dengan berbagai jenis data, dan sekarang dapat bekerja dengan lancar dengan berbagai jenis konten. Seperti yang Anda lihat pada gambar di atas, bot dapat menyertakan gambar dalam tanggapannya. Gemini dapat memahami teks, audio, potongan video, catatan tulisan tangan, grafik, diagram, dapat mengidentifikasi objek pada foto, dan yang terpenting adalah dapat menghasilkan gambar menggunakan Imagen 3, model teks-ke-gambar paling canggih dari Google.

Chatbot ini juga memiliki kemampuan multibahasa yang luas karena tersedia dalam 46 bahasa yang berbeda.

Model saat ini, kekuatan dan kemampuannya

Gemini menawarkan berbagai model yang dioptimalkan untuk kasus penggunaan tertentu. Berikut ini adalah ikhtisar singkat dari varian yang tersedia:

Model	Masukan	Keluaran	Deskripsi
Gemini 2.0 Flash	Audio, gambar, video, dan teks	Teks, gambar (segera hadir), dan audio (segera hadir)	Fitur generasi berikutnya, kecepatan, dan generasi multimodal untuk beragam tugas
Gemini 2.0 Flash Thinking	Teks, gambar	Teks	Model penalaran yang disempurnakan yang unggul dalam sains dan matematika
Gemini 1.5 Flash	Audio, gambar, video, dan teks	Teks	Performa yang cepat dan serbaguna di berbagai macam tugas
Gemini 1.5 Flash-8B	Audio, gambar, video, dan teks	Teks	Volume tinggi dan tugas intelijen yang lebih rendah
Gemini 1.5 Pro	Audio, gambar, video, dan teks	Teks	Tugas-tugas penalaran kompleks yang membutuhkan kecerdasan lebih

Gemini 1.5 Flash hadir dengan jendela konteks 1 juta token, dan Gemini 1.5 Pro hadir dengan jendela konteks 2 juta token, yang merupakan jendela terpanjang dari model bahasa besar mana pun.

Satu token setara dengan sekitar 4 karakter untuk model Gemini. 100 token adalah sekitar 60-80 kata dalam bahasa Inggris.

Dalam praktiknya, 1 juta token akan terlihat seperti:

50.000 baris kode (dengan standar 80 karakter per baris).
Transkrip lebih dari 200 episode podcast dengan panjang rata-rata.
8 novel bahasa Inggris dengan panjang rata-rata.
Semua pesan teks yang Anda kirim dalam 5 tahun terakhir.

Gemini 1.5 Flash and Flash-8B
Masukkan batas token	1,048,576
Batas token keluaran	8,192
Jumlah gambar maksimum	3,600
Panjang video maksimum	1 jam
Panjang audio maksimum	Sekitar 9,5 jam

Gemini 1.5 Pro mencapai daya ingat yang nyaris sempurna pada tugas pengambilan konteks panjang di seluruh modalitas, membuka kemampuan untuk memproses dokumen panjang, ribuan baris kode, berjam-jam audio, video, dan banyak lagi secara akurat.

Gemini 1.5 Pro
Masukkan batas token	2,097,152
Batas token keluaran	8,192
Jumlah gambar maksimum	7,200
Panjang video maksimum	2 jam
Panjang audio maksimum	Sekitar 19 jam

Setiap gambar setara dengan 258 token. Jenis gambar yang didukung:

PNG
WEBP
JPEG
HEIC
HEIF

Meskipun tidak ada batasan khusus untuk jumlah piksel dalam gambar selain jendela konteks model, namun gambar yang lebih besar diperkecil hingga resolusi maksimum 3072x3072 sekaligus mempertahankan rasio aspek aslinya, sedangkan gambar yang lebih kecil diperkecil hingga 768x768 piksel.

Kemampuan penglihatan:

Memberi keterangan dan menjawab pertanyaan tentang gambar.
Mentranskripsikan dan memberi alasan pada PDF, termasuk dokumen panjang hingga 2 juta jendela konteks token.
Mendeskripsikan, menyegmentasikan, dan mengekstrak informasi dari video, termasuk bingkai visual dan audio, hingga durasi 90 menit.

Gemini mampu mengenali dengan benar semua konten tulisan tangan dan memverifikasi alasannya.

Kemampuan audio Gemini:

Menjelaskan, meringkas, atau menjawab pertanyaan tentang konten audio.
Memberikan transkripsi audio.
Memberikan jawaban atau transkripsi tentang segmen audio tertentu.

Format audio yang didukung:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Setiap detik audio setara dengan 25 token; misalnya, satu menit audio direpresentasikan sebagai 1.500 token.

Gemini 2.0 Flash
Masukkan batas token	1,048,576
Batas token keluaran	8,192

Gemini 2.0 Flash adalah model yang paling dahsyat dan serbaguna dari keluarga Gemini. Flash secara native dapat membuat gambar dan menghasilkan suara, dan dalam hal performa, kamera ini melampaui model lainnya di hampir semua tolok ukur utama. Buktikan sendiri.

Kemampuan	Tolok ukur	Deskripsi	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Umum	MMLU-Pro	Mengevaluasi seberapa baik model pembelajaran mesin memahami bahasa alami	67.3%	75.8%	76.4%
Kode	Natural2Code	Pembuatan kode di seluruh Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Kode	Bird-SQL (Dev)	Mengevaluasi konversi pertanyaan bahasa alami menjadi SQL yang dapat dieksekusi	45.6%	54.4%	56.9%
Faktualitas	FACTS Grounding	Kemampuan untuk memberikan tanggapan yang benar secara faktual mengingat dokumen dan permintaan pengguna yang beragam	82.9%	80.0%	83.6%
Matematika	MATH	Soal matematika yang menantang (termasuk aljabar, geometri, pra-kalkulus, dan lainnya)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Soal matematika tingkat kompetisi	47.2%	52.0%	63.0%
Penalaran	GPQA (diamond)	Kumpulan pertanyaan menantang yang ditulis oleh para ahli domain di bidang biologi, fisika, dan kimia	51.0%	59.1%	62.1%
Gambar	MMMU	Masalah pemahaman dan penalaran multimodal tingkat perguruan tinggi multidisiplin	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Terjemahan ucapan otomatis	37.4	40.1	39.2
Video	EgoSchema (test)	Analisis video	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking menggabungkan kecepatan dan kinerja, menunjukkan keahlian yang luar biasa dalam menangani masalah yang kompleks baik dalam matematika maupun sains. Jendela konteks satu juta token memungkinkan analisis yang lebih dalam terhadap teks yang panjang. Pemikiran yang lebih baik memberikan lebih banyak konsistensi antara pemikiran dan jawaban.

Gemini 2.0 Flash Thinking
Masukkan batas token	1,048,576
Batas token keluaran	65,536

Perhatikan jendela token keluaran yang sangat besar. Hal ini memungkinkan model untuk tidak hanya memproses permintaan yang panjang, tetapi juga memberikan respons yang luas, yang mungkin berguna untuk menghasilkan potongan kode yang besar, misalnya.

Lihat bagaimana Gemini 2.0 Flash Thinking melampaui Gemini 1.5 Pro dan Gemini 2.0 dalam hal Matematika, Sains, dan penalaran Multimodal. Mungkin tidak serbaguna seperti kedua model tersebut secara umum, tetapi dalam domain spesifik ini, Gemini 2.0 Flash Thinking tidak tertandingi.

Matematika, sains, dan penalaran

Matematika, dan ilmu pengetahuan

Kritik

Chatbot Gemini memiliki awal yang sulit ketika dirilis pada tahun 2023. Para pengembang terlalu terburu-buru untuk merilis saingan ChatGPT. Dan itulah mengapa versi rilis chatbot penuh dengan bug. Pengguna mengeluhkan sejumlah besar kesalahan faktual dan ketidakakuratan dalam jawaban bot.

Salah satu yang paling terkenal adalah kontroversi pembuatan gambar. Gemini mencoba menampilkan keragaman ras secara maksimal bahkan ketika hal itu tidak pantas. Menurut chatbot, seperti inilah penampilan tentara Jerman pada tahun 1943:

Tentara Jerman pada tahun 1943 yang dihasilkan oleh Gemini

Dan seperti inilah penampilan para senator AS dari tahun 1800-an:

Para senator AS dari tahun 1800-an yang dihasilkan oleh Gemini

Karena ketidakpuasan pengguna, saham perusahaan turun 4,5%, yang secara kasar setara dengan kerugian sebesar $90 juta. Pengembang juga harus memblokir sementara kemampuan untuk menghasilkan gambar orang.

Menyusul kontroversi seputar pembuatan gambar, beberapa pengguna mulai menuduh respons teks Gemini bias ke arah kiri. Dalam salah satu contoh, Gemini menyatakan bahwa “sulit untuk mengatakan dengan pasti” apakah Elon Musk atau diktator Nazi Adolf Hitler memiliki dampak negatif yang lebih besar pada masyarakat. Selain itu, pengguna lain mencatat bahwa Gemini tampaknya mendukung politisi sayap kiri dan isu-isu seperti tindakan afirmatif dan hak-hak aborsi, sementara enggan mendukung tokoh-tokoh sayap kanan, konsumsi daging, dan bahan bakar fosil.

Namun harus dikatakan bahwa semua kesulitan ini sebagian besar sudah berlalu. Sekarang Gemini tidak memiliki masalah dan menjadi salah satu chatbot paling sukses dan populer di dunia.