GPT-3.5, GPT-4: Conozca la diferencia

ChatGPT es una aplicación de chatbot desarrollada por OpenAI. Diferentes versiones de GPT (como GPT-3.5 y GPT-4) son los "cerebros" del chatbot, la inteligencia artificial que permite a ChatGPT reconocer, comprender y generar texto de forma similar a la humana.

GPT-3.5

GPT-3.5 es una subclase de la 3ª iteración de Generative Pre-Trained Transformer. Se trata de un gran modelo lingüístico basado en la arquitectura de transformadores que ha sido entrenado en grandes cantidades de datos de texto para comprender y responder en lenguas naturales (como el español, el inglés, el francés, etc.). Es lo que se llama procesamiento del lenguaje natural. La arquitectura de transformadores es más avanzada que la arquitectura neuronal recurrente anterior. En palabras sencillas, ayuda al modelo lingüístico a comprender y aprehender mejor el texto.

Los transformadores son capaces de entender mejor el contexto, percibir las conexiones entre las palabras de una frase y un párrafo y destacar las ideas clave dentro de un texto.

GPT-3.5 tiene 175.000 millones de parámetros de aprendizaje. En aquel momento era la mayor cantidad de cualquier otro modelo lingüístico de gran tamaño. Estos parámetros son como conexiones neuronales: cuantas más, mejor. Lo más sorprendente es que en algún momento, cuando aumenta el número de parámetros, el modelo se convierte en un experto incluso en áreas para las que nadie lo ha entrenado especialmente: traducir de un idioma a otro, resolver problemas lógicos y matemáticos, por ejemplo.

Para que la interacción con GPT-3.5 fuera más natural y segura, se aplicó una técnica llamada aprendizaje por refuerzo a partir de la retroalimentación humana, en la que la aportación humana se utiliza para mejorar los algoritmos de aprendizaje automático.

ChatGPT-4 y sus diferencias con ChatGPT-3.5

GPT-4 tiene 100 billones de parámetros.

El nuevo modelo es mucho más avanzado. Una diferencia importante que llama inmediatamente la atención es que el GPT-4 ha aprendido a reconocer imágenes. Esto es lo que puede hacer:

describir lo que hay en la imagen,
explicar chistes visuales,
inventar un pie de foto,
sugerir una receta basada en la comida de la imagen,
entender gráficos, tablas y textos escritos a mano.

Por ejemplo, a partir de una plantilla dibujada a mano, GPT-4 puede escribir el código de la página web que desee crear.

GPT-4 también procesa mejor que su predecesor la información textual: memoriza grandes cantidades de texto para una mejor comprensión contextual y da respuestas un 40% más precisas. GPT-4 puede procesar el equivalente a 300 páginas de texto (128 000 tokens) en una sola pregunta, mientras que GPT-3.5 sólo podía procesar 14 páginas (16 000 tokens).

GPT-4 es tan inteligente que aprobó el examen de acceso a la abogacía, situándose entre el 10% de los mejores (GPT-3.5 quedó por detrás de los humanos en un 17%). En muchas pruebas, el modelo supera incluso a los humanos. En concreto, en las pruebas de matemáticas, física y química, GPT-4 superó al 88% de los examinados.

	GPT-3.5	GPT-4
Fecha de lanzamiento inicial	15 de marzo de 2022	14 de marzo de 2023
Conocimiento de los acontecimientos mundiales	Hasta septiembre de 2021	Hasta abril de 2023
Parámetros	175 000 millones	100 billones
Entrada	Sólo texto	Texto e imágenes
Ventana de contexto	16 000 tokens*	128 000 tokens*
Respuestas factuales	Errores ocasionales	40% más preciso

*1000 tokens equivalen a unas 750 palabras

GPT-4 supera a GPT-3.5 en muchas áreas diferentes: desde composición de canciones y guiones hasta redacción técnica y traducciones de idiomas.

Críticas a GPT-4

La GPT-4 no es perfecta ni mucho menos. Nos parece que las redes neuronales solo mejoran día a día, pero un estudio de Stanford de junio de 2023 demostró que los resultados de GPT-4 se han deteriorado desde marzo.

Pruebas de GPT-4 y GPT-3.5 en marzo y junio de 2023

El modelo mostró una degradación significativa del rendimiento en la resolución de problemas matemáticos y la generación de código:

por ejemplo, tuvo dificultades para determinar si el número 17077 era primo,
y sólo el 10% de las veces fue capaz de escribir código funcional en tareas clasificadas como fáciles por LeetCode.

Al mismo tiempo, el GPT-4 mostró mejoras en el razonamiento visual y en la respuesta a preguntas delicadas (en las que la respuesta podría causar daño o infringir la ley).

Los críticos de este estudio señalaron posibles errores de metodología y observaron que la dinámica resultante debería considerarse un cambio de comportamiento y no un deterioro.