GPT-4V: Más Allá de la Imaginación - El Futuro de la Inteligencia Artificial.

OpenAI presentó al mundo la versión de GPT-4V agregando en esta versión la multimodalidad a su modelo de inteligencia artificial. Haciendo posible que ahora podamos no solamente pasarle texto como prompt a ChatGPT, sino que también utilicemos imágenes como prompt, esto abre un montón de nuevas posibilidades que ni siquiera habíamos pensado.

A continuación muestro varios ejemplos de lo que podemos hacer con esta nueva capacidad de ChatGPT.

Encontrar Diferencia entre imágenes.

GPT-4V es capaz de procesar 2 imágenes como prompt, analizar ambas imagenes y encontrar las diferencias que hay entre ambas.

Los Simpson sentados en el sofa

Describir imagenes

ChatGPT puede ahora analizar y generar descripciones coherentes y detalladas para las imágenes que le son presentadas. Por ejemplo Podemos pasarle la imagen de un plato de comida que no conocemos y decirle que nos diga cual es el nombre de ese plato de comida.

map tofu

Detectar texto en las imágenes.

Algo que anteriormente requería de potentes algoritmos de OCR (Optical Character Recognition) GPT-4V es capaz de realizarlo sin muchas complicaciones sin importar que tan bien centrado esté el texto ni el tipo de fuente que este tenga.

conclusiones.

Con este nueva version de GPT presentada ChatGPT ahora tiene ojos y es capaz de ver y escribir lo que nos va acercando cada vez mas a un mundo lleno de Inteligencia Artificial que no solo es buena trabajando con un solo tipo de dato como: texto o imagenes. Sino que es capaz de recibir distintos tipos de informacion y actuar conforme a estos.