¿Cómo funciona la visión artificial? Una guía sencilla para principiantes

Cada vez que desbloqueas tu teléfono con tu rostro, recibes una sugerencia para etiquetar a un amigo en una foto o ves un coche autónomo en las noticias, estás ante la visión artificial en acción. Pero, ¿cómo funciona exactamente la visión artificial? ¿Cómo puede una máquina —que no tiene ojos, ni cerebro, ni sentido común— «ver» un gato en una imagen y saber que se trata de un gato?

En esta guía te lo explicaremos en términos sencillos. Sin matemáticas, sin jerga técnica. Si sabes distinguir entre un perro y un buñuelo, ya sabes más sobre la visión artificial de lo que crees. Descubrámoslo juntos.

¿Qué es la visión artificial?

La visión artificial es el campo de la inteligencia artificial que enseña a las máquinas a comprender imágenes y vídeos. Es la ciencia que consiste en dotar a los ordenadores de una especie de «vista»: no solo la capacidad de capturar una imagen, sino también la de interpretar lo que hay en ella.
Míralo de esta manera. Una cámara capta la luz. Guarda esa luz en forma de archivo. Pero la cámara no tiene ni idea de lo que acaba de fotografiar. Un sistema de visión artificial, en cambio, puede mirar la misma imagen y decir: «Es un golden retriever de pie sobre la hierba junto a una bicicleta roja». Ese salto —de los píxeles al significado— es precisamente la visión artificial.

Por qué es importante en la vida cotidiana

Ya utilizas la visión artificial decenas de veces al día, a menudo sin darte cuenta:

El desbloqueo mediante reconocimiento facial en tu smartphone
La organización automática de fotos en Google Fotos o Apple Fotos
Los escáneres de códigos de barras y códigos QR
Los filtros de Instagram y Snapchat
Los lectores de matrículas en los aparcamientos
Exámenes médicos que señalan las zonas que debe examinar un médico

Es una de las ramas más prácticas de la IA, y está discretamente presente en todas partes.

¿Cómo funciona la visión artificial? La versión simplificada

Esta es la respuesta en pocas palabras: un sistema de visión artificial aprende al examinar miles (o incluso millones) de ejemplos etiquetados, identifica patrones en esos ejemplos y luego utiliza esos patrones para reconocer nuevas imágenes que nunca ha visto antes.

Amplíemos este proceso. Se desarrolla en tres etapas principales.

Etapa 1: las imágenes se convierten en números

Tus ojos ven la foto de un gato. Un ordenador ve una enorme cuadrícula de números. Cada imagen, por muy detallada que sea, no es más que un conjunto de minúsculos cuadrados llamados píxeles, y cada píxel es un número que representa el color y el brillo.

Una pequeña foto de 100 × 100 píxeles ya cuenta con 10 000 píxeles. Una foto de alta resolución puede tener millones. Lo primero que hace un sistema de visión por ordenador es transformar tu imagen en una gran hoja de números con la que pueda trabajar.

Paso 2: el sistema busca patrones

Aquí es donde entra en juego la «inteligencia». El sistema utiliza lo que se denomina una red neuronal: una red de funciones matemáticas simples inspirada muy vagamente en el cerebro humano. Más concretamente, utiliza un tipo de red llamada red neuronal convolucional, o CNN.

Una CNN analiza la imagen por pequeños fragmentos, buscando primero las características básicas: contornos, ángulos, manchas de color. A continuación, ensambla estas características simples para formar otras más complejas: «es un contorno curvo», luego «es una forma de ojo», luego «estas dos formas de ojo se encuentran sobre una forma de nariz» y, finalmente, «esto se parece a un rostro».

Es un poco como construir con LEGO. Primero identificamos los ladrillos individuales, luego las formas pequeñas, luego los conjuntos más grandes, hasta que finalmente reconocemos el castillo en su conjunto.

Paso 3: el sistema hace una predicción

Al final, la red ofrece su mejor estimación: «Estoy seguro al 94 % de que se trata de un gato, al 3 % de que es un perro, al 2 % de que es un mapache y al 1 % de que es otra cosa». Esta predicción es el resultado. Si el sistema ha sido bien entrenado, acertará la mayoría de las veces.

Cómo aprenden a ver los ordenadores: el aprendizaje por ejemplo

Los sistemas de visión por ordenador no vienen preprogramados con un conocimiento del mundo. Lo aprenden de la misma manera que un niño pequeño: observando numerosos ejemplos etiquetados.

Imagina que le enseñas a un niño qué es un gato. Señalarías a un gato y dirías «gato». Señalarías a otro gato, de una raza diferente, y dirías «gato». Tras suficientes ejemplos, el niño empieza a entender: pequeño, peludo, cuatro patas, bigotes, orejas puntiagudas.

Un modelo de visión artificial funciona de la misma manera, pero con miles, incluso millones, de fotos etiquetadas. Los ingenieros le proporcionan imágenes marcadas como «gato» o «no es un gato», y el sistema ajusta progresivamente sus parámetros internos hasta que puede distinguirlas por sí mismo. Ahí radica el núcleo de la colaboración entre la visión artificial y el aprendizaje automático.

¿Por qué es importante la calidad de los datos?

La calidad de un sistema de visión artificial depende casi por completo de los datos con los que ha aprendido. Si solo le muestras gatos naranjas, podría tener dificultades con los gatos negros. Si todas tus fotos están tomadas con luz diurna, podría fallar por la noche. Por eso, crear un buen sistema de visión depende tanto de la selección de datos como de la programación.

Aplicaciones comunes de la visión artificial

Una vez que entiendes los conceptos básicos, empiezas a ver aplicaciones de la visión artificial por todas partes. Estas son algunas de las más importantes.

1. Salud

Los hospitales utilizan la visión artificial para ayudar a los radiólogos a detectar tumores en resonancias magnéticas, a identificar enfermedades oculares relacionadas con la diabetes en imágenes de la retina y a señalar posibles fracturas en radiografías. La IA no sustituye al médico: actúa como un segundo par de ojos muy rápido.

2. Vehículos autónomos e inteligentes

Los coches autónomos se basan en la visión artificial para leer las señales de tráfico, detectar a los peatones, mantenerse en su carril y detectar las luces de freno del vehículo que les precede. Se trata de una de las aplicaciones más exigentes en el mundo real: el sistema debe ser preciso y rápido, en cualquier condición meteorológica.

3. Comercio minorista y comercio electrónico

La búsqueda visual te permite hacer una foto de un par de zapatos y encontrar otros similares en línea. Las tiendas Amazon Go utilizan cámaras suspendidas y visión artificial para permitir a los clientes salir sin pasar por caja. Los sistemas de inventario señalan automáticamente los estantes vacíos.

4. Agricultura

Drones equipados con sistemas de visión sobrevuelan los campos e identifican cultivos en mal estado, infestaciones de malas hierbas o estrés hídrico, mucho antes de que un humano pueda recorrer el mismo terreno. Los agricultores intervienen antes y utilizan menos productos químicos.

5. Seguridad y fabricación

Las fábricas utilizan sistemas de visión para inspeccionar cada producto en busca de defectos minúsculos. Los aeropuertos los utilizan para el reconocimiento facial en las puertas de embarque. Los almacenes los utilizan para contar automáticamente las cajas.

La visión artificial en Armenia y más allá

La visión artificial ya no es patrimonio exclusivo de los gigantes tecnológicos de Silicon Valley. Los polos tecnológicos emergentes de todo el mundo —incluida Armenia— están desarrollando sólidas capacidades en materia de IA y visión. La Enterprise Incubator Foundation (EIF), principal polo de innovación tecnológica de Armenia, apoya a las startups que trabajan en productos basados en la IA, desde la fabricación inteligente hasta la agrotecnología.

Si quieres saber más sobre cómo se relacionan la IA y el aprendizaje automático en general, nuestra guía sobre IA frente a aprendizaje automático es la lectura ideal. Para una perspectiva más amplia sobre la IA centrada en el lenguaje, consulta nuestro artículo sobre los casos de uso del procesamiento del lenguaje natural. Y desde el punto de vista empresarial, «La IA para las pequeñas empresas» muestra cómo las empresas reales utilizan estas herramientas hoy en día.

Los retos a los que aún se enfrenta la visión artificial

A pesar de todos sus avances, la visión artificial aún está lejos de ser perfecta. Estas son algunas limitaciones reales que hay que tener en cuenta:

El contexto. Una IA puede identificar objetos en una foto, pero no entiende realmente la escena. Puede pasar por alto las bromas, el sarcasmo o los significados culturales.
Casos límite. Situaciones poco frecuentes —un gato disfrazado, un cartel cubierto de nieve— siguen planteando problemas a los sistemas.
Sesgos. Si los datos de entrenamiento están sesgados a favor de un grupo de personas, el sistema puede funcionar peor con los demás. Esto supone un grave problema ético en el ámbito del reconocimiento facial.
Trucos de los adversarios. Pequeñas pegatinas colocadas con cuidado pueden engañar a un sistema de visión y hacer que interprete erróneamente una señal de stop. Los investigadores trabajan activamente para hacer que los sistemas sean más robustos.

Comprender estas limitaciones forma parte del papel de un usuario informado de esta tecnología.

Cómo iniciarse en la visión artificial

No hace falta un doctorado para empezar. Si te interesa:

Juega con herramientas gratuitas como Teachable Machine de Google: puedes entrenar un clasificador de imágenes básico en tu navegador en 10 minutos.
Aprende algunos conceptos básicos de Python y prueba la biblioteca OpenCV, el kit de herramientas de código abierto más popular en visión artificial.
Sigue un curso introductorio gratuito en Coursera o YouTube que presente las redes convolucionales (CNN) mediante ilustraciones en lugar de matemáticas complejas.
Lee nuestras guías para principiantes sobre IA dirigidas a estudiantes si acabas de empezar.

Puntos clave

La visión artificial es la rama de la IA que ayuda a las máquinas a interpretar imágenes y vídeos.
Funciona convirtiendo las imágenes en números, identificando patrones mediante redes neuronales y prediciendo lo que «ve».
Estos sistemas aprenden a partir de enormes conjuntos de ejemplos etiquetados: los datos son tan importantes como el algoritmo.
Las aplicaciones prácticas de la visión artificial incluyen la atención sanitaria, los coches autónomos, el comercio minorista, la agricultura y la industria manufacturera.
Aún existen limitaciones en cuanto al contexto, los sesgos y los casos extremos, por lo que la supervisión humana sigue siendo esencial.

La próxima vez que tu teléfono te sugiera una cara para etiquetar o que una tienda te pase por una caja sin cajero, tómate un momento para apreciar lo que está sucediendo. Una máquina acaba de transformar la luz en significado. Eso es la visión artificial, y ahora sabes exactamente cómo funciona.