Lo que entra
Imagen de entrada
La máquina recibe una imagen. Para ella, esto todavía no significa “gato”: es solo un dato de entrada.
dato de entrada
Antes de empezar con el tema que nos compete el día de hoy, iniciemos con un video que nos brinda más claridad sobre los tipos de Aprendizaje de Máquinas. Tema con el cuál cerramos la primera sesión de este curso.
Recuerda: los videos y el texto de esta sesión son complementarios. Los videos amplían el contexto histórico y conceptual; el texto va a los mecanismos y te pone a interactuar con ellos. Encontrarás ideas en los videos que el texto no repite exactamente. ¡Disfruta de esta dinámica!
Si conoces los teléfonos smartphone, entonces sabrás que algunos utilizan reconocimiento facial para desbloquearse. Lo que quizá no sepas es qué sucede tras bambalinas. Cada vez que tu teléfono reconoce tu cara, o un filtro sigue tus ojos en tiempo real, detrás hay un sistema que hoy vamos a estudiar: una red neuronal. Las redes neuronales están por todos lados; se usan en filtros de TikTok e Instagram, en aplicaciones que generan texto como el Traductor de Google, e incluso para darle color a fotografías del siglo pasado.
En la sesión pasada vimos cómo una máquina puede aprender a partir de datos y una ecuación muy sencilla: la recta. Para problemas de predicción simple, eso es todo lo que necesitamos. Pero cuando los datos presentan muchos patrones y éstos se mezclan entre sí, necesitamos más que trazar una sola línea para conectar los puntos.
En esta sesión vamos a ver, de manera intuitiva, cómo funciona una neurona y por qué muchas neuronas juntas resuelven lo que una recta no puede resolver. También aprenderemos a distinguir dos momentos clave en la vida de cualquier red neuronal: cuando aprende (entrenarla) y cuando ya aprendió (usarla). Las redes neuronales son un puente: con ellas, el aprendizaje supervisado escala hasta problemas que antes parecían inalcanzables, y también se abre la puerta al aprendizaje no supervisado, donde la máquina descubre estructura y patrones sin que nadie le indique exactamente qué buscar.
En este video, resumimos, de manera general e intuitiva, qué es una red neuronal. Lo que verás en el resto de esta sesión es exactamente eso; pero armado paso a paso, desde la pieza más pequeña: la neurona.
Si queremos entender lo que hace una red neuronal artificial, primero debemos aprender sobre su elemento más pequeño: la neurona artificial. La neurona, también conocida como nodo, es una función matemática relativamente sencilla, y el componente fundamental de una red neuronal. Su rol en el sistema es el de un interruptor; ella decide si se activa (produce una señal de salida) o se apaga (no produce nada). ¿Cómo es que logra esto?
Imagina que una computadora recibe una imagen y quiere reconocerla. Su misión es decidir si en la imagen se encuentra un gato, u otro animal. Para ello, necesita convertir la imagen en señales númericas - el lenguaje de las máquinas - y trabajar a partir de esos datos.
Cada rasgo de la imagen se vuelve una señal numérica. Por ejemplo, si en efecto hay un gato, entonces el tamaño y rasgo de sus ojos, la existencia de bigotes, o qué tan puntiagudas están las orejas se vuelven señales que ayudan a identificar al felino. La neurona recibe cada señal y le asigna un peso (o ponderación). Despues, suma todas las señales y decide: ¿hay evidencia suficiente para identificar a un gato? Si la evidencia - el total de las señales - alcanza cierto nivel, se activa. Si no, se apaga.
Lo que entra
La máquina recibe una imagen. Para ella, esto todavía no significa “gato”: es solo un dato de entrada.
dato de entrada
Lo que la máquina busca
Busca patrones simples que pueden ayudar a reconocer al animal: orejas puntiagudas, bigotes y ojos al frente.
orejas
bigotes
ojos
Cómo lo convierte en valores
Cada rasgo se transforma en un valor que indica qué tan presente está.
Para simplificar, aquí usamos valores entre 0 y 1.
Cómo suma la evidencia
No todas las señales tienen la misma importancia: cada una se multiplica por un peso y luego se suma. Piensa por ejemplo, en que un zorro también tiene orejas puntiagudas, así que ese rasgo no es único del gato. No puede tener tanto peso como otros rasgos que quizá sí sean únicos de un gato. Aquí es importante distinguir dos cosas: los valores salen de la imagen; los pesos y el sesgo no salen de la foto, sino que la red neuronal los aprendió antes durante el entrenamiento.
0.7 × 0.6
1.0 × 1.2
0.8 × 0.7
-0.8
En otras palabras: esta foto aporta las señales; el entrenamiento previo aporta qué tan importantes son y dónde queda el umbral de activación de la neurona.
La decisión
Si la evidencia supera cierto umbral, produce una señal de salida.
Ahora ya entiendes la intuición detrás de una neurona y su activación. Los valores que recibe la neurona vienen de los datos: dependen de qué tan presente está cada rasgo en la imagen. Un rasgo no siempre vale exactamente 1; puede valer 0.7 u 0.8, y representa qué tan claro o menos claro se distingue el rasgo en la imagen.
Si te interesa verlo en lenguaje matemático, esta idea suele escribirse así: \[ z = w_1x_1 + w_2x_2 + w_3x_3 + b \]
En nuestro ejemplo, los símbolos se pueden reemplazar con los valores observados:
\[ z = (0.7)(0.6) + (1.0)(1.2) + (0.8)(0.7) - 0.8 = 1.38 \]
Con esto basta para hacernos una nueva pregunta: si una sola neurona puede decidir a partir de unos cuantos rasgos ya identificados, ¿cómo se resume una imagen completa en rasgos que la neurona pueda usar?
Acabas de ver cómo una neurona toma algunos rasgos de una imagen y produce una decisión. Pero una computadora no recibe una foto ya convertida en “orejas” o “bigotes”. Recibe muchísimos píxeles: números que describen color e intensidad.
Entonces, ¿cómo pasamos de todos esos píxeles a unos pocos valores numéricos que una neurona puede interpretar?
En la sección anterior usamos tres rasgos para explicar cómo funciona una neurona. Aquí vamos a usar solo dos porque queremos representarlos en una gráfica (plano cartesiano): orejas y bigotes.
No vamos a explicar todavía todo el mecanismo de una red neuronal. Vamos a construir una intuición: cómo una imagen completa pasa de píxeles a rasgos medibles, y cómo esos rasgos se convierten en un punto en una gráfica que una neurona puede interpetar.
Lo que entra
La máquina recibe una imagen completa. Todavía no hay un “gato”, solo hay información visual.
datos visuales
Para la máquina
La computadora observs muchísimos píxeles. Cada píxel guarda valores de color e intensidad. En este punto todavía no hay “rasgos”; solo hay muchos números.
Importante: el paso que sigue consiste en resumir todos esos píxeles en medidas que la neurona pueda interpretar.
Cada píxel ya es un número
Si haces zoom en una pequeña región de la imagen, ves cuadritos. A cada píxel se le asigna un número según su brillo o color. Para simplificar, aquí imaginamos primero la claridad en una escala de 0 a 255: oscuro = valor bajo, claro = valor alto.
0 = muy oscuro | 255 = muy claro
Idea clave: antes de detectar una “oreja”, la máquina ya tradujo esa parte de la imagen a una pequeña matriz de números.
Ojo: esos números no “son” una oreja y no basta con sumarlos todos. Lo importante es el patrón que forman juntos.
La red busca patrones
La red no usa cada píxel por separado para decidir. Primero, capas o detectores anteriores leen muchos valores juntos y buscan patrones visuales. Por ejemplo: una combinación de números puede parecerse más o menos a orejas; otra puede parecerse más o menos a bigotes.
En la práctica: estos rasgos no aparecen “solos”. El detector combina muchos de esos valores con pesos y produce una respuesta: baja, media o alta. Eso es lo que luego se convierte en una entrada más manejable para la neurona.
Cada rasgo recibe un puntaje
Esos detectores producen puntajes entre 0 y 1. No son coordenadas escondidas en la foto: son valores resumidos que indican qué tan fuerte apareció cada rasgo.
Ojo: estos valores no salen “mágicamente” de la foto. Son el resultado resumido de un proceso previo que leyó muchos píxeles.
Una imagen se vuelve un punto
Si usamos dos rasgos como ejes, una imagen se convierte en una coordenada. En este ejemplo, usamos bigotes en el eje horizontal y orejas en el eje vertical.
Qué estás viendo: un solo punto que representa una sola imagen. Ese punto junta dos medidas de la misma foto: cuánto se detectan los bigotes y cuánto se detectan las orejas.
Importante: los puntos no son neuronas. Cada punto representa una imagen distinta. Las neuronas son las que después usan esos valores para intentar separar ejemplos.
Hasta aquí, una sola imagen ya se convirtió en un punto en una gráfica. ¿Qué pasa cuando hacemos esto mismo con muchas imágenes distintas?
En la sesión 1 vimos que una máquina podía aprender una línea recta para encontrar patrones en una gráfica. Aquí pasa algo parecido, pero con una diferencia importante: ahora cada punto no representa un dato cualquiera, sino una imagen resumida en dos rasgos.
Cada punto en la gráfica representa una imagen. Cuando llega una imagen nueva, ¿cómo decide la neurona de qué grupo forma parte? Necesita una regla, así como la ecuación de la recta: una manera de predecir en qué grupo cae cualquier ejemplo nuevo.
En este caso, la neurona intenta aprender una recta que divida la gráfica en dos zonas. Si el punto cae de un lado, responderá “gato”; si cae del otro, responderá “no gato”. A esta nueva recta la llamamos frontera de decisión.
La frontera de decisión no la dibuja una persona: la neurona la aprende durante su entrenamiento. Es la versión geométrica de la regla que encontró para clasificar ejemplos nuevos.
Sin embargo, una neurona solo puede aprender una frontera recta. Y, a veces, eso no es suficiente. Entre más patrones entrelazados o más complejas las imágenes, menos eficaz se vuelve la neurona.
Si quieres verlo como continuidad con la sesión 1, piensa en esto: la ecuación de la recta, y = mx + b, fue nuestra regla matemática. Aquí la neurona hace algo parecido, pero usando rasgos de entrada: calcula un valor z = w_1x_1 + w_2x_2 + b.
Después entra una función de activación. Una de las más conocidas es la función sigmoide, escrita como \sigma(z), que suele expresarse así: \sigma(z) = 1 / (1 + e-z).
La idea intuitiva es simple: toma el valor z y lo convierte en un número entre 0 y 1. Si z es muy grande y positivo, la salida se acerca a 1; si es muy negativo, se acerca a 0. Eso permite interpretar la respuesta de la neurona como una activación más baja o más alta. Si z > 0.5, la neurona se activa. Si es menor, no se activa. Esa es nuestra frontera de decisión
No vamos a profundizar en estas matemáticas en el curso, pero vale la pena tener esta secuencia en mente: la neurona combina entradas, obtiene un valor z y luego una función como \sigma(z) transforma ese cálculo en una respuesta.
Caso fácil
Aquí sí existe una recta que deja a todos los gatos de un lado y a todos los "no gatos" del otro. La línea funciona como una frontera clara entre dos regiones del plano.
Caso difícil
Aquí los ejemplos están mezclados. No importa dónde dibujes la recta, siempre habrá algunos puntos del lado equivocado. El problema no es encontrar “la línea correcta”, sino que ninguna recta será capaz de separar este patrón, con un grado mayo de complejidad. Por eso, una sola neurona no es suficiente.
Cuando nos encontramos en una situación como el Caso Difícil, una neurona ha llegado a su límite. Necesitaremos muchas neuronas, y empezaremos a construir una red neuronal.
Ahora que sabemos que necesitamos muchas neuronas para problemas complejos, el siguiente paso es encadenarlas. Es decir que, la salida de unas neuronas (la decisión que tomaron) se convierte en la entrada de otras. Así es como una red neuronal puede construir ideas complejas a partir de señales simples.
Para ello, organizamos las neuronas en capas:
Entre más capas tenga la red, más complejas pueden ser las ideas que construye. Una red con muchas capas puede reconocer una cara en una foto, entender un idioma o generar texto. De ahí viene la palabra deep (profundo) en deep learning: hace referencia a la profundidad de esas capas.
Recibe señales concretas: palabras, píxeles, sonidos, números.
Construyen ideas intermedias: de "orejas + bigotes" pasan a "cara felina".
Produce una clase, una acción o la siguiente palabra.
Hay dos momentos clave en la vida de cualquier red neuronal: cuando aprende (entrenamiento) y cuando ya aprendió (inferencia).
Imagina que tienes 50,000 imágenes, cada una etiquetada como “gato” o “no gato”. La red empieza con pesos completamente aleatorios: no sabe absolutamente nada. El entrenamiento es el proceso por el cual esos pesos cambian, poco a poco, hasta que la red aprende a distinguir los dos grupos. No ocurre de golpe: es un ciclo que se repite miles de veces, imagen por imagen.
Ese ciclo siempre tiene los mismos cuatro pasos:
1
La imagen viaja capa por capa hasta producir una predicción. Al inicio, con pesos aleatorios.
2
Se compara la predicción con la etiqueta correcta usando una función matemática. El resultado es un número —el loss— que nos dice qué tan equivocada estuvo la red. Mientras más alto, peor.
3
El error viaja de nuevo por todas las capas e indica a cada peso cuánto y en qué dirección debe ajustarse. A eso le llamamos backpropagation: la señal de corrección que hace que la red aprenda.
4
Cuando la red ha procesado todas las imágenes del conjunto al menos una vez, decimos que completó una época. El entrenamiento puede durar decenas o cientos de épocas, dependiendo de qué tan difícil es el problema.
Cuando el error deja de bajar de manera significativa, el entrenamiento termina y los pesos quedan fijos. A partir de ese momento, la red entra en modo inferencia: recibe imágenes nuevas, nunca antes vistas, y produce predicciones. Los pesos ya no cambian; la red solo usa lo que aprendió.
¿En qué se parece una neurona a ti? Una neurona acumula señales y solo se activa si la evidencia supera un umbral. ¿Se te ocurre alguna decisión que tomes así, donde busques señales y solo actúes si hay suficiente evidencia de algo?
¿En qué se parece tu forma de aprender al entrenamiento de una neurona? Una red aprende ajustando sus pesos a partir de sus errores, ciclo tras ciclo. ¿En qué se parece eso a cómo aprendes tú algo nuevo? ¿En qué es diferente?
¿Cambia algo saber cómo funcionan los LLMs? ChatGPT no "entiende" de emociones: aprendió patrones en millones de textos. ¿Cambia eso la manera en que lo usarías, o la confianza que le tendrías a sus respuestas?
Explícalo en dos oraciones. Si tuvieras que describirle a alguien de tu familia qué es una red neuronal, sin tecnicismos, ¿qué dirías?
No hay respuestas correctas o incorrectas. El objetivo es que empieces a ver la tecnología con otros ojos.
Una neurona artificial recibe señales, les asigna pesos y decide si activarse. Una red conecta muchas neuronas para trazar fronteras de decisión cuando el problema es complejo. Esa misma lógica está detrás del reconocimiento facial y de los LLMs que generan texto: la tarea cambia, pero el mecanismo es el mismo.
Experimenta con redes neuronales en el navegador y observa cómo cambian las fronteras de decisión sin escribir código.
Entrena modelos sencillos con imágenes, sonidos o poses para ver cómo se comporta una red con datos reales.
Juega con una red que intenta reconocer tus dibujos y observa cómo la clasificación depende de patrones aprendidos.