Polvo, ruido de maquinaria pesada, decenas de personas moviéndose al mismo tiempo. Un sitio de construcción es uno de los entornos laborales más caóticos que existen, y cada persona dentro de él carga con un riesgo potencial de salir lesionada. Para mitigar eso están los supervisores de seguridad, cuyo único trabajo es vigilar que nadie se ponga en una situación de peligro. Pero no hay que olvidar que ellos también son humanos: se cansan, se distraen, se fatigan. Usualmente hay un solo supervisor por docenas de trabajadores.
En ese contexto, un chaleco olvidado o unos lentes de seguridad que alguien se quitó porque hacía demasiado calor no son una falta administrativa — son la diferencia entre regresar a casa o tener un accidente fatal.
Y es que la construcción no es una actividad menor. Es algo que nos define como especie. Los primeros asentamientos humanos, hace más de 10 mil años, levantaban chozas con los materiales que tuvieran a la mano. Alrededor del año 2500 a.C. se construyeron las pirámides de Egipto, edificaciones que hasta hoy se mantienen en pie. El imperio Mexica sostenía una de las grandes ciudades del mundo, capaz de albergar hasta 300 mil personas, todo a base de piedra, barro, ingeniería y esfuerzo humano. Miles de años de avances tecnológicos, y sin embargo, construir sigue siendo una actividad de alto riesgo.
Si no podemos tener a una persona detrás de cada trabajador revisando su seguridad en todo momento, ¿qué podemos hacer?
Aquí es donde surge la pregunta: ¿qué pasaría si existiera un supervisor que no necesitara descansar, que pudiera estar en varios lugares a la vez y nos alertara si alguien está trabajando sin su Equipo de Protección Personal (EPP)?
De esa pregunta nace este proyecto.
No es un robot dando vueltas por la obra
Esto no se trata de tener un androide caminando entre el polvo y la maquinaria. Se trata de un sistema de cámaras entrenado con la capacidad de detectar si el personal lleva puesto su EPP. Con Inteligencia Artificial, esto es posible, y funciona casi como un juego de flashcards: le mostramos a la computadora cómo se ve una persona con casco y cómo se ve sin él. Después de miles de imágenes, podemos enseñarle una foto nueva y preguntarle: la persona en esta imagen, ¿tiene o no tiene casco?
Para lograr esto utilizamos una arquitectura llamada YOLO — You Only Look Once, o “Solo miras una vez”. En el pasado, las computadoras analizaban las fotos por pedacitos, lo cual era extremadamente lento. YOLO hace exactamente lo que dice su nombre: ve la imagen completa de un solo vistazo y detecta todo casi al instante. Igual que tú al entrar a una habitación.
Enseñarle a una máquina a ver como nosotros
Para que este “inspector” aprendiera, procesamos más de 30 mil imágenes de personas trabajando en construcción, previamente clasificadas: gente sin casco, con casco, con guantes, con mascarilla. Todo esto con el fin de enseñarle a la computadora a reconocer lo que para nuestro cerebro es trivial.
Detectar patrones visuales es el pan de cada día para un humano, pero para una máquina que solo habla en ceros y unos, es un desafío enorme. Por eso utilizamos el centro de supercómputo de la Universidad de Sonora para procesar esa montaña de datos y lograr que la máquina pudiera “ver” por nosotros.

El problema que no esperábamos
Aquí nos topamos con un reto que no era técnico, sino conceptual. La IA nos cree ciegamente: si le decimos que algo es un casco, ella aprenderá que es un casco. El verdadero problema es qué tanto le enseñamos.
Si solo le paso miles de imágenes del mismo casco amarillo, aprenderá perfectamente a reconocerlo. Pero cuando ese casco cambie a blanco o tenga una visera para el sol, la computadora se confundirá porque no se parece a lo que memorizó.
Es como querer hacer un examen de multiplicación habiéndote aprendido solo la tabla del 3. En cuanto te pregunten algo diferente, no sabrás qué hacer.
Esto fue exactamente lo que nos pasó: al haber diferentes tipos de guantes, colores de chalecos y formas de cascos, tuvimos que enseñarle a la computadora tomando en cuenta toda esa diversidad para evitar decisiones erróneas. Curar y diversificar el conjunto de datos fue, en muchos sentidos, más difícil que entrenar el modelo mismo.
¿Y realmente funciona?
Para saber si nuestro inspector estaba listo para el mundo real, lo sometimos a una prueba final. Los resultados fueron contundentes.
De manera general, el modelo logró una precisión del 90% en sus detecciones. Pero lo que realmente importa son los detalles que salvan vidas:
| Elemento de EPP | Precisión de detección |
|---|---|
| Chaleco de seguridad | 91% |
| Botas de seguridad | 93% |
| Mascarilla | 92% |
| Casco | ~90% |
Además, el modelo demostró un equilibrio casi perfecto entre encontrar el equipo faltante y no lanzar falsas alarmas. En términos técnicos, eso se mide con algo llamado F1-Score — piensa en él como la calificación que balancea “no dejar pasar nada peligroso” con “no gritar lobo cuando no hay lobo”. Nuestro modelo obtuvo un 87% en esa calificación. En la práctica, esto significa que rara vez el sistema pasará por alto a una persona que se encuentre en riesgo por falta de equipo.
El cerebro no necesita una supercomputadora
Podrías preguntarte si cada vez que alguien quiera usar uno de estos inspectores necesita acceso a un centro de supercómputo. La respuesta es no.
Las tarjetas gráficas de alto rendimiento se usan solo para la “escuela” — para procesar las miles de imágenes y hacer el ajuste fino del modelo a nuestro problema específico. Una vez que la máquina se gradúa, “comprimimos” ese cerebro en un formato ligero y optimizado que puede correr en cualquier computadora convencional.
Y aquí es donde el proyecto deja de ser un experimento y se convierte en una herramienta real.
Lo que construimos es un dashboard donde un operador puede conectar varias cámaras al mismo tiempo, cada una apuntando a un ángulo distinto de la obra. El sistema analiza cada fotograma en tiempo real y detecta si las personas en cuadro traen o no su EPP completo. Cuando identifica a alguien sin equipo, no solo lanza la alerta: toma una captura automática y la almacena en una base de datos. Todo queda registrado.

El dashboard incluye gráficas que se actualizan en vivo conforme avanza el turno: cuántas personas han sido detectadas sin equipo, cuál es la infracción más común, y un registro de las infracciones más recientes con su evidencia fotográfica. El supervisor ya no depende de su memoria ni de sus ojos — tiene un sistema que documenta todo por él, sin parpadear.
Lo más importante: nada de esto requiere hardware especial. Una computadora de escritorio normal y las cámaras suficientes. Eso es todo lo que se necesita para tener un inspector que nunca duerme vigilando cada rincón de la obra.
No viene a reemplazar, viene a cuidar
Este inspector no le quita el trabajo a los humanos. Les cuida la vida. Es una herramienta diseñada para vigilar lo que el ojo humano, por cansancio o distracción, inevitablemente deja pasar.
Porque en la industria, detrás de cada casco que falta hay una persona que alguien espera en casa.
Al final del día, la tecnología de punta no sirve de nada si no la usamos para proteger lo más valioso que tenemos: nuestra gente.