Inteligencia de fuentes abiertas (OSINT)

Objetivos: Al terminar este tema, podrás…

Identificar qué información expone una persona en fuentes públicas sin saberlo

Aplicar herramientas básicas de reconocimiento pasivo a un objetivo real

Evaluar tu propia huella digital y tomar decisiones sobre cómo reducirla

Reconocer cuándo el OSINT cruza la línea ética y legal

Antes de cualquier teoría: un caso

Recibiste un correo. El remitente dice ser de Recursos Humanos de Systemica SAS, una empresa de tecnología en Bogotá. El correo dice:

“Hola Andrés, nos llegó tu perfil a través de LinkedIn. Vimos que estás terminando tu carrera en ECI y que trabajas con el profesor Vela en proyectos de seguridad. Tenemos una vacante de pasantía en nuestro equipo de red team que encaja perfectamente con tu perfil. Necesitamos que completes este formulario de preselección con tu cédula y datos bancarios para registrarte en el sistema de proveedores antes de la entrevista. El plazo vence mañana.”

El correo tiene tu foto.

Pausa para reflexionar

Antes de seguir: ¿qué tan convincente te parece este correo? ¿Qué detalles te harían creer o dudar?

Ahora la pregunta real: ¿cómo obtuvo el atacante toda esa información? No tienes que saberlo todavía. Solo piénsalo.

Cómo el atacante construyó ese perfil

No usó herramientas sofisticadas. No hackeó ningún sistema. Usó fuentes completamente públicas y tardó probablemente 20 minutos.

Dato en el correo	Fuente pública
Nombre completo	LinkedIn, perfil universitario público
Universidad (ECI)	LinkedIn, correo institucional con dominio `.edu.co`
Nombre del profesor	LinkedIn (relaciones), GitHub (commits con correo institucional)
Interés en pasantías	Estado “Abierto a oportunidades” en LinkedIn
Foto	Foto de perfil de LinkedIn o Instagram público

Esto se llama reconocimiento pasivo: recopilar información sobre un objetivo usando exclusivamente fuentes públicas, sin interactuar directamente con sus sistemas. En seguridad ofensiva, es la primera fase de cualquier ataque. Antes de intentar entrar a cualquier sistema, un atacante competente ya habrá aprendido todo lo que puede saber desde afuera.

Qué es OSINT y por qué importa

OSINT (Open Source Intelligence) es la recopilación y análisis de información disponible públicamente para producir inteligencia accionable sobre un objetivo.

La palabra “inteligencia” no es casual. El objetivo es construir un modelo del objetivo: quién es, qué hace, qué sabe, con quién se relaciona, qué podría vulnerarse. El mismo proceso que usan servicios de inteligencia estatales desde hace décadas se aplica hoy a ataques contra empresas e individuos.

Un atacante que hace OSINT antes de actuar tiene ventajas concretas:

Sabe qué tecnologías usa la empresa antes de intentar explotarlas
Conoce el nombre y cargo de la persona con acceso al sistema que quiere vulnerar
Puede construir pretextos creíbles porque habla el mismo idioma que su objetivo
Identifica empleados con acceso privilegiado a través de LinkedIn sin alertar a nadie

El reconocimiento pasivo no activa ninguna alarma

No hay firewall, IDS ni log de acceso que registre que alguien buscó tu nombre en Google o revisó tu LinkedIn. El atacante puede hacer OSINT durante días o semanas sin dejar ningún rastro técnico en los sistemas de la víctima.

Cinco categorías de exposición

1. Redes sociales y presencia corporativa

LinkedIn es la fuente más valiosa para un atacante que apunta a una organización:

El organigrama completo es visible para cualquier usuario: quién reporta a quién, qué áreas existen, cuántas personas las componen
El stack tecnológico sale de los perfiles individuales: “Python, AWS, Kubernetes, Active Directory” en el perfil de un desarrollador le dice al atacante qué sistemas tiene la empresa
Las certificaciones activas revelan qué herramientas y proveedores usa la empresa
Las ofertas de trabajo son especialmente reveladoras: “se requiere experiencia con CrowdStrike, Okta y Terraform” muestra qué controles de seguridad tiene y, por omisión, cuáles no tiene

Twitter/X y prensa corporativa revelan:

Anuncios de nuevos contratos, alianzas o clientes (útiles para construir pretextos de “somos su nuevo proveedor”)
Cambios de personal recientes en áreas críticas (un CISO nuevo lleva 90 días: período de mayor vulnerabilidad organizacional)
Incidentes públicos o quejas de clientes que señalan sistemas problemáticos o procesos débiles

2. Artefactos técnicos

GitHub es una fuente de información frecuentemente ignorada por quienes publican ahí:

Los commits contienen el correo del desarrollador en cada uno
El historial puede contener credenciales o claves API que “ya se quitaron” (el borrado no borra el historial de commits)
El README a veces tiene correos de contacto o instrucciones de despliegue que revelan infraestructura
El stack tecnológico del proyecto revela qué versiones de software usa la organización (útil para buscar CVEs)

Registros DNS y WHOIS: Los dominios web tienen registros públicos. Los registros DNS todavía revelan infraestructura: servidores de correo, subdominios, proveedores de hosting. Una búsqueda de subdominios de una empresa puede revelar entornos de desarrollo, paneles de administración o servicios que no estaban pensados para ser públicos.

3. Bases de datos de filtraciones

Los datos de las personas no desaparecen después de una filtración: circulan en foros durante años.

Have I Been Pwned (haveibeenpwned.com) permite verificar si un correo apareció en alguna filtración conocida. Si el correo de alguien aparece en una filtración de 2018, su contraseña de esa época está probablemente disponible en listas de diccionario. Y si esa persona reutiliza contraseñas (la mayoría lo hace), eso es un vector de acceso directo sin necesidad de explotar ninguna vulnerabilidad técnica.

4. Registros públicos

Las entidades públicas en Colombia publican información de acceso libre:

Los contratos con el Estado aparecen en el SECOP (Sistema Electrónico de Contratación Pública)
Las cámaras de comercio tienen información de socios y representantes legales
Los PDFs de actas de reuniones y licitaciones frecuentemente incluyen correos y teléfonos de contacto

Para una empresa con contratos públicos, el nombre del representante legal, su correo y el de sus proveedores puede estar en documentos indexados por Google.

5. Documentos indexados involuntariamente

Muchas organizaciones publican sin darse cuenta:

Organigramas en PDF desactualizados con nombres y cargos
Plantillas de correo con firmas que revelan la estructura de emails (nombre.apellido@empresa.com)
Documentos con metadatos que incluyen el nombre del usuario que los creó, la ruta del archivo en el servidor, y la fecha de edición

Herramientas básicas

Google Dorks

Los operadores de búsqueda avanzada de Google permiten filtrar resultados con precisión quirúrgica:

Operador	Función	Ejemplo
`site:`	Restringe a un dominio	`site:empresa.com filetype:pdf`
`filetype:`	Filtra por tipo de archivo	`filetype:xlsx site:empresa.com`
`inurl:`	Busca en la URL	`inurl:"/admin" site:empresa.com`
`intitle:`	Busca en el título de la página	`intitle:"index of" site:empresa.com`
`"texto exacto"`	Busca la frase exacta	`"@empresa.com" "Director"`

Combinados:

site:linkedin.com "PagaFácil SAS" "desarrollador"
"@empresa.com" filetype:pdf site:empresa.com
site:github.com "empresa.com" password
filetype:pdf "organigrama" site:empresa.com

Límite ético y legal

Google dorks sobre sistemas de terceros para encontrar vulnerabilidades (paneles de admin, archivos de configuración expuestos) puede configurar el delito del Art. 269A si hay intención de acceso no autorizado. En este curso los usamos para reconocimiento sobre objetivos ficticios.

Have I Been Pwned

Ingresa un correo en haveibeenpwned.com. El resultado muestra en qué filtraciones conocidas apareció ese correo y qué tipo de dato fue expuesto: contraseña, nombre, número de teléfono, dirección. Si aparece en varias filtraciones, hay alta probabilidad de que alguna versión de esa contraseña esté en listas públicas de diccionario.

Búsqueda inversa de imagen

Sube una foto de perfil a Google Imágenes, Yandex o TinEye. El buscador encuentra otras apariciones de esa imagen: otros perfiles, artículos, menciones. Útil para verificar si una persona usa el mismo perfil en múltiples plataformas o para detectar fotos robadas.

Búsqueda de nombre de usuario

La misma persona frecuentemente usa el mismo alias en múltiples plataformas. Una búsqueda manual del username en distintos servicios, o herramientas como Sherlock, muestra en qué plataformas existe ese identificador, expandiendo el perfil del objetivo a servicios que no habrías buscado directamente.

Shodan

Shodan indexa dispositivos conectados a internet: cámaras, routers, impresoras, servidores industriales, sistemas de control de edificios. No páginas web, sino hardware expuesto. Permite buscar por empresa, tecnología, ubicación o versión de software.

Una empresa puede tener su servidor de impresión o su cámara de seguridad indexados públicamente sin saberlo. No lo usaremos en la actividad de hoy, pero conceptualmente cierra el ciclo: OSINT no solo recopila información sobre personas, también mapea la infraestructura técnica expuesta.

Actividad en clase

El ejercicio

Trabajan en grupos de 3 a 4. El profesor asigna a cada grupo una empresa colombiana real.

Su misión: En 30 minutos, construir el mapa de exposición más completo posible de esa organización usando exclusivamente fuentes públicas.

Reglas:

Solo fuentes abiertas. No intentar acceder a sistemas.
No contactar a la empresa ni a sus empleados.
Documentar cada hallazgo con su fuente exacta (URL o nombre del servicio).

Entregable: Un documento de una página con estructura de “reporte de reconocimiento”:

Infraestructura y activos expuestos (subdominios identificados, tecnologías, servicios públicos)
Información de valor para un atacante (personas clave con acceso, stack tecnológico, proveedores, contratos)
Vector de ataque más prometedor basado en lo encontrado — y por qué ese y no otro
Fuente de cada dato

Al finalizar, cada grupo presenta sus hallazgos. La clase vota qué reporte sería más útil para un atacante real.

Empresas objetivo

Empresa A — Rappi

Rappi SAS: startup colombiana de tecnología fundada en Bogotá en 2015, operaciones en más de 9 países, una de las primeras unicornios latinoamericanas.

Punto de partida: LinkedIn corporativo, GitHub (github.com/Rappi), ofertas de trabajo activas, cobertura de prensa extensa (TechCrunch, Bloomberg, medios colombianos). Ingenieros activos en LinkedIn con stacks técnicos detallados. La escala de la empresa implica muchos subdominios activos y probablemente entornos de staging o desarrollo expuestos.

Foco sugerido: Mapear el stack tecnológico completo a partir de perfiles de LinkedIn y ofertas de trabajo. ¿Qué sistemas usa Rappi que también podrían ser vectores de entrada? ¿Qué subdominios del dominio rappi.com están indexados?

Empresa B — EPM (Empresas Públicas de Medellín)

EPM: empresa pública de servicios (energía, gas, agua, telecomunicaciones), propiedad del municipio de Medellín. Opera en Colombia y varios países de América Latina.

Punto de partida: SECOP (contratos públicos con proveedores y contratistas), página institucional, LinkedIn corporativo, Registro Público de la Cámara de Comercio de Medellín. Como entidad pública, sus contratos, proveedores y representantes legales son de acceso libre. Opera infraestructura crítica nacional.

Foco sugerido: Reconstruir la cadena de proveedores de TI y telecomunicaciones a partir de contratos en el SECOP. ¿Qué empresas tienen acceso técnico a los sistemas de EPM? ¿Cuáles de esos proveedores tienen menor postura de seguridad?

Empresa C — Avianca

Avianca: aerolínea colombiana, una de las más antiguas de América. Opera rutas internacionales y ha pasado por dos procesos de reestructuración financiera recientes (2020 y 2023).

Punto de partida: LinkedIn corporativo, prensa financiera (Wall Street Journal, Reuters, Portafolio), registros de reestructuración, página institucional. La reestructuración reciente implica rotación de personal ejecutivo y posibles cambios en proveedores de TI — períodos de transición que los atacantes aprovechan. El dominio avianca.com tiene un footprint de subdominios amplio.

Foco sugerido: Identificar cambios recientes de personal en áreas críticas (TI, finanzas, operaciones) y estimar qué proveedores de tecnología entraron o salieron durante la reestructuración. ¿Qué subdominios activos o abandonados tiene avianca.com?

Empresa D — Siigo

Siigo: empresa colombiana de software contable y ERP para pymes. Opera en Colombia, Ecuador y México. Adquirida por el fondo Accel-KKR en 2019.

Punto de partida: LinkedIn corporativo, GitHub, página de integraciones y partners (los logos de clientes y socios en su web revelan con quién tienen acceso técnico), ofertas de trabajo, documentación de API pública. Como empresa B2B de software financiero, sus integraciones con los sistemas contables de sus clientes son un vector de ataque de cadena de suministro.

Foco sugerido: Identificar qué empresas usan Siigo (muchas lo declaran en sus propios sitios o LinkedIn) y qué nivel de acceso técnico implica esa integración. ¿Qué revelan las ofertas de trabajo sobre la arquitectura interna?

Para el debrief post-actividad

¿Qué fuente resultó más valiosa? ¿Cuál fue más sorprendente?

¿Encontraron algo que la empresa probablemente no sabe que está expuesto?

¿Cuál de las cuatro empresas tiene la huella digital más explotable para un ataque dirigido? ¿Por qué?

¿Qué podría hacer cada organización para reducir su exposición sin afectar su operación?

La huella digital de una organización

Los mismos tipos de datos que recopilaron en la actividad los acumuló nadie con intención de exponerlos. Son el residuo de decisiones normales: publicar ofertas de trabajo, registrar contratos con el Estado, usar GitHub para colaborar, emitir comunicados de prensa. Cada una de esas acciones tiene sentido por separado. Juntas construyen un mapa que un atacante puede usar.

Hay tres preguntas que vale la pena hacerse sobre cualquier organización:

¿Qué está expuesto sin que nadie lo sepa? El área de TI puede tener política de no publicar detalles de infraestructura, pero un desarrollador que sube su .env a un repositorio público borra esa política en un commit. El equipo de marketing publica una foto del evento de empresa y en el fondo hay una pantalla con el panel de administración abierto.

¿Qué combina con qué? El nombre del CTO en LinkedIn + su correo corporativo en un PDF de licitación + ese mismo correo en una filtración de 2019 = credenciales probables para una cuenta con acceso privilegiado. Ninguno de esos tres datos es peligroso solo. Los tres juntos son un vector de entrada.

¿Qué controla la empresa y qué no? Puede controlar su repositorio de GitHub. No puede controlar que un ex-empleado dejó credenciales en un repo personal antes de irse, o que sus contratos con el Estado están en el SECOP por mandato legal. Saber qué no se puede controlar es el punto de partida para diseñar controles compensatorios.

Reducir la exposición organizacional: qué funciona

Inventario de activos expuestos: saber qué subdominios existen, qué repos son públicos, qué documentos están indexados — antes de que lo sepa el atacante.
Política de publicación de ofertas de trabajo: no revelar versiones específicas de software ni nombres de herramientas internas. “Experiencia con herramientas de EDR” en lugar de “experiencia con CrowdStrike Falcon versión X”.
Revisión de metadatos en documentos antes de publicarlos externamente.
Proceso de offboarding técnico: revocar accesos, revisar repos personales del empleado saliente, rotar credenciales compartidas.

Lo que no funciona: asumir que “nadie va a buscar información sobre nuestra empresa.” Los ataques dirigidos comienzan precisamente con este paso. Y los ataques no dirigidos usan herramientas automatizadas que indexan la red continuamente — Shodan ya lo hizo, haya o no un atacante interesado.

Cuándo el OSINT cruza la línea

OSINT sobre información técnicamente pública es generalmente legal. Pero hay zonas grises que importan para un ingeniero de seguridad:

Agregar y correlacionar produce una imagen más peligrosa que cualquier dato individual. Un subdominio expuesto + el nombre del administrador de sistemas en LinkedIn + su correo en una filtración de 2019 = un vector de ataque completo. Cada pieza es pública; el perfil resultante es lo que hace el daño. Además, aunque una empresa como entidad tiene menos protección de privacidad que un individuo, sus empleados sí tienen derechos fundamentales. OSINT organizacional que recopila información personal sobre trabajadores específicos puede cruzar la línea del artículo 15 de la Constitución.

El propósito importa. Hacer OSINT sobre un objetivo como preparación para un ataque es reconocimiento para un delito. Hacerlo en un ejercicio académico controlado, sobre figuras públicas y con el objetivo explícito de entender la metodología, es educación. Hacerlo como parte de un engagement de seguridad autorizado es práctica profesional legítima.

La Ley 1581 de 2012 protege los datos personales incluso cuando son técnicamente públicos, si el uso va más allá del propósito original para el que se publicaron.

Para reflexionar

Un investigador de seguridad hace OSINT sobre empleados de una empresa para un reporte de exposición que le van a entregar a esa misma empresa. ¿Necesita el consentimiento de los empleados? ¿Cambia algo si la empresa no le ha dado autorización formal por escrito?

Conceptos clave

Término	Definición
OSINT	Inteligencia obtenida de fuentes de acceso público para generar un perfil accionable de un objetivo
Reconocimiento pasivo	Fase previa al ataque: recopilar información sin interactuar con los sistemas del objetivo
Google Dork	Consulta con operadores avanzados de búsqueda para encontrar información específica indexada públicamente
Huella digital	Conjunto de datos que existen sobre una persona o entidad en fuentes digitales accesibles
Spear phishing	Ataque de phishing altamente personalizado, construido sobre reconocimiento OSINT previo
Have I Been Pwned	Servicio público que verifica si un correo o contraseña apareció en filtraciones de datos conocidas
Shodan	Motor de búsqueda de dispositivos conectados a internet (cámaras, servidores, routers, sistemas industriales)

Nota de evaluación: La nota de clase (20% del total) corresponde a la calidad del perfil de atacante producido en la actividad: amplitud de fuentes consultadas, utilidad de los hallazgos para un ataque hipotético, y claridad de la presentación.

Navegación: ← Anterior | Inicio

ICIB

Explorador

12 - OSINT

Inteligencia de fuentes abiertas (OSINT)

Antes de cualquier teoría: un caso

Cómo el atacante construyó ese perfil

Qué es OSINT y por qué importa

Cinco categorías de exposición

1. Redes sociales y presencia corporativa

2. Artefactos técnicos

3. Bases de datos de filtraciones

4. Registros públicos

5. Documentos indexados involuntariamente

Herramientas básicas

Google Dorks

Have I Been Pwned

Búsqueda inversa de imagen

Búsqueda de nombre de usuario

Shodan

Actividad en clase

El ejercicio

Empresas objetivo

La huella digital de una organización

Reducir la exposición organizacional: qué funciona

Cuándo el OSINT cruza la línea

Conceptos clave

Vista Gráfica

Tabla de Contenidos

Retroenlaces