Si tu objetivo es extraer información de algún sitio web o de redes sociales tienes dos opciones: rastrearla a mano con la técnica de toda la vida que consiste en buscar, ver, copia y pegar aunque el proceso sea algo más lento y tedioso o usar el Web Scraping que se trata de una técnica que permite extraer información usando programas de software que faciliten la tarea.
Cabe recordar que hablando de datos el verdadero valor no está en la recopilación de los mismos sino que una vez obtenidos, sea por la técnica que sea, se les pueda dar valor a esos datos mediante su análisis y procesado y siempre ajustándose lo máximo posible a la legalidad.
Ya sabemos todos a estas alturas que la información es poder pero también que no se puede hacer todo lo que nos venga en gana con todo tipo de datos por mucho que estos sean accesibles.
Pongamos un ejemplo muy sencillo: que en las diferentes páginas web que podamos visitar encontremos un correo electrónico de contacto disponible eso no da pie de ningún modo a recopilar todos esos correos para crear con ellos una lista e incluirlos en una campaña de email marketing, no estaríamos autorizados para hacerlo y quien dice esto, dice muchos ejemplos más de un mal uso que podría hacerse con los datos y que no estaría permitido. El derecho a la protección de datos es una realidad y hay que recordarlo por muy potentes que puedan ser estas técnicas para recoger datos de Internet.
Herramientas y usos del Web Scraping
El uso del web scraping es bastante común sobre todo porque no requiere de grandes conocimientos y la mayoría de herramientas son sencillas de usar. En las Jornadas de Seguridad Informática HoneyCON organizadas por la asociación HoneySEC Rafa Sojo realizó una breve introducción al web scraping.
Rafa Sojo (@RaSr98) es técnico en Sistemas Microinformáticos y Redes y estudiante de Desarrollo de Aplicaciones Web. Ha realizado prácticas profesionales en el Instituto Nacional de Ciberseguridad (INCIBE) y trabaja con AllPestesting. Fue capitán del equipo español en CyberOlympics 2016 y miembro de la selección española campeona en el European Cyber Security Challenge 2017.
En su charla, disponible en vídeo y podcast a continuación, mostró un ejemplo de uso del web scraping utilizando Python y la librerías Request para HTTP y BeautifulSoup que permite extraer datos desde sitios HTML y archivos XML. Asimismo mostró cómo se puede aplicar web scraping para hacer búsquedas automatizadas de usuarios o de diverso tipo de perfiles en diferentes redes sociales cuando estas webs no disponen de API.
Comparto a continuación algunas herramientas que permiten realizar búsquedas de información mediante esta técnica del Web Scraping y que pueden ser un punto de partida para la extracción de datos que tengamos que hacer en diferente tipo de sitios webs o archivos:
Como complemento a estas herramientas, en el artículo sobre ‘Qué es OSINT: fases, fuentes y herramientas‘ tienes disponible otra amplia lista de opciones prácticas que pueden resultar bastante útiles como fuentes de información así como en el taller de Iván Portillo y Gonzalo González ‘Monta la NSA en tu casa. Inteligencia aplicada al mundo ciber‘. Además desde este enlace puedes revisar la lista de reproducción con todos los vídeos disponibles de las jornadas HoneyCON en mi canal de YouTube Palabra de hacker.
Si te ha gustado puedes dejarme abajo un comentario y compartir la entrada, el vídeo o el podcast para que otros también puedan disfrutarlo. ¡Gracias!
Vídeo
Podcast
¿Tienes Telegram? Suscríbete al canal de Palabra de hacker: https://t.me/palabradehacker

Periodista y formadora especializada en ciberseguridad de tú a tú y competencias digitales. Fundadora del canal divulgativo HangoutNEO y del canal especializado en ciberseguridad Palabra de hacker. Autora del libro «Ciberseguridad de tú a tú. Lo que tienes que conocer para sentirte más seguro» de la editorial 0xWord. Si quieres adquirir un ejemplar del libro y que te lo envíe firmado, escríbeme.
Me defino curiosa por naturaleza, apasionada de la comunicación, abanderada de la educación y amante del social media. Soy la profesional que te puede ayudar a mejorar tu seguridad digital, tu identidad digital y tus competencias digitales así que ¡lánzame un reto!