Web Scraping like a ninja, charla de Rafa Sojo en HoneyCON.

Qué es Web Scraping y herramientas para extraer la información

Si tu objetivo es extraer información de algún sitio web o de redes sociales tienes dos opciones: rastrearla a mano con la técnica de toda la vida que consiste en buscar, ver, copia y pegar aunque el proceso sea algo más lento y tedioso o usar el Web Scraping que se trata de una técnica que permite extraer información usando programas de software que faciliten la tarea. 

Cabe recordar que hablando de datos el verdadero valor no está en la recopilación de los mismos sino que una vez obtenidos, sea por la técnica que sea, se les pueda dar valor a esos datos mediante su análisis y procesado y siempre ajustándose lo máximo posible a la legalidad.

Ya sabemos todos a estas alturas que la información es poder pero también que no se puede hacer todo lo que nos venga en gana con todo tipo de datos por mucho que estos sean accesibles.

Pongamos un ejemplo muy sencillo: que en las diferentes páginas web que podamos visitar encontremos un correo electrónico de contacto disponible eso no da pie de ningún modo a recopilar todos esos correos para crear con ellos una lista e incluirlos en una campaña de email marketing, no estaríamos autorizados para hacerlo y quien dice esto, dice muchos ejemplos más de un mal uso que podría hacerse con los datos y que no estaría permitido. El derecho a la protección de datos es una realidad y hay que recordarlo por muy potentes que puedan ser estas técnicas para recoger datos de Internet.

Herramientas y usos del Web Scraping

El uso del web scraping es bastante común sobre todo porque no requiere de grandes conocimientos y la mayoría de herramientas son sencillas de usar. En las Jornadas de Seguridad Informática HoneyCON organizadas por la asociación HoneySEC Rafa Sojo realizó una breve introducción al web scraping. 

Rafa Sojo (@RaSr98) es técnico en Sistemas Microinformáticos y Redes y estudiante de Desarrollo de Aplicaciones Web. Ha realizado prácticas profesionales en el Instituto Nacional de Ciberseguridad (INCIBE) y trabaja con AllPestesting. Fue capitán del equipo español en CyberOlympics 2016 y miembro de la selección española campeona en el European Cyber Security Challenge 2017.

En su charla, disponible en vídeo y podcast a continuación, mostró un ejemplo de uso del web scraping utilizando Python y la librerías Request  para HTTP y BeautifulSoup que permite extraer datos desde sitios HTML y archivos XML. Asimismo mostró cómo se puede aplicar web scraping para hacer búsquedas automatizadas de usuarios o de diverso tipo de perfiles en diferentes redes sociales cuando estas webs no disponen de API.

Comparto a continuación algunas herramientas que permiten realizar búsquedas de información mediante esta técnica del Web Scraping y que pueden ser un punto de partida para la extracción de datos que tengamos que hacer en diferente tipo de sitios webs o archivos:

Como complemento a estas herramientas, en el artículo sobre ‘Qué es OSINT: fases, fuentes y herramientas‘ tienes disponible otra amplia lista de opciones prácticas que pueden resultar bastante útiles como fuentes de información así como en el taller de Iván Portillo y Gonzalo González ‘Monta la NSA en tu casa. Inteligencia aplicada al mundo ciber‘. Además desde este enlace puedes revisar la lista de reproducción con todos los vídeos disponibles de las jornadas HoneyCON en mi canal de YouTube Palabra de hacker.

Si te ha gustado puedes dejarme abajo un comentario y compartir la entrada, el vídeo o el podcast para que otros también puedan disfrutarlo. ¡Gracias!

Vídeo

Podcast

¿Tienes Telegram? Suscríbete al canal de Palabra de hacker: https://t.me/palabradehacker

    ¿Quieres recibir todas las novedades por newsletter?

    Nombre

    Correo electrónico


    Información básica sobre Protección de datos. Responsable del tratamiento de datos: Yolanda Corral. Finalidad: Gestionar las suscripciones a la web para estar informados de nuevas publicaciones y novedades. Legitimación: Contar con el consentimiento expreso del interesado. Destinatarios: Yolanda Corral como encargada del tratamiento de datos, adoptando las necesarias medidas de seguridad y confidencialidad. Los datos que me facilites estarán ubicados en los servidores de Raiola Networks, ubicados en la UE cuyo nivel de protección son adecuados según la Comisión de la UE. Derechos: Tienes derecho de información, a acceder, rectificar, limitar y cancelar tus datos tal y como puedes ver detalladamente en la política de privacidad de esta web así como en el aviso legal.

    AVISO LEGAL - PRIVACIDAD - COOKIES

    ¡Deja tu comentario! Tu correo electrónico no será publicado.

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.