Web Scraping like a ninja, charla de Rafa Sojo en HoneyCON.

Qué es Web Scraping y herramientas para extraer la información

Si tu objetivo es extraer información de algún sitio web o de redes sociales tienes dos opciones: rastrearla a mano con la técnica de toda la vida que consiste en buscar, ver, copia y pegar aunque el proceso sea algo más lento y tedioso o usar el Web Scraping que se trata de una técnica que permite extraer información usando programas de software que faciliten la tarea. Cabe recordar que hablando de datos el verdadero valor no está en la recopilación de los mismos sino que una vez obtenidos, sea por la técnica que sea, se les pueda dar valor a esos datos mediante su análisis y procesado y siempre ajustándose lo máximo posible a la legalidad.

Ya sabemos todos a estas alturas que la información es poder pero también que no se puede hacer todo lo que nos venga en gana con todo tipo de datos por mucho que estos sean accesibles. Pongamos un ejemplo muy sencillo: que en las diferentes páginas webs que podamos visitar encontremos un correo electrónico de contacto disponible eso no da pie de ningún modo a recopilar todos esos correos para crear con ellos una lista e incluirlos en una campaña de email marketing, no estaríamos autorizados para hacerlo y quien dice esto, dice muchos ejemplos más de un mal uso que podría hacerse con los datos y que no estaría permitido. El derecho a la protección de datos es una realidad y hay que recordarlo por muy potentes que puedan ser estas técnicas para recoger datos de Internet.

Herramientas y usos del Web Scraping

 

El uso del web scraping es bastante común sobre todo porque no requiere de grandes conocimientos y la mayoría de herramientas son sencillas de usar. En las Jornadas de Seguridad Informática HoneyCON organizadas por la asociación HoneySEC Rafa Sojo realizó una breve introducción al web scraping. Rafa Sojo (@RaSr98) es técnico en Sistemas Microinformáticos y Redes y estudiante de Desarrollo de Aplicaciones Web. Ha realizado prácticas profesionales en el Instituto Nacional de Ciberseguridad (INCIBE) y colabora con AllPestesting y onBRANDING. Fue capitán del equipo español en CyberOlympics 2016 y miembro de la selección española campeona en el European Cyber Security Challenge 2017.

En su charla, disponible en vídeo y podcast a continuación, mostró un ejemplo de uso del web scraping utilizando Python y la librerías Request  para HTTP y BeautifulSoup que permite extraer datos desde sitios HTML y archivos XML. Asimismo mostró cómo se puede aplicar web scraping para hacer búsquedas automatizadas de usuarios o de diverso tipo de perfiles en diferentes redes sociales cuando estas webs no disponen de API.

Comparto a continuación algunas herramientas que permiten realizar búsquedas de información mediante Web Scraping y que pueden ser un punto de partida para la extracción de datos en diferente tipo de sitios webs o archivos:

Como complemento a estas herramientas, en el artículo sobre "Qué es OSINT: fases, fuentes y herramientas" tienes disponible otra amplia lista de opciones prácticas que pueden resultar bastante útiles como fuentes de información. Además desde este enlace puedes revisar la lista de reproducción con todos los vídeos disponibles de las jornadas HoneyCON en mi canal de YouTube Palabra de hacker.

¿Te ha gustado? Déjame abajo tu comentario y comparte la entrada, el vídeo o el podcast para que otros también puedan disfrutarlo. ¡Gracias!

Vídeo

Podcast

¿Te unes al conocimiento innovador para recibir mis novedades por newsletter?

Nombre

Correo electrónico

He leído la Política de Privacidad de la web. Acepto expresamente los términos y condiciones y consiento el tratamiento de mis datos personales.

Información básica sobre Protección de datos.

Responsable del tratamiento de datos: Yolanda Corral. Finalidad: Gestionar las suscripciones a la web para estar informados de nuevas publicaciones y novedades. Legitimación: Contar con tu consentimiento expreso. Destinatarios: Yolanda Corral como encargada del tratamiento de datos, adoptando las necesarias medidas de seguridad y confidencialidad. Los datos que me facilites estarán ubicados en los servidores de Raiola Networks, ubicados en la UE cuyo nivel de protección son adecuados según la Comisión de la UE. Derechos: Tienes derecho de información, a acceder, rectificar, limitar y cancelar tus datos tal y como puedes ver detalladamente en la política de privacidad de esta web así como en el aviso legal.

AVISO LEGAL - PRIVACIDAD - COOKIES

¿Te gustaría seguir el blog por correo electrónico?

Si deseas recibir notificaciones al instante de las nuevas entradas en tu correo, aquí puedes hacerlo. Al hacer clic en el botón "Seguir" declaras expresamente que has leído y aceptas la Política de Privacidad y el Aviso legal de mi web.

Yolanda Corral
Soy licenciada en Periodismo. Periodista y formadora especializada en ciberseguridad, TICs, YouTube, redes sociales y contenidos online. Cuento con un máster en Community Management y siempre estoy en continuo aprendizaje. Fundadora y organizadora de las jornadas de Seguridad Informática PaellaCON y dinamizadora de Hack&Beers Valencia. Fundadora del canal divulgativo HangoutNEO y del canal especializado en ciberseguridad Palabra de hacker.

Curiosa por naturaleza, apasionada de la comunicación, abanderada de la educación, la transformación digital y la seguridad digital, amante del social media y coleccionista de momentos. Como formadora imparto talleres y doy charlas sobre seguridad digital, TICs, redes sociales, YouTube, LinkedIn, marca personal, empleo 2.0, alfabetización digital, marketing de contenidos... Dime qué necesitas y lo doy todo. ¡Conectemos en las redes!
Yolanda Corral on GoogleYolanda Corral on InstagramYolanda Corral on LinkedinYolanda Corral on TwitterYolanda Corral on Youtube

Déjame un comentario pero antes debes atender a esta información básica sobre Protección de datos. Responsable del tratamiento de datos: Yolanda Corral. Finalidad: Gestionar y moderar los comentarios realizados en la web. Legitimación: Contar con tu consentimiento expreso. Destinatarios: Yolanda Corral como encargada del tratamiento de datos, adoptando las necesarias medidas de seguridad y confidencialidad. Derechos: Tienes derecho de información, a acceder, rectificar, limitar y suprimir tus datos tal y como puedes ver detalladamente en la Política de privacidad de esta web así como en el aviso legal. ¡Gracias!

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.