Cómo utilizar una herramienta de extracción de datos para extraer datos de páginas web

Si está copiando y pegando cosas de páginas web y colocándolas manualmente en hojas de cálculo, o no sabe qué es el scraping de datos (o web scraping), o sabe qué es, pero no está realmente interesado en la idea de aprender a codificar solo para ahorrarse unas horas de hacer clic.

De cualquier manera, hay muchas herramientas de extracción de datos sin código que pueden ayudarlo, y la extensión de Chrome de Data Miner es una de las opciones más intuitivas. Si tiene suerte, la tarea que está intentando hacer ya estará incluida en el libro de recetas de la herramienta, y ni siquiera tendrá que seguir los pasos de apuntar y hacer clic necesarios para crear la suya propia.

¿Cómo funciona Data Miner?

Data Miner lo ayuda a obtener datos de las páginas web y a archivos Excel / CSV con un formato agradable al mirar el texto de las páginas que ha cargado. Eso significa que deberá sentirse lo suficientemente cómodo con HTML para reconocer algunos patrones, pero nada demasiado extenso. Las habilidades avanzadas de HTML y / o JavaScript ciertamente ayudarán con algunas tareas, pero no son necesarias para la mayoría de las cosas. También debe tener al menos habilidades básicas de hoja de cálculo para que pueda estar seguro de que su salida está limpia y organizada.

1. Configurar Data Miner

Extensión Data Miner

Usando Chrome u otro navegador Chromium, instalar la extensión. El ícono del pico de la extensión aparecerá en su barra de herramientas, y al hacer clic en él, lo llevará a una página donde puede configurar una cuenta. La versión gratuita le ofrece 500 raspaduras al mes, lo que probablemente sea suficiente para usted, a menos que sea algo que haga todos los días.

2. Cargue los datos

Carga del minero de datos

Primero, navegue hasta la página de la que desea extraer los datos. Si tiene varias páginas de datos o algunos de ellos están ocultos detrás de botones, está bien; hay formas de lidiar con eso. Por ahora, solo necesitará una muestra representativa para que el programa sepa qué buscar.

3. Busque una receta

Recetas de Data Miner

A continuación, abra Data Miner y compruebe la pestaña “Público” para ver las recetas existentes. Si está en un sitio popular, es posible que otra persona ya haya creado un proceso para obtener los datos que está buscando, lo que le ahorraría bastante tiempo. Sitios como Google, Amazon y Twitter, por ejemplo, tienen muchas recetas disponibles para ayudarlo a descargar instantáneamente enlaces, precios, texto y otros datos. Puede probar las recetas haciendo clic en el botón “Ejecutar” para ver una vista previa de la hoja de cálculo que genera Data Miner. También puede modificar las recetas existentes para que se adapten a sus necesidades presionando el botón “Editar”.

4. Tipo de página

Tipo de página de Data Miner

Bien, entonces ninguna receta prefabricada funcionó para ti. Está bien, puedes hacer el tuyo propio. Simplemente haga clic en el botón “Nueva receta” para comenzar.

Su primera opción será “Página de lista” o “Página de detalles”.

Seleccione “Página de lista” si está intentando obtener varias filas de datos de una sola página. Por ejemplo, es posible que desee descargar el enlace y el título de la página de cada resultado de búsqueda u obtener la fecha y el contenido de las publicaciones en un feed. Este es probablemente el tipo más común y el que usaremos aquí como demostración. (Los pasos para una página de detalles son esencialmente los mismos).

Seleccione “Página de detalles” si tiene mucha información diferente sobre un elemento en una sola página. una página de producto, por ejemplo, donde necesita tomar su precio, descripción, enlace y calificación y ponerlo todo en una sola fila.

Paso 5: haz tus filas

Selección de fila de Data Miner 4

Presione el botón “Buscar” y mueva el mouse hasta que el cuadro de selección amarillo cubra todos los datos que necesitaría para una sola entrada en su hoja de cálculo final. Por ejemplo, si está descargando resultados de búsqueda, deberá resaltar un área lo suficientemente grande para incluir el título, la URL y la descripción, cada uno de los cuales puede colocar en columnas separadas en el siguiente paso. Para hacer su selección, presione el Cambio llave. No se preocupe si hace clic accidentalmente; Data Miner guarda todo el progreso de su receta incluso si navega fuera de la página.

Luego, querrá marcar al menos una de las casillas en la sección “Clases de elementos” o “Tipo de elemento HTML”. Idealmente, verá la selección replicada para cubrir todos los elementos de la página que están en la misma categoría que la que seleccionó.

Selección de fila de Data Miner 5

Si encuentra que el selector no cubre todo lo que necesita, intente seleccionar solo uno de los elementos y presione “Seleccionar padre”. Esto hará que la caja sea más grande y probablemente capturará todo lo que necesita. De lo contrario, es posible que deba profundizar un poco en el HTML e identificar las clases y tipos de elementos que necesita. En caso de duda, presione “Seleccionar padre” hasta que el cuadro sea lo más grande posible sin cubrir más de una entrada de la lista, ya que esto le dará más flexibilidad al seleccionar columnas.

Data Miner te ofrece la opción “Ver HTML del elemento” en la parte inferior y también te permite escribir selectores personalizados. Si quiere decir, tome todos los enlaces en una página con la clase “producto”, simplemente puede escribir a.product. Aquí es donde algunos conocimientos básicos de HTML / CSS serán realmente útiles.

Selección de fila de Data Miner 6

Una vez que esté de vuelta en el menú de la fila principal, debería ver un “Recuento de filas” con el número de entradas que creará su receta en una hoja de cálculo. Si no detecta todo, deberá volver a verificar la selección de filas.

6. Divida sus datos en columnas

Selección de columna de minero de datos 1

Una vez que haya seleccionado todos los datos para sus filas, es hora de que se vea bien subdividiéndolos en diferentes categorías de columnas. Cada selección que haga aquí debe ser una subsección del cuadro que seleccionó para sus filas.

Selección de columna de Data Miner 2

Para crear una columna, simplemente escriba un nombre y use el botón Buscar para seleccionar lo que desea extraer, al igual que hizo para las filas. Los datos más comunes probablemente serán texto, URL o URL de imagen. Obtener URL colocando el cursor sobre enlaces de texto puede ser un poco complicado; es posible que deba presionar “seleccionar padre” hasta que alcance un nivel en el que el tipo de elemento es <a>, que es la etiqueta HTML de los enlaces.

Selección de columna de minero de datos 1

Para asegurarse de que tiene el tipo correcto de datos en su columna, simplemente presione el icono del ojo en el lado derecho del nombre de cada columna, junto al número que muestra cuántas columnas se han seleccionado. Esto le mostrará una vista previa de cada entrada de fila para esa columna. Si algo está mal, regrese y modifique las etiquetas y los tipos que eligió para identificar las filas. No tema abrir el visor HTML y buscar patrones asociados con los datos que está intentando capturar.

7. Indique a Data Miner cómo ir a la página siguiente.

Minero de datos Nav 1

Si tiene varias páginas de datos para extraer, probablemente no quiera hacer clic en todas y ejecutar su receta una y otra vez. Para evitarlo, simplemente dígale a Data Miner dónde encontrar el botón de navegación en el que debe hacer clic para ir a la página siguiente. Tenga cuidado de no decirle que haga clic en algo como “Página 2”, ya que entonces irá a, bueno, Página 2. Nuevamente, asegúrese de que está seleccionando un <a> y use el botón Probar navegación para asegurarse de que esté funcionando.

Minero de datos Nav 2

8. Indique a Data Miner dónde hacer clic o desplazarse para cargar datos

Haga clic en el elemento Acciones de Data Miner

Algunas páginas no cargan datos hasta que haces clic en algo o te desplazas hacia abajo. ¡Afortunadamente, Data Miner también puede hacer estas cosas! Use la herramienta “Buscar” en la parte superior (ya debería ser bastante bueno en eso) para seleccionar el elemento que necesita manipular, luego coloque el selector en el cuadro apropiado y pruébelo para asegurarse de que funcione.

Averiguar exactamente qué selector activará el elemento o la barra de desplazamiento infinita puede ser complicado, pero el conocimiento básico de HTML y algo de prueba y error lo llevarán bastante lejos aquí. La mayoría de las cosas que necesitará manipular aquí están basadas en JavaScript, pero Data Miner solo necesita conocer el selector de CSS asociado con la acción para activarlo, por lo que no debería tener que perder el tiempo con ningún código en la mayoría de los casos.

El siguiente paso también le permite agregar JS personalizado para hacer prácticamente lo que quiera, pero eso es bastante avanzado y va más allá de lo que necesitamos para el raspado básico.

9. Guarde y ejecute la receta

Guardar Data Miner

¡Felicidades! Ahora es el momento de ver si todo salió bien. Ejecute la receta en la página en la que se encuentra y verifique la vista previa para ver si sus filas y columnas están haciendo lo que se supone que deben hacer. Si no es así, puede volver atrás y editar la receta.

Ejecución 1 de Data Miner

Si todo se está comportando como debería, puede usar el botón “Página siguiente” para decirle al raspador cuántas páginas debe rastrear y qué tan rápido debe ir / (Ir demasiado rápido puede hacer que el sistema lo marque como un bot).

Paginación de ejecución de Data Miner

Una vez que tenga todos los datos que necesita, puede elegir qué formato de archivo le gustaría usar para descargarlo.

Minero de datos Excel Csv

Tengo problemas; ¿hay una manera mas facil?

Si el programa Data Miner no le está funcionando, hay muchas otras herramientas de extracción de datos disponibles: ParseHub, Scraper, Octoparse, Import.io, VisualScraper, etc. Algunas de ellas pueden tener interfaces más intuitivas y más automatización, pero aún necesitará saber al menos un poco sobre HTML y cómo está organizada la web. Lo que hace que Data Miner sea especialmente bueno para los principiantes es su biblioteca de recetas de colaboración colectiva, que podría ayudarlo a evitar incluso el encuentro más pequeño con el código. Eso, combinado con su generoso paquete de raspados mensuales gratuitos, lo convierte en una herramienta muy decente para la mayoría de las necesidades.

¿Es útil este artículo?

Compártelo con algun conocido(a) que le pueda interesar

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *