Извлечение данных с веб-страниц — относительно сложная задача, которая до недавнего времени требовала определенных технических навыков. Идея погрузиться в код или сценарии для извлечения данных казалась многим, в том числе и мне, ошеломляющей.
Сбор данных может помочь во многих задачах SEO, таких как аудит, анализ конкурентов и изучение веб-сайта и структуры данных.
Таблицы Google предлагают простые решения.
Одним из таких решений является функция IMPORTXML, которая позволяет пользователям собирать данные веб-страницы, используя всего несколько параметров. Это делает извлечение данных доступным для более широкой аудитории, особенно для тех, кто плохо разбирается в языках программирования.
Хотя эта функция впечатляет, настоящий прорыв произошел с внедрением и интеграцией генеративного искусственного интеллекта.
В этом руководстве мы покажем вам, как использовать Google Таблицы и искусственный интеллект, в частности ChatGPT, для парсинга веб-страниц без необходимости продвинутых навыков программирования.
Содержание
Инструменты: искусственный интеллект и чат-боты
Теперь мы все знакомы с AI, ChatGPT и подобными чат-ботами.
Фактически, многие из нас используют такие решения, как ChatGPT, для написания собственного кода, скриптов и программ без или с очень ограниченными знаниями в области программирования.
Это так же просто, как предоставить подробные инструкции в виде подсказок и работать с чат-ботом над созданием инструментов, которые, как мы еще недавно считали, были намного лучше нас.
Но самое главное, это инструменты, которые глубоко меняют наш подход к повседневной работе.
Например, если мы зададим ChatGPT следующий вопрос: «Что такое функция IMPORTXML и как я могу использовать ее в Google Sheets для очистки заголовка веб-страницы HTML?» Предоставьте необходимый код, чтобы сделать это в Google Sheets», — ответ чрезвычайно точен. Через считанные секунды наша формула будет готова к использованию в Google Таблицах.
Но, честно говоря, это была очень простая и простая задача, которую мы могли бы легко выполнить без ChatGPT.
Задание
Итак, как это работает, если мы хотим извлечь данные, которые немного менее стандартны по сравнению с заголовком или описанием страницы?
Например, как это будет работать, если мы хотим извлечь следующие данные с главной страницы PPC журнала поисковой системы?
Перечислите все избранные статьи, их авторов, URL-адреса ссылок и описания статей для столбцов, перечисленных на
Можем ли мы сделать это напрямую с помощью ChatGPT?
Выполнение с помощью ChatGPT
При создании подсказок потребовалось несколько попыток предоставить инструкции, которые были достаточно подробными, чтобы чат-бот мог полностью понять цель задачи и получить хорошие результаты.
Во многих случаях казалось, что ИИ вынужден выдавать быстрые результаты, несмотря на их точность.
Но позвольте мне объяснить.
Задача заключалась в том, чтобы проанализировать страницу и составить список всех избранных статей, их авторов, URL-адресов ссылок и описания каждой из 30 статей, перечисленных на странице. Затем скомпилируйте данные в таблицу и, наконец, экспортируйте ее в файл CSV.
Просто, правда?
Сначала ChatGPT возвращал только выборку из семи статей и только их заголовки и URL-адреса; после переработанной подсказки удалось вывести список и экспортировать все 30 статей и их ссылки.
Это было хорошо. Итак, для выполнения задачи нам осталось лишь добавить авторов и описания статей.
Но здесь бот споткнулся и не смог предоставить точное описание каждой статьи, несмотря на то, что мы предоставили примеры элемента страницы, который ему нужно было найти и скопировать.
ChatGPT продолжал игнорировать инструкции и снова и снова предоставлял собственные описания статей.
ChatGPT даже не удался, когда мы попробовали другой подход и скачали и загрузили копию HTML-страницы.
На этот раз он смог предоставить точные данные по семи статьям, но не смог пройти мимо этого. В выпуске сообщается:
«…структура и содержание страницы создают серьезные проблемы для комплексного извлечения данных за один сеанс.
Страница достаточно обширная и сложная, и в текущем формате взаимодействия невозможно извлечь все 30 статей».
ЧатGPT + Google Таблицы
Итак, вернемся к IMPORTXML и Google Sheets.
На этот раз заставить ChatGPT предоставить формулы для каждого поля было проще простого.
Вот некоторые формулы, предложенные чат-ботом, которые вы можете легко извлечь самостоятельно в Google Sheets:
Заголовок
=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")
Имя автора
=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")
URL-ссылка
=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")
Описание
=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")
В кратчайшие сроки мы смогли извлечь данные в электронную таблицу.
Кроме того, используя просто построенные вложенные формулы, мы можем быстро извлекать данные с нескольких страниц одновременно.
В приведенном ниже примере мне удалось извлечь одни и те же данные, относящиеся к каждой статье (название, автор, URL-ссылка и описание) для первых 10 страниц раздела PPC.
В результате менее чем за минуту было собрано 300 статей!
Сравнение двух
Итак, как сравнить ChatGPT и ChatGPT + Google Sheets IMPORTXML?
По моему опыту, я не смог найти простой и быстрый способ использовать ChatGPT для очистки данных, которые я искал – заметьте, это не значит, что это невозможно, и может быть несколько способов сделать это, но Я не нашел ни одного.
Что мне помогло, так это сочетание различных инструментов, и это очень хорошо послужило мне для моей намеченной цели.
ChatGPT был чрезвычайно полезен для написания формул IMPORTXML, которые мне нужно было использовать в Google Sheets, и эти формулы сделали все остальное.
Дополнительным бонусом опции ChatGPT + Google Sheets является то, что вы можете просто использовать бесплатную версию ChatGPT 3.5 и получить инструмент для создания формул IMPORTXML вместо версии 4 для сканирования страницы и извлечения данных.
Ключевой вывод
Это подчеркивает важный аспект того, как ИИ изменил то, как мы думаем и работаем.
Лучший инструмент для работы — это не просто использование искусственного интеллекта, Google Таблиц или любого другого программного обеспечения по отдельности, а скорее комбинация инструментов и навыков.
Именно благодаря этому комплексному подходу мы разрабатываем эффективные и действенные рабочие процессы, тем самым повышая нашу общую производительность.
Дополнительные ресурсы:
Рекомендованное изображение: Visual Generation/Shutterstock