Извлечение данных с веб-страниц — относительно сложная задача, которая до недавнего времени требовала определенных технических навыков. Идея погрузиться в код или сценарии для извлечения данных казалась многим, в том числе и мне, ошеломляющей.

Сбор данных может помочь во многих задачах SEO, таких как аудит, анализ конкурентов и изучение веб-сайта и структуры данных.

Таблицы Google предлагают простые решения.

Одним из таких решений является функция IMPORTXML, которая позволяет пользователям собирать данные веб-страницы, используя всего несколько параметров. Это делает извлечение данных доступным для более широкой аудитории, особенно для тех, кто плохо разбирается в языках программирования.

Хотя эта функция впечатляет, настоящий прорыв произошел с внедрением и интеграцией генеративного искусственного интеллекта.

В этом руководстве мы покажем вам, как использовать Google Таблицы и искусственный интеллект, в частности ChatGPT, для парсинга веб-страниц без необходимости продвинутых навыков программирования.

Инструменты: искусственный интеллект и чат-боты

Теперь мы все знакомы с AI, ChatGPT и подобными чат-ботами.

Фактически, многие из нас используют такие решения, как ChatGPT, для написания собственного кода, скриптов и программ без или с очень ограниченными знаниями в области программирования.

Это так же просто, как предоставить подробные инструкции в виде подсказок и работать с чат-ботом над созданием инструментов, которые, как мы еще недавно считали, были намного лучше нас.

Но самое главное, это инструменты, которые глубоко меняют наш подход к повседневной работе.

Например, если мы зададим ChatGPT следующий вопрос: «Что такое функция IMPORTXML и как я могу использовать ее в Google Sheets для очистки заголовка веб-страницы HTML?» Предоставьте необходимый код, чтобы сделать это в Google Sheets», — ответ чрезвычайно точен. Через считанные секунды наша формула будет готова к использованию в Google Таблицах.

ЧИТАТЬ  Как добавить Google Web Stories на свой сайт WordPress

Но, честно говоря, это была очень простая и простая задача, которую мы могли бы легко выполнить без ChatGPT.

Задание

Итак, как это работает, если мы хотим извлечь данные, которые немного менее стандартны по сравнению с заголовком или описанием страницы?

Например, как это будет работать, если мы хотим извлечь следующие данные с главной страницы PPC журнала поисковой системы?

Перечислите все избранные статьи, их авторов, URL-адреса ссылок и описания статей для столбцов, перечисленных на

Можем ли мы сделать это напрямую с помощью ChatGPT?

Выполнение с помощью ChatGPT

При создании подсказок потребовалось несколько попыток предоставить инструкции, которые были достаточно подробными, чтобы чат-бот мог полностью понять цель задачи и получить хорошие результаты.

Во многих случаях казалось, что ИИ вынужден выдавать быстрые результаты, несмотря на их точность.

Но позвольте мне объяснить.

Задача заключалась в том, чтобы проанализировать страницу и составить список всех избранных статей, их авторов, URL-адресов ссылок и описания каждой из 30 статей, перечисленных на странице. Затем скомпилируйте данные в таблицу и, наконец, экспортируйте ее в файл CSV.

Просто, правда?

Сначала ChatGPT возвращал только выборку из семи статей и только их заголовки и URL-адреса; после переработанной подсказки удалось вывести список и экспортировать все 30 статей и их ссылки.

Это было хорошо. Итак, для выполнения задачи нам осталось лишь добавить авторов и описания статей.

Но здесь бот споткнулся и не смог предоставить точное описание каждой статьи, несмотря на то, что мы предоставили примеры элемента страницы, который ему нужно было найти и скопировать.

ChatGPT продолжал игнорировать инструкции и снова и снова предоставлял собственные описания статей.

ChatGPT даже не удался, когда мы попробовали другой подход и скачали и загрузили копию HTML-страницы.

Скриншот из ChatGPT, февраль 2024 г.Извлечение из чатаGPT

На этот раз он смог предоставить точные данные по семи статьям, но не смог пройти мимо этого. В выпуске сообщается:

«…структура и содержание страницы создают серьезные проблемы для комплексного извлечения данных за один сеанс.

Страница достаточно обширная и сложная, и в текущем формате взаимодействия невозможно извлечь все 30 статей».

Извлечение ChatGPT из 30 статейСкриншот из ChatGPT, февраль 2024 г.Извлечение ChatGPT из 30 статей

ЧатGPT + Google Таблицы

Итак, вернемся к IMPORTXML и Google Sheets.

ЧИТАТЬ  OpenAI анонсирует ChatGPT 4o Omni

На этот раз заставить ChatGPT предоставить формулы для каждого поля было проще простого.

 Инструкции по извлечению ChatGPTСкриншот из ChatGPT, февраль 2024 г. Инструкции по извлечению ChatGPT

Вот некоторые формулы, предложенные чат-ботом, которые вы можете легко извлечь самостоятельно в Google Sheets:

Заголовок

=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")

Имя автора

=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")

URL-ссылка

=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")

Описание

=IMPORTXML(" "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")

В кратчайшие сроки мы смогли извлечь данные в электронную таблицу.

Google ТаблицыСкриншот из Google Таблиц, февраль 2024 г.Google Таблицы

Кроме того, используя просто построенные вложенные формулы, мы можем быстро извлекать данные с нескольких страниц одновременно.

В приведенном ниже примере мне удалось извлечь одни и те же данные, относящиеся к каждой статье (название, автор, URL-ссылка и описание) для первых 10 страниц раздела PPC.

В результате менее чем за минуту было собрано 300 статей!

Google Таблицы извлекают результатыСкриншот из Google Таблиц, февраль 2024 г.Google Таблицы извлекают результаты

Сравнение двух

Итак, как сравнить ChatGPT и ChatGPT + Google Sheets IMPORTXML?

По моему опыту, я не смог найти простой и быстрый способ использовать ChatGPT для очистки данных, которые я искал – заметьте, это не значит, что это невозможно, и может быть несколько способов сделать это, но Я не нашел ни одного.

Что мне помогло, так это сочетание различных инструментов, и это очень хорошо послужило мне для моей намеченной цели.

ChatGPT был чрезвычайно полезен для написания формул IMPORTXML, которые мне нужно было использовать в Google Sheets, и эти формулы сделали все остальное.

Дополнительным бонусом опции ChatGPT + Google Sheets является то, что вы можете просто использовать бесплатную версию ChatGPT 3.5 и получить инструмент для создания формул IMPORTXML вместо версии 4 для сканирования страницы и извлечения данных.

Ключевой вывод

Это подчеркивает важный аспект того, как ИИ изменил то, как мы думаем и работаем.

ЧИТАТЬ  Яндекс 360 запускает прямые продажи цифровых продуктов для бизнеса в Беларуси

Лучший инструмент для работы — это не просто использование искусственного интеллекта, Google Таблиц или любого другого программного обеспечения по отдельности, а скорее комбинация инструментов и навыков.

Именно благодаря этому комплексному подходу мы разрабатываем эффективные и действенные рабочие процессы, тем самым повышая нашу общую производительность.

Дополнительные ресурсы:


Рекомендованное изображение: Visual Generation/Shutterstock



Source link