понедельник, 5 июня 2023 г.
Массовый экспорт данных Search Console – это эффективный способ перенести данные об эффективности поиска вашего веб-сайта в BigQuery, чтобы расширить возможности хранения, анализа и создания отчетов. Например, после экспорта данных вы можете выполнять кластеризацию запросов и URL-адресов, запускать анализ длинных поисковых запросов и объединять поиск с другими источниками данных. Вы также можете сохранить данные столько, сколько вам нужно.
При использовании массового экспорта данных важно принимать взвешенные решения при управлении затратами на обработку и хранение данных. Экспорт данных не требует затрат, связанных с Search Console; тем не менее, прочитайте Цены на BigQuery чтобы понять, за что вам будет выставлен счет. В этом посте мы обсудим советы, которые помогут вам воспользоваться преимуществами новых данных без значительных затрат.
Если вы еще не настроили массовый экспорт данных, проверьте пошаговое руководство
в справочном центре Search Console. Обзор данных, доступных при экспорте, см. во встроенном здесь видео.
Содержание
Создавайте платежные оповещения и ограничения
При рассмотрении ваших затрат, возможно, будет полезно подумать, сколько вы готовы потратить. Ответ на этот вопрос, скорее всего, будет разным для хранения, анализа и мониторинга. Например, вы можете заплатить определенную сумму, чтобы убедиться, что вы храните все свои данные, но меньше, чтобы создать платформу отчетности. Размышляя над этим, вы можете установить ежемесячный бюджет для инвестиций в данные поиска.
Как только вы определите сумму бюджета, вы можете создать Оповещение о бюджете Google Cloud
чтобы избежать неожиданностей в вашем счете. Вы также можете установить пороговые правила, которые инициируют уведомления по электронной почте, когда вы приближаетесь к сумме своего бюджета.
Для дополнительной защиты вы также можете ограничить количество оплачиваемых байтов
для запроса. Если вы сделаете это, количество байтов, которое будет считано запросом, оценивается перед выполнением запроса. Если количество предполагаемых байтов выходит за установленный лимит, запрос завершается ошибкой без взимания платы.
Не создавайте информационные панели непосредственно на необработанных данных
BigQuery работает быстро, и заманчиво связать панель мониторинга напрямую с экспортированными таблицами Search Console. Но для больших сайтов этот набор данных очень велик (особенно с запросами сверхурочно). Если вы создадите информационную панель, которая пересчитывает сводную информацию по каждому представлению и распространяет ее внутри своей компании, это быстро приведет к большим затратам на запросы.
Чтобы избежать этих затрат, рассмотрите возможность предварительной агрегации данных из каждого ежедневного сброса и материализации одной или нескольких сводных таблиц. Затем ваша панель инструментов может запрашивать гораздо меньшую таблицу временных рядов, что снижает затраты на обработку.
Проверить планирование запросов
функциональность в BigQuery или рассмотрите BI-движок
если вы хотите более автоматизированное решение.
Оптимизация затрат на хранение данных
Когда вы запускаете массовый экспорт данных, по умолчанию данные навсегда сохраняются в вашем наборе данных BigQuery. Однако вы можете обновить время истечения срока действия раздела по умолчанию
так что разделы даты автоматически удаляются через год, 16 месяцев или любой другой период времени, который вы пожелаете.
Экспортируемые данные могут быть ценными для вас, но они могут быть очень большими. Используйте свои бизнес-знания и подумайте о том, чтобы сохранять их достаточно долго для глубокого анализа, но не слишком долго, чтобы это не стало бременем. Один из вариантов — сохранить выборочную версию старых таблиц, сохраняя при этом всю таблицу с более поздними датами.
Оптимизируйте свои SQL-запросы
При запросе данных Search Console вы должны убедиться, что ваши запросы оптимизированы для повышения производительности. Если вы новичок в BigQuery, проверьте инструкции и примеры запросов
в справочном центре. Есть три метода, которые вы должны попробовать.
1. Ограничьте сканирование ввода
Прежде всего, избегать использования SELECT *
, это самый дорогой способ запроса данных, BigQuery выполняет полное сканирование каждого столбца в таблице. Применение LIMIT
пункт делает нет влияет на количество считываемых данных.
Поскольку экспортируемые таблицы разделены по датам, вы можете ограничить входное сканирование только интересующими днями, особенно когда вы тестируете данные и работаете с ними. Использовать WHERE
для ограничения диапазона дат в таблице с секционированием по датам, это значительно сократит затраты на запросы. Например, вы можете просмотреть только последние 14 дней, используя следующее предложение:
WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)
Для каждого запроса, который вы делаете, вы хотите как можно скорее ввести любые известные фильтры, чтобы уменьшить сканирование ввода. Например, если вы анализируете запросы, вы, вероятно, захотите отфильтровать строки анонимных запросов. Об анонимном запросе сообщается в виде строки нулевой длины в таблице. Для этого вы можете добавить следующее:
WHERE query != ''
2. Образец данных
BigQuery предоставляет выборка таблицы
возможность, которая позволяет запрашивать случайные подмножества данных из больших таблиц BigQuery. Выборка возвращает множество записей, избегая затрат, связанных со сканированием и обработкой всей таблицы, и особенно полезна при разработке запросов или когда не нужны точные результаты.
3. Используйте приближенные функции там, где не требуются точные результаты
BigQuery поддерживает ряд приблизительные функции агрегации
которые обеспечивают оценочные результаты и намного дешевле в вычислении, чем их точные аналоги. Например, если вы ищете самые популярные URL-адреса по количеству показов по какому-либо условию, вы можете использовать
SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;
Вместо
SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;
Ресурсы
Это всего лишь несколько советов, которые вы можете использовать, чтобы начать управлять своими расходами.
лучшие практики оптимизации затрат для BigQuery.
И, как всегда, если у вас есть какие-либо вопросы или проблемы, пожалуйста, свяжитесь с нами через
Центральное сообщество Google Поиска
или на Твиттер.