Google опубликовал подробности нового вида искусственного интеллекта на основе графиков, называемых моделью графического фонда (GFM), который обобщается до ранее невидимых графиков и обеспечивает увеличение от трех до сорока раз по сравнению с предыдущими методами с успешным тестированием в масштабированных приложениях, таких как обнаружение спама в рекламе.
Объявление этой новой технологии называется расширением границ того, что было возможно до сегодняшнего дня:
«Сегодня мы исследуем возможность разработки одной модели, которая может преуспеть в взаимосвязанных реляционных таблицах, и в то же время обобщать любой произвольный набор таблиц, функций и задач без дополнительного обучения. Мы рады поделиться нашим недавним прогрессом в разработке таких моделей графических фундаментов (GFM), которые продвигают границ обучения графа и таблицы ML за пределами стандартных базовых базовых».
Содержание
График нейронные сети против Графические модели
Графики представляют собой представления данных, которые связаны друг с другом. Соединения между объектами называются краями, а сами объекты называются узлами. В SEO можно сказать, что наиболее знакомым типом графика является график ссылок, который является картой всего Интернета по ссылкам, которые соединяют одну веб -страницу с другой.
Текущие технологии используют нейронные сети графиков (GNNS) для представления данных, таких как содержание веб -страницы, и могут использоваться для определения темы веб -страницы.
Google Research пост в блоге О GNNs объясняет их важность:
«Графические нейронные сети, или GNN для краткости, стали мощной техникой для использования как подключения графика (как в более старых алгоритмах DeepWalk и Node2VEC), так и входных особенностей на различных узлах и краях. GNN могут делать предсказания для графиков в целом (этот молекула реагирует в определенных способах), для индивидуальных узлов (какова эта цитата?
Помимо прогнозирования графиков, GNN является мощным инструментом, используемым для преодоления пропасти с более типичными вариантами использования нейронной сети. Они непрерывно кодируют дискретную реляционную информацию графика, чтобы ее можно было естественным образом включать в другую систему глубокого обучения ».
Недостатком GNN является то, что они привязаны к графику, на котором они обучались и не могут быть использованы на другом виде графика. Чтобы использовать его на другом графике, Google должен обучить другую модель специально для этого другого графика.
Чтобы провести аналогию, это похоже на то, как необходимо обучать новую генеративную модель ИИ на французских языковых документах, просто чтобы заставить ее работать на другом языке, но это не так, потому что LLM могут обобщать на другие языки, что не относится к моделям, которые работают с графиками. Это проблема, которую решает изобретение, чтобы создать модель, которая обобщается на другие графики без необходимости обучения им в первую очередь.
Прорыв, который Google объявил, заключается в том, что с помощью новых моделей Graph Foundation теперь Google может обучить модель, которая может обобщать на новых графиках, на которые он не обучался, и понимать шаблоны и соединения в этих графиках. И это может сделать это в три до сорока раз точнее.
Объявление, но нет исследовательской работы
Объявление Google не ссылается на исследовательскую работу. Сообщалось по -разному, что Google решил опубликовать меньше исследовательских работ, и это большой пример этого изменения политики. Это потому, что это инновация настолько велика, что они хотят сохранить это как конкурентное преимущество?
Как работают модели графика
На обычном графике, скажем, график Интернета, веб -страницы — это узлы. Ссылки между узлами (веб -страницы) называются краями. На таком графике вы можете увидеть сходство между страницами, потому что страницы по конкретной теме, как правило, связаны с другими страницами по той же конкретной теме.
В очень простых терминах модель графического фонда превращает каждую строку в каждой таблице в узле и соединяет связанные узлы на основе отношений в таблицах. Результатом является единственный большой график, который модель использует для обучения на существующих данных и сделать прогнозы (например, идентификация спама) на новых данных.
Скриншот из пяти столов

Преобразование таблиц в один график
Исследовательская статья гласит это о следующих изображениях, которые иллюстрируют процесс:
«Подготовка данных состоит из преобразования таблиц в один график, где каждая строка таблицы становится узлом соответствующего типа узла, а столбцы иностранных ключей становятся ребрами между узлами. Соединения между пятью показанными таблицами становятся ребрами на полученном графике».
Скриншот таблиц, преобразованный в края

Что делает эту новую модель исключительной, так это то, что процесс создания ее является «простым» и масштабируется. Часть масштабирования важна, потому что это означает, что изобретение способно работать в массовой инфраструктуре Google.
«Мы утверждаем, что использование структуры подключения между таблицами является ключом для эффективных алгоритмов ML и лучшей производительности вниз по течению, даже когда данные таблицы (например, цена, размер, категория) являются редкими или шумными. С этой целью единственный этап подготовки данных состоит из преобразования коллекции таблиц в единый гетероактивный график.
Процесс довольно прост и может быть выполнен в масштабе: каждая таблица становится уникальным типом узла, и каждая строка в таблице становится узлом. Для каждой строки в таблице его отношения иностранных ключей становятся напечатанными ребрами к соответствующим узлам из других таблиц, в то время как остальные столбцы рассматриваются как функции узла (как правило, с численными или категориальными значениями). Необязательно, мы также можем сохранить временную информацию в качестве функций узла или края ».
Тесты успешны
В объявлении Google говорится, что они проверили его в выявлении спама в рекламе Google, что было сложно, потому что это система, которая использует десятки больших графиков. Текущие системы не могут устанавливать связи между не связанными графиками и пропущены важным контекстом.
Новая модель Google Foundation смогла установить соединения между всеми графами и улучшенной производительностью.
Объявление описало достижение:
«Мы наблюдаем значительный усилитель производительности по сравнению с лучшими настраиваемыми базовыми показателями с одним столом.
Google использует эту систему?
Примечательно, что Google успешно протестировал систему с помощью рекламы Google для обнаружения спама и сообщил о подседаниях и отсутствии недостатков. Это означает, что его можно использовать в живой среде для различных задач реального мира. Они использовали его для обнаружения спама Google и потому, что это гибкая модель, которая означает, что ее можно использовать для других задач, для которых используется несколько графиков, от идентификации тем содержимого до идентификации спама ссылки.
Обычно, когда что -то терпит неудачу, исследовательские работы и объявление говорят, что это указывает на будущее, но это не то, как представлено это новое изобретение. Он представлен как успех и заканчивается заявлением, в котором говорится, что эти результаты могут быть дополнительно улучшены, что означает, что это может стать даже лучше, чем эти уже впечатляющие результаты.
«Эти результаты могут быть дополнительно улучшены за счет дополнительного масштабирования и разнообразного сбора учебных данных вместе с более глубоким теоретическим пониманием обобщения».
Прочитайте объявление Google:
Графические модели для реляционных данных
Показанное изображение от Shutterstock/Sidorart