Гэри Иллиес из Google подтвердил, что содержание ИИ в порядке, пока качество высокое. Он сказал, что «созданный человек» не является точно правильным способом описать их политику содержания искусственного интеллекта, и что более точное описание будет «курируемым человеком».
Вопросы были заданы Кеничи Сузуки в контексте эксклюзивного интервью с Illyes.
Содержание
Обзор ИИ и модели режима ИИ
Кеничи спросил о моделях ИИ, используемых для обзоров ИИ и режима ИИ, и он ответил, что это пользовательские модели Близнецов.
Иллис ответил:
«Таким образом, как вы отмечали, модель, которую мы используем для AIO (для обзоров ИИ) и для режима ИИ — это пользовательская модель Близнецов, и это может означать, что она была обучена по -разному. Я не знаю точных деталей, как она была обучена, но это определенно пользовательская модель».
Затем Кеничи спросил, используют ли обзоры ИИ (AIO) и режим AI отдельные индексы для заземления.
Заземление — это то, где LLM подключает ответы на базу данных или индекс поиска, так что ответы являются более надежными, правдивыми и основаны на проверенных фактах, помогая сократить галлюцинации. В контексте режима AIO и AI заземление обычно происходит с веб-данных из индекса Google.
Сузуки спросил:
«Значит ли это, что обзоры ИИ и режим ИИ используют отдельные индексы для заземления?»
Google Illyes ответил:
«Насколько я знаю, Gemini, Обзор ИИ и режим искусственного интеллекта используют поиск Google для заземления. Таким образом, в основном они выпускают несколько запросов для поиска Google, а затем поиск Google возвращает результаты для этих конкретных запросов».
Кеничи пытался получить ответ в отношении расширенного гусенита Google, и ответ Иллиеса заключался в том, чтобы объяснить, когда в игру вступает в игру Google Extended Crawler.
«Значит ли это, что данные обучения используются в режиме AIO и AI, собранном обычным Google, а не Google расширены?»
И Иллис ответил:
«Вы должны помнить, что когда происходит заземление, ИИ нет. Так что в основном это поколение, которое влияет на протяженность Google. Но также если вы запретите Google расширены, то Gemini не собирается обосноваться для вашего сайта».
Содержание ИИ в LLMS и индекс поиска
Следующий вопрос, на который ответил Illyes, был о том, является ли контент искусственного интеллекта, опубликованный в Интернете, загрязняет LLMS. Иллиес сказал, что это не проблема с индексом поиска, но это может быть проблемой для LLMS.
Вопрос Кеничи:
«Поскольку ИИ создается больше контента, и LLMs учатся из этого контента. Что вы думаете об этой тенденции и каковы его потенциальные недостатки?»
Иллис ответил:
«Я не беспокоюсь о индексе поиска, но модельное обучение, безусловно, нужно выяснить, как исключить контент, который был создан ИИ. В противном случае вы оказываетесь в петле обучения, который на самом деле не очень хорош для обучения. Я не уверен, насколько это проблема сейчас, или, может быть, потому, что мы выбираем документы, на которых мы тренируемся».
Качество контента и сгенерированный AI контент
Затем Suzuki последовал вопрос о качестве контента и искусственном интеллекте.
Он спросил:
«Значит, вам все равно, как создается контент… так, пока качество высокое?»
Иллиес подтвердил, что ведущим рассмотрением данных обучения LLM является качество контента, независимо от того, как он был сгенерирован. Он специально назвал фактическую точность содержания в качестве важного фактора. Еще один фактор, который он упомянул, заключается в том, что сходство контента проблематично, заявив, что «чрезвычайно» подобный контент не должен быть в индексе поиска.
Он также сказал, что Google по сути не заботится о том, как создается контент, но с некоторыми предостережениями:
«Конечно, но если вы можете поддерживать качество контента и точность контента и обеспечить его высокое качество, то технически это не имеет значения.
Проблема начинается возникает, когда контент либо чрезвычайно похож на то, что уже было создано, что, надеюсь, у нас не будет в нашем индексе, чтобы тренироваться в любом случае.
И затем вторая проблема заключается в том, когда вы тренируетесь по неточным данным, и это, вероятно, более рискованно, потому что тогда вы начинаете вводить уклон и начинают вводить контрфактивные данные в ваших моделях.
Пока качество контента высокое, что обычно в настоящее время требует, чтобы человеческий обзор сгенерированный контент это хорошо для обучения модели ».
Человек пересмотрел контент, сгенерированный AI
Иллис продолжил свой ответ, на этот раз сосредоточившись на контенте, сгенерированном AI, который рассматривается человеком. Он подчеркивает человеческий обзор не как то, что издатели должны сигнализировать в своем контенте, а как то, что издатели должны делать перед публикацией контента.
Опять же. Это не надежный сигнал, и это не то, что он предложил.
Вот что сказал Иллиес:
«Я не думаю, что мы собираемся изменить наше руководство в ближайшее время о том, нужно ли вам просмотреть его или нет.
Так что, в основном, когда мы говорим, что это человек, я думаю, что слово «Человек» неверно. По сути, это должно быть куратором человека. Таким образом, в основном у кого -то был некоторый редакционный надзор за своим содержанием и подтвердил, что это на самом деле правильное и точное ».
Вынос
Политика Google, как и в сочетании с Гэри Иллиесом, состоит в том, что контент, сгенерированный AI, подходит для поиска и модели, если он фактически точен, оригинал и рассмотрен людьми. Это означает, что издатели должны применить редакционное надзор для проверки фактической точности контента и гарантировать, что он не «чрезвычайно» похож на существующий контент.
Посмотрите интервью:
https://www.youtube.com/watch?v=pstff6tcqxk
Показанное изображение от Shutterstock/Supatman