Большие языковые модели (LLM), лежащие в основе современных инноваций в области искусственного интеллекта, становятся все более сложными. Эти модели могут анализировать огромные объемы текста и генерировать резюме, предлагать новые творческие направления и даже писать код. Однако какими бы впечатляющими ни были эти возможности, студенты LLM иногда уверенно предоставляют неточную информацию. Это явление, известное как «галлюцинация», является серьезной проблемой в области генеративного искусственного интеллекта.

Сегодня мы делимся многообещающими исследовательскими достижениями, которые непосредственно решают эту проблему, помогая уменьшить галлюцинации, опираясь на реальную статистическую информацию. Наряду с этими достижениями в области исследований мы рады анонсировать DataGemma, первые открытые модели, предназначенные для подключения LLM к огромным реальным данным из Google Data Commons.

Data Commons: обширное хранилище надежных и общедоступных данных.

Общие данные — это общедоступный график знаний, содержащий более 240 миллиардов точек данных по сотням тысяч статистических переменных. Он получает эту общедоступную информацию от доверенных организаций, таких как Организация Объединенных Наций (ООН), Всемирная организация здравоохранения (ВОЗ), Центры по контролю и профилактике заболеваний (CDC) и бюро переписи населения. Объединение этих наборов данных в единый набор инструментов и моделей искусственного интеллекта расширяет возможности политиков, исследователей и организаций, стремящихся получить точную информацию.

Думайте о Data Commons как об обширной, постоянно расширяющейся базе данных, полной достоверной общедоступной информации по широкому кругу тем, от здравоохранения и экономики до демографии и окружающей среды, с которой вы можете взаимодействовать своими словами, используя наш естественный язык на базе искусственного интеллекта. интерфейс. Например, вы можете изучить В каких странах Африки наблюдается наибольший рост доступа к электроэнергии?, Как доход связан с диабетом в округах США или ваш собственный любопытный запрос данных.

ЧИТАТЬ  Обзор новостей поиска: обновления полезного контента Google, новые функции Bard, обновления инструментов Bing для веб-мастеров и качество поиска

Как Data Commons может помочь в борьбе с галлюцинациями

По мере распространения генеративного искусственного интеллекта мы стремимся закрепить этот опыт, интегрируя Data Commons в драгоценный каменьнаше семейство легких современных открытых моделей, созданных на основе тех же исследований и технологий, которые использовались при создании Близнецы модели. Эти модели DataGemma доступны исследователям и разработчикам. впредь.

DataGemma расширит возможности моделей Gemma, используя информацию Data Commons для повышения фактичности и обоснованности LLM, используя два различных подхода:

1. RIG (генерация с чередованием восстановления) расширяет возможности нашей языковой модели Gemma 2 за счет упреждающего запроса надежных источников и проверки фактов на основе информации из Data Commons. Когда DataGemma запрашивают сгенерировать ответ, модель запрограммирована на идентификацию экземпляров статистических данных и получение ответа от Data Commons. Хотя методология RIG не нова, ее конкретное применение в рамках DataGemma уникально.

Source