Компания OpenAI, занимающаяся исследованием искусственного интеллекта объявлено на этой неделе появилась новая инициатива, направленная на диверсификацию и расширение данных, используемых для обучения моделей ИИ, под названием Data Partnerships. В рамках программы OpenAI планирует сотрудничать со сторонними организациями для создания новых общедоступных и частных наборов данных для обучения ИИ.

Стремясь быть более справедливым и точным, OpenAI хочет предоставлять более качественные данные.

По мнению OpenAI, цель состоит в том, чтобы создать более справедливые, точные и полезные модели, предоставляя им более широкий спектр данных, которые лучше отражают различные языки, культуры и предметы. Текущие наборы данных ИИ, как правило, страдают от таких проблем, как западоцентризм, отсутствие разнообразия и включение токсичного или предвзятого контента.

«Чтобы в конечном итоге сделать [AI] Это безопасно и полезно для всего человечества, мы бы хотели, чтобы модели ИИ глубоко понимали все предметы, отрасли, культуры и языки, что требует как можно более широкого набора обучающих данных», — заявил OpenAI в сообщении в блоге, анонсирующем программа.

Модели и понимание разных платформ могут возникнуть в ходе обучения

Работая с партнерами над сбором крупномасштабных наборов данных по таким параметрам, как текст, изображения, аудио и видео, OpenAI надеется улучшить понимание моделей за пределами того, что сегодня можно легко получить из Интернета. Компания заявляет, что будет работать над удалением любой конфиденциальной или личной информации и предложит варианты сохранения конфиденциальности наборов данных.

ЧИТАТЬ  ► Разумно устанавливайте и оптимизируйте анкорный текст

OpenAI уже сотрудничала с такими организациями, как правительство Исландии, Free Law Project и Miðeind ehf, над ранними версиями программы. Однако некоторые эксперты выражают скептицизм относительно того, позволят ли эти усилия успешно минимизировать глубоко укоренившиеся предубеждения, которые до сих пор влияли на модели ИИ.

«В целом мы ищем партнеров, которые хотят помочь нам научить ИИ понимать наш мир, чтобы быть максимально полезными для всех», — заявили в OpenAI.

Диверсификация данных обучения ИИ для GPT-4 для улучшения

Хотя диверсификация данных для обучения ИИ имеет важное значение, программа также явно принесет пользу моделям OpenAI, таким как GPT-4, с коммерческой точки зрения. Эта предполагаемая двойная мотивация, наряду с отсутствием у OpenAI компенсации партнерам по данным, вызвала некоторую критику в свете обвинений в использовании компанией данных без разрешения.

Большая прозрачность в отношении сбора наборов данных OpenAI, усилий по смягчению предвзятости и коммерческих интересов будет иметь ключевое значение для оценки влияния партнерства в области данных на ландшафт ИИ в целом. Но программа означает осознание того, что для улучшения будущего ИИ необходимо начинать с более качественных и репрезентативных данных.

Изображение предоставлено: Фото Эндрю Нила; Пексели; Спасибо!

Радек Зелински

Радек Зелински — опытный технологический и финансовый журналист, увлекающийся кибербезопасностью и футурологией.



Source link