Новое исследование Data Provenance Initiative выявило тревожные практики создания и обмена наборами данных, используемых для обучения систем искусственного интеллекта. Эти наборы данных имеют решающее значение для разработки передовых возможностей искусственного интеллекта, но многие из них не могут должным образом указать источники или не имеют информации о лицензировании, что вызывает юридические и этические проблемы.
По сообщению The Washington Post от 25 октября отчетВ ходе исследования было проверено более 1800 популярных наборов данных с ведущих сайтов, посвященных искусственному интеллекту, таких как Hugging Face, GitHub и Papers With Code. Поразительно, но около 70% не указали условия лицензирования или неправильно обозначили разрешения по сравнению с намерениями создателей. Это оставляет разработчиков ИИ в неведении относительно потенциальных ограничений или требований авторских прав при использовании этих наборов данных — требуется дополнительная информация.
«Люди не смогли бы поступить правильно, даже если бы захотели», — сказала Сара Хукер, соавтор доклада. Неясное лицензирование демонстрирует более широкие проблемы в быстро меняющемся мире разработки ИИ, где исследователи чувствуют необходимость пропускать такие этапы, как документирование источников, когда они спешат публиковать новые наборы данных.
Неправильные процедуры, касающиеся условий лицензирования и разрешений авторов, приводят к далеко идущим последствиям.
Последствия имеют далеко идущие последствия, поскольку эти наборы данных лежат в основе передовых систем искусственного интеллекта, таких как чат-боты и языковые модели, включая модели Llama от Meta и модели GPT от OpenAI. Технологические гиганты сталкиваются с судебными исками из-за текста, взятого без разрешения из книг и веб-сайтов. Критики утверждают, что компании, занимающиеся искусственным интеллектом, должны платить за свои данные таким источникам, как Reddit, но проблемы с лицензированием создают препятствия.
За кулисами исследователи ИИ «отмывают» данные, скрывая их происхождение, пытаясь устранить ограничения. Сообщается, что ведущие лаборатории ИИ запрещают повторное использование результатов своих моделей для конкурирующих ИИ, но разрешают некоторые некоммерческие применения. Однако соответствующая лицензионная документация отсутствует.
Целью исследования было заглянуть внутрь этой непрозрачной экосистемы, подпитывающей золотую лихорадку искусственного интеллекта. Интерактивные инструменты не диктуют политику, но помогают информировать разработчиков, юристов и политиков. Анализ показал, что большая часть данных поступает из научных кругов, основными источниками которых являются Wikipedia и Reddit. Однако данные, представляющие языки Глобального Юга, по-прежнему поступают в основном от авторов и веб-сайтов из Северной Америки и Европы.
«Создание набора данных обычно является наименее восхваляемой частью исследовательского цикла и заслуживает упоминания, поскольку требует очень много работы», — сказал Хукер. Исследование движется в сторону более прозрачного и этичного ИИ, подчеркивая необходимость в более эффективных практиках. Но предстоит еще провести глубокую работу, чтобы осветить темную сторону данных, которые способствуют неустанному движению ИИ в будущее.
Изображение предоставлено: Фото Шуки Харель; Пексели; Спасибо!