OpenAI: секретное обучение GPT-4 с более чем миллионом часов расшифрованных видео с YouTube • Продвижение Web 2.0

Технология искусственного интеллекта (ИИ) делает большие успехи, и одним из основных игроков в этой области является OpenAI. Однако в последнее время OpenAI оказался в центре внимания из-за разногласий, связанных с его Секретное обучение GPT-4, его большая языковая модель (LLM). Согласно отчетам и надежным источникам, OpenAI использовал более миллион часов расшифрованных видео с YouTube тренировать свою модель, поднимая вопросы относительно нарушения авторских прав и отсутствие компенсации правообладателям.

Содержание

1 Секретное обучение GPT-4 с использованием расшифрованных видео с YouTube
2 Юридические споры
3 Дебаты о добросовестном использовании и авторском праве
4 Возможные последствия для компаний, занимающихся искусственным интеллектом
5 Выводы

Секретное обучение GPT-4 с использованием расшифрованных видео с YouTube

Использование больших объемов данных для обучения моделей ИИ — обычная практика в отрасли. Однако способ, которым OpenAI получил данные для обучения GPT-4, вызывает обеспокоенность. Согласно тому, что сообщил Газета «Нью-Йорк ТаймсOpenAI тайно собирала аудиорасшифровки из видеороликов YouTube и использовала их для обучения своей модели LLM.

Не только OpenAI использует эти методы. Также Googleвладелец YouTube, собирал расшифровки видео для обучения своих моделей ИИ. Это поднимает вопросы о соблюдении закона об авторском праве и надлежащей компенсации правообладателям.

Юридические споры

Несанкционированное использование контента, защищенного авторским правом, компаниями, занимающимися искусственным интеллектом, уже привело к нескольким судебным искам. ОпенАИ е Майкрософтнапример, были обвинены в нарушении авторских прав с тех пор, как Газета «Нью-Йорк Таймс такой же. Газета подала иск против двух компаний за несанкционированное использование ее статей.

Ситуация стала еще более напряженной, когда Генеральный директор YouTube Нил Моханзаявил, что если бы OpenAI действительно обучила Sora, свой генератор текста в видео, с использованием видеороликов YouTube, это было бы явным нарушением условий использования видеоплатформы.

ЧИТАТЬ 32 фотографии + 3 ОСОБЕННОСТИ ГУРУ + 2 упущенные возможности из дня 2 Инфоконференции 2012 - Школа поисковой оптимизации

Дебаты о добросовестном использовании и авторском праве

Фундаментальный вопрос, поднятый этим противоречием, касается концепции добросовестного использования и границы между законным использованием и Нарушение авторского права. Добросовестное использование — это принцип закона США об авторском праве, который разрешает ограниченное использование материалов, защищенных авторским правом, без разрешения владельца авторских прав.

Однако использование больших объемов данных для обучения моделей ИИ затрудняет получение необходимых разрешений от всех участвующих правообладателей. По мнению некоторых экспертов, на которых ссылаются Газета «Нью-Йорк Таймслицензирование всего необходимого контента было бы невыполнимой задачей.

Возможные последствия для компаний, занимающихся искусственным интеллектом

Помимо юридических вопросов, в ближайшем будущем компании, занимающиеся искусственным интеллектом, могут столкнуться с еще одной проблемой: нехваткой высококачественных обучающих данных. По мнению некоторых исследователей, к 2026 году произойдет Вероятность 90%, что у компаний, занимающихся искусственным интеллектом, закончатся данные для обучения высокое качество. Это может привести к тому, что таким компаниям, как OpenAI, придется обучать свои модели ИИ, используя синтетические результаты, генерируемые другими ИИ.

Эта гонка ко дну может иметь катастрофические последствия, потенциально снижая качество и надежность моделей ИИ.

Выводы

Использование данных, расшифрованных из видеороликов YouTube, для обучения OpenAI GPT-4 подняло юридические и этические вопросы, касающиеся нарушения авторских прав и надлежащей компенсации правообладателям. Хотя добросовестное использование может обеспечить некоторую юридическую защиту, компаниям, занимающимся искусственным интеллектом, становится все труднее получать необходимые разрешения для обучения своих моделей.

Кроме того, постоянно растущий спрос на обучающие данные и потенциальная нехватка высококачественных данных в будущем могут привести к снижению качества и надежности моделей ИИ.

Крайне важно, чтобы компании, занимающиеся искусственным интеллектом, подходили к этим проблемам ответственно, обеспечивая соблюдение правил авторского права и тщательно оценивая влияние своей практики на отрасль и общество в целом.

ЧИТАТЬ Бывший инженер по безопасности Amazon признался, что украл более 12 миллионов долларов в криптовалюте

Источник статьи ВОЗ.

Source link