Meta признала, что использовала общедоступные посты из Facebook и Instagram для австралийских пользователей для обучения своих моделей искусственного интеллекта и собирала информацию, начиная с 2007 года.
По данным австралийского парламентского комитета, хотя европейские пользователи могут отказаться от участия в соответствии с GDPR, австралийские клиенты не имеют такого выбора.
Meta отрицает использование информации о лицах моложе 18 лет, но подтверждает, что использовала данные за более чем десятилетие. Компания не смогла ответить, собирала ли она фотографии детей, которые уже стали взрослыми (тех, кто создал свои аккаунты в детстве, но с тех пор исполнилось 18 лет).
Поворотный момент
Процесс «скрапинга» важен для разработки ИИ и по сути включает в себя сбор данных с веб-сайтов, извлечение информации и передачу ее обратно в модель большого языка (LLM), которая обучается на основе данных. Это означает, что правила GDPR становятся проблематичными для все большего числа LLM. как ChatGPTкоторый собирает данные со всего Интернета без согласия первоисточника.
Директор по глобальной конфиденциальности Meta Мелинда Клейбо, выступая перед следственным комитетом, признала, что компания была вынуждена приостановить внедрение продуктов искусственного интеллекта в Европе из-за отсутствия безопасности и что ей пришлось предоставить европейским пользователям возможность отказа из-за более строгих данных. законы о защите. Сенатор Шобридж допросил представителя Меты:
«Правда в том, что с 2007 года Meta просто решила удалить все фотографии и текст из всех общедоступных публикаций в Instagram или Facebook, которыми австралийцы делились с 2007 года, если только не было сознательного решения сделать их конфиденциальными для установки. Но такова реальность, верно?»
Клейбо ответила: «Правильно». Она добавила, что теперь пользователи могут сделать свои публикации конфиденциальными, чтобы предотвратить скрапинг в будущем. Однако это не повлияет на уже собранные данные.
Кажется, среди общественности и среди технологических компаний получает признание тот факт, что обучение моделей ИИ требует таких больших объемов данных, что это «невозможно». без использования материалов, защищенных авторским правом. Учитывая, что миллионы сообщений пользователей были использованы без их согласия, похоже, что в будущем технологическим гигантам придется столкнуться со значительно более строгими правилами.
Над Хранитель