Reddit подал в федеральный суд Нью-Йорка иск на Perplexity и три фирмы по сбору данных, утверждая, что компании обходили контроль доступа для получения контента Reddit в больших масштабах, в том числе путем очистки результатов поиска Google.
Perplexity опубликовал(а) общественный резонансзаявив, что он обобщает дискуссии Reddit с цитатами и не обучает модели ИИ на контенте Reddit.
Эта позиция соответствует предыдущим заявлениям компании. Отвечает ли он конкретным обвинениям, содержащимся в заявлении Reddit, остается открытым вопросом.
жалоба В качестве посредников называет Oxylabs UAB, AWMProxy и SerpApi. Он утверждает, что Perplexity является клиентом SerpApi и приобрела и/или использовала услуги SerpApi для обхода контроля и копирования данных Reddit.
Содержание
Доказательства в жалобе
Аргумент Perplexity построен на техническом различии. Компания заявляет, что обобщает и цитирует обсуждения, а не обучает модели на постах Reddit.
Perplexity написала в своем ответе на Reddit:
«Мы суммируем обсуждения Reddit и цитируем темы Reddit в ответах, точно так же, как люди постоянно делятся ссылками на сообщения здесь».
Однако в жалобе представлены технические претензии, которые ставят эту структуру под сомнение.
Согласно документации, Reddit создал тестовый пост, который можно было просканировать только поисковой системой Google и который был недоступен где-либо еще в Интернете. Через несколько часов этот скрытый контент появился в результатах Perplexity.
подача также сообщает, что после того, как Reddit отправил письмо о прекращении противоправных действий, количество цитирований Perplexity в адрес Reddit увеличилось примерно в сорок раз.
Подобные обвинения со стороны издателей
Форбс ранее обвиняемый Трудности с переизданием эксклюзивного и угрожающего судебного иска.
Проводной сообщил что Perplexity использовала нераскрытые IP-адреса и подделанные строки пользовательского агента для обхода файла robots.txt. Проводные
Cloudflare позже сказал Согласно тестам, проведенным в августе, Perplexity использовала «скрытые, необъявленные сканеры», которые игнорировали директивы о запрете сканирования.
Как отреагировало недоумение
В предыдущих спорах Perplexity заявляла, что проблемы возникли из-за неточностей в новых продуктах, и обещала более четко определить причину.
Компания также утверждает, что некоторые средства массовой информации пытаются контролировать «публично сообщаемые факты».
В своем последнем ответе Perplexity представляет иск Reddit как рычаг в более широких переговорах по обучающим данным и пишет:
«Подводим итоги дискуссий на Reddit… Нас не будут вымогать, и мы не будем помогать Reddit вымогать у Google».
Почему это важно
Этот вопрос важен, поскольку касается того, как ИИ-помощники используют контент форума, который читает ваша аудитория и который часто цитируют издатели.
Юридические вопросы выходят за рамки простого обучения.
Суды могут проверять, был ли обойден технический контроль, нарушает ли обобщение защищенные выражения и может ли использование сторонних парсеров привести к юридической ответственности за последующие продукты.
Если суды примут аргумент Reddit против обхода, это может привести к изменениям в том, как помощники цитируют или связывают темы Reddit.
С другой стороны, если суды согласятся с точкой зрения Perplexity, помощники могут начать больше полагаться на обсуждения на форумах, которые в меньшей степени ограничены лицензированием.
Чего мы еще не знаем
В иске утверждается, что Perplexity получила данные как минимум через одну парсинговую компанию, но в публичной жалобе не уточняется, какой поставщик какие данные предоставил, и не включаются подробности транзакции.

