Amazon Web Services начала расследование, чтобы определить, нарушает ли Perplexity AI свои правила, сообщает Wired. Если быть точным, облачное подразделение компании, как сообщается, изучает обвинения в том, что сервис использует краулер, размещенный на его серверах, который игнорирует протокол исключения роботов. Этот протокол является веб-стандартом, в котором разработчики размещают на домене файл robots.txt, содержащий инструкции о том, могут ли боты получать доступ к определенной странице или нет. Соблюдение этих инструкций является добровольным, но краулеры из уважаемых компаний, как правило, уважают их с тех пор, как веб-разработчики начали внедрять стандарт в 90-х годах.
В более ранней статье Wired сообщил, что обнаружил виртуальную машину, которая обходила инструкции robots.txt на ее веб-сайте. Эта машина была размещена на сервере Amazon Web Services с IP-адресом 44.221.181.252, который «определенно управляется Perplexity». Сообщается, что за последние три месяца он посещал другие объекты Condé Nast сотни раз, чтобы также очистить их контент. The Guardian, Forbes и The New York Times также обнаружили, что он неоднократно посещал их публикации, сообщает Wired. Чтобы подтвердить, действительно ли Perplexity собирает контент, Wired вводил заголовки или краткие описания своих статей в чат-бот компании. Затем инструмент ответил результатами, которые точно перефразировали его статьи «с минимальным указанием авторства».
В недавнем отчете Reuters утверждается, что Perplexity — не единственная компания, занимающаяся искусственным интеллектом, которая обходит файлы robots.txt для сбора контента, используемого для обучения больших языковых моделей. Однако похоже, что Wired предоставил Amazon только информацию о сканере Perplexity AI. «Условия обслуживания AWS запрещают оскорбительные и незаконные действия, и наши клиенты несут ответственность за соблюдение этих условий», — говорится в заявлении Amazon Web Services. «Мы регулярно получаем сообщения о предполагаемых злоупотреблениях из различных источников и призываем наших клиентов разобраться в этих сообщениях». Представитель также добавил, что облачное подразделение компании сообщило Wired, что расследует предоставленную публикацией информацию, как и все сообщения о потенциальных нарушениях.
Представитель Perplexity Сара Платник сообщила Wired, что компания уже ответила на запросы Amazon и отрицает, что ее краулеры обходят протокол исключения роботов. «Наш PerplexityBot, работающий на AWS, уважает robots.txt, и мы подтвердили, что контролируемые Perplexity сервисы не сканируют каким-либо образом, нарушающим Условия обслуживания AWS», — сказала она. Платник сообщила нам, что Amazon рассмотрела запрос Wired в СМИ только в рамках стандартного протокола расследования сообщений о злоупотреблении ее ресурсами. Компания, по-видимому, не слышала от Amazon о каком-либо типе расследования до того, как Wired связался с компанией. Однако Платник признался Wired, что PerplexityBot будет игнорировать robots.text, когда пользователь включит определенный URL в свой запрос чат-бота.
Аравинд Шринивас, генеральный директор Perplexity, также ранее отрицал, что его компания «игнорирует протокол исключения роботов, а затем лжет об этом». Сринивас признался Fast Company, что Perplexity использует сторонние веб-сканеры поверх своих собственных, и что бот, выявленный Wired, был одним из них.
Обновление от 28 июня 2024 г., 14:20 по восточному времени: Мы обновили этот пост, добавив заявление Perplexity на Engadget.
Обновление от 28 июня 2024 г., 20:27 по восточному времени: мы обновили этот пост заявлением Amazon Web Services.