Freelancer обвинил Anthropic, стартап искусственного интеллекта, стоящий за большими языковыми моделями Claude, в игнорировании его протокола «не сканировать» robots.txt для сбора данных с его веб-сайтов. Тем временем генеральный директор iFixit Кайл Винс заявил, что Anthropic проигнорировал политику веб-сайта, запрещающую использование его контента для обучения моделей искусственного интеллекта. Мэтт Барри, генеральный директор Freelancer, сказал The Information, что ClaudeBot от Anthropic — «самый агрессивный скрапер на сегодняшний день». Его веб-сайт якобы получил 3,5 миллиона посещений от поискового робота компании в течение четырех часов, что «вероятно, примерно в пять раз больше, чем у второго по величине» поискового робота искусственного интеллекта. Аналогичным образом Винс опубликовал в X/Twitter, что бот Anthropic заходил на серверы iFixit миллион раз за 24 часа. «Вы не только берете наш контент без оплаты, вы связываете наши ресурсы DevOps», — написал он.
Еще в июне Wired обвинил другую компанию ИИ, Perplexity, в сканировании ее веб-сайта, несмотря на наличие протокола исключения роботов, или robots.txt. Файл robots.txt обычно содержит инструкции для веб-сканеров, к каким страницам они могут и не могут получить доступ. Хотя соблюдение является добровольным, его в основном просто игнорируют плохие боты. После выхода статьи Wired стартап TollBit, который связывает компании ИИ с издателями контента, сообщил, что не только Perplexity обходит сигналы robots.txt. Хотя он не назвал имен, Business Insider сообщил, что ему стало известно, что OpenAI и Anthropic также игнорируют протокол.
Барри сказал, что Freelancer сначала пытался отклонить запросы бота на доступ, но в конечном итоге ему пришлось полностью заблокировать краулер Anthropic. «Это вопиющий скрапинг [which] «Это замедляет работу сайта для всех, кто на нем работает, и в конечном итоге влияет на наши доходы», — добавил он. Что касается iFixit, Винс сказал, что сайт установил будильники на случай высокого трафика, и его люди были разбужены в 3 часа ночи из-за действий Anthropic. Поисковый робот компании прекратил парсинг iFixit после того, как он добавил строку в свой файл robots.txt, которая запрещает, в частности, бота Anthropic.
Стартап в области искусственного интеллекта сообщил The Information, что он уважает robots.txt и что его сканер «уважал этот сигнал, когда iFixit его внедрил». Он также заявил, что стремится «к минимальному вмешательству, продумывая, как быстро [it crawls] те же домены», поэтому сейчас оно расследует это дело.
Компании, занимающиеся ИИ, используют краулеры для сбора контента с веб-сайтов, который они могут использовать для обучения своих генеративных технологий ИИ. В результате они стали объектом многочисленных судебных исков, а издатели обвиняли их в нарушении авторских прав. Чтобы предотвратить подачу новых исков, такие компании, как OpenAI, заключают сделки с издателями и веб-сайтами. На данный момент партнерами OpenAI по контенту являются News Corp, Vox Media, Financial Times и Reddit. Винс из iFixit, похоже, открыт для идеи подписания соглашения и на статьи веб-сайта с инструкциями по ремонту, сообщив Anthropic в твите, что он готов обсудить лицензирование контента для коммерческого использования.
Если бы любой из этих запросов имел доступ к нашим условиям обслуживания, они бы сказали вам, что использование нашего контента прямо запрещено. Но не спрашивайте меня, спросите Клода!
Если вы хотите обсудить лицензирование нашего контента для коммерческого использования, мы здесь. pic.twitter.com/CAkOQDnLjD
— Кайл Винс (@kwiens) 24 июля 2024 г.