
Позов Reddit націлений проти компанії Perplexity. Ілюстрацію створив автор на FLUX.1 від Black Forest Labs через детальну підказку без змін / Delo.ua
У середу, 22 жовтня, платформа соціальних мереж Reddit подала позов проти компанії штучного інтелекту Perplexity AI та трьох інших організацій, звинувачуючи їх у причетності до “промислової, незаконної” економіки “зішкрібання” коментарів мільйонів користувачів Reddit з метою отримання комерційної вигоди.
Delo.ua пише про це з посиланням на The Independent.
Позов Reddit у федеральному суді в Нью-Йорку спрямований проти компанії Perplexity, що базується в Сан-Франциско, яка є розробником чат-бота та “пошукової системи”, що конкурує з Google, ChatGPT та іншими онлайн-сервісами пошуку.
Також у позові фігурують литовська компанія з обробки даних Oxylabs UAB, веб-домен AWMProxy, який Reddit описує як “колишній російський ботнет”, і техаський стартап SerpApi.
Це другий подібний позов від Reddit після того, як у червні він подав позов проти іншої великої AI-компанії, Anthropic.
Проте, поданий у середу позов відрізняється тим, що він націлений не тільки на AI-компанію, а й на менш відомі сервіси, на які покладається індустрія штучного інтелекту для збору онлайн-тексту, необхідного для навчання чат-ботів.
“Скрепери обходять технологічний захист, щоб викрасти дані, а потім продають їх клієнтам, які шукають навчальні матеріали. Reddit є основною мішенню, оскільки це одна з найбільших і найдинамічніших колекцій людських розмов, коли-небудь створених”, — сказав Бен Лі, головний юрисконсульт Reddit.
У Perplexity заявили, що ще не отримали позов, але “завжди енергійно захищатимуть права користувачів на вільний і чесний доступ до суспільних знань”. “Наш підхід залишається принциповим і відповідальним, оскільки ми надаємо фактичні відповіді, використовуючи точний штучний інтелект, і ми не будемо терпіти погрози відкритості та суспільним інтересам”, — йдеться у відповіді.
Oxylabs і SerpAPI не одразу відповіли на запити про коментарі. З AWMProxy не вдалося зв’язатися для отримання коментарів.
Reddit порівнює компанії, на які подано позов, з “потенційними грабіжниками банків”, які не можуть потрапити у банківське сховище, тому натомість вламуються в броньований автомобіль. У позові стверджується, що вони обходять власні заходи Reddit щодо боротьби зі скрейпінгом, а також “обходять засоби контролю Google і витягують контент Reddit безпосередньо з результатів пошуку Google”.
Лі додав, що оскільки вони не можуть напряму витягувати дані з Reddit, “вони приховують свою особу, маскують своє місцезнаходження та маскують свої веб-скрепери, щоб вкрасти контент Reddit з Google Search”. “Perplexity є свідомим клієнтом принаймні одного з цих скреперів, обираючи купівлю викрадених даних замість законної угоди з самим Reddit”, — додав він.

Reddit проти Perplexity. Ілюстрацію створив автор на FLUX.1 від Black Forest Labs через детальну підказку без змін / Delo.ua
Для довідки
Як відбувається витягування контенту за допомогою пошуку Google (схема, яку часто описують у позовах на кшталт Reddit → Perplexity):
1. Індексація Google → результати пошуку (SERP).
— Google індексує сторінки (включно зі сторінками форумів/коментарів). У результатах пошуку відображається фрагмент тексту та посилання на оригінал або кеш.
2. Пошуковий запит Google (автоматизація).
— Скрепери автоматично виконують велику кількість пошукових запитів до Google (через API або шляхом імітації браузера), щоб знайти релевантні сторінки для бажаної теми/домену (наприклад, site:reddit.com “comments”).
3. Розбір SERP → отримання посилань і фрагментів.
— Скрипт отримує список URL-адрес із SERP та/або витягує фрагменти текстів/кеш Google (іноді кеш Google надає доступ до текстових фрагментів без безпосереднього доступу до вихідного сайту ).
4. Завантаження сторінок за посиланнями (або з кешу).
— Потім бот відвідує знайдені URL-адреси (можливо, через проксі, VPN або мережу ботнетів), завантажує HTML і витягує необхідні коментарі/тексти. Якщо сайт блокує скрепери, використовуйте кеш Google або мобільні/ AMP версії , які вузлові та менш захищені.
5. Маскування трафіку та обхід захисту.
— Методи маскування: чергуйте запити через проксі (ротація IP-адрес), замініть User ‑ Agent ( імітація) браузерів ) , використовуйте headless браузери з JavaScript емуляцією , додайте випадкові затримки , використовуйте розв’язувачі CAPTCHA або зовнішні сервіси для обходу ботів – захисту .
6. Агрегація та продаж/використання даних.
— Зібраний текст агрегується в бази даних (мільйони коментарів), очищається, форматується та використовується для навчання моделей AI або продається клієнтам (AI сервіси ) .






