Reddit files lawsuit against Perplexity AI.

Позов Reddit націлений проти компанії Perplexity. Ілюстрацію створив автор на FLUX.1 від Black Forest Labs через детальну підказку без змін / Delo.ua

У середу, 22 жовтня, платформа соціальних мереж Reddit подала позов проти компанії штучного інтелекту Perplexity AI та трьох інших організацій, звинувачуючи їх у причетності до “промислової, незаконної” економіки “зішкрібання” коментарів мільйонів користувачів Reddit з метою отримання комерційної вигоди.

Delo.ua пише про це з посиланням на The Independent.

Позов Reddit у федеральному суді в Нью-Йорку спрямований проти компанії Perplexity, що базується в Сан-Франциско, яка є розробником чат-бота та “пошукової системи”, що конкурує з Google, ChatGPT та іншими онлайн-сервісами пошуку.

Також у позові фігурують литовська компанія з обробки даних Oxylabs UAB, веб-домен AWMProxy, який Reddit описує як “колишній російський ботнет”, і техаський стартап SerpApi.

Це другий подібний позов від Reddit після того, як у червні він подав позов проти іншої великої AI-компанії, Anthropic.

Проте, поданий у середу позов відрізняється тим, що він націлений не тільки на AI-компанію, а й на менш відомі сервіси, на які покладається індустрія штучного інтелекту для збору онлайн-тексту, необхідного для навчання чат-ботів.

“Скрепери обходять технологічний захист, щоб викрасти дані, а потім продають їх клієнтам, які шукають навчальні матеріали. Reddit є основною мішенню, оскільки це одна з найбільших і найдинамічніших колекцій людських розмов, коли-небудь створених”, — сказав Бен Лі, головний юрисконсульт Reddit.

У Perplexity заявили, що ще не отримали позов, але “завжди енергійно захищатимуть права користувачів на вільний і чесний доступ до суспільних знань”. “Наш підхід залишається принциповим і відповідальним, оскільки ми надаємо фактичні відповіді, використовуючи точний штучний інтелект, і ми не будемо терпіти погрози відкритості та суспільним інтересам”, — йдеться у відповіді.

Oxylabs і SerpAPI не одразу відповіли на запити про коментарі. З AWMProxy не вдалося зв’язатися для отримання коментарів.

Reddit порівнює компанії, на які подано позов, з “потенційними грабіжниками банків”, які не можуть потрапити у банківське сховище, тому натомість вламуються в броньований автомобіль. У позові стверджується, що вони обходять власні заходи Reddit щодо боротьби зі скрейпінгом, а також “обходять засоби контролю Google і витягують контент Reddit безпосередньо з результатів пошуку Google”.

Лі додав, що оскільки вони не можуть напряму витягувати дані з Reddit, “вони приховують свою особу, маскують своє місцезнаходження та маскують свої веб-скрепери, щоб вкрасти контент Reddit з Google Search”. “Perplexity є свідомим клієнтом принаймні одного з цих скреперів, обираючи купівлю викрадених даних замість законної угоди з самим Reddit”, — додав він.

Reddit проти Perplexity. Ілюстрацію створив автор на FLUX.1 від Black Forest Labs через детальну підказку без змін / Delo.ua

Для довідки

Як відбувається витягування контенту за допомогою пошуку Google (схема, яку часто описують у позовах на кшталт Reddit → Perplexity):

1. Індексація Google → результати пошуку (SERP).

— Google індексує сторінки (включно зі сторінками форумів/коментарів). У результатах пошуку відображається фрагмент тексту та посилання на оригінал або кеш.

2. Пошуковий запит Google (автоматизація).

— Скрепери автоматично виконують велику кількість пошукових запитів до Google (через API або шляхом імітації браузера), щоб знайти релевантні сторінки для бажаної теми/домену (наприклад, site:reddit.com “comments”).

3. Розбір SERP → отримання посилань і фрагментів.

— Скрипт отримує список URL-адрес із SERP та/або витягує фрагменти текстів/кеш Google (іноді кеш Google надає доступ до текстових фрагментів без безпосереднього доступу до вихідного сайту ).

4. Завантаження сторінок за посиланнями (або з кешу).

— Потім бот відвідує знайдені URL-адреси (можливо, через проксі, VPN або мережу ботнетів), завантажує HTML і витягує необхідні коментарі/тексти. Якщо сайт блокує скрепери, використовуйте кеш Google або мобільні/ AMP версії , які вузлові та менш захищені.

5. Маскування трафіку та обхід захисту.

— Методи маскування: чергуйте запити через проксі (ротація IP-адрес), замініть User ‑ Agent ( імітація) браузерів ) , використовуйте headless браузери з JavaScript емуляцією , додайте випадкові затримки , використовуйте розв’язувачі CAPTCHA або зовнішні сервіси для обходу ботів – захисту .

6. Агрегація та продаж/використання даних.

— Зібраний текст агрегується в бази даних (мільйони коментарів), очищається, форматується та використовується для навчання моделей AI або продається клієнтам (AI сервіси ) .

Source

No votes yet.

Please wait...