Od robots.txt do Googleove dominacije: Reddit blokira većinu tražilica

·

Reddit prodaje korisnički sadržaj za treniranje umjetne inteligencije

Google je sada praktički jedina tražilica koja pruža aktualne rezultate s Reddita, što je vjerojatno povezano s njihovom investicijom od 60 milijuna dolara u podatke za obuku umjetne inteligencije.

Ako koristite Bing, DuckDuckGo, Mojeek, Qwant ili bilo koju drugu alternativnu tražilicu koja se ne oslanja na Googleovo indeksiranje i koristite “site:reddit.com” za pretraživanje Reddita, nećete vidjeti nikakve rezultate iz prošlog tjedna. DuckDuckGo trenutno prikazuje samo 7 poveznica prilikom pretraživanja Reddita, ali ne daje nikakve informacije o tome kamo te veze idu ili zašto, govoreći samo “Ovdje vam želimo pokazati sažetak, ali stranica to ne dopušta.” Stariji rezultati i dalje će se prikazivati, ali ove tražilice više neće moći “indeksirati” Reddit, što znači da će Google biti jedina tražilica koja može prikazati rezultate Reddita. Pretraživanje Reddita na Kagiju, neovisnoj plaćenoj tražilici, i dalje radi, a Kagi kupuje dio indeksa pretraživanja od Googlea.

Vijest pokazuje Googleov gotovo monopol na pretraživanje i njegovu sposobnost da agresivno ometa konkurenciju drugih tvrtki u vrijeme kada se suočava sa sve većim kritikama zbog pogoršanja kvalitete rezultata pretraživanja. Isključenje drugih tražilica također dolazi nakon što je Reddit ograničio pristup svojoj stranici kako bi spriječio tvrtke da indeksiraju njegov sadržaj za obuku umjetne inteligencije.

Tim Rathschmidt, glasnogovornik Reddita, rekao je u e-mailu da Reddit blokira sve pretraživače koji se ne žele obvezati da neće koristiti indeksirane podatke za obuku umjetne inteligencije i da su u razgovorima s više tražilica”. Ne možemo postići dogovor sa svim tražilicama jer neke ne mogu ili ne žele preuzeti provedive obveze o korištenju sadržaja Reddita, uključujući umjetnu inteligenciju.”

Danas je Redditov robots.txt jednostavniji i stroži. Uz nekoliko poveznica na Redditovu novu “Politiku javnog sadržaja”, dokument jednostavno sadrži sljedeće naredbe:

User-agent: *
Disallow: /

To u osnovi znači: nijednom korisničkom agentu (botu) nije dopušteno indeksirati bilo koji dio web stranice.

Reddit je u lipnju rekao: “Nažalost, vidimo sve veći broj očito komercijaliziranih subjekata koji indeksiraju sadržaj Reddita i tvrde da nisu vezani našim uvjetima ili pravilima. Da stvar bude gora, skrivaju se iza robots.txt, tvrdeći da mogu koristiti sadržaj Reddita za što god žele. Iako ćemo nastaviti činiti sve što možemo kako bismo pronašli i proaktivno blokirali ove loše aktere, moramo učiniti više kako bismo zaštitili doprinose korisnika Reddita. Tijekom sljedećih nekoliko tjedana ažurirat ćemo našu robots.txt direktivu što je jasnije moguće: Ako koristite automatiziranog agenta za pristup Redditu, morat ćete se pridržavati naših uvjeta i pravila te ćete nas morati kontaktirati.”

Sve više i više web stranica pokušava zaustaviti botove koje koriste AI tvrtke za indeksiranje svojih web stranica za obuku ažuriranjem robots.txt profila. Robots.txt je tekstualna datoteka koja upućuje botove da li im je dopušten pristup web stranici ili ne. Na primjer, Googlebot je alat za indeksiranje ili “pauk” koji Google koristi za indeksiranje weba za rezultate pretraživanja. Web-lokacijama s robots.txt datotekama može se iznimno odobriti pristup Googlebotu, a ne drugim botovima, tako da se mogu pojaviti u rezultatima pretraživanja koji generiraju veliki promet. Nedavno je Google također pokrenuo Google-Extended, bota koji je specijaliziran za indeksiranje weba kako bi poboljšao svoju aplikaciju Gemini, tako da web stranice mogu dopustiti Googlebotu indeksiranje, ali blokirati alate za indeksiranje koje Google koristi za pokretanje svojih generativnih AI proizvoda.