Liittovaltion kilpailuoikeudenkäynnissä kuulusteltuna Googlen johtaja paljasti, että yritys voi edelleen käyttää verkkosisältöä tekoälyominaisuuksien kouluttamiseen hakukoneessaan, vaikka verkkosivustojen julkaisijat ovat nimenomaisesti kieltäneet tällaisen käytön laajempaan tekoälymallien kehittämiseen.
Google DeepMindin varapuheenjohtaja Eli Collins todisti, että vaikka Googlen tekoälylaboratorio kunnioittaa julkaisijoiden asettamia rajoituksia tietojen käytölle, nämä rajoitukset eivät välttämättä sido muita yrityksen osia. Collinsin mukaan, jos Geminin kaltainen generatiivinen tekoälymalli siirretään hakudivisioonaan, sitä voidaan sitten kehittää käyttämällä verkkotietoja, jotka on alun perin suljettu pois DeepMindin koulutusaineistosta, kunhan se tapahtuu hakutarkoituksiin.
Tämä myönnettiin oikeusministeriön asianajaja Diana Aguilarin ristikuulustelussa. ”Kun otat Gemini-tekoälymallin ja laitat sen hakuyksikköön, hakuyksikkö voi kouluttaa mallia julkaisijoiden koulutuksesta pois jättämillä tiedoilla, eikö niin?”, Aguilar kysyi. ”Kyllä, hakukäyttöön”, Collins vastasi.
Googlen tekoälyn luomat yhteenvedot, jotka näkyvät perinteisten hakutulosten yläpuolella, ovat julkaisijoiden suurin huolenaihe. Monet sanovat, että nämä ominaisuudet estävät käyttäjiä klikkaamasta heidän sivustoilleen, mikä heikentää verkkoliikennettä ja mainostuloja ja samalla syöttää Googlen tekoälylle samalta sivustolta peräisin olevia tietoja.
Teknologiajätti väittää, että verkkosivustojen omistajat, jotka haluavat estää tämän käytön, eivät voi tyytyä tavalliseen tekoälyn käytöstä poistamiseen, vaan heidän on estettävä kokonaan Google-haun indeksointi vakiintuneen robots.txt-protokollan mukaisesti. ”Google tarjoaa julkaisijoille erillisen tavan hallita sisältöään haussa vakiintuneen robots.txt-verkkostandardin avulla”, tiedottaja totesi.
Nämä paljastukset tulivat esiin kolmen viikon oikeudenkäynnin aikana Washington D.C.:ssä, jossa tuomari Amit Mehta tarkastelee ehdotuksia, joiden tarkoituksena on hillitä Googlen määräävää asemaa hakukoneissa. Oikeudenkäynti on jatkoa vuoden 2023 päätökselle, jossa tuomioistuin totesi, että yritys oli laittomasti monopolisoinut markkinat.
Hallituksen lakimiehet vaativat laajoja korjaustoimenpiteitä, kuten Googlen pakottamista luopumaan Chrome-selaimestaan, kieltämistä maksaa siitä, että se on laitteiden oletushakukone, ja Gemini-kaltaisten tekoälypalveluiden integroinnin rajoittamista sen laajempaan ekosysteemiin.
Osana argumentaatiotaan oikeusministeriön asianajajat viittasivat 26. elokuuta 2024 päivättyyn asiakirjaan nimeltä ”Search GenAI <> Gemini v3”, jossa kuvataan, kuinka Google suodatti 80 miljardia 160 miljardista tokenista, eli online-sisällön segmentistä, soveltaen julkaisijoiden opt-out-asetuksia. Asiakirjassa mainitaan myös hakusessiot ja YouTube-videot lisälähteinä koulutustiedoille.
Tuomari Mehta kysyi Collinsilta suoraan näistä luvuista. ”160 miljardista tokenista 80 miljardia, eli 50 %, poistetaan julkaisijoiden opt-out-valintojen perusteella?”, hän kysyi. ”Kyllä, se on oikein”, Collins vastasi.
Myöhemmin kuulemistilaisuudessa Googlen puolustus tiivisti, että yhtiön hakukoneen vahvuus ei estä kilpailijoita rakentamasta vankkoja tekoälymalleja. Collins antoi esimerkin chatbotista, joka hakee tarkat urheilutulokset kaupallisten sopimusten avulla datan toimittajilta sen sijaan, että se kaivaisi niitä avoimesta verkosta.
Silti oikeuden esittämät todisteet paljastivat, että Google on vakavasti pohtinut, miten sen hakudatan aarrearkisto voisi antaa sen tekoälytyökaluille etulyöntiaseman. Eräässä DeepMindin toimitusjohtajalle Demis Hassabisille tarkoitetussa sisäisessä tiedotteessa mainittiin kokeiluja, joissa testattiin hakukyselyjen ja sijoitustietojen vaikutusta tekoälyn suorituskykyyn.
Aguilar painosti Collinsia kertomaan, oliko tällaista mallia koskaan luotu. ”Ei minun tietääkseni”, hän vastasi. Kun Collinsilta kysyttiin, oliko Hassabis pitänyt sitä kannattavana suuntauksena, Collins vahvisti: ”Kyllä.”