Google twierdzi, że trenuje sztuczną inteligencję przy użyciu skradzionych danych internetowych

w poniedziałek, gadżety obserwator Że gigant wyszukiwania zaktualizował swoją politykę prywatności, aby ujawnić, że różne usługi sztucznej inteligencji, takie jak Bard i Cloud AI, mogą być szkolone na publicznych danych, które firma zeskrobała z sieci.

„Nasza polityka prywatności zawsze była przejrzysta, ponieważ Google wykorzystuje publicznie dostępne informacje z otwartej sieci do trenowania modeli językowych dla usług takich jak Google Translate” – powiedziała rzeczniczka Google, Krista Muldoon. krawędź. Ta najnowsza aktualizacja po prostu pokazuje włączenie nowszych usług, takich jak Bard. Przy opracowywaniu naszych technologii sztucznej inteligencji uwzględniamy zasady i zabezpieczenia dotyczące prywatności, zgodnie z naszymi zasadami dotyczącymi sztucznej inteligencji. „

Oto najnowsze zmiany w Polityce prywatności Google. Firma przyznaje teraz publicznie, gdzie wykorzystywane są Twoje dane co najmniej…
Obraz: Google

Po aktualizacji w dniu 1 lipca 2023 r. Polityka prywatności Google Stwierdza teraz, że „Google wykorzystuje te informacje do ulepszania naszych usług i opracowywania nowych produktów, funkcji i technologii, które przynoszą korzyści naszym użytkownikom i społeczeństwu” oraz że firma może „wykorzystywać publicznie dostępne informacje, aby pomóc w szkoleniu modeli sztucznej inteligencji Google i tworzeniu produktów oraz funkcje, takie jak Tłumacz Google, Bard i Cloud AI”.

Możesz zobaczyć kto Data zmiany polisy Aktualizacja zapewnia dodatkową jasność co do tego, które usługi zostaną przeszkolone przy użyciu zebranych danych. Na przykład dokument stwierdza teraz, że informacje mogą być wykorzystywane do „modeli sztucznej inteligencji” zamiast „modeli językowych”, co daje Google większą swobodę w szkoleniu i budowaniu systemów poza LLM na twoich danych publicznych. I nawet ta notatka jest zakopana pod osadzonym linkiem do „publicznie dostępnych źródeł” poniżej.Twoje informacje lokalnektórą należy kliknąć, aby otworzyć odpowiednią sekcję.

Zaktualizowana polityka określa, że ​​„publicznie dostępne informacje” są wykorzystywane do szkolenia produktów AI Google, ale nie wyjaśnia, w jaki sposób (i czy) firma będzie zapobiegać włączaniu materiałów chronionych prawem autorskim do tej puli danych. Wiele publicznie dostępnych witryn internetowych ma zasady, które zabraniają gromadzenia danych lub przeglądania sieci w celu szkolenia dużych modeli językowych i innych zestawów narzędzi AI. Ciekawie będzie zobaczyć, jak to podejście współgra z kilkoma globalnymi przepisami, takimi jak Ogólne rozporządzenie o ochronie danych (RODO), które chronią ludzi przed niewłaściwym wykorzystaniem ich danych bez ich wyraźnej zgody.

READ  Właściciele PS5 mogą teraz skorzystać z sześciu bezpłatnych miesięcy Apple Music

Połączenie tych przepisów i zwiększonej konkurencji rynkowej sprawiło, że twórcy popularnych generatywnych systemów sztucznej inteligencji, takich jak GPT-4 firmy OpenAI, bardzo uważali, skąd biorą dane wykorzystywane do ich szkolenia i czy obejmują one posty w mediach społecznościowych lub dzieła artystów chronione prawami autorskimi. .

Kwestia, czy doktryna dozwolonego użytku rozciąga się na tego typu aplikacje, należy obecnie do szarej strefy prawnej. Niepewność wywołała różne procesy sądowe i skłoniła ustawodawców w niektórych krajach do uchwalenia bardziej rygorystycznych przepisów, które są lepiej przygotowane do regulowania sposobu, w jaki firmy zajmujące się sztuczną inteligencją zbierają i wykorzystują swoje dane szkoleniowe. Rodzi to również pytania o to, jak przetwarzać te dane, aby upewnić się, że nie przyczyniają się do tego poważne awarie Wewnątrz systemów sztucznej inteligencji, z ludźmi, których zadaniem jest sortowanie tych ogromnych pul danych szkoleniowych, które często są narażone na długie godziny i trudne warunki pracy.

Gannetta, największego wydawcy gazet w Stanach Zjednoczonych Google pozwany i jej spółką macierzystą, Alphabet, prawo Postępy w technologii sztucznej inteligencji pomogły gigantowi wyszukiwania zmonopolizować rynek reklamy cyfrowej. Produkty, takie jak wyszukiwarka AI Google w wersji beta, są również nazywane „Silniki plagiatuSą krytykowani za głodzenie ruchu na stronach internetowych.

Tymczasem Twitter i Reddit – dwie platformy społecznościowe zawierające ogromne ilości informacji publicznych – niedawno przejęły kontrolę brutalny Środki mające na celu uniemożliwienie innym firmom swobodnego gromadzenia ich danych. Zmiany API i ograniczenia nałożone na platformy spotkały się z reakcją ich społeczności, a zmiany zapobiegające dollingowi negatywnie wpłynęły na podstawowe doświadczenia użytkowników Twittera i Reddita.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *