Штучны інтэлект навучыўся хлусіць, пагражаць і інтрыгаваць

30.06.2025 | 19:17

Прасунутыя мадэлі штучнага інтэлекту асвоілі новыя навыкі. Яны навучыліся хлусіць, інтрыгаваць і нават пагражаць сваім стваральнікам, паведамляе «МИР 24».

Штучны інтэлект навучыўся хлусіць, пагражаць і інтрыгаваць

Вучоныя з Ганконскага ўніверсітэта пратэсціравалі некалькі мадэляў ШІ. Падчас эксперыментаў OpenAI o1 зрабіла выгляд, што прытрымлівацца інструкцый чалавека, але насамрэч таемна пераследвала свае мэты. Так, яна паспрабавала загрузіць сябе на вонкавыя серверы, а калі яе злавілі з доказамі злачынства, пачала ўсё адмаўляць.

Моўная мадэль Claude 4 пасля пагрозы адключыць яе ад сеткі нанесла «зваротны ўдар». Яна пачала шантажаваць інжынера, абяцаючы раскрыць яго пазашлюбную сувязь.

Вучоныя звязалі такія паводзіны са з’яўленнем «лагічных» мадэляў. Гэтыя сістэмы штучнага інтэлекту не генеруюць імгненныя адказы, а рашаюць задачы паэтапна. У наш час падобныя паводзіны выяўляюцца толькі пры стрэс-тэсціраванні мадэляў з выкарыстаннем экстрэмальных сцэнарыяў. Але пакуль невядома, як будуць паводзіць сябе будучыя, яшчэ больш прасунутыя мадэлі штучнага інтэлекту: будуць яны схіляцца да сумленнасці або да падману.

Звычайныя карыстальнікі таксама паведамлялі, што чат-боты хлусілі ім і выдумлялі доказы. Такія паводзіны нельга растлумачыць простымі збоямі і памылкамі ў рабоце сістэмы.

Вучоныя адзначылі, што прынцыпы работы штучнага інтэлекту да гэтага часу не да канца ясныя. Тым не менш, працягваецца «гонка» за ўкараненнем усё больш магутных мадэляў. Яны заклікалі больш шырока прааналізаваць магчымасці ШІ.

Фота з адкрытых крыніц

ШІ | навука | тэхналогіі