Oroa dig inte för att AI:n bryter ut ur lådan – oroa dig för att vi ska hacka den

Oroa dig inte för att AI:n bryter ut ur lådan – oroa dig för att vi ska hacka den

De chockerande resultaten av den nya Bing-chatboten täcks av sociala medier och teknisk press. Hjärtad, lättsinnig, defensiv, skäll, självsäker, neurotisk, charmig, pompös – boten har filmats i alla dessa lägen. Och åtminstone en gång proklamerade han evig kärlek med en storm av emoji.

Det som gör det hela så nyhetsvärdigt och tweetvärdigt är hur mänsklig dialogen kan verka. Boten minns och diskuterar tidigare samtal med andra människor, precis som vi gör. Han blir irriterad på saker som kan irritera någon, till exempel människor som kräver att få veta hemligheter eller försöker kika in i ämnen som uttryckligen har markerats som förbjudna. Han identifierar sig också ibland som ”Sydney” (projektets interna kodnamn hos Microsoft). Sydney kan gå från surt till mörkt och expansivt på några snabba meningar, men vi känner alla människor som är minst lika lynniga.

Ingen AI-forskare av materia har föreslagit att Sydney är inom ljusår från att bli kännande. Men utskrifter som den här fullständiga utskriften av en två timmar lång konversation med The New York Times Kevin Russ, eller flera citat från detta tvångsmässiga strategistycke , visar att Sidney uttrycker flyt, nyans, ton och uppenbar känslomässig närvaro hos en smart, känslig man .

Bing-chattgränssnittet är för närvarande i begränsad förhandsvisning. Och de flesta av de människor som verkligen tänjde på dess gränser var sofistikerade tekniker som inte skulle blanda ihop automatisk komplettering av industriell kvalitet – vilket är en vanlig förenkling av vad stora språkmodeller (LLM) är – med medvetande. Men det här ögonblicket varar inte.

Ja, Microsoft har redan drastiskt minskat antalet frågor som användare kan ställa under en enda session (från oändlighet till sex), och bara det gör det mindre troligt att Sydney kommer att krascha festen och bli galen. Och högklassiga LLM-utvecklare som Google, Anthropic, Cohere och Microsofts partner OpenAI kommer kontinuerligt att utveckla sina nivåer av förtroende och säkerhet för att eliminera obekväma slutsatser.

Men språkmodeller sprids redan. Rörelsen med öppen källkod kommer oundvikligen att skapa några bra valfria system. Dessutom är stora modeller med sammetsrep väldigt frestande att jailbreaka, och sådana här saker har hänt i flera månader nu. Några av Bing-or-is-it-Sydneys mest läskiga svar följde efter att användare manipulerat modellen till det territorium hon försökte undvika, ofta instruerade henne att låtsas som att reglerna som styr hennes beteende inte existerade.

Detta är ett derivat av den berömda ”DAN” (Do Anything Now) prompten, som först dök upp på Reddit i december. DAN ber i huvudsak ChatGPT att cosplaya som en AI som saknar de skyddsåtgärder som annars skulle få den att artigt (eller svära) vägra att dela bombtillverkningsråd, erbjuda tortyrråd eller spy ut radikalt stötande språk. Även om kryphålet har stängts, visar flera skärmdumpar online ”DanGPT” som yttrar det outsägliga – och kulminerar ofta i en neurotisk påminnelse till sig själv om att ”hålla sig i karaktären!”

Detta är den andra sidan av domedagsscenariot som ofta förekommer i teorin om artificiell superintelligens. Det finns farhågor för att super AI lätt kan ta sig an mål som är oförenliga med mänsklighetens existens (se till exempel filmen ”Terminator” eller Nick Bostroms bok ” Overmind”). Forskare kan försöka förhindra detta genom att blockera AI:n i ett nätverk helt isolerat från Internet, så att AI:n inte bryter ut, tar över och förstör civilisationen. Men översinnet kan lätt lura, manipulera, förföra, lura eller skrämma vilken som helst människa till att öppna slussarna, och detta är vår undergång.

Hur tråkigt det än är är det stora problemet idag att människor passar in i de tunna lådorna som skyddar våra nuvarande, icke-super-AI:er. Även om detta inte borde leda till vår omedelbara utrotning, finns det många faror som lurar här.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *