AI LYSSNADE På MäNNISKORS RöSTER. SEDAN SKAPADE DET DERAS ANSIKTEN.

Send

Har du någonsin konstruerat en mental bild av en person som du aldrig sett, baserat enbart på deras röst? Artificiell intelligens (AI) kan nu göra det och generera en digital bild av en persons ansikte med bara ett kort ljudklipp för referens.

Namnet Speech2Face, det neurala nätverket - en dator som "tänker" på ett sätt som liknar den mänskliga hjärnan - utbildades av forskare på miljoner utbildningsvideor från internet som visade över 100 000 olika människor prata.

Från detta datasätt lärde sig Speech2Face föreningar mellan vokala signaler och vissa fysiska funktioner i ett mänskligt ansikte, skrev forskare i en ny studie. AI använde sedan ett ljudklipp för att modellera ett fotorealistiskt ansikte som matchade rösten.

Resultaten publicerades online 23 maj i preprint jounral arXiv och har inte granskats.

Tack och lov, AI vet (ännu) inte exakt hur en specifik person ser ut baserat på sin röst ensam. Neuralnätverket kände igen vissa markörer i tal som pekade på kön, ålder och etnicitet, funktioner som delas av många människor, rapporterade studieförfattarna.

"Som sådan kommer modellen bara att skapa genomsnittliga ansikten," skrev forskarna. "Det kommer inte att producera bilder av specifika individer."

AI har redan visat att det kan producera okänsligt exakta mänskliga ansikten, även om dess tolkningar av katter är ärligt lite skrämmande.

Ansikten som genererats av Speech2Face - alla framåt och med neutrala uttryck - matchade inte exakt folket bakom rösterna. Men bilderna fångade vanligtvis rätt åldersintervall, etniciteter och kön hos individerna, enligt studien.

Men algoritmens tolkningar var långt ifrån perfekta. Speech2Face demonstrerade "blandad prestanda" när de konfronteras med språkvariationer. Till exempel, när AI lyssnade på ett ljudklipp av en asiatisk man som talade kinesiska, producerade programmet en bild av ett asiatiskt ansikte. Men när samma man talade på engelska i ett annat ljudklipp genererade AI ansiktet på en vit man, rapporterade forskarna.

Algoritmen visade också könsförskjutning, associerade låga röster med manliga ansikten och högt tonade röster med kvinnliga ansikten. Och eftersom utbildningsdatasystemet endast representerar utbildningsvideor från YouTube, "representerar det inte lika hela världsbefolkningen", skrev forskarna.

En annan oro över denna videodatabas uppstod när en person som hade dykt upp i en YouTube-video blev förvånad över att få veta att hans likhet hade införlivats i studien, rapporterade Slate. Nick Sullivan, chef för kryptografi hos internetsäkerhetsföretaget Cloudflare i San Francisco, upptäckte oväntat ansiktet som ett av exemplen som används för att träna Speech2Face (och som algoritmen hade återgivit ganska ungefär).

Sullivan hade inte samtyckt till att dyka upp i studien, men YouTube-videorna i detta datasätt anses allmänt vara tillgängliga för forskare att använda utan att få ytterligare behörigheter, enligt Slate.

Send