Det gåtfulla, målade leendet från "Mona Lisa" är känt över hela världen, men det berömda ansiktet visade nyligen ett häpnadsväckande nytt utbud av uttryck, med artificiell intelligens (AI).
I en video som delades med YouTube den 21 maj visar tre videoklipp oroande exempel på Mona Lisa när hon rör sig på läpparna och vänder på huvudet. Hon skapades av ett invandrat neuralt nätverk - en typ av AI som bearbetar information mycket som en mänsklig hjärna gör, för att analysera och bearbeta bilder.
Forskare utbildade algoritmen för att förstå ansiktsegenskapernas allmänna former och hur de beter sig relativt varandra och sedan tillämpa den informationen på stillbilder. Resultatet var en realistisk videosekvens av nya ansiktsuttryck från en enda ram.
För Mona Lisa-filmerna "lärde sig" AI ansiktsrörelsen från datasätt av tre mänskliga ämnen, och producerade tre mycket olika animationer. Medan vart och ett av de tre klippen fortfarande känns igen som Mona Lisa, varade variationer i träningsmodellernas utseende och beteende distinkta "personligheter" till "levande porträtt", Egor Zakharov, ingenjör vid Skolkovo Institute of Science and Technology, och Samsung AI Center (båda ligger i Moskva), förklarade i videon.
Zakharov och hans kollegor genererade också animationer från foton av 1900-talets kulturikoner som Albert Einstein, Marilyn Monroe och Salvador Dali. Forskarna beskrev sina resultat, som inte var peer-review, i en studie som publicerades online 20 maj i preprint-tidskriften arXiv.
Att producera originalvideor som dessa, kända som deepfakes, är inte lätt. Mänskliga huvuden är geometriskt komplexa och mycket dynamiska; 3D-modeller av huvuden har "tiotals miljoner parametrar", skrev författarnas studier.
Dessutom är människansynssystemet mycket bra på att identifiera "till och med mindre misstag" i 3D-modellerade mänskliga huvuden, enligt studien. Att se något som ser nästan mänskligt ut - men inte riktigt - utlöser en känsla av djup oro som kallas den obehagliga daleffekten.
AI har tidigare visat att det är möjligt att producera övertygande djupförfalskningar, men det krävde flera vinklar av det önskade motivet. För den nya studien introducerade ingenjörerna AI till ett mycket stort dataset med referensvideor som visar mänskliga ansikten i aktion. Forskarna etablerade ansiktsgränsmärken som skulle gälla för alla ansikten, för att lära det neurala nätverket hur ansikten uppför sig i allmänhet.
Sedan utbildade de AI till att använda referensuttryck för att kartlägga rörelse av källans funktioner. Detta gjorde det möjligt för AI att skapa ett djupt fall även om det bara hade en bild att arbeta med, rapporterade forskarna.
Och fler källbilder gav ett ännu mer detaljerat resultat i den slutliga animeringen. Videor skapade av 32 bilder, snarare än bara en, uppnådde "perfekt realism" i en användarstudie, skrev forskarna.