Neurovetenskapsmän lär datorer att läsa ord direkt ur människors hjärna.
Kelly Servick, som skrev för Science, rapporterade den här veckan om tre papper som lagts till förtrycksservern bioRxiv där tre olika forskargrupper demonstrerade att de kunde avkoda tal från inspelningar av avfyrande av nervceller. I varje studie registrerade elektroder som placerades direkt på hjärnan nervaktivitet medan patienter med hjärnkirurgi lyssnade på tal eller läste högt. Sedan försökte forskare ta reda på vad patienterna hörde eller sa. I båda fallen kunde forskare konvertera hjärnans elektriska aktivitet till åtminstone något begripliga ljudfiler.
Den första artikeln, som skickades till bioRxiv den 10 oktober 2018, beskriver ett experiment där forskare spelade inspelningar av tal till patienter med epilepsi som var i mitten av hjärnkirurgi. (De neurala inspelningarna som gjorts i experimentet måste vara mycket detaljerade för att kunna tolkas. Och den detaljeringsnivån är endast tillgänglig under de sällsynta omständigheterna när en hjärna utsätts för luften och elektroder placeras på den direkt, till exempel i hjärnkirurgi .)
När patienterna lyssnade på ljudfilerna registrerade forskarna neuroner som skjuter i de delar av patienternas hjärnor som bearbetar ljud. Forskarna försökte ett antal olika metoder för att förvandla den neuronala avfyrningsdata till tal och fann att "djup inlärning" - där en dator försöker lösa ett problem mer eller mindre oövervakat - fungerade bäst. När de spelade resultaten genom en vocoder, som syntetiserar mänskliga röster, för en grupp av 11 lyssnare kunde dessa individer korrekt tolka orden 75 procent av tiden.
Du kan lyssna på ljud från detta experiment här.
Det andra uppsatsen, publicerat 27 november 2018, förlitade sig på neurala inspelningar från personer som genomgick operation för att ta bort hjärntumörer. När patienterna läste enstaka ord högt, spelade forskarna in både ljuden från deltagarnas mun och nervceller som skjuter i de talproducerande områdena i deras hjärnor. Istället för att träna datorer djupt på varje patient, lärde dessa forskare ett konstgjordt neuralt nätverk för att konvertera neurala inspelningar till ljud, vilket visade att resultaten var åtminstone rimligt begripliga och liknar inspelningarna som gjorts av mikrofonerna. (Ljudet från det här experimentet är här men måste laddas ner som en zip-fil.)
Den tredje artikeln, som publicerades 9 augusti 2018, förlitade sig på att registrera den del av hjärnan som konverterar specifika ord som en person beslutar att tala till muskelrörelser. Även om det inte finns någon inspelning från detta experiment online, rapporterade forskarna att de kunde rekonstruera hela meningar (även inspelade under hjärnkirurgi hos patienter med epilepsi) och att personer som lyssnade på meningarna kunde tolka dem korrekt på ett flerval test (av 10 val) 83 procent av tiden. Det experimentets metod förlitade sig på att identifiera mönstren som är involverade i att producera enskilda stavelser, snarare än hela ord.
Målet i alla dessa experiment är att en dag göra det möjligt för personer som har tappat förmågan att tala (på grund av amyotrofisk lateral skleros eller liknande förhållanden) att tala via ett dator-till-hjärngränssnitt. Vetenskapen för den applikationen finns dock inte ännu.
Att tolka de neurala mönstren hos en person som bara föreställer sig tal är mer komplicerat än att tolka mönstren för någon som lyssnar på eller producerar tal, rapporterade Science. (Författarna till det andra uppsatsen sa dock att det kan vara möjligt att tolka hjärnaktiviteten hos någon som föreställer tal.)
Det är också viktigt att komma ihåg att det är små studier. Den första uppsatsen förlitade sig på data från bara fem patienter, medan den andra tittade på sex patienter och den tredje endast tre. Och ingen av de neurala inspelningarna varade mer än en timme.
Ändå går vetenskapen framåt och konstgjorda talanordningar som är direkt anslutna till hjärnan verkar vara en verklig möjlighet någon gång längs vägen.