一位患有嚴重語言障礙的男子,借助大腦植入裝置實現流暢地說話和歌唱。該大腦植入物近乎即時地將他的神經活動轉化為言語,不僅能傳達他的語調變化,強調他選擇的單詞,甚至能夠讓他哼唱出由3種音高組成的音符。

植入運動皮層的電極有助于記錄一個說話不清楚的人與語言相關的大腦活動。圖片來源:Kateryna Kon/Science Photo Library
該裝置被稱為腦機接口(BCI),它使用人工智能解碼參與者試圖說話時的腦電活動。該裝置是第一個不僅能再現一個人的意圖,還能復制自然語言特征的BCI。音調、音高、重音等自然語言特征有助于表達意思和情感。
在一項研究中,一種模仿參與者自身聲音的合成聲音,在參與者神經活動發出說話意圖信號后10毫秒內,就說出了他的話語。這項6月11日發表于《自然》的研究成果標志著對早期BCI的重大改進,早期BCI通常在3秒內輸出語音,或者只能在用戶完整模擬整個句子后才能生成語音。
“這是語音BCI領域的圣杯。”荷蘭馬斯特里赫特大學的計算神經科學家Christian Herff說,“這是真實的、自發的、連續的講話。”
這項研究的參與者是一名45歲的男性,在患上一種運動神經元疾病——肌萎縮側索硬化癥后,他失去了清晰說話的能力,這種疾病會損害控制肌肉運動的神經,包括說話所需的神經。雖然他還能發音和說話,但他講話很慢,也不清楚。
在癥狀出現5年后,他接受了手術,在控制運動的大腦區域插入256個硅電極,每個1.5毫米長。論文作者之一、美國加利福尼亞大學戴維斯分校的神經科學家Maitreyee Wairagkar和同事訓練了深度學習算法,每10毫秒捕捉一次他大腦中的信號。他們的系統實時解碼的是該男子試圖發出的聲音,而不是他想要表達的具體詞語或基本音素——構成口語單詞的語音子單位。
“我們并不總是用詞語傳達想法。我們有感嘆詞,還有其他一些表達性的發音,這些都不在我們的詞匯表里。為了實現這一點,我們采用了這種完全不受限制的方法。”Wairagkar解釋說。
該團隊還通過訓練人工智能算法,根據參與者生病前的采訪錄音,將合成聲音個性化,使其聽起來像參與者自己的聲音。
研究人員要求參與者試發出“啊”“哦”“嗯”之類的感嘆詞,并說出虛構的單詞。BCI成功地產生了這些聲音,表明它可以在不需要固定詞匯的情況下生成語音。
使用該裝置,參與者可以拼寫單詞、回答開放式問題,并使用解碼器訓練數據之外的一些單詞說出他想說的話。他告訴研究人員,合成的聲音說話讓他“感到高興”,感覺就像他的“真實聲音”。
在其他實驗中,BCI識別出參與者是想把一個句子說成疑問句還是陳述句。該裝置還能判斷他在同一句話中強調哪些詞語,并相應地調整其合成語音的語調。“我們正在引入人類語言中所有這些非常重要的不同元素。”Wairagkar說,以前的BCI只能產生單調的語音。
瑞士日內瓦大學的神經工程師Silvia Marchesotti說,該裝置的功能“對于未來患者的日常使用至關重要”。“從某種意義上說,這是一種范式轉變,它可以真正帶來一種現實生活中的工具。”
相關論文信息: https://doi.org/10.1038/s41586-025-09127-3
中國-博士人才網發布
聲明提示:凡本網注明“來源:XXX”的文/圖等稿件,本網轉載出于傳遞更多信息及方便產業探討之目的,并不意味著本站贊同其觀點或證實其內容的真實性,文章內容僅供參考。