AI語音引擎
」推「複製人聲」AI工具卻不開放使用 OpenAI:因為今年要選舉
推出生成式聊天機器人ChatGPT的OpneAI,日前宣布公司已經開發出一套可以模仿人聲的AI工具,但目前尚未正式對外開放。近期OpenAI也解釋,因為今年要選舉,再加上軟體有安全上的疑慮,所以認為在排除疑慮之前,不應該直接對外開放使用。據了解,OpenAI在官方網站上宣布,他們自2022年底就著手進行開發AI語音引擎,可以透過該項引擎將文字轉語音,或是讓ChatGPT直接使用語音的方式進行溝通(其實目前ChatGPT的手機版已經有語音溝通的功能)。實際透過OpenAI所演示的內容來看,官方宣稱只需要一段15秒的語音片段,就可以透過AI語音引擎聲成相對應的片段,而且可以透過AI翻譯文字的功能,讓語音以各種不同語言的方式呈現。比如採集的目標可能原本母語是西班牙文,但是透過聲音模型的採集,再透過AI的文版輸入,就可以收到採集目標的聲音說著日文或是中文的片段。如此方便又可以想像到的工具,OpenAI並沒有像先前那樣直接提供給大眾使用,而是僅讓少部分的合作夥伴進行測試。為此,OpenAI發出聲明解釋「生成模仿人類聲音的AI語音引擎,存在著嚴重的安全性風險,尤其今年又要選舉」。報導中也提到,目前市面上已經有多家新創公司在著手研究AI複製人聲的技術,甚至有些已經對外開放使用,除了可以運用在娛樂工作室等特定的產品外,在新罕布夏州,已經有出現使用美國總統拜登的聲音來進行市調的自動語音電話。其實除了這套AI語音軟體尚未正式對外公布外,先前OpenAI所推出的影像生成AI工具Sora其實也是抱持著相同的態度,並沒有第一時間公布給民眾使用。報導中也分析,目前OpenAI已經於19日遞交了AI語音引擎的商標申請,推估其目標是要透過這套系統進入語音辨識、數位語音助理的業務,以此來與Alexa等品牌的語音產品競爭市場。
生成文字、圖片、影像還不滿足 OpenAI推出「聲音模仿」AI工具…15秒片段就能搞定
在生成式聊天機器人ChatGPT問世之後,其所屬公司OpneAI之後又推出圖片生成、影像生成等相關AI工具,每次出現都撼動整個業界,堪稱是業界最頂尖的AI公司。而如今有消息指出,OpneAI已經完成了「模仿聲音」的AI生成工具,只需要15秒片段就能完成生成。根據《Tech Crunch》報導指出,OpenAI在官方網站上宣布,他們自2022年底就著手進行開發AI語音引擎,可以透過該項引擎將文字轉語音,或是讓ChatGPT直接使用語音的方式進行溝通(其實目前ChatGPT的手機版已經有語音溝通的功能)。但考量DeepFake等相關技術恐會產生的困擾與資訊安全上的麻煩,因此OpenAI目前雖然已經將該套軟體研發到一定程度,但並沒有正式對外公布,而是採用小規模的測試方式,一邊聽取使用者的建議,同時也在構思該如何避免產品問世後遭到濫用。而實際透過OpenAI所演示的內容來看,官方宣稱只需要一段15秒的語音片段,就可以透過AI語音引擎聲成相對應的片段,而且可以透過AI翻譯文字的功能,讓語音以各種不同語言的方式呈現。比如採集的目標可能原本母語是西班牙文,但是透過聲音模型的採集,再透過AI的文版輸入,就可以收到採集目標的聲音說著日文或是中文的片段。雖說目前為止,OpenAI所演示出來的仍有不自然感以及強烈的播報腔,但整體水準已經維妙維肖,沒有特別告知的話,頂多會覺得「不自然」,而非覺「這有造假」。OpenAI方面也表示,會直到解決相關的安全性與造假的問題後,才會選擇公布這套AI語音引擎。目前內部正在研究在輸出的聲音內添加「浮水印」的方式,來達到便是以及追蹤來源的目標。