AI語音引擎

」

推「複製人聲」AI工具卻不開放使用　OpenAI：因為今年要選舉

推出生成式聊天機器人ChatGPT的OpneAI，日前宣布公司已經開發出一套可以模仿人聲的AI工具，但目前尚未正式對外開放。近期OpenAI也解釋，因為今年要選舉，再加上軟體有安全上的疑慮，所以認為在排除疑慮之前，不應該直接對外開放使用。據了解，OpenAI在官方網站上宣布，他們自2022年底就著手進行開發AI語音引擎，可以透過該項引擎將文字轉語音，或是讓ChatGPT直接使用語音的方式進行溝通（其實目前ChatGPT的手機版已經有語音溝通的功能）。實際透過OpenAI所演示的內容來看，官方宣稱只需要一段15秒的語音片段，就可以透過AI語音引擎聲成相對應的片段，而且可以透過AI翻譯文字的功能，讓語音以各種不同語言的方式呈現。比如採集的目標可能原本母語是西班牙文，但是透過聲音模型的採集，再透過AI的文版輸入，就可以收到採集目標的聲音說著日文或是中文的片段。如此方便又可以想像到的工具，OpenAI並沒有像先前那樣直接提供給大眾使用，而是僅讓少部分的合作夥伴進行測試。為此，OpenAI發出聲明解釋「生成模仿人類聲音的AI語音引擎，存在著嚴重的安全性風險，尤其今年又要選舉」。報導中也提到，目前市面上已經有多家新創公司在著手研究AI複製人聲的技術，甚至有些已經對外開放使用，除了可以運用在娛樂工作室等特定的產品外，在新罕布夏州，已經有出現使用美國總統拜登的聲音來進行市調的自動語音電話。其實除了這套AI語音軟體尚未正式對外公布外，先前OpenAI所推出的影像生成AI工具Sora其實也是抱持著相同的態度，並沒有第一時間公布給民眾使用。報導中也分析，目前OpenAI已經於19日遞交了AI語音引擎的商標申請，推估其目標是要透過這套系統進入語音辨識、數位語音助理的業務，以此來與Alexa等品牌的語音產品競爭市場。

生成文字、圖片、影像還不滿足　OpenAI推出「聲音模仿」AI工具…15秒片段就能搞定

在生成式聊天機器人ChatGPT問世之後，其所屬公司OpneAI之後又推出圖片生成、影像生成等相關AI工具，每次出現都撼動整個業界，堪稱是業界最頂尖的AI公司。而如今有消息指出，OpneAI已經完成了「模仿聲音」的AI生成工具，只需要15秒片段就能完成生成。根據《Tech Crunch》報導指出，OpenAI在官方網站上宣布，他們自2022年底就著手進行開發AI語音引擎，可以透過該項引擎將文字轉語音，或是讓ChatGPT直接使用語音的方式進行溝通（其實目前ChatGPT的手機版已經有語音溝通的功能）。但考量DeepFake等相關技術恐會產生的困擾與資訊安全上的麻煩，因此OpenAI目前雖然已經將該套軟體研發到一定程度，但並沒有正式對外公布，而是採用小規模的測試方式，一邊聽取使用者的建議，同時也在構思該如何避免產品問世後遭到濫用。而實際透過OpenAI所演示的內容來看，官方宣稱只需要一段15秒的語音片段，就可以透過AI語音引擎聲成相對應的片段，而且可以透過AI翻譯文字的功能，讓語音以各種不同語言的方式呈現。比如採集的目標可能原本母語是西班牙文，但是透過聲音模型的採集，再透過AI的文版輸入，就可以收到採集目標的聲音說著日文或是中文的片段。雖說目前為止，OpenAI所演示出來的仍有不自然感以及強烈的播報腔，但整體水準已經維妙維肖，沒有特別告知的話，頂多會覺得「不自然」，而非覺「這有造假」。OpenAI方面也表示，會直到解決相關的安全性與造假的問題後，才會選擇公布這套AI語音引擎。目前內部正在研究在輸出的聲音內添加「浮水印」的方式，來達到便是以及追蹤來源的目標。

AI語音引擎

推「複製人聲」AI工具卻不開放使用 OpenAI：因為今年要選舉

生成文字、圖片、影像還不滿足 OpenAI推出「聲音模仿」AI工具…15秒片段就能搞定

推「複製人聲」AI工具卻不開放使用　OpenAI：因為今年要選舉

生成文字、圖片、影像還不滿足　OpenAI推出「聲音模仿」AI工具…15秒片段就能搞定