蓋世汽車訊 據外媒報道,OpenAI宣布推出新的旗艦生成式AI模型GPT-4o(“o”代表“omni”,即該模型處理文本、語音和視頻的能力)。根據演示視頻,它可以與用戶進行近乎實時的語音對話,表現出類人的性格和行為。
(圖片來源:OpenAI)
GPT-4o提供“GPT-4級別”智能,但速度更快,并改進了GPT-4跨多種模式和媒體的能力。OpenAI首席技術官Mira Murati表示:“GPT-4o可以跨語音、文本和視覺進行推理。這非常重要,因為我們正在研究人類與機器交互的未來。”
GPT-4o極大地改善了OpenAI的人工智能聊天機器人ChatGPT的體驗。該平臺長期以來一直提供語音模式,使用文本轉語音模型轉錄聊天機器人的響應,但GPT-4o對此進行了增強,讓用戶與更像助手一樣的ChatGPT進行交互。
例如,用戶可以向GPT-4o支持的ChatGPT進行提問,并在ChatGPT回答時打斷它。OpenAI 表示,該模型提供“實時”響應能力,甚至可以識別用戶聲音中的細微差別,從而生成“一系列不同情感風格(包括唱歌)”的聲音。
GPT-4o還升級了ChatGPT的視覺能力。現在,向它展示一張照片或桌面屏幕,ChatGPT可以快速回答相關問題,主題范圍包括“這段軟件代碼中發生了什么?”到“這個人穿什么牌子的襯衫?”Murati表示,這些功能未來將得到進一步發展。目前,GPT-4o可以查看不同語言的菜單圖片并進行翻譯。舉例來說,未來該模型可以支持ChatGPT“觀看”現場體育比賽,并向用戶解釋規則。
Murati表示:“這些模型變得越來越復雜,但我們希望實際交互體驗變得更自然、輕松,并且客戶無需關注用戶界面,而只關注與ChatGPT的協作。在過去幾年里,我們一直非常專注于提高這些模型的智能,這是我們第一次在易用性方面真正邁出一大步。”
為了使先進的人工智能在全球范圍內更易于獲得和使用,GPT-4o的語言功能在質量和速度方面得到了提高。現在,ChatGPT支持50多種語言(在新窗口中打開),包括注冊、登錄和用戶設置等。
OpenAI計劃在未來幾周內首先向“一小群值得信賴的合作伙伴”提供GPT-4o新音頻功能支持。
來源:第一電動網
作者:蓋世汽車
本文地址:http://www.155ck.com/news/shichang/231480
以上內容轉載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯系admin#d1ev.com(#替換成@)刪除,轉載內容并不代表第一電動網(www.155ck.com)立場。
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。