多模態模型

ChatGPT深夜大當機！全球狂哀號　疑與模型升級更新有關

人工智慧聊天機器人「ChatGPT」在台灣時間15日深夜突然大當機，災情蔓延全球，使用者不僅無法登入網站，畫面上還出現「502 Bad Gateway」的錯誤代碼，引起大量網友發文哀號，最後直至台灣時間16日凌晨1時30分左右才恢復正常根據斷線追蹤網站「Downdetector」資料顯示，於台灣時間15日晚間11時過後，ChatGPT開始出現大量故障回報，有超過75%使用者反映無法順利進入網站，剩下則稱無法正常使用。ChatGPT故障回報在15日深夜激增。（圖／翻攝自Downdetector）網站當機期間，社群平台X有大批網友發文抱怨，並以「#ChatGPTDown」標籤進行哀號，同時也出現大量相關梗圖，吐槽道「現在還有人敢用ChatGPT嗎」。對此，OpenAI證實，這次傳出的連線逾時、無法登入的災情，除了網頁版本以外，就連ios與Android版本的應用程式也中招，官方也表示，正著手進行調查本次故障的原因當中。另外，OpenAI自家開發者論壇「OpenAI Developer Forum」上，有工程師透露，當時他收到了「reference #502」和「503 service temporarily unavailable」的錯誤報告，推測如果不是流量問題，也可能與OpenAI先前所公告升級使用多模態模型GPT-4o有關。ChatGPT大當機，畫面上出現「502 Bad Gateway」的錯誤代碼。（圖／翻攝自OpenAI Developer Forum）

歷代最盛大手機陣容　Google Pixel系列4大手機登場

Google在今年的Made by Google新品發表會上，推出了歷來最豐富的Pixel手機系列，一舉推出四款不同型號的Pixel 9手機，包括入門級的Pixel 9、高階的Pixel 9 Pro和Pixel 9 Pro XL，以及首次在台灣亮相的Pixel 9 Pro Fold摺疊手機。這次的發布不僅展現了Google在智能手機市場的雄心，也標誌著其在AI技術應用方面的重大突破。新系列中，Pixel 9採用6.3吋螢幕，售價26,490元起；Pixel 9 Pro和Pro XL分別配備6.3吋和6.8吋螢幕，售價從33,490元到39,990元不等。最引人注目的是Pixel 9 Pro Fold，其外螢幕為6.3吋，展開後可達8吋，售價56,990元起。除了Pixel 9 Pro預計年底前上市外，其他型號都將於8月底至9月初陸續到貨。這次Pixel 9系列的核心亮點在於其專為AI設計的硬體配置。搭載新一代Tensor G4晶片，與DeepMind團隊合作打造，旨在充分發揮Gemini多模態模型的優勢。Google聲稱，新款手機的Gemini Nano模型效能比前代提升3倍，並採用更大面積的均熱板以維持最佳效能。記憶體容量也大幅提升，入門款達12GB，Pro系列更高達16GB。在軟體方面，Google為Pixel 9設計了多項獨特功能。「Call Notes」功能可自動記錄通話內容並生成摘要；「Pixel Studio」允許用戶通過文字描述生成AI圖像；「Pixel Screenshot」則提供了一個智慧型截圖管理系統，支持自然語言搜索。攝影功能也有重大升級。入門款配備5000萬像素主鏡頭和4800萬像素超廣角鏡頭，而Pro系列則增加了4800萬像素望遠鏡頭。結合生成式AI技術，新增的「一起拍」功能可自動合成群體照片，「魔術修圖」功能則能智能調整照片構圖。此外，改進的HDR+演算法提升了膚色和紋理的精準度，新增的夜拍全景模式和8K影片強化器更是大大擴展了用戶的創作可能性。

Meta計劃23日發布「最強Llama 3模型」外媒：將以4050億參數制霸市場

OpenAI開發的ChatGPT為AI聊天機器人競賽揭開序幕，如今，Meta帶上Llama 3新模型加入戰局。美東時間7月12日周五，媒體援引一名Meta Platforms的員工消息稱，Meta計劃7月23日發佈旗下第三代大語言模型（LLM）Llama 3的最大版本。這一最新版模型將擁有4050億参数，多模態模型，這意味着它將能夠理解和生成圖像和文本。去年7月Meta發佈的Llama 2有三個版本，最大版本70B的參數規模爲700億。今年4月，Meta發佈Llama 3Meta，稱它爲「至今爲止能力最強的開源LLM」。當時推出的Llama 3有8B和70B兩個版本。Meta CEO祖克伯當時稱，大版本的Llama 3將有超過4000億參數。Meta並未透露會不會將4000億參數規模的Llama 3開源，當時它還在接受訓練。對比前代，Llama 3有了質的飛躍。Llama 2使用2萬億個token進行訓練，而訓練Llama 3大版本的token超過15萬億。Meta稱，由於預訓練和訓練後的改進，其預訓練和指令調優的模型是目前8B和70B兩個參數規模的最佳模型。在訓練後程序得到改進後，模型的錯誤拒絕率（FRR）大幅下降，一致性提高，模型響應的多樣性增加。在推理、代碼生成和指令跟蹤等功能方面，Llama 3相比Llama 2有極大改進，使Llama 3更易於操控。4月Meta展示，8B和70B版本的Llama 3指令調優模型在大規模多任務語言理解數據集（MMLU）、研究生水平專家推理（GPQA）、數學評測集（GSM8K）、編程多語言測試（HumanEval）等方面的測評得分都高於Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的預訓練Llama 3多種性能測評優於Mistral、Gemma、Gemini和Mixtral。英偉達高級科學家Jim Fan認爲，Llama 3的推出已經脫離了技術層面的進步，更是開源模型與頂尖閉源模型可分庭抗禮的象徵。不同於OpenAI等開發商，Meta致力於開源LLM，不過，這個賽道也越來越擁擠。谷歌、特斯拉CEO馬斯克旗下的xAI和Mistral等競爭對手也發佈了免費的AI模型。據傳OpenAI正在準備GPT-5模型，有望再次超越業界其他公司，帶來更多強大功能。對此Meta祖克伯向外媒透露，Meta已在考慮Llama 4、Llama 5的開發。

AI圈百花齊放！微軟5／21放大招　外媒猜有「這3大」亮點

從OpenAI最新發布的GPT-4o多模態模型，到谷歌I/O大會上Gemini一系列亮眼升級和AI助手Project Astra，AI圈百花齊放的產品競賽還沒結束。另一大AI巨頭微軟（Microsoft）將於當地時間5月21日，在西雅圖舉辦Build 2024年度開發者大會，被視為微軟闡釋其戰略規劃，和展示最新AI產品的重要舞臺。毫無疑問，AI將繼續成為本次Build大會的主角。微軟對主題演講活動的描述也強調，這次大會的重點是了解人工智慧時代將如何釋放新機遇、改變開發人員的工作方式，並推動各行業的生產力。考慮到這是一場針對開發者的大會，應該會發布許多針對開發者的產品更新，例如GitHub、Fabric、Azure AI和Azure DevOps。此外，綜合國外多家科技媒體的推測，微軟本次有望發佈面向消費者的AI PC、新的Windows系統、更強大的Copilots等產品。微軟今年3月份推出了性能強大、帶有專用神經處理單元以更好支持AI任務的Surface電腦，不過3月發佈的設備均為企業版。下週微軟可能會更新專供消費者的產品線，預計也會配備新型Intel Core Ultra（5或7）處理器和專用神經處理單元。這將是微軟首次推出面向消費者的基於人工智慧技術驅動的Surface產品。另，預計微軟將發佈全新增強版Windows操作系統，進一步整合其內部AI功能。有媒體曾爆料，微軟正打造一個名為AI Explorer的基於機器學習技術的新功能，可能會改進Windows上的搜索工具，允許用戶使用自然語言輸入查找從網站到文件等各種內容，可能還會有一個新的時間軸，讓用戶可以回溯他們最近在電腦上的所有操作，並且根據他們當前正在查看的內容提供上下文建議。此外，基於此前已經曝光的Copilot功能基礎，微軟可能會添加對即時字幕、強化圖片編輯（包括即時濾鏡）等工具的支持。有媒體還推測，微軟Copilot工具現在最顯著的缺點，就是依賴網路連接，無法執行邊緣計算。但此前英特爾已經證實，微軟正在尋找以邊緣計算驅動Copilots的方式，以使AI助手能夠更快回答如基本數學、系統文件查詢之類的簡單問題。Build 2024將是微軟人工智能技術實力的一次重大檢閱。如果微軟能夠令人信服地證明其AI產品的價值、可靠性和實用性，將進一步鞏固其在這一賽道上的領先地位。

人形機器人成AI新戰場？　外媒：特斯拉第二代Optimus「步行更流暢」

2024年開局，科技巨頭紛紛佈局機器人賽道。據媒體報導，人形機器人領域指標性產品Optimus傳來新消息，特斯拉於上周六（24日）通過其社交媒體帳號分享一段影片，展示其正在研發的人形機器人的流暢步行能力。該影片展示了機器人該在測試場地內行走，並配有詼諧的標題「完成每日步數目標」。相比幾周前發佈的影片，最新顯示的擎天巨臂似乎是更新或更加完善的版本。其在行走過程中步伐更穩健，動作也更加流暢，可能是因為基於了多模態模型的處理，而不是純粹的邏輯控制。另外，谷歌也於2023年6月推出了具備自我改進與提升功能的AI機器人RoboCat。有研報表示，人形機器人是AI原生應用的最佳實體，在AI大發展、越來越多科技巨頭入局的背景下，產業化進程或加速推進。輝達CEO黃仁勳近日也在採訪中表示，機器人基礎模型可能即將出現，或許是明年，「自那時起的五年後，將看到一些非常令人驚奇的事情。」人工智慧新創公司Figure AI昨（25日）宣佈完成新一輪融資，金額達6.75億美元。本次融資吸引了輝達、微軟、OpenAI和亞馬遜創始人貝佐斯（Jeff Bezos）等科技巨頭參與。輝達和一隻亞馬遜旗下基金各投入5000萬美元，英特爾旗下風投機構投資2500萬美元，貝佐斯還通過名下投資公司Explore Investments LLC承諾投資1億美元。當前大模型所具備的強大泛化能力和湧現能力，驅動眾多廠商嘗試將大模型用於訓練具身智慧產品，加速人形機器人迭代和進化。國內外產業資本加速拓展人形機器人領域佈局。新創公司Figure AI旨在開發人形機器人，該公司2023年10月憑藉推出的類人機器人Figure 01嶄露頭角。

GPT-4於下周發布　將支援影片

ChatGPT的出現讓幾乎所有行業都在考慮運用AI，而作為當前最火的生成式AI，ChatGPT還在不斷進步。微軟德國公司CTO兼AI部門主管Andreas Braun於周四（9日）在AI in Focus-Digital Kickoff活動中透露，GPT-4將在下周發布，將推進基於GPT-3.5的ChatGPT所使用的技術，它將是一個多模態模型，將提供完全不同的可能性，比如影片。據Braun稱，這項技術已經發展到基本上適用於所有語言，也就是說可以用德語提問，然後用意大利語得到答案。在活動上，微軟AI技術專家也對多模態AI的相關功能進行了介紹。根據介紹，多模態AI不僅可以將文本轉化成相應的圖像、音樂甚至是影片。消息一出迅速吸引從全世界的目光。科技界人士、投資者甚至是普通用戶都迫不及待的想知道，新GPT會有多強大。目前已知ChatGPT只能處理文本資訊，而GPT-4如果支援信息量更豐富的影片模型，顯然會對更多領域產生深遠影響，舉個例子，現在大家擔心的是設計師會被AI取代，一旦影片方面有了突破，可能從事影片製作的一幫人也要失業了。GPT全稱為Generative Pre-trained Transformer，是一種使用人工神經網路的深度學習技術，能夠使機器像人一樣聊天交流並進行創作。GPT-4模型是第四代大型語言模型（LLM），Braun表示LLM教會機器理解自然語言，意味著人類將不再獨享這項技能。這一模型是通過GPT技術實現的。面對外界對於GPT-4的種種猜測，OpenAI正想法設法讓他們冷靜下來。近期接受媒體採訪時，OpenAI執行長Sam Altman直接否認了一些傳言，比如GPT-4可能會使AGI有和人類一樣的意識。至於GPT-4是否如微軟所說在下周發佈，OpenAI方面還沒有官宣，Altman也沒有宣佈何時發佈。Altman表示，當我們確信自己能夠安全、負責任地做到這一點時，這種情況遲早會出現。

多模態模型

ChatGPT深夜大當機！全球狂哀號 疑與模型升級更新有關

歷代最盛大手機陣容 Google Pixel系列4大手機登場

Meta計劃23日發布「最強Llama 3模型」 外媒：將以4050億參數制霸市場

AI圈百花齊放！微軟5／21放大招 外媒猜有「這3大」亮點

人形機器人成AI新戰場？ 外媒：特斯拉第二代Optimus「步行更流暢」

GPT-4於下周發布 將支援影片