首頁>數據>資訊

并非越大越好，模型選擇要結合需求

2024年09月03日 13:59 | 作者:都芃 | 來源：科技日報分享到：

4823031_lix_1724988132826_b

【AI世界】

8月底，微軟和英偉達相繼發布小型語言模型，引發業界熱議。兩家公司均稱，新發布的小模型能在算力資源消耗和功能表現之間取得平衡，甚至可以在某些方面媲美大模型。不僅如此，蘋果、美國開放人工智能研究中心（OpenAI）等也發布了參數規模更小、性能更強的小型語言模型。

小模型通常指參數少、占用算力資源少、反應速度快、可以本地化運行的小型語言模型。在大模型競爭日趨激烈的今天，多家人工智能企業及研發機構為何另辟蹊徑，加碼小模型賽道？

大模型訓練成本高

大模型賽道太“卷”了——這是部分業界人士對當下大模型產業發展的評價。隨著各家人工智能廠商在大模型領域不斷加大投入，如今百億級甚至千億級參數的大模型已不再稀缺，大模型產品同質化趨勢也愈發明顯。

但模型真的越大越好嗎？模型越大，意味著消耗的資源越多，成本越高。今年4月，OpenAI首席執行官薩姆·奧爾特曼在麻省理工學院演講時提到，“我認為我們正處于巨型模型時代的結尾”。在他看來，未來人工智能新的進步并非來自于越來越大的模型。

且不論運行所需費用，僅在訓練階段，大模型就要花費巨額成本。OpenAI前研究副總裁、人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾提到，目前像GPT-4o這樣的模型訓練成本約為1億美元，而當下正在開發的人工智能大模型訓練成本則可能高達10億美元。他預計，未來3年內，人工智能大模型的訓練成本將上升至100億美元甚至1000億美元。

對于國內大模型產品而言，成本同樣居高不下。百川智能創始人兼首席執行官王小川曾提到，大模型每1億參數對應訓練成本在1.5萬到3萬元人民幣之間。一個千億級參數的大模型，單次訓練成本在3000萬至5000萬元人民幣之間。

高端算力短缺等因素也是困擾國內大模型發展的難題。2023年，科大訊飛與華為聯合發布首個全國產算力平臺“飛星一號”，以此為基礎訓練出的訊飛星火大模型已實現自主可控。但整體來看，相比國際先進水平，國內大模型產品仍有較大提升空間。

此外，在應用端，端側部署是目前人工智能大模型發展的熱門方向，但由于所需算力資源過于龐大，大模型幾乎無法在手機、人形機器人等小型終端上本地部署，限制了大模型的應用場景。例如，在目前發布且有實際演示的模型中，10億參數量模型尚可在手機上運行，一旦模型參數級別躍升至百億級，在手機端運行就變得非常吃力，幾乎無法正常使用。在許多場景下，模型規模越大并不一定能給用戶帶來更好的使用體驗，這也給小模型留下了更多發展空間。

小模型有多重優勢

大多數小模型參數量在幾百萬至數千萬，結構也更簡單。參數量縮小帶來的明顯改變是對功耗以及算力需求的降低。

目前主流旗艦手機的芯片算力可以達到40—50TOPS（1TOPS代表處理器每秒鐘可進行1萬億次操作）。若再疊加專門開發的功耗控制策略，許多智能手機都能輕松“駕馭”小模型。

模型雖小，但在部分專門領域，其功能表現并不輸大模型。例如OpenAI推出的輕量化模型GPT-4o mini在常見的多輪對話等功能上，與GPT-4o表現不相上下。

針對當下大模型存在的“幻覺”問題，即機器可能輸出“無中生有”的內容，小模型通過專注于學習某個細分領域的精華數據，可降低不相關、意外或不一致的輸出風險，顯著降低“幻覺”現象出現概率。

此外，相比部署在云上的大模型，小模型具有個性化程度高、響應速度快等特點，這使其更貼近用戶端需求。同時，小模型的本地化部署也能更大程度保障用戶的數據控制權和隱私權。

大小模型協同發展

當然，對于實現通用人工智能這一終極目標而言，小模型遠遠不夠。小模型在當下的快速發展，更多是企業出自平衡成本與用戶需求后的理性選擇。

科大訊飛副總裁、研究院院長劉聰認為，不能泛泛談大模型與小模型孰優孰劣，必須結合具體使用場景來評估。他舉例說，如果只是讓人工智能寫一個具體行業的文案，或是只對具體行業的文字進行翻譯、潤色等處理，一個中小規模的模型就完全夠用。但如果是在開放信息環境中，對不特定的內容進行提取、識別、分析等操作，大模型的表現毫無疑問將更好。

在劉聰看來，大、小模型相結合或將成為未來人工智能發展的重要方向，確定某一任務是使用大模型還是小模型更好，取決于其泛化性和效率要求。“歸根結底要圍繞具體需求展開，這兩者不是非此即彼的關系。”他說。

具體在研發層面，大、小模型之間的關系更多是協作而非競爭。當下，許多科技巨頭的做法是先訓練出通用能力足夠強的大模型，再借助大模型對數據進行初步篩選處理。站在大模型“肩膀”上的小模型，可以用質量更高、數量更少的數據完成訓練，以更低成本實現不輸大模型的效果。“大模型的目標是找到性能的天花板。以此為基礎再優化小模型，和從零起步做一個小模型相比，效果完全不同。”劉聰說。（記者都芃）

編輯：廖昕朔

人民政協報政協號客戶端下載 >

夜夜爽夜夜高潮高清视频,久99久女女精品免费观看69堂,日韩精品不卡在线高清,91精品啪国产在线观看

首頁>數據>資訊

并非越大越好，模型選擇要結合需求

友情鏈接：