您現(xiàn)在的位置：首頁 > 資訊 > 今日頭條 > 正文

環(huán)球即時：2023年谷歌專題報告全面推進AI+云計算轉(zhuǎn)型

時間：2023-05-08 09:55:40 來源：中信建投

1、谷歌：全球搜索與移動生態(tài)公司巨頭，轉(zhuǎn)型AI+云計算

1.1、公司概況：全面推進AI+云計算轉(zhuǎn)型

谷歌為全球搜索與移動生態(tài)公司巨頭，以在線廣告收入為核心，并逐步推進“AI+云計算”建設(shè)。谷歌由拉里·佩奇和謝爾蓋·布林于 1996 年聯(lián)合創(chuàng)立，2004 年于納斯達克上市，2015 年，谷歌成立母公司 Alphabet， Google 成為母公司旗下最大子公司，Calico、Nest、Fiber 等成為 Google 同級子公司。谷歌（Alphabet）的業(yè)務(wù) 板塊包括 Google 和 Other Bets 兩部分，其中 Google 為公司的核心收入來源。Google 以廣告業(yè)務(wù)為核心，輔以云業(yè)務(wù)、應(yīng)用商店、硬件產(chǎn)品等互聯(lián)網(wǎng)產(chǎn)品與服務(wù)，具體包括 Android、Search、YouTube、Apps、Maps 和 Ads。此外，子公司 Other Bets 業(yè)務(wù)涉及生物科技（Calico）、智能家居(Nest)、資本投資(GV)、寬帶服務(wù)(Fiber)和自動駕駛(Waymo)等領(lǐng)域。

發(fā)展歷程方面，谷歌成立 20 余年間，由單一的搜索引擎服務(wù)公司轉(zhuǎn)型為全球搜索與移動生態(tài)公司巨頭，其發(fā)展歷程大致分為四個階段。第一階段為 1996 年-2004 年，谷歌依靠搜索引擎廣告收入營收。谷歌搜索最初版本為 BackRub 搜索引擎，利用讀取網(wǎng)絡(luò)標題并利用 PageRank 算法對搜索結(jié)果排序。2000 年，谷歌基于 BackRub，發(fā)布 AdWords，利用廣告商針對搜索結(jié)果界面定向廣告投放機會的價格競拍營收，為公司提供穩(wěn)定的收入來源。第二階段為 2004 年-2008 年，搜索引擎業(yè)務(wù)收入來源單一且局限，谷歌開始快速收購初創(chuàng)公司，構(gòu)建公司主營業(yè)務(wù)框架。

(資料圖片僅供參考)

為尋找搜索引擎業(yè)務(wù)外新的收入增長點，谷歌于 2004 年上市后大量收購初創(chuàng)公司，其中包括 2005 年收購 Android 拓展移動生態(tài)業(yè)務(wù)，2006 年收購 YouTube 拓展視頻廣告業(yè)務(wù)，2007 年收購網(wǎng)絡(luò)廣告服務(wù)商 DoubleClick 和發(fā)布廣告產(chǎn)品 AdSense，拓展在線廣告業(yè)務(wù)。在此階段，谷歌構(gòu)建了其主要業(yè)務(wù)板塊搜索和視頻廣告、硬件、應(yīng)用商店的基礎(chǔ)。第三階段為 2008 年-2015 年，谷歌一方面在搜索引擎、移動生態(tài)領(lǐng)域快速發(fā)展，另一方面，主攻技術(shù)的聯(lián)合創(chuàng)始人拉里·佩奇于 2011 年重新?lián)?CEO，谷歌開始探索各類創(chuàng)新產(chǎn)品。

具體而言 1）谷歌潛心深入發(fā)展移動生態(tài)和搜索引擎業(yè)務(wù)，于 2008 年推出 Chrome 瀏覽器并開源操作系統(tǒng) 2）谷歌在 CEO 拉里·佩奇帶領(lǐng)下開始嘗試各種新奇的想法，比如開發(fā)自動駕駛技術(shù)、谷歌眼鏡，成立生物科技公司 Calico 等嘗試。第四階段為 2015 年至今，通過四年探索，谷歌的在線廣告業(yè)務(wù)和其他業(yè)務(wù)逐步成熟，開始探索 AI 和云業(yè)務(wù)的布局。2014 年谷歌收購 Deepmind，2016 年整合谷歌云，谷歌云在公司收入中占比逐年增加，未來公司將以“AI+云計算”作為公司新的業(yè)務(wù)增長點。

管理團隊方面，公司共經(jīng)歷了拉里·佩奇、埃里克·施密特、拉里·佩奇和桑達爾·皮猜四任 CEO。拉里·佩奇自 1998 年-2001 年擔任公司 CEO，因投資人質(zhì)疑其年齡和經(jīng)驗限制要求其卸任。2001-2011 年，前 Sun 和 Novell 的首席執(zhí)行官埃里克·施密特擔任公司 CEO，因其具有豐富的管理經(jīng)驗，埃里克·施密特負責公司運營，兩位聯(lián)合創(chuàng)始人專注于技術(shù)。埃里克·施密特任職期間，谷歌實現(xiàn)搜索引擎公司向科技巨頭的轉(zhuǎn)型。2011 年-2019 年，拉里·佩奇重新成為谷歌 CEO，谷歌在在線廣告業(yè)務(wù)外，不斷探索云業(yè)務(wù)、生物科技、智能家居、資本投資、寬帶服務(wù)和自動駕駛等創(chuàng)新業(yè)務(wù)。2019 年桑達爾·皮猜任職 Alphabet 和谷歌 CEO，桑達爾·皮猜曾擔任谷歌 Android 操作系統(tǒng)、Chrome 瀏覽器等核心產(chǎn)品負責人，對谷歌主營業(yè)務(wù)運營具備經(jīng)驗。

組織架構(gòu)方面，谷歌組織建構(gòu)經(jīng)過三次調(diào)整。上市之初，公司組織架構(gòu)運行“創(chuàng)始人+CEO 三人共同決策& 扁平化”的組織結(jié)構(gòu)，其中兩位聯(lián)合創(chuàng)始人聚焦技術(shù)，具有豐富經(jīng)驗的桑達爾·施密特擔任 CEO 負責運營。此時組織架構(gòu)特點為：公司內(nèi)部減少層級關(guān)系，以項目組形式開展工作，但項目實行申請制且項目職責不明，導致公司管理混亂且復(fù)雜。

2011 年，谷歌聯(lián)合創(chuàng)始人拉里·佩奇(Larry Page)出任谷歌 CEO 后，簡化組織框架，將組織架構(gòu)調(diào)整為“CEO+六位高級副總裁”。此階段組織架構(gòu)特點為：YouTube、搜索、廣告、社交、Chrome 和移動業(yè)務(wù)等重要產(chǎn)品部門分別由一位高級副總裁負責，部門可獨立提出產(chǎn)品計劃，自主權(quán)提高。2015 年，因為谷歌除主營業(yè)務(wù)外，進一步探索了自動駕駛、生物科技等多領(lǐng)域產(chǎn)品，為解決組織架構(gòu)龐大和體系臃腫問題，以及充分劃分公司業(yè)務(wù)和部門職能，谷歌組建母公司 Alphabet，將核心業(yè)務(wù)歸于谷歌，非核心業(yè)務(wù)拆分谷歌的同級子公司，歸于母公司 Alphabet 下。子母公司 CEO 分別由桑達爾·皮猜和拉里·佩奇擔任。2019 年，谷歌進一步簡化組織架構(gòu)，Alphabet 和 Google 均由桑達爾·皮猜?lián)?CEO。

1.2、財務(wù)分析：收入結(jié)構(gòu)逐步優(yōu)化，利潤率保持穩(wěn)定

收入結(jié)構(gòu)上，廣告收入是公司主要營收來源但占比逐年下滑，谷歌云營收占比逐年提高，而其他收入保持穩(wěn)定。谷歌收入結(jié)構(gòu)包括廣告業(yè)務(wù)、谷歌云和其他收入等，F(xiàn)Y12- FY22，谷歌廣告收入從 95%降至 80%。谷歌云營收由 6%增至 9%，而其他收入穩(wěn)定保持約 10%。費用率方面，F(xiàn)Y21- FY22 受疫情影響、海外監(jiān)管政策壓制和招聘放緩，2021 年管理費用下降，但 2022 年呈現(xiàn)回升態(tài)勢。

2、LLM大語言模型：具備充分想象力的技術(shù)趨勢

2.1、研究框架：聚焦模型結(jié)構(gòu)、預(yù)訓練模型、下游調(diào)試、部署、推斷等環(huán)節(jié)

大模型領(lǐng)域的研究核心要素包括模型結(jié)構(gòu)、預(yù)訓練模型、下游調(diào)試、模型部署、模型推斷等。根據(jù)青源會，大模型研究領(lǐng)域存在一定問題，包括同質(zhì)化嚴重的情況，多數(shù)廠商采取類似的模型架構(gòu)，例如 GPT、Bert、T5 等。由于模型架構(gòu)同質(zhì)化，影響模型效果的核心因素更多是工程方面的技巧、細節(jié)?？傮w上，大模型領(lǐng)域的研究機會主要包括 1）模型結(jié)構(gòu)，例如非注意力交互機制、稀疏路由結(jié)構(gòu)等；2）預(yù)訓練模型，例如預(yù)訓練任務(wù)設(shè) 計、模型更新方法等；3）下游調(diào)試，如探索任務(wù)微調(diào)效率提升方法；4）模型部署，如統(tǒng)一的任務(wù)范式，通過單一模型支撐多種任務(wù)；5）模型推斷，如模型壓縮、剪枝、動態(tài)路由等。我們對比不同廠商大模型研發(fā)水平也主要參照上述框架。

2.1.2、綜述：Scaling Law、Prompt Engineering驅(qū)動LLMs加速發(fā)展

從技術(shù)路線上看，GPT、T5、BERT 都是基于 Transformer 架構(gòu)衍生而來的。Tranformer 相對 RNN 引入了注意力機制（Attention mechanism），實現(xiàn)對全局信息的利用，同時簡化計算復(fù)雜度，實現(xiàn)對下游任務(wù)的泛化應(yīng)用。由于更簡潔的模型結(jié)構(gòu)設(shè)計和參數(shù)假設(shè)，Transformer 在數(shù)據(jù)抓取能力方面有所取舍，從而導致為了實現(xiàn) 效果提升，需要進行更大規(guī)模的數(shù)據(jù)訓練，以及構(gòu)建更大規(guī)模的模型，間接導致了當前模型越來越大的趨勢。

根據(jù) OpenAI 研究，預(yù)訓練模型的擴大帶來資源投入的指數(shù)級增長，而效果呈現(xiàn)線性增長的趨勢，這意味著邊際投入帶來的效果提升，即邊際收益呈現(xiàn)遞減的趨勢，也就是給定算力等資源成本下存在參數(shù)規(guī)模的極限值，使得 ROI 最優(yōu)。另外，根據(jù) GPT-4 技術(shù)報告，Inverse Scaling Prize 提出，在一些任務(wù)上，隨著參數(shù)規(guī)模的擴張，大模型在任務(wù)上的表現(xiàn)反而出現(xiàn)下降的情況。

GPT 是基于Transformer架構(gòu)，將decoder（解碼器）取出，也就是 Decoder-only 模型；相較之下，BERT是將 Transformer 架構(gòu)的 Encoder（編碼器）取出，即 Encoder-only，后續(xù) T5 模型則是 Encoder-Decoder 模型。模型結(jié)構(gòu)的差異會導致其在下游任務(wù)表現(xiàn)的差異，例如過去學界認為 Encoder 模型對上下文理解能力更強，因為其可以結(jié)合上下文信息進行輔助判斷，而 Decoder-Only 模型僅能通過下文信息進行決策，存在一定信息損失。這一定程度上解釋了 BERT 類模型在小參數(shù)規(guī)模下在下游任務(wù)上表現(xiàn)好于 GPT 系列模型。

然而，近年 NLP 行業(yè)下游任務(wù)的統(tǒng)一化趨勢改變了 BERT 模型的相對優(yōu)勢，即學者發(fā)現(xiàn)可以通過改變提問方式將分類、匹配等下游任務(wù)統(tǒng)一為一類問題，從而最大化模型效果，后續(xù)發(fā)展出 Prompt engineering（提示工程）。下游任務(wù)的統(tǒng)一相當于幫助 Encoder/Decoder 模型規(guī)避其不擅長的任務(wù)領(lǐng)域。在此基礎(chǔ)上，GPT 能夠脫穎而出更多得益于工程方面的提升而非在技術(shù)思想上創(chuàng)新，需要指出的是，GPT 模型采用的多數(shù)技術(shù)都是此前的學術(shù)研究成果，就科研貢獻本身，GPT 模型的提升并不多。

從技術(shù)路線上看，包括 ERNIE 在內(nèi)的多數(shù)廠商選擇 BERT 路線（Encoder-only），少數(shù)選擇T5路線（Encoder-Decoder），較少選擇GPT路線（Decoder-only）。這種選擇可以從學術(shù)影響力看出，BERT 論文的被引用量遠大于 GPT 系列論文及 T5 系列論文。事后看，當前OpenAI旗下GPT系列模型的領(lǐng)先得益于早期技術(shù)選型的成功，這一成功是建立在以下基礎(chǔ)上——GPT的學界/業(yè)界影響力小于 BERT，導致多數(shù)廠商選擇跟蹤 BERT 的工作。

GPT 路線此前的影響力弱于 BERT 路線主要由于 1）Google 品牌背書；2）開源精神；3）產(chǎn)研結(jié)合難度。 OpenAI 旗下的 GPT 路線基于 Transformer 架構(gòu)，將解碼器單獨取出，論文發(fā)布時間早于 BERT 論文發(fā)布時間。但論文的業(yè)界影響力弱于 BERT，我們認為，這主要由于 Google 的品牌背書，Google 研究團隊在 AI 領(lǐng)域的研究積累導致業(yè)界對其研究關(guān)注度更高。另一方面，GPT 系列論文發(fā)布后，相關(guān)數(shù)據(jù)集、模型不完全開源，導致其他研究團隊很難跟進和復(fù)現(xiàn)其研究成果，這進一步削弱了業(yè)界/學界跟進研究的動力。最重要的是，OpenAI 團隊解決問題的思路與當時業(yè)界/學界有所差異，此前研究人員更傾向于設(shè)計精細的模型結(jié)構(gòu)和高效的方法，實現(xiàn)相同規(guī)模下效果更優(yōu)，而 GPT 引入 Few-Shot/Zero-Shot 下表現(xiàn)沒有明顯好于 Fine-tuning 下的其他模型，只是在數(shù)據(jù)量和參數(shù)量指數(shù)提升后表現(xiàn)快速提升。

這里存在 2 個問題：1）線性外推的思維定式。2）業(yè)界研究的思維習慣：追求效率，聚焦更具體的問題。首先是 1）線性外推的思維定式，多數(shù)研究團隊選擇優(yōu)先調(diào)整模型結(jié)構(gòu)和訓練方法等路線的隱含假設(shè)是，規(guī)模擴張不會對技術(shù)路線的效率產(chǎn)生明顯影響，或者即使產(chǎn)生影響，但相比規(guī)模擴張帶來的成本，其投入難度很難同比擴大。例如，OpenAI 的團隊在 2020 年 1 月發(fā)現(xiàn)模型參數(shù)規(guī)模與效果存在冪律關(guān)系，即模型參數(shù)呈指數(shù)增長時，性能會線性增加，但 GPT-3 規(guī)模大于 BERT large 幾個數(shù)量級，Zero-Shot/One-Shot 下效果也沒有明顯優(yōu) 勢。這意味著 Fine-tuned 的效率提升優(yōu)于參數(shù)規(guī)模擴大所帶來的影響。2022 年 1 月，Google 和 DeepMind 研究團隊發(fā)現(xiàn) Fine-tuning 也存在冪律關(guān)系2，因此行業(yè)主要聚焦既定規(guī)模模型的效率提升。

Google研究推動規(guī)模競賽加速，規(guī)模界限分別是62B和175B。2022年1月，Google團隊開創(chuàng)了思維鏈（CoT）領(lǐng)域研究《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》，通過 prompt 中引導大模型進行邏輯推理的方式實現(xiàn)性能優(yōu)化，并且這種優(yōu)化幅度大于此前規(guī)模提升帶來的線性提升。而下一個自然的問題則是參數(shù)規(guī)模的界限，Google 團隊在 2022 年 12 月3比較了不同參數(shù)規(guī)模下直接 prompt 以及 CoT 下的表現(xiàn)，得出以下結(jié)論：對于所有小于 62B 的模型，直接用提示詞都好于思維鏈。結(jié)合 GPT-3 模型規(guī)模，至少需要大于 175B4，思維鏈的效果才能大于 Fine-tuned 小模型的效果。

除規(guī)模外，訓練語料也可能對 CoT 能力產(chǎn)生較大影響。根據(jù) Mirac Suzgun（2022）等人的研究5，基于代碼和文本數(shù)據(jù)訓練的 Codex 模型在基于提示遵循任務(wù)指令、探索算法規(guī)律方面表現(xiàn)優(yōu)于 InstructGPT 和 PaLM。更進一步，學界/業(yè)界希望分析出具體哪一因素導致 CoT 能力產(chǎn)生（主要區(qū)分 fine-tuned/代碼訓練），因而進行對比研究。Jason Wei在第一版論文（https://arxiv.org/pdf/2201.11903v1.pdf）提到，GPT-3 text-davinci-001在GSM8K 測試集上表現(xiàn)的推理能力較弱，而 text-davinci-001 是完全基于文本訓練的模型。在論文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在 GSM8K 測試集上表現(xiàn)明顯提升。

而 Percy Liang 等研究6總結(jié)基于代碼訓練的模型在推理能力方面強于非代碼訓練的模型，其測試集中平均推理能力 Codex cushman v1 位列（9/30）， Codex davinci v2（1/30）。因此推理能力來自代碼訓練的可能性更大，代碼訓練對提升推理能力有明顯幫助。更進一步的佐證是 Zero-Shot Prompting。根據(jù) Takeshi Kojima 等人的研究7，通過加入“Let’s think step by step” 提示，模型的表現(xiàn)有顯著提升。且根據(jù)《Scaling Instruction-Finetuned Language Models》，F(xiàn)inetune 計算量僅占預(yù)訓練的很小比例，因此更大可能邏輯推理能力是預(yù)訓練模型本身具備的，CoT Prompt 激活了這類能力。

對齊調(diào)優(yōu)方面，根據(jù)《A Survey of Large Language Models》，RLHF 等技術(shù)主要是幫助實現(xiàn)對齊調(diào)優(yōu) （Alignment Tuning），目前的主流目標是 Helpful、Honest、Harmless。OpenAI 團隊8提出通過遞歸法能夠?qū)?現(xiàn)對長難文本的歸納總結(jié)，并指出這類方法可以進一步泛化至其他類型的任務(wù)上，實現(xiàn)與人類的對齊。此外，論文指出 RL 比 SL 更有效地幫助模型對比。

具體細節(jié)方面，John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》9提到，SFT 與其等價的 BC 存在固有缺陷，即訓練越充分越容易出現(xiàn)欺騙（即模型并不明確自己知識的邊界），RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋，而且對偏離樣本的懲罰較重，RL 多樣性更好，因而在面對不知道的問題時，SL 訓練充分的模型傾向于回答（胡編亂造），而非反饋不知道10。需要指出的是，OpenAI 提出 alignment tax，即模型犧牲部分性能實現(xiàn) 與人的對齊。

2）另一方面，業(yè)界追求效率的思路，關(guān)注投入產(chǎn)出比。這種思路的本質(zhì)是投入資源稀缺，要在有限的資源投入下最大化產(chǎn)出。而研究思路背后是互聯(lián)網(wǎng)公司 AI 實驗室與業(yè)務(wù)部門的博弈。縱觀國內(nèi)外互聯(lián)網(wǎng)公司的 AI 研究部門，其大致經(jīng)歷了職能制、矩陣制、事業(yè)部制等架構(gòu)，背后反映了大廠對 AI 科研部門的不同期許和考核體制，這種激勵體制也影響了 AI 科研部門的中長期發(fā)展。

2013 年成立的 FAIR 采取職能制，其定義 Facebook 的 AI 部門為 FAIR + Applied Machine Learning（應(yīng)用機器學習團隊）+ Product Groups（產(chǎn)品部署團隊）11。但 2018 年組織架構(gòu)調(diào)整后，F(xiàn)AIR 轉(zhuǎn)向矩陣制，即 AI 實驗室同時對業(yè)務(wù)部門和技術(shù)領(lǐng)導（一般是 CTO 體系）負責。2021 年底 FAIR 進一步調(diào)整，將旗下 AI 研究團隊并入業(yè)務(wù)部門，轉(zhuǎn)向事業(yè) 部制。從職能制向矩陣制、事業(yè)部制，考核體制上越來越接近業(yè)務(wù)，越來越遠離學術(shù)影響力/前瞻研究，這種轉(zhuǎn) 變大多是由于互聯(lián)網(wǎng)公司面臨營收、利潤壓力，業(yè)績壓力倒逼研究團隊轉(zhuǎn)向業(yè)務(wù)團隊的“外包”，壓力下部分研究人員離開業(yè)界，重回學術(shù)界，這是過去我們看到的業(yè)界 AI 研究的循環(huán)。

大廠在大模型領(lǐng)域研究的落后有一定時代特征：對谷歌來說是價值觀變革導致凝聚力減弱，同時創(chuàng)新工作不足；對 Meta 而言是企業(yè)聲譽受損導致凝聚力減弱，此外則是戰(zhàn)略重心調(diào)整導致人員流動。以谷歌為例，2018-21 年谷歌經(jīng)歷了介入軍事、語音監(jiān)聽、倫理委員會等風波，價值觀或政治正確在內(nèi)外部引發(fā)的爭議導致研究人員產(chǎn)生分歧，進而離開公司。2021 年至今一些谷歌高級研究人員離職創(chuàng)業(yè)、加入競爭對手等?？傮w上來看谷歌研究人員的離開主要是公司規(guī)模擴張帶來價值觀稀釋，內(nèi)部分歧管控失敗導致的，另一方面大企業(yè)機制下對“創(chuàng)新”的激勵趨弱，部分員工離職創(chuàng)業(yè)或加入中小型公司，尋求更自由、追求創(chuàng)新的工作。

對 Meta 而言，2018年因非法向劍橋分析泄露超 5000 萬用戶信息從而影響美國選舉，Meta 的企業(yè)形象大幅惡化，影響了員工對于企業(yè)的信心，導致當年大批高管及核心研究人員離職12。另外2021年 Meta員工的離職潮主要受戰(zhàn)略變化及組織架構(gòu)調(diào)整影響，由于公司戰(zhàn)略轉(zhuǎn)向 AR/VR，一些員工出于職業(yè)發(fā)展的考慮13加入其他公司繼續(xù)本領(lǐng)域的研究和工作。

更大的趨勢在于 1）開源帶來的技術(shù)擴散，頭部科研院所及互聯(lián)網(wǎng)科技公司相比中小公司/科研院所的相對優(yōu)勢在縮減，這主要由于過去 AI 領(lǐng)域的創(chuàng)新主要來自方法論層面，而非工程層面，而方法論的創(chuàng)新更隨機；2）對大型科技企業(yè)的監(jiān)管約束趨嚴，大多數(shù)美國互聯(lián)網(wǎng)科技企業(yè)都是在 1990 年后成立，并受益于 20 世紀末、21 世紀初的反壟斷監(jiān)管，在快速發(fā)展階段經(jīng)歷了經(jīng)濟高速增長、監(jiān)管邊際寬松的環(huán)境，但 2017 年以來歐盟、韓國等對谷歌、亞馬遜、Meta、蘋果公司、微軟等加強監(jiān)管，導致大型科技公司面臨較高的監(jiān)管壓力。

此外，輿論環(huán)境對中小型創(chuàng)業(yè)公司容忍度更高也是影響大公司創(chuàng)新成本的要素。包括 Meta、Google、微軟在內(nèi)的科技公司此前推出類似產(chǎn)品時都出現(xiàn)過由于語言模型生成內(nèi)容存在虛假、政治不正確的情況，并引發(fā)輿論熱議，從而迫使產(chǎn)品下線。例如 2015 年 Google 將黑人女性的圖片識別為 Gorilla（大猩猩）14；2016 年微軟聊天機器人因種族歧視言論迅速被下線15；2021 年 Facebook（Meta）將黑人男性標注為 Primate（靈長類動物） 16。對于大型科技公司的輿論和監(jiān)管壓力天然高于創(chuàng)業(yè)公司17，這也導致其面臨較高的合規(guī)成本，喪失部分靈活性。

總結(jié)來看，BERT 模型由于存在雙向路徑，實現(xiàn)相似效果需要的參數(shù)量更大，對計算資源的要求更高，在千億規(guī)模下表現(xiàn)相對弱于 GPT，且下游任務(wù)統(tǒng)一化利于 GPT 模型。而據(jù) OpenAI，其認為 GPT 模型規(guī)模已經(jīng)接近極限，往后的效果提升需要指數(shù)級參數(shù)/數(shù)據(jù)規(guī)模提升，邊際效果提升較小，ROI 較低。在類似 Transformer 的新架構(gòu)出現(xiàn)前，GPT 較 BERT 是更好的技術(shù)路徑，不同 GPT 模型的差異主要取決于預(yù)訓練等環(huán)節(jié)的差異。

2.1.3、預(yù)訓練：差異來自數(shù)據(jù)集、知識圖譜、參數(shù)規(guī)模、訓練策略

預(yù)訓練環(huán)節(jié)的主要差異來自 1）語料，包括語料規(guī)模、語料配比；2）知識圖譜的引入；3）訓練策略的優(yōu) 化；4）參數(shù)規(guī)模。 1）語料 ERNIE 團隊在 ERNIE 1.0 時注意到引入不同種類的語料能夠提升模型預(yù)測的準確率。OpenAI 團隊在 GPT-3 論文中也引入大規(guī)模且多種類的訓練數(shù)據(jù)?？傮w而言，語料多樣性越充分，高質(zhì)量語料占比越高，對模型的預(yù) 測準確度有幫助，但學界在這方面的定量研究仍較為稀缺，語料對于模型預(yù)測準確率的量化影響尚不明確。

2）知識圖譜的引入 ERNIE 1.0 模型相比 BERT 最大的變化就是引入知識圖譜，從而提升預(yù)測準確度。具體來講，2019 年 4 月 ERNIE 團隊提出基于 BERT 的改進掩碼策略，1）在單詞級別隨機生成掩碼并引導模型預(yù)測（BERT 框架， basic-level masking），2）詞組級別（phrase-level masking）、實體級別（entity-level masking）隨機生成掩碼并引導模型預(yù)測。通過引導模型預(yù)測詞組、實體，模型訓練隱性地18引入知識圖譜概念。例如：哈利波特是 J.K.羅琳寫的小說。單獨預(yù)測哈[MASK]波特或者 J.K.[MASK]琳情況下，模型無法學到哈利波特和 J.K.羅琳的關(guān)系。如果把哈利波特直接 MASK 掉的話，那模型可以根據(jù)作者，就預(yù)測到小說這個實體，實現(xiàn)知識的學習。

3）訓練策略的優(yōu)化，ERNIE 2.0 引入持續(xù)學習框架，解決知識遺忘及訓練效率的問題。ERNIE 1.0 相比基礎(chǔ)版 BERT，改變了掩碼策略（引入知識圖譜）和數(shù)據(jù)結(jié)構(gòu)（加入多輪對話語料），提升了模型預(yù)測準確率。此后學界討論通過多任務(wù)學習提升模型的預(yù)測準確率，例如微軟研究團隊在《Multi-Task Deep Neural Networks for Natural Language Understanding》中論證了通過在預(yù)訓練模型中加入有監(jiān)督的下游任務(wù)，能夠優(yōu)化模型在 NLU（自然語言理解）方面的效果。因此，后續(xù)的一個思路就是通過堆疊訓練任務(wù)提示模型預(yù)測準確率，但相應(yīng)存在一個問題，即模型出現(xiàn)學習新知識后容易遺忘舊知識，ERNIE 2.0 主要的變化就是針對這一問題提出持續(xù)學習框架，實現(xiàn)知識庫擴充，優(yōu)化模型效果。

常規(guī)的模型訓練即序列訓練模式，即后一個模型訓練是建立在前一個模型訓練結(jié)束后，從模型參數(shù)的角度，后一個模型訓練初始參數(shù)為前一個模型，但訓練結(jié)束后參數(shù)有所調(diào)整，且由于訓練是基于后一個任務(wù)，其對此前任務(wù)的預(yù)測準確率可能低于此前的訓練結(jié)果。學界此前的解決思路是將多個任務(wù)同時訓練，確保模型對不同時序加入的任務(wù)等權(quán)學習，但每新增一個任務(wù)，模型都需要重新訓練此前所有的任務(wù)，這對應(yīng)較高的訓練成本。 ERNIE 2.0 提出序列多任務(wù)學習（Sequential Multi-task Learning）模式，通過給每個任務(wù)分配 N 個訓練迭代，自動將每個任務(wù)的 N 個迭代分配到不同訓練階段，兼顧學習效果和效率，較 BERT 框架繼續(xù)優(yōu)化。

OpenAI 在訓練策略方面并未披露細節(jié)，但結(jié)果上看 OpenAI 訓練效果好于 Meta。GPT-4、InstructGPT 論文中其透露微軟為 GPT 專門構(gòu)建了計算集群和訓練環(huán)境，確保訓練的穩(wěn)定性。GPT-4 的訓練環(huán)境經(jīng)過多次迭代后表現(xiàn)非常穩(wěn)定。而根據(jù) Susan Zhang 教授19，Meta 在 OPT-175B 模型的訓練中出現(xiàn)了 50 多次的斷點（需要回到 Checkpoint 重啟訓練），下圖中不同顏色代表著模型連續(xù)訓練的時間。GPT-4 能夠基于“小模型”訓練預(yù)測大模型的損失函數(shù)，從而降低訓練負載，同時并發(fā)訓練多個模型，提升訓練效率。目前沒有在其他競對中看到類似的效果。

2.1.4、下游調(diào)試、部署、推斷：RHLF仍處于技術(shù)發(fā)展的早期，潛在優(yōu)化空間大

GPT 系列模型的拐點在 InstructGPT，其引入了 RHLF，對應(yīng) SFT、RM、PPO 三階段，最終效果是 PPO 模型預(yù)測準確度好于 SFT-175 模型。而 Anthropic 團隊研究《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》指出，InstructGPT 基于較小的 RM 訓練反饋并非最優(yōu)的，大規(guī)模的 RM 模型對模型性能的提升可能更好。

Anthropic 團隊上述研究的副產(chǎn)物即在 RLHF 中模型性能提升與 RM 的關(guān)系，進而在后續(xù)研究中可以通過這一關(guān)系估算給定性能提升目標需要多大規(guī)模的 RM，并且不同參數(shù)規(guī)模的模型性能提升曲線基本上平行的，也就是基于 RLHF 不同規(guī)模的模型的性能極限可能不同，并且性能提升的斜率可能是近似相同的。部署和推斷在 OpenAI 論文中大多數(shù)被忽略了，僅提到微軟在這方面的支持。ERNIE 在論文中提到在線蒸餾框架，實現(xiàn)算力節(jié)約。

總結(jié)來看，OpenAI 在 GPT-4 訓練結(jié)束后花費 6 個月左右時間進行調(diào)試和其他調(diào)整，其主要精力大體上是放在調(diào)試上，而部署、推斷等更多依賴微軟和其他合作方的支持。微軟/英偉達在合作聲明中提到，雙方基于數(shù) 萬塊 A100、H100 GPU 芯片，NVIDIA Quantum-2 400Gb/s InfiniBand 架構(gòu)，以及 NVIDIA 企業(yè)級配套軟件等構(gòu) 建了基于公有云的 AI 超級計算機。此外，基于 ONNX runtime 的推理框架，模型的在線推理速度能夠進一步優(yōu) 化。

2.1.5、量化效果：基于公開測試集進行量化評估

學界/業(yè)界對 LLM 的評估主要是基于公開測試集的評分，例如 GPT-4 的評分情況如下，GPT-4 在絕大多數(shù) 語言評測中都大幅超越了此前的 LLM SOTA（最高分），在視覺評測中部分超越此前的 SOTA，但整體表現(xiàn)并不如 GPT-4 的一騎絕塵。主要難點可能在于視覺信息、文本信息的聯(lián)合訓練、理解。

2.2、谷歌的競爭分析：全棧技術(shù)積累深厚，總體處于第一梯隊

2.2.1、預(yù)訓練環(huán)節(jié)：谷歌在訓練基礎(chǔ)設(shè)施/訓練策略方面布局領(lǐng)先

谷歌在訓練集方面不具備明顯優(yōu)勢。在訓練數(shù)據(jù)集方面，現(xiàn)有的大模型主要采用書籍、文章、網(wǎng)頁等文本數(shù)據(jù)，這些數(shù)據(jù)能夠幫助大模型積累語法、文本知識、文本理解、上下文連貫邏輯等能力，而在前文“綜述” 部分我們提到代碼對語言模型的邏輯推理能力具備幫助，因此訓練數(shù)據(jù)集的多樣性較為重要，確保大模型積累多樣化的能力以便后續(xù)激活，這里的問題主要是，例如邏輯推理的培養(yǎng)需要一定比例的高質(zhì)量代碼數(shù)據(jù)，1）如何定義高質(zhì)量的數(shù)據(jù)，怎么對原始數(shù)據(jù)進行清理、去重20、標注等？2）多大比例的數(shù)據(jù)能夠積累能力？就我們的知識范圍，目前學術(shù)界/業(yè)界尚未有較為公開且權(quán)威的研究能夠回答上述問題，但總體而言，數(shù)據(jù)質(zhì)量上論文 /書籍/百科≥代碼/文章≥對話≥網(wǎng)頁。從這一角度看，Google 在數(shù)據(jù)源方面不存在明顯的優(yōu)勢。

谷歌在 AI 架構(gòu)、芯片方面處于行業(yè)領(lǐng)先地位。Google 在《Pathways: Asynchronous Distributed Dataflow for ML》提出了 Pahtways 作為新一代 AI 架構(gòu)，其特點是多任務(wù)，多通道，稀疏激活。在《PaLM: Scaling Language Modeling with Pathways》中，Google 提到 Pathway 下 MFU（Model Flops Utilization）達到 46.2%，高于 GPT-2/3 在 A100/V100 集群上的利用率 35.7%/21.3%，但低于 GPT-3 基于英偉達 Megatron-A100 集群實現(xiàn)的利用率 52%。TPU 方面， TPU 在 MLPerf 部分場景的性能測試中表現(xiàn)優(yōu)于 A100，其中 TPU v4 在 4096 塊芯片，應(yīng)用 BERT 場景下性能是 A100 的 1.15 倍左右；ResNet 場景下 TPU v4 則是 A100 性能的 1.67 倍。

大模型的訓練穩(wěn)定性是過去研究涉及較少的。由于小模型訓練時長較短，涉及的軟硬件協(xié)同面較窄，擴展至大模型下集群出現(xiàn)異?；蝈e誤的概率大幅提升，相應(yīng)帶來模型訓練的不穩(wěn)定性（Training instability），以及資源的額外耗費（一般需要回到 checkpoint 重新訓練）。在訓練策略上，Google 團隊在 PaLM 論文中提到模型訓練過程中多次出現(xiàn)損失函數(shù)的突變（we observed spikes in the loss roughly 20 times during training21），而 Susan Zhang 在 Stanford 分享 OPT 模型訓練過程中展示了模型訓練中也出現(xiàn)了多次波動。

谷歌在模型訓練方面具有較好積累。Diederik P. Kingma 和 Jimmy Lei Ba 2014 年發(fā)表《Adam: A method for stochastic optimization》，Adam 是一種可以替代傳統(tǒng)隨機梯度下降過程的一階優(yōu)化算法，它能基于訓練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。Diederik P. Kingma 于 2015 年與其他合伙人共同創(chuàng)立 OpenAI，并于 2018 年加入 Google Brain。而 Google 團隊于 2023 年 2 月提出了 Lion 優(yōu)化器22，此前流行的 AdamW 等自適應(yīng)優(yōu)化器需要同時保存一階和二階矩相比，Lion 只需要動量，這意味著內(nèi)存占用降低，且在訓練大型模型和大 Batch size 時效果顯著。

此外，Google 研究團隊在 2021 年《Sharpness-aware minimization for efficiently improving generalization》提出 Sharpness-aware minimization (SAM)方法,除了提升模型的泛化表現(xiàn)，SAM 可以提高模型對標簽噪聲的穩(wěn)健性（robustness）。后續(xù) NUS23和字節(jié)跳動24的研究團隊進一步優(yōu)化了 SAM 方法。模型初始化策略方面，MIT 和 Google252019 年提出 Fixup 策略，避免梯度爆炸或消失，并可以應(yīng)用于超過 1 萬層的神經(jīng)網(wǎng)絡(luò)。后續(xù) UCSD26和 Google27進一步在此基礎(chǔ)上提出 Rezero 和 SkipInit，具體到每一層執(zhí)行操作，實現(xiàn)進一步優(yōu)化。

2.2.2、模型調(diào)試：谷歌在Fine-tuning，Prompt engineering方面領(lǐng)先，在Alignment Tuning等領(lǐng)域與OpenAI存在差距

Google 團隊在模型調(diào)試和 Prompt engineering 方面積累領(lǐng)先行業(yè)。在前文綜述部分，我們提到谷歌團隊開創(chuàng)了 CoT 研究，其論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》引入 CoT Prompt，并通過對比實驗探測出模型能力涌現(xiàn)的界限大約是 62B 和 175B。Google 團隊在 2022 年 12 月比較了不同參數(shù) 規(guī)模下直接 prompt 以及 CoT 下的表現(xiàn)，得出以下結(jié)論：對于所有小于 62B 的模型，直接用提示詞都好于思維鏈。結(jié)合 GPT-3 模型規(guī)模，至少需要大于 175B，思維鏈的效果才能大于 Fine-tuned 小模型的效果。東京大學和 Google 團隊《Large Language Models are Zero-Shot Reasoners》更進一步提出 Zero-Shot Prompting，即加入“Let’sthink step by step”可以顯著的提升模型性能。

對齊調(diào)優(yōu)方面，OpenAI 及 Anthropic 相對領(lǐng)先。OpenAI 團隊28提出通過遞歸法能夠?qū)崿F(xiàn)對長難文本的歸納總結(jié)，并指出這類方法可以進一步泛化至其他類型的任務(wù)上，實現(xiàn)與人類的對齊。此外，論文指出 RL 比 SL 更有效地幫助模型對比。具體細節(jié)方面，John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》29提到，SFT 與其等價的 BC 存在固有缺陷，即訓練越充分越容易出現(xiàn)欺騙（即模型并不明確自己知識的邊界），RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋，而且對偏離樣本的懲罰較重，RL 多樣性更好，因而在面對不知道的問題時，SL 訓練充分的模型傾向于回答（胡編亂造），而非反饋不知道30。需要指出的是，OpenAI 提出 alignment tax，即模型犧牲部分性能實現(xiàn)與人的對齊。

總結(jié)來看，谷歌在大模型領(lǐng)域的布局是全方位的，涵蓋上游芯片、分布式計算集群、深度學習框架，以及模型訓練、調(diào)試優(yōu)化策略，并且在多數(shù)環(huán)節(jié)保持領(lǐng)先地位，OpenAI 的成功則是建立在與微軟、英偉達等公司相互合作的基礎(chǔ)上，并且是 OpenAI 與微軟是通過股權(quán)投資綁定利益關(guān)系，這意味著其他競爭者模仿的難度較大，而就互聯(lián)網(wǎng)平臺而言，Google 在 AI 領(lǐng)域的積累深厚，整體并不落后于 OpenAI 的情況。

（本文僅供參考，不代表我們的任何投資建議。如需使用相關(guān)信息，請參閱報告原文。）

關(guān)鍵詞：

上一篇：2023浙江大學工程師學院招聘1人公告_前沿資訊
下一篇：最后一頁

相關(guān)新聞

丰满人妻熟妇乱又伦精品,最新国产精品精品视频视频,天堂а√中文最新版在线,成年网站未满十八禁

環(huán)球即時：2023年谷歌專題報告全面推進AI+云計算轉(zhuǎn)型

1、谷歌：全球搜索與移動生態(tài)公司巨頭，轉(zhuǎn)型AI+云計算

2、LLM大語言模型：具備充分想象力的技術(shù)趨勢

最近更新

特別關(guān)注

省委召開常委會議

2017年全球十大航天新聞和中國十大航天新聞評選揭曉。

五星級酒店馬桶刷洗茶杯，酒店以后還能住嗎？

這些政策將影響你明年錢袋子

生態(tài)文明建設(shè)年度評價結(jié)果公布：吉林排名靠前

長春市公安局寬城區(qū)分局“一號追逃目標”嫌疑人喜歡二人轉(zhuǎn)“露出馬腳”

“第一動力”正加力

中紀委機關(guān)談反腐

撐起“半壁江山” 釋放更強動力

300城市土地市場量跌價漲成交均價上漲

焦點資訊

環(huán)球即時：2023年谷歌專題報告 全面推進AI+云計算轉(zhuǎn)型

1、谷歌：全球搜索與移動生態(tài)公司巨頭，轉(zhuǎn)型AI+云計算

2、LLM大語言模型：具備充分想象力的技術(shù)趨勢

最近更新

特別關(guān)注

焦點資訊

環(huán)球即時：2023年谷歌專題報告全面推進AI+云計算轉(zhuǎn)型

1、谷歌：全球搜索與移動生態(tài)公司巨頭，轉(zhuǎn)型AI+云計算

2、LLM大語言模型：具備充分想象力的技術(shù)趨勢