都說AI的盡頭是能源,微軟CEO納德拉在最近的采訪中側(cè)面印證了這個觀點。“因為缺電,微軟很多GPU都躺在庫房里不工作。”納德拉如是說道。
谷歌最近搞出了TPU送上太空,用太陽來給機器發(fā)電的奇招,仿佛就是納德拉這句話的“回聲”。
但奇怪的是,納德拉這句話看起來利好能源行業(yè),但無論是大A還是納斯達(dá)克,其能源板塊都沒有因為納德拉的話而漲幅。從11月初至發(fā)稿,大A漲幅0%,納斯達(dá)克能源板最大一家公司的漲幅是0.77%。
一方面硅谷巨頭連呼缺電,甚至搞出了“上天”這樣的解決方案,但另一方面,如此明確的信號,市場卻置若罔聞,遲遲沒有回應(yīng)。
這就不禁讓人產(chǎn)生了一個疑問:AI產(chǎn)業(yè)真的缺電嗎?
OpenAI CEO山姆.奧特曼的觀點是:是,也不是。
說是,是因為現(xiàn)在確實存在缺電的現(xiàn)象;說不是,是因為問題的本質(zhì)其實是AI過剩,雖然他不清楚具體會是多少年,但是最多不超過6年,AI就會超出人們的需求,也會導(dǎo)致AI對電的需求降低。
也就是說,AI產(chǎn)業(yè)短期斷電,但長期來看,隨著AI能耗的降低,缺電問題就會得到解決。
01
谷歌公司在2025年11月初公布了一個名為“捕日者計劃”(Project Suncatcher)的項目,該計劃的運作方式是把TPU芯片送入太空,用太陽能為其發(fā)電。

太陽每秒鐘向外輻射的能量,大約是3.86乘以10的26次方瓦,這一數(shù)值是當(dāng)前人類社會全球總發(fā)電量的一百萬億倍以上。而部署在晨昏太陽同步軌道上的衛(wèi)星,其太陽能板幾乎可以不間斷地接收到光照,一年下來所接收的能量是在地球中緯度地區(qū)同樣面積太陽能板接收能量的8倍。
捕日者計劃與衛(wèi)星公司Planet Labs合作,在距離地面650公里的低地球軌道上,部署一個由81顆衛(wèi)星構(gòu)成的AI計算集群。按照設(shè)計,這些衛(wèi)星將在半徑1公里的空域內(nèi)協(xié)同工作,彼此之間的距離維持在100到200米。該計劃預(yù)計在2027年初發(fā)射首批兩顆試驗衛(wèi)星,以驗證方案的可行性。
盡管谷歌曾經(jīng)表示,其在一年內(nèi)已將旗下Gemini模型的單次查詢能耗降低了33倍,但很顯然,谷歌仍然需要電力。
在太空中利用太陽能發(fā)電并非新的概念,但長期以來受困于一個核心難題,那就是如何高效、安全地將產(chǎn)生的電力傳輸回地面。無論是采用微波束還是激光束,能量在傳輸過程中的損耗和對地面環(huán)境的潛在影響都使其難以大規(guī)模實施。
“捕日者計劃”的思路則選擇繞開了這個環(huán)節(jié)。它并不打算將數(shù)據(jù)傳回地球,而是在太空中直接利用這些電力進行計算,只將計算完成后的結(jié)果傳回地面。
地面上的TPU超級計算機集群,使用的是定制化的低延遲光學(xué)芯片互連技術(shù),每個芯片的吞t量能達(dá)到每秒數(shù)百吉比特(Gbps)。
而目前商用的衛(wèi)星間光通信鏈路,數(shù)據(jù)速率通常只在1到100Gbps的范圍內(nèi),這遠(yuǎn)不能滿足AI計算集群內(nèi)部大規(guī)模數(shù)據(jù)交換的需求。谷歌提出的解決方案是采用密集波分復(fù)用技術(shù),理論上可以讓每條衛(wèi)星間鏈路的總帶寬達(dá)到每秒約10太比特(Tbps)。
谷歌對外解釋了很多關(guān)于“捕日者計劃”的難題以及解決辦法,比如如何控制集群編隊、如何抵抗輻射等等。
但谷歌并沒有解釋該如何散熱。
這是一個非常棘手的物理問題,真空中是沒有空氣對流的,熱量只能通過輻射方式散發(fā)出去。谷歌曾經(jīng)在一篇論文中提到,需要使用先進的熱界面材料和熱傳輸機制,并且最好是被動式的以保證可靠性,從而將芯片產(chǎn)生的熱量高效傳導(dǎo)至專用的散熱器表面進行輻射。關(guān)于這部分的技術(shù)細(xì)節(jié),論文中并未提供太多信息。
事實上,將數(shù)據(jù)中心送入太空的想法并不只有谷歌一家。就在谷歌公布計劃的前幾天,一家名為Starcloud的初創(chuàng)公司已經(jīng)發(fā)射了搭載英偉達(dá)H100芯片的衛(wèi)星,并宣稱要建設(shè)一個擁有5吉瓦功率的天基數(shù)據(jù)中心。埃隆·馬斯克也曾表示SpaceX“將會做”太空數(shù)據(jù)中心。
2025年5月,中國的之江實驗室與國星宇航合作的“三體計算星座”首批12顆計算衛(wèi)星已成功發(fā)射并組網(wǎng)。
所以在送AI去太空這個問題上,雖然聽起來很新穎,但是大家的目的都是一樣的,想用電,那就去那里上面拿,地面上電不夠你們用的。
02
造成AI對電饑渴這一局面的,主要歸罪于英偉達(dá)。這家公司的GPU產(chǎn)品,從Ampere架構(gòu)到Blackwell架構(gòu),僅僅過了4年,功耗就增長了數(shù)倍。
一個使用Hopper架構(gòu)GPU的服務(wù)器機架,額定功率約為10千瓦;而到了Blackwell架構(gòu),由于GPU數(shù)量的增加,機架功率接近120千瓦。
而且,由于現(xiàn)在GPU的單位都是萬。數(shù)萬塊GPU相互交流的時候還要借助英偉達(dá)的互聯(lián)技術(shù)NvLink技術(shù)以提升交流效率。而每一條NvLink的鏈路功耗就有4到6瓦,兩塊GPU之間有18條鏈路,這些NvLink又要集中到NvSwitch上以實現(xiàn)非阻塞連接,而一個NvSwitch的功耗是50到70瓦。
若一個GPU集群擁有1萬塊H100,那就需要157個NvSwitch和9萬條NvLink鏈路。那其公號大概就是要730千瓦到1100千瓦之間。

還沒完,GPU在散熱方面也是耗電大戶。最常見的8卡H100服務(wù)器,如果采用的是風(fēng)冷系統(tǒng),功耗就要達(dá)到150瓦,所以一個萬卡集群,光是散熱就需要187千瓦。
當(dāng)前,大型科技公司之間的競爭,其衡量標(biāo)準(zhǔn)已經(jīng)從傳統(tǒng)的計算能力單位,轉(zhuǎn)向了能源消耗單位“吉瓦”(GW)。像OpenAI和Meta這樣的公司,都計劃在未來幾年內(nèi)增加超過10吉瓦的計算能力。
作為一個參照,AI行業(yè)消耗1吉瓦的電力,足以供應(yīng)大約100萬個美國家庭的日常用電。國際能源署在2025年的一份報告中估計,到2030年,人工智能領(lǐng)域的能源消耗將翻一番,其增長速度幾乎是電網(wǎng)自身增長速度的四倍。
高盛預(yù)測,到2027年全球數(shù)據(jù)中心電力需求預(yù)計將增長50%,達(dá)到92吉瓦。而美國數(shù)據(jù)中心電力需求在總電力需求中的占比,將從2023年的4%,增長到2030年的10%。此外,高盛還指出一些大型數(shù)據(jù)中心園區(qū)的電力接入請求,單個項目確實能達(dá)到300兆瓦到數(shù)吉瓦的級別。
但是,有意思的來了。
NextEra Energy是北美最大的可再生能源公司,而跟蹤美國公用事業(yè)板塊表現(xiàn)的代表性行業(yè)ETF名為XLU。過去52周,NextEra的漲幅為11.62%,ETF XLU的漲幅為14.82%,但同期標(biāo)普500指數(shù)的漲幅卻達(dá)到了19.89%。
如果人工智能行業(yè)真的面臨嚴(yán)峻的電力短缺,那么作為電力供應(yīng)方的能源公司和公用事業(yè)板塊,理應(yīng)獲得超額的市場回報,而不是連大盤都跑不過。
對此,納德拉講出了一個關(guān)鍵線索。他說“電網(wǎng)接入審批需要5年”,而且“輸電線路建設(shè)則需要10到17年”。
而與此同時,GPU的采購周期是以季度來計量的,數(shù)據(jù)中心的建設(shè)周期通常為1到2年,人工智能需求的爆發(fā)速度則是以季度為單位在變化。
這些時間尺度之間存在著數(shù)量級的差異,由此產(chǎn)生的時間錯配,正是納德拉說AI缺電的的本質(zhì)所在。
而且對于納德來來說還有一個當(dāng)下沒辦法解決的煩惱。2020年微軟曾宣布,在保護生態(tài)系統(tǒng)的同時“實現(xiàn)碳負(fù)排放、用水凈增并實現(xiàn)零廢棄”。
然而現(xiàn)實情況是,目前微軟數(shù)據(jù)中心所使用的電力中,近60%仍然來自包括天然氣在內(nèi)的化石燃料。這所產(chǎn)生的年度二氧化碳排放量,大約相當(dāng)于54000戶普通美國家庭的排放總和。
另一方面,國際能源署在2025年10月發(fā)布的《可再生能源報告》中指出,全球發(fā)電能力的增長速度,可能會超過包括人工智能在內(nèi)的新增電力需求。
報告提出,在2025至2030年這五年期間,全球可再生能源裝機容量將增加4600吉瓦,這一增量的規(guī)模,大致相當(dāng)于中國、歐盟和日本三個經(jīng)濟體當(dāng)前裝機容量的總和。更進一步,報告預(yù)計這五年的新增裝機容量,將是之前五年增量的兩倍。
這里要特別要提到的就是核能。核能是唯一能夠提供穩(wěn)定、大規(guī)模、低碳電力的選擇。傳統(tǒng)大型核電站的問題是建設(shè)周期長、成本高、風(fēng)險大。但小型模塊化反應(yīng)堆(SMR)正在改變這個局面。SMR可以像制造飛機或汽車一樣在工廠里批量生產(chǎn)標(biāo)準(zhǔn)化模塊,然后通過鐵路或公路運輸?shù)浆F(xiàn)場進行組裝,類似于"樂高積木"式的建造方式。
SMR的單機容量只有50-300兆瓦,比傳統(tǒng)核電站的1000-1600兆瓦小得多,但這恰恰是它的優(yōu)勢。更小的規(guī)模意味著更短的建設(shè)周期、更低的初始投資、更靈活的選址。SMR可以在工廠里批量生產(chǎn),然后運到現(xiàn)場組裝,大幅降低成本和風(fēng)險。
SMR是當(dāng)下最火最潮的發(fā)電方式。谷歌曾與Kairos Power簽署協(xié)議,購買了500兆瓦的SMR核電,這是科技公司首次直接投資SMR技術(shù)。微軟則是在2024年1月,聘請了曾在Ultra Safe Nuclear Corporation(USNC)的核戰(zhàn)略與項目總監(jiān),來擔(dān)任微軟核技術(shù)總監(jiān)。其目的就是開發(fā)SMR以及更小的微型模塊化反應(yīng)堆(MMR)。
換句話說,微軟缺的不是電,而是時間。
03
相較于能源方面,減少AI自身的功耗也是一條重要的發(fā)展方向。
奧特曼的觀點是,每單位智能的成本每年下降40倍,很可能我們幾年后就不需要這么多基礎(chǔ)設(shè)施了。而且如果突破持續(xù),個人級通用人工智能可能在筆記本上運行,進一步減少發(fā)電需求。

奧特曼曾寫過一篇文章,以自家產(chǎn)品為例,解釋過這個問題。文章中寫到,從2023年初的GPT-4模型到2024年中的GPT-4o模型,僅僅過了一年,每個token的成本,降低了大約150倍。在算力不變的前提下,同樣的業(yè)務(wù),在AI不同的發(fā)展階段,所需要消耗的電力就會減少。
他說這種幅度的價格下降,如果僅僅依靠硬件成本的線性降低是無法實現(xiàn)的,其背后必然包含了算法優(yōu)化、模型架構(gòu)改進和推理引擎效率提升等多方面的綜合作用。
斯坦福大學(xué)2025年人工智能指數(shù)報告(HAI)中證實了這個說法,報告中寫到:在18個月內(nèi),達(dá)到GPT-3.5水平(MMLU準(zhǔn)確率64.8%)的AI模型調(diào)用成本,從2022年11月的20美元/百萬token驟降至2024年10月的0.07美元/百萬token,成本下降了280倍。
在硬件方面,GPU現(xiàn)在增加了兩個新的能效衡量單位:TOPS/W(每瓦萬億次運算)和FLOPS per Watt(每瓦浮點運算次數(shù))。這樣的單位,是為了能夠更直觀地看到能效方面的突破。
比如Meta發(fā)布的第五代AI訓(xùn)練芯片Athena X1,在低精度的前提下,能效比達(dá)到了32TOPS/W,較前代提升200%,空載功耗下降87%。英偉達(dá)H100哪怕在FP8這樣低精度的范圍里,其能效比也只有5.7TFLOPS/W。
不過對于一些高精度的訓(xùn)練任務(wù),仍然需要使用H100,這也是為什么Meta要大規(guī)模采購幾十萬塊英偉達(dá)的GPU。
Epoch AI的研究數(shù)據(jù)顯示,機器學(xué)習(xí)硬件的能效正以每年40%的速度提升,每2年翻一番。新一代AI芯片的能效提升顯著。
英偉達(dá)的H200 GPU相比上一代H100,能效提升了1.4倍。看起來還有很大的提升空間。
從宏觀角度看,數(shù)據(jù)中心本身的能效才是最值得關(guān)注的數(shù)字。通常使用PUE(能源使用效率)來衡量數(shù)據(jù)中心的能耗情況。
PUE的理想值是1.0,意味著所有電力都用于計算,沒有浪費在冷卻和其他輔助系統(tǒng)上。十年前,數(shù)據(jù)中心的平均PUE是2.5,現(xiàn)在是1.5,谷歌的最新數(shù)據(jù)中心已經(jīng)降至1.1。這意味著同樣的計算任務(wù),現(xiàn)在只需要當(dāng)年一半的電力。液冷技術(shù)、免費冷卻、AI驅(qū)動的能源管理系統(tǒng)正在繼續(xù)推低這個數(shù)字。
但無論哪種結(jié)局,能源行業(yè)都因為AI而完成了重塑,即便未來AI的需求減少,能源行業(yè)的興盛也會推動其他行業(yè)發(fā)展。