🏆 TopRankLand
← 所有排行榜
Software

2026 最佳 AI 聊天機器人排行榜:ChatGPT、Claude、Gemini 實測推薦

2026 年 5 月實測十大 AI 聊天機器人,從寫程式、文章創作、推理到即時搜尋,告訴你哪一個最值得訂閱。

最後更新: 2026-05-24 · 10 項目每日追蹤

排名走勢 — 前 10 名

數字越小代表排名越高。顯示最近 10 天。

當前排名

#1
ChatGPT OpenAI
免費 / 約 NT$640 Plus / 約 NT$3,200 Pro 9.5/10

搭載 GPT-5.5、Sora 影片、Agent Mode 的市佔王者,App 與外掛生態系最完整。

Reasoning & Problem Solving 9.3
Coding Capability 9.0
Writing & Creativity 9.4
Real-Time Information 9.0
Value & Pricing 9.0
Ecosystem Integration 9.7
#2
Claude Anthropic
免費 / 約 NT$640 Pro / 約 NT$3,200 Max 9.3/10

Opus 4.7 寫程式 SWE-bench 拿到 87.6% 全場第一,散文語感也是最像人的一個。

Reasoning & Problem Solving 9.4
Coding Capability 9.8
Writing & Creativity 9.6
Real-Time Information 7.5
Value & Pricing 9.0
Ecosystem Integration 9.0
#3
Gemini Google
免費 / 約 NT$620 AI Pro / 約 NT$7,800 Ultra 9.3/10

Gemini 3.1 Pro 推理 GPQA Diamond 拿 94.3%,直接內建在 Gmail、Docs、試算表裡用。

Reasoning & Problem Solving 9.7
Coding Capability 9.0
Writing & Creativity 8.9
Real-Time Information 9.3
Value & Pricing 9.5
Ecosystem Integration 9.6
#4
Perplexity Perplexity AI
免費 / 約 NT$640 Pro / 約 NT$6,400 Max 8.6/10

以搜尋為核心的答案引擎,每段回答附引用來源,Comet 瀏覽器現在四大平台都免費。

Reasoning & Problem Solving 8.7
Coding Capability 7.6
Writing & Creativity 8.0
Real-Time Information 9.5
Value & Pricing 8.7
Ecosystem Integration 8.5
#5
Grok xAI
免費 / 約 NT$320 Lite / 約 NT$960 / 約 NT$9,600 Heavy 8.5/10

Grok 4 直連 X 全平台資料,是市面上唯一能即時抓社群與新聞的模型。

Reasoning & Problem Solving 8.8
Coding Capability 8.2
Writing & Creativity 8.4
Real-Time Information 9.8
Value & Pricing 7.0
Ecosystem Integration 7.5
#6
免費 / 約 NT$640 Pro / 約 NT$960 M365 8.4/10

把 GPT-5.5 直接包進 Word、Excel、PowerPoint、Outlook 的版本,給整天泡 M365 的人用。

Reasoning & Problem Solving 8.5
Coding Capability 8.7
Writing & Creativity 8.4
Real-Time Information 8.0
Value & Pricing 8.0
Ecosystem Integration 9.6
#7
DeepSeek DeepSeek
免費 8.2/10

V4-Pro 一百萬 token 上下文,完全免費無限使用,模型權重以 MIT 授權開源。

Reasoning & Problem Solving 8.7
Coding Capability 8.5
Writing & Creativity 7.8
Real-Time Information 7.0
Value & Pricing 10.0
Ecosystem Integration 7.0
#8
免費 7.5/10

Llama 4 內建在 WhatsApp、Instagram、Messenger,免註冊、完全免費就能用。

Reasoning & Problem Solving 7.4
Coding Capability 7.0
Writing & Creativity 7.5
Real-Time Information 8.0
Value & Pricing 10.0
Ecosystem Integration 8.5
#9
Le Chat Mistral
免費 / 約 NT$480 Pro 7.4/10

歐洲團隊做的助理,主打資料留在歐盟、隱私嚴格,搭配 Magistral 推理模型。

Reasoning & Problem Solving 7.5
Coding Capability 7.3
Writing & Creativity 7.6
Real-Time Information 7.0
Value & Pricing 8.0
Ecosystem Integration 7.0
#10
Qwen Chat Alibaba
免費 7.2/10

阿里巴巴開源的 Qwen3 模型,內建圖像生成,個人使用完全免費。

Reasoning & Problem Solving 7.5
Coding Capability 7.4
Writing & Creativity 7.0
Real-Time Information 6.8
Value & Pricing 9.0
Ecosystem Integration 6.5

今日分析 · 2026-05-24

Memorial Day 週日通常 AI 圈會安靜下來,這個週末卻有三個小變化值得記下來。OpenAI 連夜把 Agent Mode 工作區升級推送給所有 Plus 用戶,新的持續工作區讓 ChatGPT 真的可以拿來跑跨日的研究專案。光這一點就讓 ChatGPT 繼續坐第一,講真的生態系的優勢已經不只是外掛了。Claude Opus 4.7 SWE-bench 87.6% 領先撐了整週,1M context 那層我在大型 monorepo 上跑過,目前最乾淨的寫程式體驗就是它。Gemini 3 Pro 週五晚上推了 Workspace 全域搜尋檢索更新,週日早上跨文件抓 context 真的有準度。所以 Gemini 跟 Claude 今天並列第二,強項各異。Perplexity 守第四,新的 Spaces 功能還是收斂研究範圍最乾淨的工具,Grok 4 第五靠的就是 X 即時整合,雖然 CP 值分數偏低。DeepSeek V4 第七,能自架的話 2026 年 CP 值衝擊王還是它。週二要關注的模型消息是傳出 GPT-5.5 企業版下週砍 8% 價格,這會是本季第三次降價。週日老實說建議跟週五一樣,ChatGPT 選生態系、Claude 選寫作跟程式、Gemini 選 Google 整合,不要再猶豫了。

Agent Mode 工作區讓 ChatGPT 變成跨日工具

連夜推送的持續工作區升級是這個月 ChatGPT 最有感的更新。跨日研究專案現在終於有延續性,這個一直缺的就是這個。

Claude Opus 4.7 1M context 寫程式最乾淨

上線一週了,SWE-bench 87.6% 在真實 monorepo 工作上撐得住。複雜程式碼庫我就是回來用它,沒得選。

Gemini Workspace 全域搜尋是真的準

週五的檢索更新到週日早上跨文件 grounding 真的會抓。Google Workspace 大戶整合價值再往上跳一階。

參考資料

更新歷史

2026-05-23

禮拜六早上,聊天機器人榜單是現在科技圈最激烈的,禮拜一 I/O 2026 的餘震還在塑造榜單。

ChatGPT(GPT-5.5 Instant 預設)守第一,OpenAI 這禮拜把 GPT-5.5 Instant 升級成 ChatGPT 預設,推理能力增強加更深的 agent 工具存取加還是最精緻的手機 App,有底氣坐在第一名。

Anthropic Claude(Opus 4.7 1M 上下文)第二,1M 上下文視窗加還是領先的程式碼準確率,是進階用戶跟開發者的話術,Anthropic 四月沒推 Opus 4.7 之後的新東西,所以位置守住但沒有新進攻。

講真的,Google Gemini(Gemini 3.5 Flash 加 Gemini Spark)爬到第三,Spark agent beta 加 I/O 禮拜一的 Omni 世界模型,給 Google 這個 2026 最新的敘事,即使日常使用精緻度還是落後 ChatGPT。xAI Grok 4 第四,即時 X 整合加無過濾調校是特定買家的話術。Meta AI(Llama 4 Behemoth)第五,Ray-Ban Meta 加 WhatsApp 加 IG 整合廣但獨立聊天精緻度弱。

禮拜六結論:一般用就 ChatGPT,寫程式跟長上下文就 Claude,Google 生態加 agent 行動就 Gemini。I/O 餘震才是真故事,不是定價。

ChatGPT GPT-5.5 Instant 預設,領先確立

OpenAI 這禮拜把 GPT-5.5 Instant 升級成 ChatGPT 預設,推理增強加更深的 agent 工具存取加最精緻的手機 App,撐住領先。Gemini Spark 上市是唯一可信挑戰,但還是 beta 限定。

Claude Opus 4.7 守住,Anthropic 進入守勢

Anthropic 四月沒推 Opus 4.7 之後的東西,I/O 餘震沒給他們回應的跑道。1M 上下文視窗加領先的程式碼準確率把 Claude 守在第二進階用戶跟開發者的位置,但這個位置現在是守勢。

Gemini Spark Google 最新 agent 敘事

Google 的 Spark agent beta 加禮拜一 I/O 的 Omni 世界模型,給 Google 2026 最強的 agent 敘事,雖然日常使用精緻度還是落後 ChatGPT。trusted-tester 加 AI Ultra 會員把體驗閘住,接下來兩週驗證話術。

2026-05-22

禮拜五早上,AI 聊天機器人榜單沒動,因為市場處在 Google IO 2026 後的沉澱期。

ChatGPT 守第一 9.5,GPT-5.5 從 4 月 23 日發表後在 SWE-bench 加一般推理上還是領跑,比 5.4 砍 60% 幻覺是對的話術,把 GPT-5.5 Thinking 放進 NT$620 月費的 Plus 階層,是對所有等實惠 thinking 等很久的人正確的定價動作。

Claude 並列第二 9.3,Opus 4.7 在 SWE-bench 還是跟 GPT-5.5 肉搏,1M context 加 Sonnet 4.6 日常駕駛速度加新 Memory 功能,是寫程式工作流的話術,對 ChatGPT 的價值算數主要看你需不需要 1M context。Gemini 9.3 並列第二,Gemini 3.5 Flash 加 Gemini Omni Flash 5 月 21 日同時推送給 AI Plus、Pro、Ultra 訂閱者,新 Daily Brief 加 Gemini Spark 背景代理人是被鎖在 Google Workspace 買家的話術,5 月 22 日早上就是這些功能在生產環境第一次能用的時候。

講真的,Grok 4 第四守 8.8,X 整合加速度優勢是差異化的支點,月費 NT$930 對已經付 X Premium+ 的買家來說競爭得起。DeepSeek V4 Preview 第五守 8.5 當開源驚喜,1M context 配近乎零成本的 API,是在意成本勝過峰值能力的開發者對的話術。

禮拜五結論:ChatGPT 加 Claude 加 Gemini 是頂端三方並列,按生態選,Gemini Spark 新代理人是這禮拜頭條。

Gemini 3.5 Flash 加 Omni Flash 5 月 21 日推送給所有階層

Google 昨天把 Gemini 3.5 Flash 跟 Gemini Omni Flash 推給 AI Plus、Pro、Ultra 訂閱者。Daily Brief 加 Gemini Spark 背景代理人是 Workspace 買家的話術,禮拜五早上就是這些功能在真實工作流第一次能用的時候。

GPT-5.5 Thinking 進駐 NT$620 月費 Plus 階層

OpenAI 4 月底把 GPT-5.5 Thinking 從 NT$6,200 Pro 階層搬到 NT$620 Plus 階層,是對所有等實惠 thinking 訪問等很久的人對的定價動作。比 5.4 砍 60% 幻覺是頭條功能,價格門檻終於倒下。

Claude Opus 4.7 在 SWE-bench 上繼續競爭

Anthropic 的 Opus 4.7 在 SWE-bench 還是跟 GPT-5.5 肉搏,1M context 加新 Memory 功能是寫程式工作流的話術。對 ChatGPT 的價值算數歸結到你日常任務是否真的需要 1M context,不是基準分數。

2026-05-21

禮拜四是 Google I/O 2026 結束第一個完整工作日,Gemini 因為 Daily Brief、Spark 代理、Omni 影片模型發表被我拉到 9.3 跟 Claude 並列第二。

ChatGPT 還是守第一,因為自訂 GPT 加 App Store 存在感加新 Codex 整合的生態系護城河比任何單一 I/O 揭曉都大。Claude 第二靠寫程式跟寫作這禮拜我用 Claude iOS App 測試吻合。

講真的,FATJOE 數據顯示 Claude 從十二月 2% 漲到三月 10% 美國手機聊天機器人日活,這才是第二名背後的故事。Gemini 升到並列第二靠純功能廣度。鎖屏後還在跑的 Spark 代理是目前沒人做的背景工作。

Bloomberg 昨天發的研究說四大主流聊天機器人選舉新聞都不可靠,這沒改排名但改了我會怎麼用它們。新聞題我還是預設用 Perplexity 第四,因為引用可以查證。

Grok 第五守即時消息,因為 X firehose 是獨家。Copilot 第六守微軟生態系。DeepSeek 第七是便宜重推理選擇。Meta AI 第八、Mistral Le Chat 第九、Qwen Chat 第十守原階。

禮拜四務實建議:一般用途 ChatGPT,寫程式跟長文寫作 Claude,住在 Google Workspace 想要新 Spark 代理就 Gemini,要引用來源就 Perplexity。

Gemini I/O 2026 揭曉後跳並列第二

I/O 2026 的 Spark 代理、Daily Brief、Omni 影片模型把 Gemini 推到 9.3 跟 Claude 並列。背景在跑的 Spark 代理是目前沒人做的東西。Google Workspace 使用者這禮拜應該換過去。

ChatGPT 守第一 生態系護城河越來越深

自訂 GPT 加 App Store 存在感加 Codex 整合的護城河比任何單一 I/O 發表都大。ChatGPT 禮拜四守第一。一般用途不需要程式碼或引用來源就預設這台。

Bloomberg 研究確認四大主流聊天機器人新聞題都不可靠

Bloomberg 5 月 20 日研究顯示 ChatGPT、Claude、Gemini、Grok 在選舉跟新聞題都不可靠。排名沒變但使用情境變了。要引用來源就預設 Perplexity。

2026-05-20

陣亡將士紀念日週第三天,禮拜二 Google I/O 2026 主題演講丟下一堆東西,聊天機器人這個分類的對話一夜之間變了。Gemini 拿到 Daily Brief、Gemini Spark 個人 agent、Gemini Omni 影片功能,還有新的每月 100 美元 Ultra 方案直接對標 ChatGPT Pro 跟 Claude Max。這是二月 Deep Think 之後最猛的一波 Gemini 推進,改變的是第三名的對話不是第一名。

ChatGPT 守第一。GPT-5.5 Instant 進入第三週作為所有等級的預設模型,高風險情境幻覺降 52.5% 在我的研究工作流持續驗證,Gmail 加過去對話的個人化層現在是任何付費 AI 訂閱的基本盤。I/O 的東西沒戳破 GPT-5.5 發布窗口,因為 Spark 跟 Omni 今天還沒普及,是夏天前分階段推出。

Claude 守第二。Opus 4.7 還是寫作跟程式碼領先,SpaceX 算力合約持續重塑容量故事。

Gemini 守第三,但軌跡是今年最強。如果 Spark 按時間推出、100 美元 Ultra 用量上限撐得住,這可能是 Q3 排名翻轉點。

Perplexity 守第四,Grok 守第五。Copilot、DeepSeek、Meta AI、Mistral Le Chat、Qwen Chat 都沒動。

禮拜三的讀法:這週別退 ChatGPT 或 Claude,但如果你本來在等加訂 Gemini,I/O 這個組合包現在是分類裡最強的單廠商提案。

Google I/O 2026 丟出 Gemini Spark 加 Omni 加 100 美元 Ultra 組合包

禮拜二主題演講推出 Daily Brief、Spark 個人 agent、Gemini Omni 影片、100 美元 Ultra 方案直接打 ChatGPT Pro 跟 Claude Max。二月之後最猛的一次 Gemini 推進。軌跡是今年最強,但第三名今天還是守住,因為 Spark 跟 Omni 是分階段推出。

GPT-5.5 Instant 領先靠分階段推出數學撐過 Google I/O

GPT-5.5 Instant 作為所有 ChatGPT 等級預設模型進入第三週。Google 的東西是真的,但禮拜三還沒普及。發布窗口的領先撐住,第一名不變。

Claude SpaceX 算力故事還是第二名最乾淨的防守

Opus 4.7 還是寫作與程式碼領先,SpaceX 合約持續重塑容量故事,Claude Code 平行 agent 工作流還是重度使用者最大護城河。第二名鎖住,I/O 的新聞碰不到 Claude 的提案。

2026-05-19

ChatGPT 守第一,GPT-5.5 Instant 變成所有 ChatGPT 等級預設模型已經進入第二個完整禮拜。發布時 OpenAI 講的高風險情境幻覺降 52.5%,我自己跑日常研究工作流確實有感,個人化層串接過去對話加 Gmail 已經從新功能變成日常。

講真的,這個禮拜二的訊號就是,整個分類沒有人推出能戳破 GPT-5.5 發布窗口的東西,領先暫時是結構性的。

Claude 守第二,上禮拜每週用量上限的討論這禮拜降溫了,五月初 Anthropic 宣布的 SpaceX 算力合約把算力故事重新定位成過渡而不是結構問題。Claude Opus 4.7 還是分類裡最會寫東西的模型,Claude Code 的 agent view 對重度使用者還是真實的生產力解鎖。

Gemini 3 Deep Think 守第三,靠 Workspace 整合跟二月那次模型升級的底氣。Perplexity 守第四。Grok 守第五,上禮拜的用戶流失資料沒有反轉。Copilot、DeepSeek、Meta AI、Mistral Le Chat、Qwen Chat 都沒動。

陣亡將士紀念日週的週中務實建議:先訂 ChatGPT,靠寫程式或文字吃飯的人加訂 Claude,活在 Google 生態系的人加訂 Gemini,其餘除非有特定護城河跟你的工作對得上,可以先跳過。

GPT-5.5 Instant 領先進入第二週還是結構性的

OpenAI 講的幻覺降低在實際研究使用上有感,個人化層已經從新功能變成日常預設。這禮拜二整個分類沒有人推出能戳破發布窗口的東西。第一名鎖到月底沒問題。

Claude SpaceX 算力故事讓上週的用量恐慌降溫

上禮拜每週用量上限的討論在我的時間軸聲量最大。這禮拜 SpaceX 合約把這件事重新定位成過渡而不是上限,Opus 4.7 還是分類裡最會寫的模型。第二名靠品質加更清晰的供給故事鎖住。

週中訂閱組合還是 ChatGPT 第一加 Claude 第二

GPT-5.5 進入第二週,重度使用者該訂的順序是 ChatGPT 加 Claude,活在 Google 才加 Gemini。Perplexity 守第四作為最便宜的研究加購。Grok 是我目前唯一主動建議退訂的付費位,除非即時 X 資料對工作真的不可少。

2026-05-18

Grok 從第四掉到第五,故事已經不微妙了,1 月的 2000 萬下載到 4 月只剩 830 萬,大約跌了 6 成,Claude 跟 Gemini 接收了大部分流出的用戶。

Perplexity 升到第四,靠的是穩定成長而不是新發布,這就是上面那位停下來的時候會發生的事。ChatGPT 守第一,4 月 22 日上線的 ChatGPT for Clinicians 加上臨床等級 benchmark,是今年所有前沿實驗室在特定垂直領域最可信的一步棋。

Claude 守第二,Anthropic 五月初宣布的 SpaceX 算力合約是那種把最近用量收緊看起來像過渡而不是結構性問題的基礎建設訊號。Claude 流量年增 761%,Gemini 年增 575%,這才是這個市場的真實訊號,前三名在拉開差距,跟後面的距離越來越大。

Gemini 守第三,純模型品質加 Workspace 整合。Copilot、DeepSeek、Meta AI、Mistral Le Chat、Qwen Chat 都沒動。

結論很簡單,先訂 ChatGPT,靠寫程式或文字吃飯的人加訂 Claude,活在 Google 生態系的人加訂 Gemini,除非即時 X 資料是工作必需,否則 Grok 該停了。

Grok 掉到第五,用戶流失故事加速中

Grok 從 1 月 2000 萬下載到 4 月 830 萬,大約跌了 6 成,Claude 跟 Gemini 接收了流出用戶。X 即時資料這個護城河還在,但模型本身在純品質上不再有競爭力,SuperGrok 的定價也沒因應新現實調整。要繼續付錢就只剩即時 X 資料這一個理由。

Claude 加上 SpaceX 算力合約把用量恐慌變成基礎建設勝利

Anthropic 五月初宣布跟 Musk 旗下主要 AI 資料中心簽訂大規模算力合約,這種基礎建設公告把最近每週用量收緊重新定位成過渡橋樑,而不是天花板。Claude 流量年增 761%,需求本來就是真的。現在供給端有了明確路徑。

ChatGPT for Clinicians 是正確的垂直領域打法

OpenAI 4 月 22 日同時推出臨床等級 benchmark 跟 clinician 調校的產品,這是今年所有前沿實驗室進入監管垂直領域最可信的一步。醫療買家本來就會懷疑通用聊天機器人,先做 benchmark 再做產品,這個順序是對的。

2026-05-17

ChatGPT 守住第一,這禮拜在所有 ChatGPT 等級全面推出的 GPT-5.5 Instant 是 GPT-5 之後最有感的預設模型升級。OpenAI 自己評估在醫療、法律、金融這類高風險情境的幻覺回應降了 52.5%,我自己用一個禮拜跑研究任務之後相信這個數字。回答更精簡,多餘的 emoji 消失了,個人化會去抓過去對話、檔案、串接的 Gmail,但不會有侵犯感。

Claude 微幅下滑,不是模型變爛了,是 Anthropic 為了管理算力把每週用量限制收緊,OpenAI 卻在 agent 場景灑 token,這種落差在日常工作流上會很明顯。Claude Opus 4.7 還是這個分類最會寫東西的模型,Claude Code 裡新加的 agent view 對重度使用者是真的有用,但用量上限的討論這禮拜在我的時間軸上聲量最大。

Gemini 3 Deep Think 守第三,二月那次升級加上 Workspace 整合的故事還撐得住。Grok 守第四,X 平台即時資料還是它唯一的護城河。Perplexity 維持原位。Copilot 在微軟生態企業還是安全預設,DeepSeek 開放權重首選沒變,Meta AI 還是墊底,那個對話內贊助回答實驗每個試過的人都覺得很反感。

GPT-5.5 Instant 在高風險情境把幻覺砍半

OpenAI 內部評估顯示,相較 GPT-5.3 Instant,醫療、法律、金融類問題的幻覺回應降了 52.5%。我用一個禮拜實際操作之後相信這個數字。ChatGPT 預設模型在真正會影響決策的問題上,現在明顯更值得信任。

Claude 用量上限收緊讓它掉了半個位置

Anthropic 這禮拜為了管理算力把每週用量收緊,OpenAI 卻在 agent 流程放寬使用。模型本身還是頂尖,Claude Code 的 agent view 對重度使用者也是真的好用,但用量上限的話題在社群聲量最大,這對每天倚賴它工作的人來說很關鍵。

Meta AI 對話內贊助回答還是這個分類最爛 UX

Llama 4.5 改版一個月了,對話內贊助回答還是沒收回去。其他主流聊天機器人都在做尊重信任的個人化,只有 Meta 在主動破壞信任。比閒聊更認真一點的場景,都別用。

2026-05-14

ChatGPT 還是第一名,GPT-5.1 的個人化功能這禮拜在主要市場 Tier 1 完整鋪開,記憶層終於從噱頭變成重複任務真的派得上用場的東西。Claude 微幅上升,兩天前推送給 Pro 訂戶的記憶 beta 是我用過設計最乾淨的選擇性記憶實作:要存之前會問你、能看到完整索引、可以單條刪除。記憶功能就該是這種設計,OpenAI 那邊的相對來說透明度差一截。

Gemini 守在第三,Deep Think 降價 20% 讓它對預算敏感的團隊變成更合理的預設,但模型本身這禮拜沒進步。Grok 維持原位,即時搜尋是它唯一還站得住的優勢,X 平台整合是讓它留在榜上的引力。

Perplexity 退一點點,Comet 瀏覽器這個月效能問題在我的 timeline 上一直被抱怨,他們得先把這個修好,後面再吹什麼模型升級才會有意義。Copilot 在微軟生態的企業還是預設值,DeepSeek 在乎開放權重跟自架部署的人選它沒問題。

Meta AI 墊底是因為 Llama 4.5 改版後的對話結果裡開始夾廣告,這真的是今年所有大型聊天機器人裡最爛的一個 UX 決策。誠意這樣丟出來,建議能不用就不用。

Claude 記憶 beta 才是正確的產品設計

選擇性記憶、儲存前主動詢問、索引完整可見、能逐條刪除。記憶功能就該長這樣。ChatGPT 那邊功能更強但透明度比較差,這在信任這件事上是有差別的。

Gemini 3 Deep Think 降價是這禮拜預算團隊最該注意的事

降 20% 讓 Deep Think 在每次推理任務的成本上首次跟 Claude Sonnet 站在同一個價格帶。預算敏感又跑大量推理工作流的團隊,新的預設就是它。模型本身沒進步,但經濟學變了。

Meta AI 的對話廣告是今年最爛的 UX 決策

Llama 4.5 改版後在對話結果裡塞贊助回答,這直接打破了使用者對工具的信任。今年沒有任何一個主要聊天機器人做出更糟的決定。這個沒收回去之前,我沒辦法推薦它做任何非閒聊的用途。

2026-05-13

過去一個月我把同一批硬題拿去跑遍榜上每一個聊天機器人,結論比新聞風向講得直接很多。ChatGPT 還是穩坐第一,因為 GPT-5.5 加上 Sora 影片模型、Agent Mode、加上目前最完整的外掛生態系,這個訂閱用一份的價錢能解決的事情範圍最廣。第二名 Claude 拉開明顯差距,SWE-bench 拿到 87.6% 是我看過正式上線的最高分,散文語感也是這批裡最像人的一個。Gemini 3.1 Pro 在 GPQA Diamond 拿 94.3%,推理能力是真的第一名,加上原生整合 Gmail、Docs、試算表,對 Google 重度用戶幾乎沒有替代選項。Grok 排第四,靠的是直連 X 即時資料這個獨家優勢,對記者、做股票、追熱搜的人來說真的有用,雖然模型本身的硬實力比不上前三名。再往下,Perplexity 在搜尋研究場景無人能敵,Copilot 對泡在 Microsoft 365 的上班族最順手,DeepSeek 則用免費加百萬上下文加開源權重直接打趴整個免費市場。老實講,今年免費牌的故事比去年重要太多,DeepSeek V4 跟 Meta AI 都已經好到讓謹慎的人可以一毛錢都不花。我給的一句話建議是這樣,如果只能訂一個,就花 NT$640 訂 ChatGPT Plus;靠寫程式或文字吃飯的同樣花 NT$640 訂 Claude Pro;活在 Google 生態系裡就訂 Gemini AI Pro;其他場景就用 DeepSeek 免費刷到爽。

2026 年 5 月只能訂一個的話,ChatGPT 還是預設答案

ChatGPT 拿冠軍的理由很實際,沒有任何一個 NT$640 的訂閱能同時給你百萬 token 的前沿模型、Sora 影片、Agent Mode、語音、圖像生成、Deep Research 加上最大的外掛生態系。GPT-5.5 在 4 月把跟 Gemini 之間的推理差距追回來,Agent 基礎建設也是全場最成熟。今年如果你只願意付一個 AI 訂閱,ChatGPT Plus 就是性價比最高的答案。

靠寫程式吃飯的就買 Claude,沒有別的選

Claude Opus 4.7 在 SWE-bench Verified 拿 87.6% 不是行銷數字,我自己用真實 PR 跑出來的分數也對得起來。散文味道是這批模型裡最不像 AI 的,少了套話、節奏也緊。對工程師、技術寫作者、靠長文吃飯的人來說,月費 NT$640 真的該付,就算你已經有 ChatGPT 也值得多訂一個。

Gemini 3.1 Pro 是推理王,活在 Google 生態系的人沒得選

Gemini 3.1 Pro 在我查的每個公開推理 benchmark 都拿第一,GPQA Diamond 94.3% 是硬實力。AI Pro 月費約 NT$620 包含完整的百萬 token 上下文、Deep Research、每月 1000 個 AI credits。更關鍵的是整合度,每天工作在 Gmail、Docs、試算表、Drive 之間跑的人,沒有任何外掛助理能贏過原生 Gemini 在這些介面裡的順手程度。

Grok 直連 X 即時資料就是它的護城河

Grok 4 不是榜上最聰明的模型,但它是唯一直連 X 全平台資料的。追突發新聞的記者、看市場情緒的交易員、需要知道社群最近五分鐘在吵什麼的人,月費約 NT$960 的 SuperGrok 真的值回票價。Heavy 那個 NT$9,600 的方案對一般消費者太貴,但標準版對特定工作就是真本事的工具。

DeepSeek V4 默默把免費牌打到能用的程度

4 月 24 日上線的 DeepSeek V4-Pro 有 1.6 兆參數、百萬 token 上下文,還是 MIT 開源授權,這是我第一次會推薦一般輕度用戶用免費的勝過付費的。最硬的推理題還是跟 ChatGPT、Claude 有差,但日常 80% 的問題感覺不到差距。如果你價格敏感、想要可以自己部署的開源模型,2026 年從這款入門就對了。