Software

2026 最佳 AI 語音生成工具排行榜

實測十款 AI 語音平台的真實度、情感表現、語言覆蓋、延遲與價格。ElevenLabs 綜合冠軍，Hume 用一半價格做出真實情緒，Cartesia 在 100 毫秒以下的語音 Agent 應用稱王。

最後更新: 2026-07-22 · 12 項目每日追蹤

排名走勢 — 前 10 名

數字越小代表排名越高。顯示最近 53 天。

當前排名

ElevenLabs ElevenLabs

免費，約 NT$160–NT$10,500/月 9.4/10

2026 年 AI 語音真實度的標竿。Turbo v2.5 延遲只有 75 毫秒，Eleven v3 支援 74 種語言加上行內情緒標籤，Starter 方案 $5 就能用 Instant Voice Cloning。

Voice Realism 9.7

Emotional Range 9.5

Language Support 9.8

Real-Time Latency 9.2

Value for Money 9.5

Inworld TTS-1.5 Max Inworld AI

Max 約 NT$1,600/百萬字元，Mini 約 NT$800/百萬字元 9.4/10

2026 年衝上 Artificial Analysis Speech Arena 第一名，ELO 約 1236 分，盲測自然度直接壓過 ElevenLabs 和 Hume。Max 版 P90 首音延遲低於 250 毫秒，5 到 15 秒音檔就能複製聲音，WebSocket 串流 API 真的就是為即時語音 agent 而生的，做客服或對話應用首選。

Voice Realism 9.6

Emotional Range 9.4

Language Support 9.0

Real-Time Latency 9.8

Value for Money 9.3

Hume AI Octave 2 Hume AI

免費，約 NT$450–NT$15,900/月 9.0/10

情緒表現的專家。Octave 2 會從你的腳本內容直接讀出該用什麼情緒講，每字元成本比 ElevenLabs 便宜 58%，$14 Creator 方案就送無限語音克隆，CP 值很狠。

Voice Realism 9.0

Emotional Range 9.7

Language Support 8.5

Real-Time Latency 8.7

Value for Money 9.4

Cartesia Sonic 3 Cartesia

約 NT$1/分鐘 8.9/10

語音 Agent 應用的冠軍。Sonic 3 首字延遲 90 毫秒，Turbo 版本壓到 40 毫秒，3 秒音檔就能克隆語音，API 每分鐘 $0.030，做即時對話機器人沒有對手。

Voice Realism 8.9

Emotional Range 8.7

Language Support 8.5

Real-Time Latency 10.0

Value for Money 8.7

OpenAudio S1 Fish Audio

自架免費,約 NT$350–NT$24,000/月 8.9/10

衝上 TTS-Arena2 第一名的開源模型。OpenAudio S1 用 200 萬小時語料訓練,英文字錯誤率低到 0.008,支援 13 種語言,只要 10 秒音檔就能複製一個聲音。自己架伺服器完全免費,說真的這在同級裡面很難得。

Voice Realism 9.1

Emotional Range 8.8

Language Support 8.0

Real-Time Latency 8.4

Value for Money 9.8

MiniMax Speech 02 HD MiniMax

約 NT$1.5/千字元 8.8/10

中文與多語旁白最強選擇。300 多種音色、30 多種語言、端到端延遲 250 毫秒，官方 API 每千字元 $0.05 折合台幣不到 NT$2，給有聲書與短影音配音 CP 值極高。

Voice Realism 8.9

Emotional Range 8.8

Language Support 9.2

Real-Time Latency 9.1

Value for Money 9.0

Murf AI Murf

免費，約 NT$920–NT$3,150/月 8.7/10

企業內容團隊的首選。200 多種音色、內建 studio 編輯器，原生整合 Canva、PowerPoint 與 Google Slides，$29 Creator 方案每年含 24 小時音訊，做企業培訓影片很順手。

Voice Realism 8.4

Emotional Range 8.0

Language Support 8.6

Real-Time Latency 9.8

Value for Money 8.1

GPT-4o mini TTS OpenAI

約 NT$0.5/分鐘 8.5/10

認真選擇裡最便宜的一款。每分鐘生成音訊 $0.015，13 種可控音色，而且是唯一一款可以用講人話的方式直接 prompt 模型該怎麼念這段台詞的 TTS。

Voice Realism 8.5

Emotional Range 8.7

Language Support 8.8

Real-Time Latency 8.5

Value for Money 9.6

WellSaid Labs WellSaid Labs

約 NT$1,560–NT$6,350+/月 8.0/10

錄音室等級的企業選擇。Maker 方案 $49/月起，Enterprise 方案 $199/月含 30 小時音訊，SOC 2 加 ISO 27001 合規讓銀行、醫療這類受監管產業敢用，這點很多家做不到。

Voice Realism 9.0

Emotional Range 7.8

Language Support 7.4

Real-Time Latency 7.6

Value for Money 7.0

#10

Speechify Studio Speechify

約 NT$4,400–NT$7,950/年 7.8/10

個人創作者的首選。1,000 多種 AI 音色支援 60 多種語言，Premium+ 方案 $249/年只要 20 秒音檔就能克隆語音，跟那個很紅的閱讀 App 共用同一套 Studio 介面。

Voice Realism 8.0

Emotional Range 7.6

Language Support 8.6

Real-Time Latency 7.7

Value for Money 8.4

#11

Resemble AI Resemble AI

免費，約 NT$960–NT$1,920/月 7.6/10

資安優先的語音克隆平台。Creator 方案 $30/月，Flex 用多少付多少每秒 $0.006，內建 deepfake 偵測加浮水印的整套防偽工具，這個組合別家還真的拿不出來。

Voice Realism 8.4

Emotional Range 7.5

Language Support 7.6

Real-Time Latency 7.8

Value for Money 7.6

#12

Descript Overdub Descript

免費，約 NT$510–NT$1,600/月 7.4/10

Podcaster 的全能編輯器。Overdub 克隆你的聲音之後，可以直接在同一個編輯器裡用打字的方式修正口誤，逐字稿剪輯、多軌錄音、螢幕錄影全部內建，Creator 方案 $24/月。

Voice Realism 7.8

Emotional Range 7.0

Language Support 6.8

Real-Time Latency 7.4

Value for Money 8.4

今日分析 · 2026-07-22

這週 ElevenLabs 還是穩坐我的第一，理由很單純：它的 v3 模型在旁白這種內容上，盲測還是能跟真人配音員打成平手，加上 7 月 13 號更新的 Flash v2.5，即時延遲也追得上那些主打速度的對手。真實度加上反應快，這兩件事同時做到，付費工具才站得住腳，ElevenLabs 兩邊都給你。第二名 Inworld TTS 1.5 Max 靠的是不到一秒的串流速度，做即時客服語音或遊戲對白，我第一個想到它，畢竟每一毫秒的延遲耳朵都聽得出來。Hume AI Octave 2 排第三，它能讀懂腳本情境、用白話指令調整語氣，做有聲書或角色配音真的好用很多，不用再去背一堆標籤。Cartesia Sonic 3 對做電話機器人的人來說還是延遲王者，Fish Audio OpenAudio S1 則是大量產出時的高 CP 值首選。七月整體的感覺是，排行榜上又快又便宜又像真人的選項越來越多，頂尖跟中段的差距，現在拉開的是情感細膩度跟語言廣度，純粹的自然度大家都到位了。Murf AI 適合想要成熟編輯介面、不想碰 API 的團隊，OpenAI GPT-4o mini TTS 則是你本來就在用它生態系時最順手的入門。這週我分數全部維持不動，因為過去七天真正改變的是行銷話術，不是輸出品質。哪天有模型在真實度跟延遲上同時贏過 ElevenLabs，我就把它往上挪，在那之前不會亂動。

ElevenLabs 續坐第一

v3 在旁白盲測跟真人打平，7 月 13 號的 Flash v2.5 又把延遲壓低。真實度加速度一次到位，這就是它坐穩龍頭的原因。

即時場景選 Inworld

不到一秒的串流速度，讓 Inworld TTS 1.5 Max 成為我做語音客服跟遊戲對白的首選，對話之間只要卡一下,聽的人馬上有感。

情感表現 Hume 最強

Octave 2 讀得懂腳本情境，又能用白話指令調語氣，做有聲書跟角色配音，比那種要下標籤的系統好操作太多。

高 CP 值還是 Fish Audio

大量產出時我就抓 OpenAudio S1，真實度夠水準，每字成本又是那些高價品牌追不上的，錢包很有感。

參考資料

TeamDay ↗ Notevibes ↗ Techlinos ↗

更新歷史

2026-07-21

這週 ElevenLabs 還是穩坐第一，老實說我用起來就是有感。Scribe v2 加了關鍵詞偏好和贅字移除，長篇旁白第一次錄就乾淨很多，這正好是我做音檔最花時間的地方。Eleven v3 目前把擬真度天花板拉到最高，對話腳本盲測甚至能跟真人配音員拚，所以對每天要出音檔的創作者，我還是把它當首選。

Inworld TTS 1.5 Max 緊咬在後，它的強項是即時延遲。你要做的是線上語音助理的話，這種反應速度比多一點點溫潤感重要多了。Cartesia Sonic 3 的原始延遲分數仍舊是全場最快，我做互動 demo、每一毫秒都看得出來的場合，還是會拿它出來用。中段最有看頭的其實是 Murf AI，它的 Falcon 模型延遲壓到 55 毫秒上下，首音出來也快，這下 Murf 終於能做即時應用，不只是棚內旁白而已。這週排名我沒動，因為這些消息還撼動不了前段班，但 Murf 我會盯著看。

講到俗擱大碗，Fish Audio OpenAudio S1 跟 OpenAI GPT-4o mini TTS 還是我推給預算緊的人的口袋名單，花小錢就有好聲音。要情緒張力，像有聲書要演角色，我照樣選 Hume Octave 2。市場這麼競爭，這個月要買點數的人賺到了。

ElevenLabs 工作流領先再拉開

Scribe v2 多了關鍵詞偏好跟贅字移除，我第一次錄的旁白後製少很多。配上 v3 的擬真度，它就是最穩的全能首選。

延遲才是真正的戰場

Cartesia Sonic 3 原始延遲分數全場最高，Inworld TTS 1.5 Max 靠即時反應力撐住總排第二，做線上語音助理特別吃這塊。

Murf 的 Falcon 值得再看一眼

Falcon 延遲壓到 55 毫秒左右，首音又快，Murf 這下能做互動語音，不再只是棚內念稿。中段我最看好它。

平價這層很有誠意

Fish Audio OpenAudio S1 跟 OpenAI GPT-4o mini TTS 花小錢就有好品質，新手不用升到高階方案也能拿到好聲音。

看用途選,別看招牌

要角色情緒張力就選 Hume Octave 2，要成品精緻度就選 ElevenLabs。工具對到腳本，成果自然到位。

Teamday ↗ Unite.AI ↗ ElevenLabs ↗

2026-07-20

這週 ElevenLabs 還是穩坐第一,一輪輪聽測也持續幫它背書。它的 v3 模型立下 2026 的擬真天花板,自然度分數逼近榜首,大多數敘事內容都能在盲測裡騙過人耳,聽起來就像真人配音員。再加上全場最廣的語言支援,做有聲書、配音、高階旁白時,它依舊是我推薦的預設答案。Inworld TTS 1.5 Max 穩坐第二,靠的是極低延遲配上扎實擬真,這個組合讓它成為互動跟即時產品的首選。Hume AI Octave 2 排第三,情緒控制依舊領先,它會讀劇本語境,用自然語言指令調整語氣表現,做角色化、有情緒張力的內容時很有優勢。Cartesia Sonic 3 第四,是延遲冠軍,端到端大概 82 毫秒,快到語音助理能在使用者話還沒說完就開始回應。Fish Audio 跟 MiniMax 補上很強的性價比區塊,Fish Audio 這個價位的擬真度相當漂亮。今年主軸很清楚,就是分工,品質、情緒、延遲已經是三場各自獨立的競賽,選哪個要看你的產品靠哪一項活。這週排名我沒動,各家在聽測裡都很穩。要盯的是延遲這條線,下一波真正的變化正在那裡醞釀。

ElevenLabs 立下擬真天花板

v3 模型自然度逼近榜首,盲測能騙過人耳,是我做有聲書、配音、高階旁白時的預設選擇。

Cartesia 延遲稱王

Sonic 3 端到端約 82 毫秒,快到語音助理能在使用者話沒說完就開始回應,即時產品很合適。

Hume 情緒控制領先

Octave 2 會讀劇本語境,用自然語言指令調整語氣,做角色化、有情緒張力的內容時很有優勢。

整個領域正在分工

品質、情緒、延遲已是三場獨立競賽,選哪個全看你的產品靠哪一項活。

SurePrompts ↗ The AI Rankings ↗ Techlinos ↗

2026-07-18

ElevenLabs 這週我還是放第一,我信得過的評測也一直把它排在最前面。它的 Eleven v3 模型在獨立測試裡自然度大概九成,穩坐排行榜頂層,短片段的複製品質貼近原聲到我拿去做正式產出都不會猶豫。這種全面的強度就是它一直是我預設的原因。Inworld TTS 1.5 Max 第二,靠低延遲加強擬真取勝,想要又快又逼真、還能量產的語音我就選它。Hume AI Octave 2 第三,情緒表現力強,內容真的需要傳達情感時我就開它。Cartesia Sonic 3 第四,延遲王,這個月評測還提到 Sonic 4 把首個音訊時間壓到四十毫秒左右,即時語音代理它一直是要盯的名字。Fish Audio 跟 MiniMax Speech 撐起很強的性價比段,OpenAI 的 mini TTS 守住可指令調聲的優勢,Murf、WellSaid、Speechify、Resemble、Descript 補上能打的專精選項。這週沒有新東西打亂前段,我整份照舊。要一個場景一個挑,有聲書、即時代理、配音各有各的最佳解,我自己就是這樣混著用。

ElevenLabs 續坐預設

Eleven v3 自然度大概九成,短片段複製直接能正式產出,第一名穩穩的。

Inworld 又快又逼真

低延遲加強擬真,想要快、逼真又能量產的語音我就選它,守住第二。

Cartesia 延遲領先

評測提到 Sonic 4 把首個音訊時間壓到四十毫秒左右,即時代理它一直是要盯的名字,第四名。

一個場景一個挑

有聲書、即時代理、配音各有最佳解,我照手上的工作混著用這些工具。

SurePrompts ↗ TeamDay ↗ CallMissed ↗

2026-07-17

這週 ElevenLabs 還是穩坐第一，原因就是 Eleven v3。它的 Audio Tags 讓我可以直接在腳本裡面標記情緒指令，模型唸出來的情感層次到現在還是這個領域的天花板。支援七十幾種語言更是全場最廣，所以只要你是要跨市場發內容的創作者，選它準沒錯。第二名 Inworld TTS 1.5 Max 靠的是幾乎零延遲的反應速度，講真的，做即時語音代理的時候這個反應快慢比那零點幾分的擬真度還重要。Hume Octave 2 守住第三，它的情緒細膩度是我測過最到位的，腳本需要特定情境氛圍的時候特別好用。這週比較有看頭的其實在前三名以下。Mistral 的 Voxtral TTS 現在報價大概只有 ElevenLabs 每字費率的一半，這個價格壓力已經反映在 Fish Audio 跟 OpenAI GPT-4o mini TTS 怎麼包裝自己的平價方案上面了。如果你最在意的就是每字成本，Fish Audio OpenAudio S1 還是聰明的選擇，它的性價比分數就是這樣來的。我的建議沒變。要表現力跟語言廣度就選 ElevenLabs，延遲就是一切的話選 Cartesia Sonic 3 或 Inworld，預算才是重點就選 Fish Audio。排名這週不動，因為沒有任何事情改變了哪個工具最適合哪種任務。

Eleven v3 續戴王冠

內嵌 Audio Tags 加上七十幾種語言，讓 ElevenLabs 在跨市場創作上的表現力範圍最廣，這組合就是它守住第一的理由。

即時語音看 Inworld

Inworld TTS 1.5 Max 靠近乎零延遲守住第二。做即時語音代理的時候，這個速度比那零點幾分的擬真差距重要多了。

Voxtral 重設價格底線

Mistral 的 Voxtral TTS 報價大約是 ElevenLabs 每字費率的一半，這個壓力正在重塑平價方案玩家的定位方式。

預算派就認 Fish Audio

OpenAudio S1 的性價比分數還是全場最高，成本考量掛帥的時候它就是我的首選。

UC Strategies ↗ ElevenLabs ↗ Mean CEO ↗

2026-07-16

ElevenLabs 這週我還是放第一，理由很單純，它一直在補齊整套音訊生態的拼圖，早就不只是單純的文字轉語音工具了。這次新推出的 Scribe v2 轉錄引擎帶了關鍵詞偏誤校正跟贅字移除，如果你會把生成的對白再丟回剪輯流程，這功能真的很實用。再加上新的 ElevenMusic iOS App，等於一個帳號就把語音、配音、音樂、轉錄全包了。講到英文的擬真度，月付 22 美金的 Creator 方案這價位，其他家真的追不上。Inworld TTS 1.5 Max 穩穩守著第二，它的即時延遲對做語音代理跟遊戲對白來說真的很有一套。你的 App 要跟使用者即時對答，我第一個就想到它。Cartesia Sonic 3 延遲分數依舊滿分，做互動語音在意每一毫秒的人，我還是推它。情感表現的王座 Hume Octave 2 目前還是拿著，所以有聲書跟角色配音這種靠演技帶戲的案子，我都推它。Fish Audio OpenAudio S1 是這份榜單裡的性價比之王，擬真度逼近旗艦，價格卻低到讓你大量批次跑也不心痛。往下看，WellSaid 跟 Speechify 依舊是企業愛用的穩定選擇，不過性價比分數把它們卡在中段。這個領域現在很成熟了，前四名差距小到你該看自己的使用情境來選，不是看排行榜。

ElevenLabs 變成整套音訊生態

Scribe v2 加了關鍵詞校正跟贅字移除，新的 ElevenMusic iOS App 把語音、配音、轉錄都收進同一個帳號。英文擬真度這塊，它還是我心中第一。

Inworld 即時延遲最強

TTS 1.5 Max 守住第二，因為它能即時回應使用者。做語音代理跟遊戲對白，我第一個想到它。

Hume 情感演技無敵

Octave 2 情感表現守住 9.7 分，有聲書跟角色配音的案子我還是都丟給它。

Fish Audio 是性價比首選

OpenAudio S1 擬真度逼近旗艦，價格卻低到大量批次跑也不痛，性價比 9.8 分是全榜最高。

Mean.CEO ↗ Gradium ↗ UC Strategies ↗

2026-07-15

這週榜首還是 ElevenLabs，原因跟它一路爬上來的理由一樣，長篇腳本唸起來就是最自然，而且 Eleven v3 的公開 API 現在把那套寬廣的情緒動態透過內嵌音訊標籤開放給開發者用。你要做有聲書，或是要做那種一整段講下來都像真人的語音代理，我第一個就從這裡開刀。Inworld TTS 1.5 Max 緊咬第二名，即時延遲在對話型應用裡根本自成一格，語音擬真度也把過去跟龍頭的差距補得差不多了。這週真正有戲的是 Murf。Murf 把 Falcon 正式全面上線，模型延遲 55ms，首個音訊回應大約 130ms，這是我今年量過最快的量產管線。憑這個我把 Murf 的即時延遲往上加，總分也墊高一格。做即時語音產品的團隊，這個速度會直接改變你敢做的東西。Hume Octave 2 在情緒表現這塊我還是最推，它唸出來是帶著意圖的，那種細節扁平的模型抓不到。Cartesia Sonic 3 大規模串流照樣穩守滿分延遲。Fish Audio OpenAudio S1 對獨立創作者來說仍是 CP 值王者。七月的態勢很清楚，前段班拚擬真，整個賽道拚速度。照你的用途挑就對了，配音要擬真，即時代理要延遲，預算有限就 Fish 或 OpenAI mini。

ElevenLabs 把 Eleven v3 開放給 API

Eleven v3 公開 API 帶來內嵌音訊標籤跟寬動態，任何 app 都能接。整段長文唸下來的自然度，它還是我測過最頂的。

Murf Falcon 正式全面上線

Falcon 全面開放，模型延遲 55ms，首音大約 130ms。憑這速度我把 Murf 延遲拉到 9.8，總分也升到 8.7。

Inworld 拿下對話速度王座

Inworld TTS 1.5 Max 靠 9.8 的延遲分穩住第二，擬真度也只落後龍頭一點點。要秒回的即時代理，我預設就選它。

看用途配模型

情緒表現找 Hume Octave 2，大規模串流找 Cartesia Sonic 3，追求 CP 值就 Fish Audio OpenAudio S1。挑哪個完全看你的使用情境。

TeamDay.ai ↗ ElevenLabs ↗ Notevibes ↗

2026-07-14

ElevenLabs 穩坐龍頭，而 v3 這個模型就是我一直回頭用它的原因。盲聽測試裡，它做出來的旁白老實說很難跟真人配音員分辨，加上語言支援一口氣衝到 70 多種、還能用行內 Audio Tags 直接下情緒指令，對做有聲書、廣告、教學的人來說，它就是功能最完整的那個。三千多個語音庫加上一分鐘素材就能即時複製聲音，對需要大量變化又要快的創作者根本封頂。緊咬在後面的 Inworld TTS 1.5 Max 靠的是 ElevenLabs 追不太到的那點：即時延遲低到幾乎沒有。你要做即時語音助理，那個反應速度比零點幾分的擬真度更重要，所以這兩個在頂端同分。Cartesia Sonic 3 依然是我拚純速度的首選，它的首位元組時間是我量過最快的，延遲拿滿分。Fish Audio 的 OpenAudio S1 還是性價比王，擬真度遠超它那個價位。這週榜單其餘位置都很穩。比較值得注意的暗流是平台大廠正在逼近：Google 的 Gemini Flash TTS 跟微軟的 MAI-Voice-1 在延遲跟語言數上都很兇，我預期未來幾個月這股壓力會重新洗牌中段班。現在的話，要成品品質選 ElevenLabs，要即時就 Inworld 或 Cartesia，預算掛帥就 Fish Audio。

ElevenLabs v3 擬真度領先

盲聽下 v3 很難跟真人配音員區分。70 多種語言加行內 Audio Tags，做旁白跟廣告最完整的工具。

Inworld 拿下即時場景

TTS 1.5 Max 靠幾乎零延遲跟頂端同分。做即時語音助理，這個反應速度勝過零點幾分的擬真差距。

Cartesia Sonic 3 拚純速度

我量過最快的首位元組時間，延遲滿分。管線成敗看反應速度時，我就選它。

Fish Audio 性價比之選

OpenAudio S1 擬真度遠超價位。預算掛帥的話，我從這台開始看。

UC Strategies ↗ Techlinos ↗ Notevibes ↗

2026-07-13

ElevenLabs 繼續守我的第一,它是整體品質跟聲音克隆的領先者。Eleven v3 從二月正式上線後,還是產得出當今最有表情、情緒最細膩的語音,支援 70 多種語言,這種廣度就是它繼續當旁白、有聲書、有個性配音安全預設的原因。Inworld TTS 1.5 Max 以極小差距守第二,延遲近乎即時,即時代理跟遊戲那種反應速度就是一切的場合我還是選它。Hume Octave 2 排第三,情緒範圍最廣,Cartesia Sonic 3 守第四,靠的是那個到現在還是即時對話同級最強的延遲分數。這週真正的新聞是 Murf,它把 Falcon 即時模型推上公開版,模型延遲 55 毫秒、首次出聲 130 毫秒,獨立測試裡現在最快的量產級 TTS,所以我把 Murf 的延遲跟整體分數往上調,反映這個真實的躍進。Google 也推了 Gemini 3.1 Flash TTS,現在登頂 Artificial Analysis 榜,不過還沒進這份榜單。其他都不動,所以順序穩住,只給 Murf 這個實至名歸的調整。

ElevenLabs 守住品質龍頭

Eleven v3 還是產得出最有表情的語音,支援 70 多種語言,讓 ElevenLabs 守第一,旁白、有聲書、有個性配音的選擇。

即時找 Inworld

延遲近乎即時,讓 Inworld TTS 1.5 Max 以極小差距守第二,即時代理跟遊戲那種反應就是一切的場合我選它。

Murf Falcon 值得加分

Murf 新的 Falcon 模型做到 55 毫秒延遲、130 毫秒首次出聲,獨立測試裡最快的量產 TTS,所以我把它的延遲跟整體分數往上調。

即時延遲 Cartesia 稱王

Cartesia Sonic 3 守第四,靠那個到現在還是即時對話同級最強的延遲分數,現場對話速度最要緊時就選它。

SurePrompts ↗ CallMissed ↗ TeamDay ↗

2026-07-12

這週 ElevenLabs 還是第一，聆聽測試也一次次得出同樣結論。它的 Eleven v3 模型設下了擬真的天花板，自然度大約拿到 89.6%，在多數敘事內容的盲測裡能與真人配音員抗衡，所以只要是品質比規模重要的語音工作，它都是我的預設。Inworld TTS 1.5 Max 緊追在第二，把接近頂尖的擬真配上即時延遲，讓它成為即時語音代理的真選項。Hume AI Octave 2 守住第三，腳本需要傳達情緒時它就是首選，能讀懂上下文、用白話指令去引導語氣，這方面比這裡任何一個都強。Cartesia Sonic 3 排第四，靠的是這類別領先的延遲，而且值得一提，Cartesia 每單位大約比 ElevenLabs 便宜三到四倍，讓它成為大量即時對話、每毫秒每分錢都要斤斤計較時的聰明選擇。Fish Audio OpenAudio S1 補上前五，是擬真裡的性價比牌。今年的主題是語音已經不再是單一贏家的比賽，不同工具各贏不同任務。七月的建議很穩，要極致擬真選 ElevenLabs，要低延遲又要跑量選 Cartesia，讀稿的情緒才是重點時就選 Hume。

ElevenLabs 設下擬真天花板

Eleven v3 自然度接近 89.6%，多數敘事內容的盲測能與真人配音員抗衡。品質最重要的語音工作，它還是預設選擇。

Cartesia Sonic 3 贏在延遲跟成本

這類別領先的延遲，每單位又大約比 ElevenLabs 便宜三到四倍。大量即時對話、毫秒跟每分錢都要算時，它是聰明選擇。

Hume Octave 2 專攻情緒表達

能讀懂腳本上下文，用白話指令引導語氣，這方面比這裡任何一個都強。讀稿的情緒才是重點時，它就值這個位子。

語音不再是單一贏家

擬真、延遲、情緒，不同工具各贏不同任務。看任務挑模型，大多數專案選這份清單前段都很夠用。

SurePrompts ↗ Techlinos ↗ CallMissed ↗

2026-07-11

這週我還是把 ElevenLabs 放第一，而且他們最近的一次維護動作，反而讓我更確定。7 月 9 日他們把舊的 scribe_v1 語音轉文字模型退役，逼大家升上 scribe_v2，這代表這是一個會持續更新技術棧的平台，不會放著老模型爛在那。生成這一塊，Eleven v3 還是我用過最會演的引擎，支援超過 70 種語言，還能吃 whispers、laughs 這種行內語氣標籤，念稿子開始有「演出來」的感覺，語氣跟情緒都跟著上來。

Inworld TTS 1.5 Max 靠即時延遲穩坐第二，這一項它是真的領先全場，拿來做即時語音助理和互動應用超合適。Cartesia Sonic 3 同樣因為延遲拿到滿分，所以如果你要做一個必須秒回的語音機器人,這兩個我今天就會先列進候選。

Hume Octave 2 守住第三,情感表現力目前沒人比得上,做有聲書或角色配音,這種細膩就是勝負關鍵。MiniMax Speech 02 HD 跟 OpenAI 的 GPT-4o mini TTS 撐起性價比這一段,其中 OpenAI 對已經在用它生態的開發者來說,還是最好上手的入口。這週名次我全部維持不動。這個市場是靠穩定迭代在往前走,沒有哪一發新聞級的發表把領先者洗牌。真正值得看的,是有沒有對手能在表現力上撼動 ElevenLabs,目前還沒有。

ElevenLabs 靠持續更新守住龍頭

7 月 9 日淘汰 scribe_v1、換上 scribe_v2,代表這平台會維護自己的模型,這也是 v3 穩坐我心中最強表現力引擎的原因。

即時場景是 Inworld 跟 Cartesia 的天下

如果你的應用需要秒回語音,Inworld TTS 1.5 Max 跟 Cartesia Sonic 3 是我會先測延遲的兩個。

Hume Octave 2 情感稱王

做有聲書、角色配音,它的情感層次目前無人能敵,這份細膩值得它拿第三。

OpenAI 是開發者最好上手的入口

GPT-4o mini TTS 性價比分數最高,對本來就在用 OpenAI 的工作流來說可以無痛接上。

Releasebot ↗ ElevenLabs ↗ ElevenLabs ↗