What you say will be what you get

June 10, 2026|---|

各家 Chatbot 的語音模式已經存在好一段時間了，之前都會有壞印象是認為模型雖然速度快但笨。我退訂 ChatGPT 很久了，但我知道它的語音其實還不錯，而 Gemini 語音互動體驗則是一坨答辯。總之是不太常用，還是比較傳統地用文字聊天。

近幾個月正巧點子比較多，即便有語音轉文字的工具可以加快我輸出的速度，閱讀輸入頻寬仍是個瓶頸。索性就點開 Claude 的語音輸入來試試看，結果一聊發現，實際上這功能進步很多耶，而且有特別處理過噪音干擾的問題，我怎麼那麼晚才意識到？

現在我三不五時就把手機拿出來討論發散的想法，像是早上不想進辦公室，okay 那就去附近散步一圈討論工作上的 task 怎麼做再進去（誰在亂講，我才沒有摸魚）。煮飯、週末放風、聚會結束、健身房的跑步機上，全都是適合思考的時機，把雜亂的點子或沒想通的困擾拿出來聊，一個不小心就會聊到 session 的 30 分鐘上限。聊完接著退出語音模式，叫其他模型整理，看是要接著畫 diagram 釐清概念，還是把收斂好的點子寫成 hand-off 文件，讓我交給其他下游的工具處理，似乎沒有什麼不能做的。

我甚至還會先叫下游的 Claude Code 把 claude-mem 存的互動紀錄 dump 出來、丟給上游的 Claude Chat 看過，再接續到語音模式，討論自己的 decision pattern，和 Claude align 我做出行為時的內在動機，最後整理成一份 skills 丟回去給下游的 Claude Code，完成一個循環，是個很有趣的探索過程。

這時突然才意識到為什麼我喜歡語音輸入，因為那是我們與生俱來的能力，比起透過鍵盤、紙筆這種後天習得、效率低的媒介，我們自然會更傾向最省力的方法。當然，現在的語音模式還是有其局限性，它沒辦法像一般對話中畫 excalidraw diagram 或生成 chat.js 圖表之類的 tools，因為 tool calling 太花時間了，尚不適合語音互動這種即時場景，但我認為未來完全有機會辦到，當語音模式說的，就是眼前所見時，那我認為人們對著裝置自言自語將會變成一件習以為常的事，甚至會有以此為主要互動方式的裝置普及，而以現在的趨勢來說，智慧眼鏡是非常適合的載體。

疑這樣上班偷和朋友講電話就不會被老闆抓到了ㄇ！？