What you say will be what you get
各家 Chatbot 的語音模式已經存在好一段時間了,之前都會有壞印象是認為模型雖然速度快但笨。我退訂 ChatGPT 很久了,但我知道它的語音其實還不錯,而 Gemini 語音互動體驗則是一坨答辯。總之是不太常用,還是比較傳統地用文字聊天。
近幾個月正巧點子比較多,即便有語音轉文字的工具可以加快我輸出的速度,閱讀輸入頻寬仍是個瓶頸。索性就點開 Claude 的語音輸入來試試看,結果一聊發現,實際上這功能進步很多耶,而且有特別處理過噪音干擾的問題,我怎麼那麼晚才意識到?
現在我三不五時就把手機拿出來討論發散的想法,像是早上不想進辦公室,okay 那就去附近散步一圈討論工作上的 task 怎麼做再進去(誰在亂講,我才沒有摸魚)。煮飯、週末放風、聚會結束、健身房的跑步機上,全都是適合思考的時機,把雜亂的點子或沒想通的困擾拿出來聊,一個不小心就會聊到 session 的 30 分鐘上限。聊完接著退出語音模式,叫其他模型整理,看是要接著畫 diagram 釐清概念,還是把收斂好的點子寫成 hand-off 文件,讓我交給其他下游的工具處理,似乎沒有什麼不能做的。
我甚至還會先叫下游的 Claude Code 把 claude-mem 存的互動紀錄 dump 出來、丟給上游的 Claude Chat 看過,再接續到語音模式,討論自己的 decision pattern,和 Claude align 我做出行為時的內在動機,最後整理成一份 skills 丟回去給下游的 Claude Code,完成一個循環,是個很有趣的探索過程。
這時突然才意識到為什麼我喜歡語音輸入,因為那是我們與生俱來的能力,比起透過鍵盤、紙筆這種後天習得、效率低的媒介,我們自然會更傾向最省力的方法。當然,現在的語音模式還是有其局限性,它沒辦法像一般對話中畫 excalidraw diagram 或生成 chat.js 圖表之類的 tools,因為 tool calling 太花時間了,尚不適合語音互動這種即時場景,但我認為未來完全有機會辦到,當語音模式說的,就是眼前所見時,那我認為人們對著裝置自言自語將會變成一件習以為常的事,甚至會有以此為主要互動方式的裝置普及,而以現在的趨勢來說,智慧眼鏡是非常適合的載體。
疑這樣上班偷和朋友講電話就不會被老闆抓到了ㄇ!?
