一紙文憑

July 12, 2025

約莫是農曆新年附近，教授要我們依據自己的論文主題找要投什麼期刊，必須是 Q1 的，於是憨憨地爬文做份表格和他提議說這刊好像不錯，我要投這個。教授說「OK，很好，但可能不是很好投上。」其實我沒怎麼看 paper（說來心虛但是是真的），當時甚至不知道大家口中的 Q1 到底代表什麼意義。好似只要不知道困難，困難就不存在了。

主題是 Audio Super-Resolution，總而言之是個能夠增強音訊品質的技術。動機完全不是什麼崇高理想，單純就是好酷我也要。剛開始的實驗設計和模型架構還很模糊，正好在那之前的兩個月有篇叫 Mamba 的 sequential model 被發表出來，於是我就在想那是不是可以像是 Vision Transformer (ViT) 那樣把 Transformer 改來做影像處理，結果一個月前正好有人做了能做影像處理的 VMamba。

「為什麼不也改來做音訊處理？」我記得那晚只剩下我一個人窩在實驗室，如獲至寶的我看著螢幕眼睛發亮。原本模糊的想像瞬間變成了清晰的方向，直覺乍現的我看到了道路，雖然還不清楚怎麼做，但我已經知道要做什麼。運氣真的太好了，如果當初排定碩二下出國的話，可能就沒有這麼好的機會了。

於是趁著三月後教授出國，我遊走在實驗室和咖啡廳之間，每天一點一滴地修修改改、加這個加那個，慢慢把整個 pipeline 建起來。只是，開始訓練模型後，發現效果不好，陷入自我懷疑卡關了兩、三個星期。我一直在想，問題是不是因為我嘗試的訓練方式不對？這樣很吃記憶體不是嗎？有效的方法應該要很優雅才對。會不會我正處於「一個錯誤的假設加上狂熱的執行，就是不可避免的災難。」的狀態？於是，我意識到必須打掉重練，重新看了幾篇 related work source code 的實作邏輯，用現有的方法讓自己跳出困境，後來也順利完成的實驗。

算一算論文從二月中起草到六月初正式投稿大約花了 715 個小時，加上後來準備口試、revise 論文，也許總共要 1000 個小時。雖然時數看起來很大，但教授說得對，要做好事情就要每天都做一點慢慢累積，而不是以為臨時抱佛腳就能搞定。我覺得我很幸運的是活在一個網路便利，又有 AI 協作的時代。也很感謝過去的自己有累積基礎的英文寫作能力、Git 和雜七雜八的技能，若不是如此，我不可能有辦法那麼快完成。

Somehow, all my past experiences have helped me in crucial moments. Thanks.

口試後的教授看著我：「我覺得你接了很多計劃幫實驗室賺了很多買碳粉夾的錢，我該讓你畢業。」我：（？啥原來不是因為學術成就嗎哭倒在廁所）

一紙文憑

July 12, 2025

Somehow, all my past experiences have helped me in crucial moments. Thanks.

口試後的教授看著我：「我覺得你接了很多計劃幫實驗室賺了很多買碳粉夾的錢，我該讓你畢業。」我：（？啥原來不是因為學術成就嗎哭倒在廁所）