一紙文憑
約莫是農曆新年附近,教授要我們依據自己的論文主題找要投什麼期刊,必須是 Q1 的,於是憨憨地爬文做份表格和他提議說這刊好像不錯,我要投這個。教授說「OK,很好,但可能不是很好投上。」其實我沒怎麼看 paper(說來心虛但是是真的),當時甚至不知道大家口中的 Q1 到底代表什麼意義。好似只要不知道困難,困難就不存在了。
主題是 Audio Super-Resolution,總而言之是個能夠增強音訊品質的技術。動機完全不是什麼崇高理想,單純就是好酷我也要。剛開始的實驗設計和模型架構還很模糊,正好在那之前的兩個月有篇叫 Mamba 的 sequential model 被發表出來,於是我就在想那是不是可以像是 Vision Transformer (ViT) 那樣把 Transformer 改來做影像處理,結果一個月前正好有人做了能做影像處理的 VMamba。
「為什麼不也改來做音訊處理?」我記得那晚只剩下我一個人窩在實驗室,如獲至寶的我看著螢幕眼睛發亮。原本模糊的想像瞬間變成了清晰的方向,直覺乍現的我看到了道路,雖然還不清楚怎麼做,但我已經知道要做什麼。運氣真的太好了,如果當初排定碩二下出國的話,可能就沒有這麼好的機會了。
於是趁著三月後教授出國,我遊走在實驗室和咖啡廳之間,每天一點一滴地修修改改、加這個加那個,慢慢把整個 pipeline 建起來。只是,開始訓練模型後,發現效果不好,陷入自我懷疑卡關了兩、三個星期。我一直在想,問題是不是因為我嘗試的訓練方式不對?這樣很吃記憶體不是嗎?有效的方法應該要很優雅才對。會不會我正處於「一個錯誤的假設加上狂熱的執行,就是不可避免的災難。」的狀態?於是,我意識到必須打掉重練,重新看了幾篇 related work source code 的實作邏輯,用現有的方法讓自己跳出困境,後來也順利完成的實驗。
算一算論文從二月中起草到六月初正式投稿大約花了 715 個小時,加上後來準備口試、revise 論文,也許總共要 1000 個小時。雖然時數看起來很大,但教授說得對,要做好事情就要每天都做一點慢慢累積,而不是以為臨時抱佛腳就能搞定。我覺得我很幸運的是活在一個網路便利,又有 AI 協作的時代。也很感謝過去的自己有累積基礎的英文寫作能力、Git 和雜七雜八的技能,若不是如此,我不可能有辦法那麼快完成。
Somehow, all my past experiences have helped me in crucial moments. Thanks.
/
口試後的教授看著我:「我覺得你接了很多計劃幫實驗室賺了很多買碳粉夾的錢,我該讓你畢業。」 我:(?啥原來不是因為學術成就嗎哭倒在廁所)