發佈日期 : 2024/12/13

深度學習技術再創新!麗臺繪圖卡助力北科大圖像生成研究


圖:國立臺北科技大學

AI深度學習技術在各個領域廣泛應用,特別是在圖像生成的領域,藉由指導電腦以受人腦啟發的方式來處理資料,做到辨別圖片、文字的複雜模式。國立臺北科技大學計算機圖學實驗室研究團隊,以中文字體手寫生成模型和Stable Diffusion作為深度學習在圖像生成領域的兩個重要應用,展示了其在字體設計和影像生成方面的創新性。

中文字體手寫生成模型

中文字體手寫生成模型透過深度學習的方式,先把自己的字寫給AI訓練,就能透過一小部分的手寫字體樣本,建置出一套屬於自己的完整字體,並用於文書處理應用程式。當應用在設計行業,設計師需要快速且一致的產出手寫字體時,透過中文字體手寫生成模型,可以更輕鬆地用於更多的場合。

圖:國立臺北科技大學計算機圖學實驗室研究團隊,運用深度學習的方式,訓練AI產出一套完整的手寫字體

以最傳統的作法來說,生成一套完整的字體需要手工設計,並且逐一創建每個字符,過程耗時又昂貴,也常發生缺字的情況。而隨著科技的進步,不使用深度學習模型打造出一套字體也需要寫1萬多字,近期透過中文字體手寫生成模型需要寫30幾個字,就能創建出自己的一套字體,效率提升300倍。

圖:國立臺北科技大學計算機圖學實驗室研究團隊,研究生王俞喬同學

在樣本的蒐集上,北科大研究團隊分享:「可以寫在紙本再掃進電腦,或是用電繪版直接寫,而且不用讓AI辨識這是什麼字,在輸入的時候就可以確認,這除了能提高字體設計的效率,也能為更多人提供客製字體的機會。」

Stable Diffusion提示詞研究專案

Stable Diffusion模型的研究則致力於提高圖像生成的效率,透過影像分析模型,研究Stable Diffusion模型在不同提示詞組合下是否正確生成圖片,進而幫助用戶生成準確的影像。北科大研究團隊表示:「提示詞研究除了能讓使用者生成圖片更準確,也能讓開發者測出模型的正確率,判斷出每個提示詞被忽略的機率,以及哪些提示詞搭配時的準確率會變高。」

大多數情況下,使用者或開發者以直觀方式判斷圖片生成結果的好壞,並嘗試多種不同的種子和參數值直到結果滿意。然而,北科大研究團隊通過創建圖表,顯示在不同提示詞的排列組合下,Stable Diffusion模型生成效果的準確性,更利用提示詞來檢查圖片是否正確生成,並反向餵給AI圖片以測試其生成正確提示詞的能力,這種雙向驗證方法進一步提高了圖像生成的精確性和可靠性。

圖:國立臺北科技大學計算機圖學實驗室研究團隊,研究生梁佑駿同學

北科大研究團隊表示:「這項研究不僅可應用於AI圖形研究,還能用於檢測訓練資料,識別過於單一或缺乏某類型素材的問題,進一步優化模型訓練。」這種方法有助於提高圖像生成模型的準確性和效率,為圖像生成領域帶來更多可能性。

北科大研究團隊面臨顯示卡資源不足的困擾

面對日益龐大的模型,在這兩項專案上,北科大研究團隊也遇到顯示卡資源不足的困擾,目前北科大提供NVIDIA V100 GPU雲端資源讓校內同學使用,但由於公共資源的使用需要排隊,也會有連線不穩定的情況,使得訓練時間變長,執行中文字體手寫生成模型的王同學說:「顯示卡的效率會影響執行手寫字體的訓練,期望透過更少量的手寫字體樣本,生成完整的手寫字體。」

執行Stable Diffusion提示詞研究專案的梁同學則表示:「由於需要讓Stable Diffusion生成大量圖片作為分析模型的訓練資料,需要較大的記憶體及運算速率,以目前使用的顯示卡來說,沒辦法生成1024*1024以上的圖片,不過採用NVIDIA RTX A4500後改善了生成效率,可以產出尺寸達1500*1500的圖片,增加訓練的效率。」

對此北科大研究團隊表示:「當初決定NVDIA RTX A4500 20GB、NVDIA RTX A2000 12GB,是因為使用是記憶體大小及運算速率的考量,NVDIA RTX A4500 20GB、NVDIA RTX A2000 12GB都具備比較大的記憶體,可以幫助專案在本機端測試訓練模型,帶來更多方便性。」

麗臺NVIDIA RTX A4500專業繪圖卡

圖:麗臺NVIDIA RTX A4500

NVIDIA RTX A4500搭載最新NVIDIA Ampere GPU與7,168 NVIDIA CUDA核心,其20GB GDDR6記憶體及高達640GB/s記憶體頻寬,能夠以更高的像真度和更強的互動性處理更大的模型、渲染、資料集和場景,讓您的工作更上一層樓。兩張NVIDIA RTX A4500卡透過NVLink相連,能更有效地擴展記憶體空間,應用於大型專案,每秒頻寬最高 112 GB,還提供 40GB GDDR6 組合式記憶體,可處理需耗費大量記憶體的工作負載。

麗臺NVIDIA RTX A2000專業繪圖卡

圖:麗臺NVIDIA RTX A2000

NVIDIA RTX A2000搭載最新NVIDIA Ampere GPU與3,328 NVIDIA CUDA核心,其支援ECC功能 6GB/12GB 記憶體及高達288GB/s記憶體頻寬,憑藉強大的低結構雙插槽 GPU 設計,提供可徹底改變工作流程的即時光線追蹤和加速人工智慧技術,以創造出擬真的概念、執行人工智慧擴增應用程式,更支援主要的創作和設計應用程式,為專業工作流程提供更高水準的能力和效能。

而用戶最在乎的售後問題,麗臺提供獨家3年保固,並成立全球GPU技術咨詢中心,讓各行各業使用者享有最專業且安心的服務及AI運算效能。