Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6131

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the insert-headers-and-footers domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6131

Notice: Undefined index: options in /var/www/data/wp-content/plugins/elementor-pro/modules/theme-builder/widgets/site-logo.php on line 194
人工智慧再進化,開啟電腦新「視」界 ! │ 研之有物 - 中央研究院電腦視覺研究

人工智慧再進化,開啟電腦新「視」界 !

為什麼要研究「電腦視覺」?

「電腦視覺 ( computer vision )」是研究怎麼讓機器「看」這個世界。在相機、手機、監視器、行車紀錄器等設備無所不在的今天,人類社會中的視訊資料量,前所未有地巨大。中研院資訊所特聘研究員廖弘源與團隊,教電腦懂得偵測、識別、分析這些影像訊息,進而做出判斷或行動,如此可衍生各種重要的應用,如人臉辨識、物件偵測、車輛追蹤、街景分析等。
研究電腦視覺及機器學習,設法讓電腦變聰明的廖弘源博士。攝影:張語辰 圖說設計:黃楷元
研究電腦視覺及機器學習,設法讓電腦變聰明的廖弘源博士
攝影|張語辰     圖說設計|黃楷元

教電腦看世界 特徵辨認第一課

輕按快門,相機可以快速找到人臉對焦;機場快速通關窗口,機器能在幾秒鐘之內認出你是誰;裝一台攝影機,就可以計算某段時間內有多少人車經過……「電腦視覺」加上「機器學習」技術的進步,讓我們的生活更加安全及便利。

不過,電腦可不是一開始就這麼聰明的。

電腦「看」世界的方式,和你我很不一樣。在我們眼中,一張圖畫裡可能有人物有風景。但在電腦「眼」中,卻只是大量數字,每個數字代表的是對應像素 (pixel)的灰階或顏色強度。

當「人眼看世界」時,可以有邏輯地思考、解釋眼前的人事物
資料來源|廖弘源
但「電腦看世界」時,一棟建築或一個碼頭,在電腦眼中只是一堆像素、或一串位元。 資料來源|廖弘源
但「電腦看世界」時,一棟建築或一個碼頭,在電腦眼中只是一堆像素、或一串位元
資料來源|廖弘源

中央研究院資訊所特聘研究員廖弘源,窮畢生之力,都在教電腦怎麼「看」世界:從 0 與 1 組合成的數位世界中,找出各種「特徵」、並據此識別出特定的物件,進而判斷視訊資料的意義。

比方說,媽媽今天燙了個捲捲頭回家,爸爸可能會一時之間認不出來,但電腦依然能辨認這位捲髮女士是媽媽,因為五官並沒有改變。廖弘源和研究團隊在 2001 年發表的論文,探討此一問題,證明「五官特徵」才是電腦辨識人臉的依據,而非五官之外的髮型、衣著、首飾等,此知識讓業界的臉部辨識系統發展地更精準,也成為這領域近廿年來必讀的文獻之一。

以「識別」與「比對」為核心,電腦視覺延伸出很多用途。廖弘源和研究團隊廿多年來開發出了多項創新技術,像是人臉和車牌的辨識系統,現在已是治安保全的重要利器;而數位檔案加上「雞尾酒浮水印」,則可以防範辛苦的智慧結晶被盜用。

妙手回春 老相片老電影重獲新生

2006 年起,廖弘源接手另一項艱難任務:「數位典藏與數位學習國家型科技計畫」。面對龐大的數位典藏檔案,首要工作就是快速有效地判讀、註解、並擷取多媒體內容。多媒體資料不只圖片,還包括影片。影片等於是一秒鐘 30 張圖片串接在一起,再加上聲音,資訊量非常龐大,因此分析難度,跟簡單的圖片不可同日而語。

另外一個大難題是,許多珍貴的老膠捲,有的被蟲蛀、有的甚至發霉了,眼看就要損毀。還好,廖弘源研究團隊成功打出一記「還我漂亮拳」!一連串視訊篡改 ( video inpainting ) 的研究,應用在數位修補技術上,成功幫受損的照片或影片「回春」。

先要能「篡改」,才有能力「修復」。

什麼是視訊篡改?目的不是要捏造不存在的歷史、或是製造虛構的畫面,但透過「無中生有」的原理,卻可以還原已經被破壞的元素。像下圖照片所示,原本斑駁陳舊,但電腦程式可以自動擷取摺痕周邊的影像資訊,用類似「模擬」的方式,產生出原本不存在於照片上的元素,把缺損給填補起來。

充滿歲月痕跡的老照片 (左),按一個鍵,色調不再泛黃、摺痕也消失無蹤 (右)。 資料來源|廖弘源圖說設計|黃楷元
充滿歲月痕跡的老照片 (左),按一個鍵,色調不再泛黃、摺痕也消失無蹤 (右)
資料來源|廖弘源     圖說設計|黃楷元

要修補動態的影片更加困難,廖弘源團隊做出了領先世界的創新研究,採用一種 ISOMAP 技術,以非線性的方式降低維度,不但減少了影片資料運算所需的記憶容量,還能用空間的轉換,填補上被破壞的片段,讓動作看起來自然而連續。許多發霉的老膠捲、經典電影或相片,在這項技術之下,重獲新生。

人連續的動作,經過 ISOMAP 技術進行轉換後,連結連續姿態變化的軌跡。資料來源|廖弘源 圖說設計|黃楷元、張語辰
人連續的動作,經過 ISOMAP 技術進行轉換後,連結連續姿態變化的軌跡
資料來源|廖弘源     圖說設計|黃楷元、張語辰

人工智慧當道 電腦視覺技術突飛猛進

以上所有研究與技術,在 2012 年遇到了一個重大分水嶺,那就是「深度學習 ( deep learning )」技術的應用。這是一種類神經網絡研究,也就是用數學模型去模擬生物中樞神經的結構和功能。

早期,這樣的研究受限於電腦運算速度,隨著電腦效能大幅提升,深度學習的成熟也一日千里。日前喧騰一時的 Google Alpha Go ,就是藉由輸入了無數的棋譜讓電腦進行深度學習,選出最可能獲勝的落子位置,逐一擊敗各國頂尖職業圍棋選手。

而在電腦視覺領域的國際盛會──大規模視覺辨識競賽 ( Large Scale Visual Recognition Challenge, ILSVRC ) ,主辦單位提供 1000 類超過 120 萬張的影像,讓參賽團隊設計的程式去判斷類別。 2010 年首次舉辦時,表現最佳的系統錯誤率仍高達 28% 。但來到分水嶺的 2012 年,透過深度學習技術,錯誤率大幅降低到 16% 。 2015 年更是一舉突破人類極限,錯誤率達到 3.7% (人眼辨識的極限是 5% ),正式宣告,電腦視覺比人類更精準的時代來臨。

廖弘源的研究團隊,也著力於此,開展了兩項創新的研究。第一個,是「籃球進攻戰術分析」。電視轉播的球賽,常聽球評或教練,戰術分析得頭頭是道,未來,透過深度學習,可以讓電腦直接從比賽的影片中,球員跑動的軌跡,就判讀出這一波進攻是打什麼戰術。

電腦先擷取球賽的片段,辨認出移動的球員 (上圖),然後轉換成平面,測量移動的軌跡與速度 (中圖),最後,透過數學函數的分析,比對資料庫,找出相符的戰術 (下圖)。 資料來源|廖弘源圖說設計|黃楷元
電腦先擷取球賽的片段,辨認出移動的球員 (上圖),然後轉換成平面,測量移動的軌跡與速度 (中圖),最後,透過數學函數的分析,比對資料庫,找出相符的戰術 (下圖)。
資料來源|廖弘源     圖說設計|黃楷元

另一個研究則是「演唱會片段自動拼貼 ( mashup )」。一場演唱會,可能有數百個粉絲,從不同角度、不同距離,拍下了不同片段,上傳到 YouTube 上。那麼,有沒有可能,讓電腦自動挑出這些片段,然後重新剪輯成高品質的完整演唱會影像呢?這項大工程有許多問題,等著廖弘源研究團隊一一克服。

他們先用深度學習技術,讓電腦分辨影像中的不同物件 (歌手、舞台、樂器、觀眾等),接著再用另一套模式 ( Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM ) 對影片的每一個鏡頭進行分類,辨認出是遠景、中景、近景、或是特寫。然後還要比對音訊,整理出影片的正確時間順序。最後,才依照順序、分鏡邏輯、和情緒鋪陳,組合出最佳的影片。

不同角度、不同距離、不同段落的演唱會影片,混搭拼貼成完整的演出視訊。 資料來源|廖弘源 圖說設計|黃楷元
不同角度、不同距離、不同段落的演唱會影片,混搭拼貼成完整的演出視訊
資料來源|廖弘源     圖說設計|黃楷元

為了「教」電腦分析這些資訊,廖弘源笑稱,研究團隊看了無數的籃球影片,從不會打球變成了戰術大師;看了幾百場演唱會,也讓團隊從音痴變身成音樂總監。受訪時,廖弘源神采奕奕地談著這些研究,言談中除了對研究團隊感到自豪,更多的是一種身為「科學家」的使命感,強調無論做什麼研究,要當具有開創性的「科學家」,而不只是依循既定方法的「工程師」。

人類持續進步,電腦也是。我們過去總認為,電腦是工具,只能幫我們處理機械化的工作。但廖弘源博士兩個最新研究之中,都包含著非常複雜的深度學習運算技術,若研發成熟後,人工智慧在影片處理上的技巧,將會突飛猛進。或許,「電腦藝術家」誕生的一天,指日可待!

2017-04-11

採訪編輯|黃楷元
美術編輯|張語辰

延伸閱讀

訂閱電子報

立即訂閱研之有物電子報,一起探索這世界