體育視頻的內容標註和解析技術研究

j. assfalg等認為體育視頻的鏡頭一般可以分為三類:場地,運動員和觀眾[32].場地鏡頭關注體育運動本身,表現為大塊一致的顏色區域和場地線條等.在運動員鏡頭中,運動員作為前景中的物體出現,而背景則變得模糊.在觀眾鏡頭中,個體常常是不清楚的,而觀眾整體可以看作一種紋理.基於這些認識,他們通過邊緣提取,圖形分割和顏色

分析等,對三類鏡頭實現了有效的識別.

n. babaguchi綜合了文本和視覺特徵來對體育視頻中的事件進行檢測[33].文本信息來自於電視信號中的隱藏字幕(closed caption).首先,通過搜尋文本中事件相關的關鍵字,估計事件發生的可能時間段.然後,再對時間段內的鏡頭進行視覺特徵分析,計算與已有的事件例子的匹配度,檢測出事件相關的鏡頭.

3,結構解析

一部視頻中常常包含了成百上千個鏡頭,特別是在體育視頻中.這主要是因為體育比賽電視轉播的時候,會有多個攝像機從不同視角對比賽進行拍攝,它們之間的頻繁切換就構成了鏡頭.為了更好的訪問視頻內容,除了語義標註,還需要對鏡頭進行有效的組織.結構解析的任務就是通過鏡頭組織為視頻數據流建立類似書目的分層瀏覽結構.

以[34][35]為代表,一些研究人員提出了通用的視頻結構分析方法.他們用時間約束的聚類法把視覺上相似和時間上相鄰的鏡頭聚類在一起,再在聚類組的基礎上構造場景轉換圖(scene transition graph)或高層場景,進而形成層次化的瀏覽結構.但是這種統一的結構組織方式(如[34]中將視頻分成幀/鏡頭/組/場景四層)並不適合針對體育視頻的分析,這主要是因為體育比賽都有自己特定結構(如圖1所示),對體育視頻的分析應當結合這種領域知識.

圖1 跳水比賽的樹狀結構

4,總結

綜上對國內外研究現狀的調查,我們有以下結論:

(1)應當結合領域知識進行特徵選擇.領域知識包括比賽相關和製作相關.比賽相關的領域特徵涉及特定的體育運動,如足球比賽中的草色比率,籃球比賽中快攻時攝像機的運動等.製作相關的領域特徵適用於大多數體育視頻的分析,主要來自對體育視頻製作的總結,如精彩場面的重放,有關運動員和比分信息的字幕顯示等.綜合這兩類領域知識,選擇合適的特徵進行分析是取得研究成功的基礎.

(2)多模式融合分析代表了新的研究趨勢.除了視覺特徵外,綜合體育視頻中所包含的音頻特徵和文本信息,能夠有效提高視頻分析的準確度.這也是近年來的研究熱點.在體育視頻中,一個語義事件常常是一個多模式的表達,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲,只對其中一個模式進行分析是不完整的.因此在對體育視頻進行內容分析時,融合多模式尤為重要.

(3)儘量考慮壓縮域的特徵分析.一場體育比賽長達數個小時,其視頻數據也非常龐大,因而提高處理速度是很有意義的,在某些要求實時套用的場合也是必需的.直接基於壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基於壓縮域的分析不僅能夠大幅度降低計算量,同時也能獲得較好的結果,或者作為進一步處理的基礎.

(4)基於統計的事件檢測方法要優於基於規則的方法.早期的研究多採用基於規則的方法.但是,體育視頻中的事件檢測常常需要綜合多種特徵分析手段,需要適應不同的場景.這些都增加了直接設定規則的難度.與之相比,統計算法易於混合多種特徵同時又具備一定的學習能力,因而具有更大的實用價值.