體育視頻的內容標註和解析技術研究

3,個人移動業務:適用於無線服務提供商為個人提供定製的多媒體訊息服務(multimedia message service,簡稱mms).我們的內容標註和解析技術,可以為冗長的體育視頻生成摘要,從而可以根據用戶的個人喜好和終端能力,向移動設備傳送體育多媒體訊息.

二,國內外研究現狀分析

國際上對於體育視頻的研究是從90年代中期開始的,屬於視頻檢索領域的一個子課題.與新聞視頻領域取得的成功相比[9][10][11],體育視頻的研究相對較少也更為困難.這主要是因為新聞視頻有一個基本一致的時域結構和場景語義,即先是播音員鏡頭,然後是新聞報導,最後再回到播音員鏡頭進行下面的新聞報導,而對於體育視頻則不存在這樣統一的結構和語義.目前體育視頻的研究尚處於初期探索階段,對於其過程和方法還沒有統一的結論,也還沒有可以投入實用的系統.

1,鏡頭檢測

通常在對體育視頻進行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結構單元.為了將鏡頭分割出來,需要進行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時,鏡頭直接切換到下一個;漸變時,從一個鏡頭到下一個鏡頭會有一個持續多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現後一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時,後一鏡頭的幀逐漸增強,並且產生前後幀圖像的重疊.擦變表現為後一鏡頭幀圖像的區域逐漸變大把前一鏡頭的圖像擦掉.

鏡頭檢測的關鍵問題是如何區分鏡頭之間的切換和因為攝像機或物體運動造成的鏡頭內變化.由於這個原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來更多的研究集中到對漸變的分析.

鏡頭檢測的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測算法進行了實驗評價.與非壓縮域的方法相比,基於壓縮域的方法不需要對視頻編碼流進行解碼,而是直接使用如dct係數,運動矢量,宏塊(macroblock)信息等壓縮域特徵進行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數據是以壓縮格式(如mpeg)存儲的,因此基於壓縮域的方法往往具有更大的實用價值.

2,語義標註

所謂語義標註,是指對體育視頻中的語義事件進行檢測和標註,其實質就是依據事先定義好的類別對視頻片段進行識別.當前,國內外對體育視頻研究實際上主要集中在這個方面,下面介紹一下相關工作.

y. gong等首先提出了對足球比賽視頻的分析[18].他們結合足球比賽的領域知識,通過場地白線識別,攝像機運動檢測,足球和運動員檢測等分析,對視頻內容進行推斷,包括處在球場什麼位置,射門,角球等.例如,如果場景接近球門區域而且足球有一個向球門的運動,則可以推斷這是一個射門.實驗結果表明,系統對於球場位置的識別較為準確,達到90%,但是射門和角球的識別率只有53%,這主要是因為高速運動和遮擋關係,使得足球的檢測較為困難.

哥倫比亞大學的peng xu等觀察到足球比賽可以劃分為兩種狀態:進行和暫停(如因為球在界外或裁判暫定比賽).他們開發了一個能夠檢測視頻中的足球比賽是在進行還是暫停的系統[19].該系統對足球視頻分析分為兩步.首先,根據顏色分析得出每一幀中的草地顏色比率,使用這個特徵將幀標註為三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測的時候,算法可以對草色和分類決策進行學習和自動調整.接著,在對視頻幀進行上述分類標記後,根據經驗總結的規則(如全景一般是比賽進行,特寫一般是比賽中斷等)判斷比賽是在進行還是暫停了.實驗使用了四段來自不同足球比賽的五分鐘片斷,檢測準確率最好達到86.5%,最壞只有67.3%.

第1頁第2頁第3頁第4頁第5頁第6頁第7頁第8頁