(5)忽略了對事件之間關係的研究.體育比賽中的各種語義事件不是孤立的,它們具有某種因果關係或機率相關.因此綜合多種事件及其之間關係的分析,對於提高分析的精度和深度都是有價值的.
(6)缺乏對體育視頻內容的結構解析.儘管許多文章中提到了體育視頻的結構分析,但是它們對結構的分析主要是基本場景的分解,如[20]中將足球視頻分為比賽進行和暫停,[31]中檢測網球比賽的發球場景.體育視頻的結構,如圖1所示,通常是一個多層的目錄結構.在檢測基本場景的基礎上,需要進一步研究高層結構的解析.據我們所知,這方面的研究還沒有.
(7)沒有一個統一的體育視頻內容分析框架.[31]中提出了一個視頻分析的一般框架,但是他們的系統主要是實現語義事件的檢測,缺乏對視頻結構的充分解析.根據體育視頻的自身特點和套用需要,我們認為視頻分析的過程應該有一個基本的框架,這對於進一步的研究無疑是有意義的.
三,研究目標,內容和擬解決的關鍵技術
本課題的目標是研究體育視頻內容的語義標註和結構解析技術.在實際研究中,我們主要選擇跳水比賽作為研究對象.跳水運動十分富有觀賞性,是我國的奧運優勢項目,深受人們的喜愛.跳水比賽具有一般體育比賽的典型特徵,如層次化的結構,領域相關的語義事件等.通過內容分析技術的研究,最終我們將實現一個面向跳水運動的視頻查詢系統.
如果把視頻也看作一種語言表達,視頻分析在某種程度上與自然語言理解是非常類似的,其目的都是使計算機能夠理解信息的內容,從而實現智慧型化的信息處理.自然語言理解作為人工智慧中的一個重要研究方向,已經有四十多年的歷史了.它對於新興的視頻分析研究必然有很多可以借鑑的地方.通常,自然語言理解將辭彙作為基本的處理對象,包括自動分詞,詞性標註,句法分析等幾個階段.與之類似,由於鏡頭是視頻中具有完整內容表達的最小單位,我們將鏡頭作為體育視頻分析的基本單元,並提出如圖2所示的體育視頻內容分析框架.
圖2 體育視頻內容分析框架
1,鏡頭檢測
與自動分詞類似,鏡頭檢測按照鏡頭為基本單位對視頻流進行分解.鏡頭檢測是視頻內容分析的基礎步驟,很大程度上影響了整個系統的性能.雖然鏡頭檢測是一個一般性的問題,但是在體育視頻中也有其特殊要求:
(1)針對體育視頻數據量大的特點,算法應能實現快速檢測;
(2)在體育視頻中存在大量的運動,算法應能儘量避免由於運動導致的誤判;
(3)作為之後分析的基礎,算法應具有較高的準確性.
2,模式學習和語義標註
鏡頭檢測後的視頻流是一組鏡頭序列.在此基礎上,語義標註通過事件檢測對鏡頭序列進行標註.我們採用基於統計的方法來識別語義事件.識別的時候,首先通過對訓練樣本的學習建立分類器,然後利用這個分類器對鏡頭中的事件進行識別.以下問題需要解決:
(1)多模式提取和選擇領域相關的特徵來表示語義事件;
(2)套用壓縮域分析提高處理速度;
(3)設計一個良好的學習分類模型,實現高準確度的識別;
(4)對鏡頭的標註應當有利於後續的結構分析.
3,文法描述和結構解析
在語義標註之後,結構解析的任務是通過對視頻標註序列的分析,生成體育視頻的層次瀏覽結構.目前,這方面還沒有好的算法.為解決這一問題,我們借鑑自然語言理解中句法分析的思想,根據體育比賽具有較強結構性的特點,使用文法來定義語法規則,提出了基於文法的體育視頻結構解析.在結構解析中引入文法描述,有以下好處:(1)根據文法描述可以按照體育比賽特定結構進行解析;(2)實現了領域知識和具體算法的分離.這樣,只需要引入相應的文法描述,我們可以使用統一的解析器來分析不同類型的體育比賽.關鍵技術包括: