體育視頻的內容標註和解析技術研究

在另一篇文章里,他們使用了基於隱馬爾科夫模型(hmm)的統計方法[20].根據足球視頻的特點,選擇主色比率(dominant-color ratio)和運動強度(motion intensity)為提取特徵.他們為進行和暫停分別建立了各自的隱馬爾科夫模型組,依據最大的可能性對足球視頻進行標註.與基於規則的方法相比,這種方法不需要去直接建立複雜的分類規則和確定閾值,而是通過訓練樣本自動學習.實驗結果表明該方法較為有效而且表現穩定,對不同的測試集準確率都在80%以上,平均準確率達到83.5%.

清華大學的ming luo等也以足球為例提出了一個體育視頻分析系統[21].他們的系統根據關鍵幀中場地顏色的比率和物體的大小,將鏡頭分類為遠鏡頭和近鏡頭.此外,對於遠鏡頭,他們觀察到在射門或長傳時,快速的攝像機運動通常會使圖像模糊,從而提出根據幀圖像的模糊度(blur extent)來檢測足球比賽中的這些事件.實驗結果表明算法對射門和長傳事件檢測的查準率為89.3%,查全率為97.2%.

drew d. saur等人使用直接基於mpeg壓縮域的特徵,實現了對籃球視頻內容的自動分析和標註[22].算法首先進行基於壓縮域dc圖的鏡頭分割,然後對每個p幀統計其中運動矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫鏡頭.對於廣角鏡頭,進一步分析其中的攝像機運動,來標註特定的視頻內容,如搶斷,快攻,可能的投籃等.

微軟研究院的y. rui等人提出一種依據計算量較小的音頻特徵來檢測棒球比賽中精彩事件的方法,適用於計算能力有限的環境[23].他們的算法首先是基於機器學習的解說員激動語音識別和棒球擊打聲檢測,然後將這兩者進行機率混合來推斷最終的精彩片斷.與人工標註的精彩片斷進行對比,實驗表明他們的算法能夠達到75%的準確率.

同樣對於棒球,dongqing zhang等通過對比賽中比分和狀態的字幕顯示進行檢測和識別來分析語義事件的發生[24][25],如觸壘得分和最後一投(投手被罰出局).他們使用視頻文本檢測和識別技術分析比賽中的字幕信息.識別結果再進一步利用領域知識模型來提高準確度.

b. li和m. i. sezan對美式橄欖球比賽的電視轉播進行了分析[26].為了濾除比賽視頻中死球的時間,生成更為緊湊的摘要,他們將比賽片斷定義為表現球在運動的視頻片斷,並提出了兩種檢測方法:確定的基於規則方法和機率的基於統計的方法.基於規則的方法,分析了場地顏色,場地標線,攝像機運動和運動員衣服顏色等,然後根據經驗總結的規則,對視頻內容進行判斷.基於統計的方法,使用hmm推斷視頻中的比賽片斷,實驗表明這種方法也是很有效的.兩者相比,前者易於實現和計算,但是需要制定推導規則,而後者則具有一定的學習能力避免了直接設定閾值的困難.

在體育比賽轉播的時候,通常會在精彩事件之後及時穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測重放事件,以及發現之前視頻中相同內容的正常鏡頭,就可以為冗長的體育視頻生成一個令人滿意的精彩索引.

di. zhang針對體育視頻的分析,試圖提出一個一般性的框架[31].為了兼顧效率和準確性,他認為事件的檢測可以分為兩步進行.即基於壓縮域分析的初選階段,和基於對象層次的驗證階段.第一步,選擇一些壓縮域的特徵,如顏色和運動等,通過統計學習的方法實現對事件的初選.第二步,在候選場景中進行對象分割,根據總結的領域規則進行判定,如對於網球比賽的發球鏡頭,圖像中應有大塊場地區域,在下方有小的運動員對象.