體育視頻的內容標註和解析技術研究

(1)自動生成體育視頻的分層瀏覽目錄;

(2)實際套用中視頻流可能不完整或存在標註錯誤,解析器應具有良好的容錯能力;

(3)對於大數據量的體育視頻,要求結構解析的效率要高.

四,擬採取的研究方法,技術路線及可行性分析

1,基於壓縮域的鏡頭分割算法

體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現在慢鏡重放的開始和結束,識別這種鏡頭邊界是十分有價值的.現有壓縮域算法主要對切變檢測比較成功,而對於漸變的研究不多.我們將綜合壓縮域的dct係數,運動矢量以及宏塊信息等,研究一種有效的漸變檢測方法.

圖3 體育視頻中特定模式的擦變

一般在進行鏡頭邊界檢測的時候,首先從相鄰幀提取合適的特徵,然後比較這些特徵之間的差值,如果差值超過了事先設定的閾值,則認為出現了鏡頭轉換.因此,選取合適的閾值是非常關鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個全局閾值,方法簡單,但是對於漸變不能很好檢測.多閾值法使用多個閾值進行分級判定,如使用較大閾值檢測突變,使用較小閾值檢測漸變.局部閾值法根據局部範圍內的變化情況自動調整合適的鏡頭切分閾值,代表了新的研究趨勢.目前,有關閾值選取的研究仍然是視頻處理中的一個難點.我們將主要基於局部閾值法進行研究.

2,體育視頻中語義事件的檢測

我們將體育視頻中的語義事件分為三類:重放事件,狀態事件和目標事件.重放事件是指體育比賽轉播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀眾感興趣的精彩部分.狀態事件發生在比賽狀態發生變化的時候,如跳水比賽每一輪結束的評分,網球比賽中一局的開始鏡頭等.狀態事件的檢測對於視頻結構的解析有非常重要的作用.目標事件,如跳水比賽中運動員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運動,通常表現為物體及其之間的運動關係.對這三類事件,我們分別採用如下的技術路線:

(1)通過標誌性邊界檢測來識別重放事件

[1]中將重放分為三種類型:重複播放的同一鏡頭;慢動作方式重放的同一鏡頭;同一場景但是由不同攝像機在不同視角拍攝的.直接從內容上比較重放事件和先前視頻鏡頭的相似性來進行分析,是很難識別準確的,尤其對於最後一種重放.

通過對體育比賽電視轉播的觀察,可以發現一般對於精彩片斷的重放都會以一個標誌性的鏡頭切換引入,再以類似的變化結束,如圖3所示.因此對於重放事件的檢測,事實上可以歸結到對這種標誌性鏡頭邊界的檢測,從而簡化問題.我們將主要研究這種方法.

(2)利用視頻文本識別確定狀態事件

狀態事件是和體育比賽的狀態變化直接相關的,而通常在比賽狀態發生變化的時候,電視轉播會在視頻中加入相關字幕提示,如跳水比賽中在運動員入場的時候,會有文字說明運動員姓名和所要做的動作;在一輪比賽結束的時候,會顯示該輪所有選手的得分情況.

根據這個特性,我們提出通過視頻中文本檢測和識別的方法來檢測狀態事件.該方法包括兩個層次.首先,通過視頻文本的檢測[36][37][38][39][40]就可以初步確定狀態事件的出現.然後,我們對檢測的文本進行識別,通過關鍵字的匹配,識別狀態事件的類別.例如,運動員入場的字幕顯示中有關鍵字"round"(輪次),"rank"(排名),"dd"(難度),"total"(總分)等,通過匹配這些關鍵字,就可以判斷當前鏡頭為運動員入場的狀態事件.