(3)融合視音頻雙模式的目標事件檢測
在目標事件中,往往存在顯著的運動和音頻特徵,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特徵不能完整描述語義事件的不足,可以有效提高識別精度.
在進行識別的時候,我們採用混合隱馬爾科夫模型和支持向量機的方法[41].支持向量機能夠在小樣本條件下,通過結構風險最小化準則,實現有效分類.但是支持向量機只是靜態分類機,不能很好模擬時序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機時序數據的識別,但是並不能保證訓練好的模型能夠良好的分類未知數據.這樣,將兩者混合起來使用,通過在隱馬爾科夫模型中引入靜態數據識別良好的支持向量機,能對視頻流數據取得最佳的識別效果.
3,語法制導
的結構解析
為了對輸入的體育視頻數據進行結構解析,首先我們需要對該類體育比賽的文法規則進行描述.喬姆斯基(chomsky)把文法分成4種類型,即0型文法(或稱短語文法),1型文法(或稱上下文有關文法),2型文法(或稱上下文無關文法)和3型文法(或稱正則文法).型號越高所受約束越多,對語言的描述能力也就越弱.
我們使用上下文無關文法對體育比賽的結構進行描述,主要是基於以下考慮:(1)上下文無關文法完全可以勝任對體育比賽樹狀結構的描述;(2)上下文無關文法在自然語言理解,句法模式識別,編譯技術等領域有廣泛的套用,技術比較成熟;(3)基於上下文無關文法的解析器不僅可以為視頻有效生成層次瀏覽樹,而且具有較強的錯誤處理能力.
其中終結符r,b,e,u分別表示一輪比賽的結束,選手比賽開始,選手比賽結束和一般鏡頭,非終結符和為結構單元,分別代表每輪比賽和每個選手的比賽.對於語義標註序列"buuuuuuuebuuuuuuuueeur",使用文法分析器進行解析得到它的層次結構"[[buuuuuuue][buuuuuuuue]eur]".其中序列最後"r"前面的"eu"為錯誤標示,可以用錯誤恢復策略進行處理(例如,在發現終結符不能匹配時,彈出該終結符並發出警告).由於視頻序列在進行基於統計的語義標註時,存在某種程度的不確定性.所以錯誤處理應當結合語義標註的確定度來進行.如果出錯標註本身的確定度比較低,則可以認為該標註有錯;如果出錯標註的確定度比較高,則可以認為錯誤發生在它的前面.
以上,我們通過基於壓縮域的鏡頭分割,語義事件的檢測和語法制導的結構解析實現了體育視頻的內容標註和解析.雖然我們主要以跳水視頻為例進行分析,但是其中的技術完全可以套用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,儘管限於當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是通過有效的人機互動和建立套用相關的模型,新的技術將可以面對視頻信息大量湧現的挑戰,給人們帶來更加豐富和方便的體驗.
五,預期研究成果及創新之處
一個壓縮域鏡頭邊界檢測的有效算法
體育視頻中慢鏡重放的檢測方法
基於壓縮域的視頻文本檢測和分割
體育視頻中狀態事件的識別
視音頻融合的事件檢測
基於文法的體育視頻結構解析
一個通用的體育視頻內容分析框架及其系統實現
六,已有工作基礎
1,已有資源: