一,開展本課題研究的意義
近年來,數字視頻的套用日趨廣泛.諸如視頻點播,數位電視,數字圖書館,視頻會議,遠程教育等等,已經為越來越多的人所接受和熟悉.面對大量湧現的視頻數據,如何找到所需的視頻信息就成為一個急需解決的問題.
簡單的視頻名查詢和類似錄像機的播放功能已不能滿足人們的需要.正如一本書通常會有目錄和索引幫助人們迅速瀏覽和查詢內容,一部視頻同樣需要有效的目錄和索引.傳統的方法需要由人對視頻內容進行標註,十分費時費力.尤其是當視頻資源的數量達到海量級,或是處理的速度要求接近實時的時候,完全採用人工的方法都會遇到難以克服的困難.為了解決這一問題,九十年代以來,出現了基於內容的視頻分析和檢索[1][2][3].其核心就是通過對視頻內容進行計算機分析理解,建立結構和語義索引,以方便用戶檢索.
巨大的商業前景和重要的學術價值,吸引了來自於業界和學術界不同領域的研究人員在這一問題上開展研究.一些原型系統先後被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡內基梅隆大學的informedia[7],哥倫比亞大學的videoq[8]等.這些努力最終促成了國際標準——mpeg-7(多媒體內容描述接口)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內容的機器理解,即難以建立底層特徵與高層語義的聯繫.同樣的難題困擾了人工智慧領域多年.一般認為,尋找通用的解決方法是異常艱難的.因此,一些研究轉而專注於解決特定領域的套用問題,如新聞,電影等.在這些特定領域,結合相應的領域知識,是可能將底層特徵與高層語義建立某種聯繫的.
體育視頻,即體育比賽的電視轉播,作為一個重要的套用領域,一直備受關注.體育比賽一般很漫長,但對於大多數觀眾來說,真正關心並有可能反覆觀看的只是其中的一小部分.例如一場跳水比賽常常需要持續幾個小時,而其中的精彩部分——運動員從起跳到入水的過程卻只有短短几分鐘.人們需要一種方便快捷的手段來訪問體育視頻的內容.
與其他視頻相比,體育視頻具有自己的特點.首先,體育視頻中存在一些領域相關的語義事件,如跳水比賽中運動員的跳水,足球比賽中的射門等.這些語義事件往往是視頻中最有價值的部分,需要進行標註以便於檢索.其次,體育比賽一般有較強的結構性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便於對視頻內容的瀏覽,原始的視頻數據應按這些結構進行解析並組織成層次目錄.本課題的目標就是研究針對體育視頻內容的語義標註和結構解析技術.
儘管限於當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價值的,此外我們的研究也將為最終的全面解決奠定基礎.除了學術上的意義,本課題的研究還可以有以下一些直接的套用:
1,視頻資料庫:適用於各類體育專業人士或愛好者對收集的體育比賽視頻資料進行查詢,瀏覽和管理.目前,我們已申請到國家體育總局的科研項目——跳水訓練圖像分析軟體系統研製.通過對跳水比賽視頻的內容標註與解析,能夠方便快捷的實現一個典型動作的視頻資料庫.
2,web多媒體發布:適用於新聞或者體育網站在web上及時發布體育多媒體信息.今天,已經有越來越多人的習慣於從網上獲取最新的資訊.基於我們的技術,可以在第一時間采編和發布綜合圖文和視音頻在內的體育多媒體信息.