學生傑出表現:經四甲黃紹慈社論投稿預測世足

本系四甲 黃紹慈同學投稿工商時報社論獲刊登

「我見我思-世足預測 小數據就夠了」

2018年的FIFA世界盃爆出了不少冷門,尤其是針對德國與韓國的那場比賽,這時候有人便會質疑,所謂大數據分析與機器學習方法是否不管用了?根據資料分析,德國隊非冠軍莫屬,但德國卻在一開始的小組賽輸給了韓國,這是怎麼回事?

首先,我們可以先來想想世界盃的足球賽本身是如何運作:4年舉辦一次,而每位球員的平均年齡為20~32歲之間,也就是說如果這些球員即使一直以來都相當優秀,一生之中最多也只能參加世界盃足球賽3次,顯然對這樣的樣本數來說,用機器學習來預測結果似乎不太適合。最重要的是,許多表現優秀的年輕球員,恐怕無法被記錄進這些數據中。查閱一下2018年世足的進球數統計,進5球的英格蘭球員Harry Edward Kane只有24歲、進4球的比利時球員Romelu Lukaku今年25歲,這些進球數名列前茅的球員都是1990年以後出生的,恐怕在世足史上,只參賽過至多一次。

另外,球員在國家隊的比賽表現和在職業賽上也可能有所不同,也是機器學習的結果和實際不符的其中一個原因。例如最受矚目的梅西,他的足球「過人」技巧最令人為之驚嘆,然而在世界盃的比賽上,並不容易見到他使用這個華麗的技巧,筆者認為即使是王牌球員,也會有風險考量,對梅西來說亦是如此,在代表國家的比賽上傾向選擇比較保守的狀態,而非大秀自己的球技,而這可能並不是那麼適合透過先前的數據來精準地進行預測。

那麼,四年舉辦一次世界盃難道沒辦法預測嗎?其實,用小數據方法或許更適合,也就是用中學時學過的機率方法與統計方法即可;筆者曾在youtube上看過有人特別針對德國與韓國隊的比賽做分析,若假設韓國隊進球的機率是1/3,德國隊進球的機率是2/3,那麼如果韓國隊加強防守,使整場比賽進球數越少,其實越能夠模糊強隊與弱隊之間的差別,並能夠為自己的隊伍增加獲勝的機會,而西班牙對上俄羅斯也是採用類似的方法,在1比1的狀況下撐過延長賽,最後成功使比賽進入12碼罰球的PK戰,而對於兩隊來說PK戰幾乎可以說是兩方勝率各為50%,完全憑的是運氣,假設俄羅斯對上西班牙這場比賽本身的勝率只有30%,那麼透過這個戰術,最終成功讓俄羅斯隊的勝率提高,擊敗實力堅強的西班牙隊並進入前8強。

大數據跟小數據本質上其實並不互相牴觸,只是討論的層面不同罷了,並非預測所有的行為都適合用大數據作分析,選對適合的統計方法才是重點;然而,許多人都誤解了這點,才會認為機器學習無法勝任預測比賽,如果數據大部分並非來自於32強的世足比賽,而是一年舉辦數十次的職業賽,恐怕這些數據本身就不適合用來預測每四年颳起的世足旋風,才不足以滿足這些一日球迷的預期。

(工商時報)

 

 


大數據不管用! 世足應搭配「看不到的表現」

TVBS News

今年世界盃頻頻爆冷門,也讓大家開始討論大數據不正確。專家指出,實際上每一位球員頂多參加3屆比賽,本來樣本數就不夠,加上許多數據來自於職業聯賽,本來不能用在世足賽。想預測比賽得從今年的每一場比賽作分析,而且數據不全然管用,因為球員場上每一個表現不盡然都呈現在數據裡。

4年前德國奪下大力神盃、4年後卻在對上南韓一戰踢到鐵板,與16強說掰掰。東京澀谷這歡欣鼓舞的場面,則是因為日本不僅擊敗哥倫比亞、還踢平了塞內加爾,今年世足賽冷門不斷爆,過去的大數據難道不管用嗎?

球評石明謹:「都是臨時組軍的,就是2、3個禮拜之內的訓練,然後再憑藉自己的天分,因此他每一屆之間就算是同一支球隊,他落差很大,因為已經隔4年了,而且這些球員平常是沒在一起練習的,所以你說他們自己本身的技術特點或是數據可以做參考,其實那是比較沒有意義的。」

不僅球員們多半來自不同球隊,且一位球員平均只能踢世界盃3次左右,樣本數過少,就拿英格蘭球星哈里凱恩來說,這次世界盃踢進了5球,今年也才24歲,還有法國的姆巴佩也踢進3球、今年更是只有19歲,這2人都只參加過一屆世界盃。

世新大學經濟系學生黃紹慈:「大部分的大數據資料來源都是從職業賽來的,就是比方說英超、西甲這些東西來的,那其實他們可能一年舉辦300場、400場比賽,其實他這邊數據跟世足上代表國家隊是不一樣的。」

YouTuber李永樂:「因為加強防守,雙方進球數減少了,相對來講,數學上講弱隊還是可以有較大概率獲勝。」

而這位經濟系畢業生搭配網路影片教學,用數學與概率推敲出德國敗給韓國的可能原因,弱隊加強防守就能縮減與強隊之間的差距。

世新大學經濟系學生黃紹慈:「德國進的機率是2/3,韓國進球機率是1/3,當強隊跟弱隊他的比分數越多的話,越能突顯他們2隊的差異,可是當比分數越少的時候,其實這2隊的差異其實顯得不是那麼明顯。」

球評石明謹:「他這次5次的過人出現在哪一個位置,那在這個位置上面對於進攻是不是具有積極的意義,還是本身是一個浪費時間的行為,所以你要透過整個數據跟比賽的過程交叉比對。」

如果大數據不好用,該怎麼預測誰具冠軍相?資深球評點出其實足球本身「數據」分析度很低。

球評石明謹:「伊朗的球員他站在2名西班牙球員之間,所以這個球就傳不出去,所以他雖然跑到這個位置,他是一個成功的防守,但是他卻拿不到抄截的數據。」

專家點出,足球要注意的反倒是「看不到的地方」。以這場伊朗對上西班牙比賽,這3名伊朗球員擺出陣型,導致西班牙球員無法將球傳給隊友,這3名球員防守正確,但他們卻拿不到任何抄截跟鏟球數據。

球評石明謹:「每一個球員能夠碰到的球的次數大概是2分鐘到2分半鐘,也就是在90分鐘裡面每一個球員大概有87分鐘都是沒有球的狀態,可是我們要怎麼去統計這個沒有球的狀態之下這個球員在做甚麼事情,可能是這個數據更重要的。」

數據搭配場上球員每一個表現才能綜合性分析,不過天才型球員則另當別論,例如法國的姆巴佩。

華夏科大副教授蔡尚明:「現在的足球賽講求的就是速度、個人的技巧,姆巴佩剛好合乎這2個條件。至於英國平均起來球員他們都是年輕,而且他們裡面沒有特別的大牌,球隊裡面每一個人都是球星,他才更有機會邁向最後的冠軍之路。」

至於英格蘭表現平均而穩定、團體作戰很成功,專家看好大力神盃將上演英法大戰。不過BBC也有不同看法,他們在一開始做了這樣分析,認為8支種子球隊較有機會奪冠,但主辦國奪冠機率低,刪除俄羅斯,波蘭一場比賽失球1.4分防守較差,再刪除;再來過去歐洲奪冠機會高,再刪去巴西、阿根廷,而葡萄牙相對之下門將較弱,因此剩下法國、德國、比利時,而過去國際賽經驗法國較少,世界盃也很難有冠軍連霸,結果最後今年應該是獎落比利時。

各種數據分析五花八門,就看您相信哪一種了。