數字一大堆總不知該如何表達?這張圖馬上搞定「巨量」數據

大數聚
20180412
1045 Views

原文出自「堆積圖表界的翹楚!河流圖如何搞定「巨量」數據」,作者陳淑晶,本文獲鏑次元數據授權轉載,未經同意請勿轉載
從折線圖到面積圖再到河流圖

折線圖是我們在數據可視化過程中常見的圖表,當我們把折線與軸的圍起的區域塗上顏色,變成了面積圖,這時候兩種圖表的意義就不一樣了。當把單色的面積變為多色的面積,就出現了不同類目的比較意義,且區別於條形圖,具有連續比較的意義。繼續往下進化,就出現了河流圖,那麼什麼是河流圖呢?
河流圖(Streamgraph),有時候也叫做「主題河流圖」(ThemeRiver),是堆積面積圖的一種變形,通過「流動」的形狀來展示不同類別的數據隨時間的變化情況。但不同於堆積面積圖,河流圖並不是將數據描繪在一個固定的、筆直的軸上(堆積圖的基準線就是x軸),而是將數據分散到一個變化的中心基準線上(該基準線不一定是筆直的)。

由河流圖的組成圖可以看出,河流圖用顏色區分不同的類別,或每個類別的附加定量,流向則與表示時間的X軸平行。每個類別的對應數值則是通過 「河流」的寬度展示出來。每個類別的數值變化就會形同一條粗細不一的小河,匯集、扭結在一起,河流圖也因此而得名。
以下圖為例,作品《音曲繁美》就採用了這種河流圖,它每一條的寬窄代表了音樂在特定年代流行的程度,用不同的顏色去區分不同的音樂,圖表最後形成水流狀的樣子。

既然河流圖是堆積面積圖的變形,那麼與堆積面積圖相比,河流圖具有哪些不同呢?
在我們之前的推送中,也和大家分享過堆積面積圖的一些特點,比如不建議堆疊面積圖中包含過多數據系列,最好不要多於7個,以免數據難以辨識。然而,較於堆積面積圖,河流圖在展示多類別及波動幅度大的數據時,可讀性更強,外表也更美觀。
這條歷史的大河才剛成年
2008年2月,《紐約時報》發佈了一個最典型、最著名的河流圖的例子《電影的衰退和流動:過去20年的電影票房收入》,描述了從1986年1月到2008年2月期間,所有電影的上映時間以及期間的周票房變化。在這個河流圖中,流形狀的寬度代表了某部電影的周票房,流形狀的起始是由電影的上映時間決定的。顏色由電影的總票房決定,票房就是電影的「附加定量」,顏色越深代表了電影最終票房越高。

我們可以看到,從2007年4月中旬到7月,是高票房電影集中上映的時間,《蜘蛛俠3》、《加勒比海盜:世界的盡頭》、《史瑞克3》等電影都獲得非常高的票房收益,上映時間也幾乎持續了3個月。但事實上,為了避免票房爭奪,這段時間上映的電影數量不多,等到7月開始,大熱電影檔期結束,電影數量才多了起來。

利用交互技術,我們可以把鼠標移動到某一個流形狀上,突出顯示它的具體信息。同時,《紐約時報》把這個河流圖做得相當「長」,拖動滾動條可以發現,縱觀20年,匯入電影歷史長河的「小河」越來越多,電影的票房收入整體不停上漲。電影歷史的長河越來越寬闊,特定時期的票房高漲也越來越明顯。
此圖的設計者之一Lee Byron,在河流圖的設計上做了非常大的貢獻。上面提及的可視化是建立在Lee以前的可視化成果之上。他在本科的時候,就設計了一個河流圖,呈現用戶在last.fm上聽音樂的變化歷史。

實際上,這種多層疊加數據的可視化方法,最早出現在2000年Susan Havre, Beth Hetzler和Lucy Nowell的文章《ThemeRiver: In Search of Trends, Patterns, and Relationships》中。

這篇文章描述了一個名為「ThemeRiver」的互動系統的開發過程,其中使用一個文本分析引擎,對1959年11月到1961年6月期間,菲德爾•卡斯特羅的演講、訪談以及其他文章的文本內容進行分析。河流圖呈現出他在不同的時期使用的詞語及次數。