科技

數字一大堆總不知該如何表達？這張圖馬上搞定「巨量」數據

大數聚

20180412

1071 Views

原文出自「堆積圖表界的翹楚！河流圖如何搞定「巨量」數據」，作者陳淑晶，本文獲鏑次元數據授權轉載，未經同意請勿轉載

從折線圖到面積圖再到河流圖

18041201

折線圖是我們在數據可視化過程中常見的圖表，當我們把折線與軸的圍起的區域塗上顏色，變成了面積圖，這時候兩種圖表的意義就不一樣了。當把單色的面積變為多色的面積，就出現了不同類目的比較意義，且區別於條形圖，具有連續比較的意義。繼續往下進化，就出現了河流圖，那麼什麼是河流圖呢？

河流圖（Streamgraph），有時候也叫做「主題河流圖」（ThemeRiver），是堆積面積圖的一種變形，通過「流動」的形狀來展示不同類別的數據隨時間的變化情況。但不同於堆積面積圖，河流圖並不是將數據描繪在一個固定的、筆直的軸上（堆積圖的基準線就是x軸），而是將數據分散到一個變化的中心基準線上（該基準線不一定是筆直的）。

18041202

由河流圖的組成圖可以看出，河流圖用顏色區分不同的類別，或每個類別的附加定量，流向則與表示時間的X軸平行。每個類別的對應數值則是通過「河流」的寬度展示出來。每個類別的數值變化就會形同一條粗細不一的小河，匯集、扭結在一起，河流圖也因此而得名。

以下圖為例，作品《音曲繁美》就採用了這種河流圖，它每一條的寬窄代表了音樂在特定年代流行的程度，用不同的顏色去區分不同的音樂，圖表最後形成水流狀的樣子。

18041203

既然河流圖是堆積面積圖的變形，那麼與堆積面積圖相比，河流圖具有哪些不同呢？

在我們之前的推送中，也和大家分享過堆積面積圖的一些特點，比如不建議堆疊面積圖中包含過多數據系列，最好不要多於7個，以免數據難以辨識。然而，較於堆積面積圖，河流圖在展示多類別及波動幅度大的數據時，可讀性更強，外表也更美觀。

這條歷史的大河才剛成年
2008年2月，《紐約時報》發佈了一個最典型、最著名的河流圖的例子《電影的衰退和流動：過去20年的電影票房收入》，描述了從1986年1月到2008年2月期間，所有電影的上映時間以及期間的周票房變化。在這個河流圖中，流形狀的寬度代表了某部電影的周票房，流形狀的起始是由電影的上映時間決定的。顏色由電影的總票房決定，票房就是電影的「附加定量」，顏色越深代表了電影最終票房越高。

18041204

我們可以看到，從2007年4月中旬到7月，是高票房電影集中上映的時間，《蜘蛛俠3》、《加勒比海盜：世界的盡頭》、《史瑞克3》等電影都獲得非常高的票房收益，上映時間也幾乎持續了3個月。但事實上，為了避免票房爭奪，這段時間上映的電影數量不多，等到7月開始，大熱電影檔期結束，電影數量才多了起來。

18041205

利用交互技術，我們可以把鼠標移動到某一個流形狀上，突出顯示它的具體信息。同時，《紐約時報》把這個河流圖做得相當「長」，拖動滾動條可以發現，縱觀20年，匯入電影歷史長河的「小河」越來越多，電影的票房收入整體不停上漲。電影歷史的長河越來越寬闊，特定時期的票房高漲也越來越明顯。

此圖的設計者之一Lee Byron，在河流圖的設計上做了非常大的貢獻。上面提及的可視化是建立在Lee以前的可視化成果之上。他在本科的時候，就設計了一個河流圖，呈現用戶在last.fm上聽音樂的變化歷史。

18041206

根據河流圖的基本原理，每一個流形狀代表了一個藝術家，流形狀的寬度代表了用戶在給定的時間內收聽歌曲的次數。顏色的色調與藝術家的一首歌被聽到的最早日期相關，深淺則與該藝術家被收聽的總次數相關。用戶可以通過自己的聆聽河流圖，發現自己所聽的歌曲與當時的心情，或者是特殊事件的關聯，人生軌跡彷彿被音樂描繪出來。

實際上，這種多層疊加數據的可視化方法，最早出現在2000年Susan Havre， Beth Hetzler和Lucy Nowell的文章《ThemeRiver: In Search of Trends, Patterns, and Relationships》中。

18041207