廣告怎麼下都不受眾?用這些數據玩轉美國版PTT Reddit

\n\n一個有趣的發現是,前四個域名都是圖片網站。換句話說,最成功的帖子的內容幾乎都是純圖片的。這並不意外,在網絡上,圖片是最容易被人快速識別的內容,各類網站都已呈現出這樣的趨勢。\n\n最終,我將各個子板塊的點贊數總和呈現在環形圖中。需要注意的是,因為我每個子板塊只爬取了1000個帖子,因此下圖並不代表整個點贊數的趨勢。子板塊越受歡迎,它們的帖子數也會陡增,點贊總數也會比下圖顯示的多很多。\n\n
\n\n擁有最多點贊數的子板塊基本就是最受歡迎的子板塊,除了r/announcement。它是訂閱數最多的子板塊,然而只有Reddit員工可以在這一板塊發帖。\n\n接下來我開始對reddit內的社群進行分析。我使用了Raghavan等人在《Near linear time algorithm to detect community structures in large-scale networks》中提到的算法,建立了一個網絡相關性模型。模型中的點(vertices)包括20個最熱門子板塊,邊(edges)的值由子板塊彼此之間的帖子數量來確定。最終得出下面這張熱點圖,它有點像一個皮爾森相關係數圖表。\n\n
\n\n從中可以看到許多很強的相關性。比如r/movies(電影)和r/todayilearned(今日學習),以及r/movies(電影)和r/gaming(遊戲)。\n\n而下面這個網絡圖可以更直觀的呈現這些相關性:\n\n
\n\n只有邊的值超過平均值的被挑選出放在圖中。紅色線條對應的數值高,黑色對應的更低。不同顏色的組別可以看作一個社區。他們擁有類似的用戶,這些用戶會在這些區塊包含的子板塊之間發帖。當我們想要區分擁有相似行為習慣的用戶構成的社區時,這種分析尤為有用。因為對於r/movies有用的市場策略也許就可能同樣適用於r/todayilearned。\n\n \n\n▍一點總結\n\n儘管這項目僅僅碰到了Reddit這個數據富礦的一點皮毛,但依然收集到驚人數量的信息。\n\n效果很棒的帖子擁有不少共同點。一個好帖子需要在合適的時間發佈,需要包含正確的內容(比如一張圖片),而且它應該屬於一個特定的子板塊。這些結論很多是符合直覺的,但得到數據的支撐依然很重要。\n\nReddit的用戶可以被分成不同的特定社群,而且各自在用戶習慣等方面擁有很高的確定性。我的項目僅涉及了20個單獨的子板塊,但未來的項目可以覆蓋更廣,而且還可以將評論也納入分析中,到時候一定會發現更多相關性。


