社群行銷

廣告怎麼下都不受眾？用這些數據玩轉美國版PTT Reddit

大數聚

20180410

938 Views

Alexa Reddit 美國版ptt

首圖來源：elevenews

\n\n

原文出自「看廣告主如何用數據分析，玩轉reddit | DT×NYCDSA」，作者Mitchell Hung，本文獲DT財經授權轉載，未經同意請勿轉載

\n▍當我研究reddit時，到底在研究什麼\n\n近幾年Reddit越來越火，2014年它的頁面瀏覽數超過700億。根據Alexa的數據，2017年，Reddit是美國瀏覽量第四，全球瀏覽量第七的網站。超過4%的美國成年人使用Reddit，其中67%是男性用戶，他們大多數年齡較輕，在18到35歲之間。\n\n當我們研究Reddit，其實是在研究全世界最大的網民群體之一。更重要的是，Reddit上佔統治地位的用戶群體也是互聯網最具價值的目標群體：18歲到35歲之間的男性。對於所有未來的廣告主，Reddit是一個名副其實的信息金礦，瞭解其用戶和內容的特徵是勢在必行的任務。\n\n \n\n所以，我主要我帶著兩個較為寬泛的問題展開研究：\n

我們可以從Reddit的用戶行為以及網站結構觀察到哪些行為範式？

從市場營銷的角度，在Reddit上做廣告的最佳方式是什麼？

\n我最初的直覺認為，想知道Reddit上最成功的營銷活動什麼樣，首先就要看看那些已經證明成功的營銷策劃中使用了什麼內容。因此，用戶行為的分析很關鍵：什麼樣的特質讓優質帖子從其他帖子中脫穎而出？我們能否找到一些因素或是策略，從而讓提交的內容效果最大化？\n\n當然這並不是說Reddit是一個可以簡單定義的單一的社區。Reddit其實很多樣化，它擁有大量的子板塊，被稱為「subreddits」，這些子板塊都有不同的文化、標準和用戶畫像。我並沒有計劃對每一個子板塊單獨制定策略，我的目標是對由多個子板塊構成的較大的社區進行定義，如果我的嘗試成功，那麼我們就找到了適合營銷的較大規模的標的群體，可以用在一些更寬泛的廣告策略中。\n\n \n\n▍數據收集\n\n由於我只有一周時間收集數據，我放棄了設計一個能主動收集數據的網絡爬蟲的方案，而選擇了對靜態的歷史數據進行爬蟲。在有限時間內，後者明顯可以收集更多數據。接下來我爬取了150個最受歡迎的子板塊中的最佳帖子。\n\n值得注意的一個限制是，Reddit僅顯示每個子板塊中的1000個最棒的帖子，因此之後的分析都會受限於這些帖子本身的特徵。然而，因為我的項目本來就只想分析最成功的帖子，這反而成了一個我期待的、在數據選擇方面的人為干預結果。\n\n最初我想用Python的Scrapy進行爬蟲，但很快發現由於Reddit使用了動態HTTP地址，這方法不行。我採取的方法本質上是模擬人的操作，好像有人在手動點擊下一頁一樣，借此避開reddit的反爬蟲設置。\n\n因此Python的Selenium最適合我的任務：Selenium會模擬包括鼠標移動和點擊的所有動作，這正是我所需要的，雖然它的這一特性讓它在節約時間上比Scrapy等直接發送請求的爬蟲要遜色，但在我這裡這卻成了優勢。對於數量級更大的數據爬取任務，selenium肯定不適合，但對於我的任務（大約僅有130000個觀察對象），它已經足夠快了。\n\n我爬蟲的工作原理如下：我將一個包括150個子板塊的列表放入爬蟲程序，對於每個子板塊，爬蟲會生成一個相關URL（這個URL對應的是子板塊的歷史最佳帖子），之後程序會前往這些URL進行相關操作，獲得每個帖子的相關信息。這些信息都是符合一系列XPath語言的，其數據維度包括：子板塊，題目，帖子對應的域名，提交帖子的用戶名，獲得點贊數。這些數據之後放置在各子板塊單獨對應的CSV文件中。在下面的 Github 鏈接（https://github.com/mitchhung/web_scraping）中可以看到更多信息。\n\n \n\n▍數據可視化\n\n首先，出於我自己的好奇，我先看了看各個帖子獲得的點贊數隨時間變化情況。下圖同時也顯示了整個網站的增長情況：越近期的帖子對應著更高的點贊數，說明用戶數在隨時間增長。\n\n 18041001

\n\n在圖中可以看到一個明顯的人為干預產生的「突變」。在圖中所示2014年年中的地方，我做出了標記。2016年12月，Reddit宣佈採用一種改良的方法來計算點贊數。點贊數不再是簡單的加總，而是經過一個黑箱算法處理過後的數據。這個算法的原理並未公開，因此只有最終顯示出的這些數字可以用來分析。無論如何，Reddit方面表示，這樣做的目的是為了更好地反映真實的點贊情況。\n\n在實踐中我們可以看到，這樣的變化的確大幅提升了點贊數。但從圖中可以看出，這樣的改變對過往數據的影響方面，僅僅在特定日期（2014年6月29日）出現巨大變動。為了保證之後分析的可信度，我嘗試對沒有受到點贊統計規則影響的數據進行修正，效果如下：\n\n 18041002