廣告怎麼下都不受眾?用這些數據玩轉美國版PTT Reddit
首圖來源:elevenews
\n\n
原文出自「看廣告主如何用數據分析,玩轉reddit | DT×NYCDSA」,作者Mitchell Hung,本文獲DT財經授權轉載,未經同意請勿轉載
\n
▍當我研究reddit時,到底在研究什麼\n\n
近幾年Reddit越來越火,2014年它的頁面瀏覽數超過700億。根據Alexa的數據,2017年,Reddit是美國瀏覽量第四,全球瀏覽量第七的網站。超過4%的美國成年人使用Reddit,其中67%是男性用戶,他們大多數年齡較輕,在18到35歲之間。\n\n
當我們研究Reddit,其實是在研究全世界最大的網民群體之一。更重要的是,Reddit上佔統治地位的用戶群體也是互聯網最具價值的目標群體:18歲到35歲之間的男性。對於所有未來的廣告主,Reddit是一個名副其實的信息金礦,瞭解其用戶和內容的特徵是勢在必行的任務。\n\n \n\n
所以,我主要我帶著兩個較為寬泛的問題展開研究:\n
\n - 我們可以從Reddit的用戶行為以及網站結構觀察到哪些行為範式?
\n
\n
\n - 從市場營銷的角度,在Reddit上做廣告的最佳方式是什麼?
\n
\n
我最初的直覺認為,想知道Reddit上最成功的營銷活動什麼樣,首先就要看看那些已經證明成功的營銷策劃中使用了什麼內容。因此,用戶行為的分析很關鍵:什麼樣的特質讓優質帖子從其他帖子中脫穎而出?我們能否找到一些因素或是策略,從而讓提交的內容效果最大化?\n\n
當然這並不是說Reddit是一個可以簡單定義的單一的社區。Reddit其實很多樣化,它擁有大量的子板塊,被稱為「subreddits」,這些子板塊都有不同的文化、標準和用戶畫像。我並沒有計劃對每一個子板塊單獨制定策略,我的目標是對由多個子板塊構成的較大的社區進行定義,如果我的嘗試成功,那麼我們就找到了適合營銷的較大規模的標的群體,可以用在一些更寬泛的廣告策略中。\n\n \n\n
▍數據收集\n\n
由於我只有一周時間收集數據,我放棄了設計一個能主動收集數據的網絡爬蟲的方案,而選擇了對靜態的歷史數據進行爬蟲。在有限時間內,後者明顯可以收集更多數據。接下來我爬取了150個最受歡迎的子板塊中的最佳帖子。\n\n
值得注意的一個限制是,Reddit僅顯示每個子板塊中的1000個最棒的帖子,因此之後的分析都會受限於這些帖子本身的特徵。然而,因為我的項目本來就只想分析最成功的帖子,這反而成了一個我期待的、在數據選擇方面的人為干預結果。\n\n
最初我想用Python的Scrapy進行爬蟲,但很快發現由於Reddit使用了動態HTTP地址,這方法不行。我採取的方法本質上是模擬人的操作,好像有人在手動點擊下一頁一樣,借此避開reddit的反爬蟲設置。\n\n
因此Python的Selenium最適合我的任務:Selenium會模擬包括鼠標移動和點擊的所有動作,這正是我所需要的,雖然它的這一特性讓它在節約時間上比Scrapy等直接發送請求的爬蟲要遜色,但在我這裡這卻成了優勢。對於數量級更大的數據爬取任務,selenium肯定不適合,但對於我的任務(大約僅有130000個觀察對象),它已經足夠快了。\n\n
我爬蟲的工作原理如下:我將一個包括150個子板塊的列表放入爬蟲程序,對於每個子板塊,爬蟲會生成一個相關URL(這個URL對應的是子板塊的歷史最佳帖子),之後程序會前往這些URL進行相關操作,獲得每個帖子的相關信息。這些信息都是符合一系列XPath語言的,其數據維度包括:子板塊,題目,帖子對應的域名,提交帖子的用戶名,獲得點贊數。這些數據之後放置在各子板塊單獨對應的CSV文件中。在下面的 Github 鏈接(https://github.com/mitchhung/web_scraping)中可以看到更多信息。\n\n \n\n
▍數據可視化\n\n
首先,出於我自己的好奇,我先看了看各個帖子獲得的點贊數隨時間變化情況。下圖同時也顯示了整個網站的增長情況:越近期的帖子對應著更高的點贊數,說明用戶數在隨時間增長。\n\n

\n\n
在圖中可以看到一個明顯的人為干預產生的「突變」。在圖中所示2014年年中的地方,我做出了標記。2016年12月,Reddit宣佈採用一種改良的方法來計算點贊數。點贊數不再是簡單的加總,而是經過一個黑箱算法處理過後的數據。這個算法的原理並未公開,因此只有最終顯示出的這些數字可以用來分析。無論如何,Reddit方面表示,這樣做的目的是為了更好地反映真實的點贊情況。\n\n
在實踐中我們可以看到,這樣的變化的確大幅提升了點贊數。但從圖中可以看出,這樣的改變對過往數據的影響方面,僅僅在特定日期(2014年6月29日)出現巨大變動。為了保證之後分析的可信度,我嘗試對沒有受到點贊統計規則影響的數據進行修正,效果如下:\n\n

\n\n
這樣操作後,整個數據集的變化更加平滑。你可能會發現2012年出現過一個極端的點,我用紅色標示出來。這並不是出錯了,它是當年美國總統奧巴馬參加的一個熱門問答貼。\n\n
出於一探優秀用戶行為習慣的好奇,我接下來對100個最有名用戶的點贊數進行可視化。\n\n

\n\n
這是一個非常頭重腳輕的分布。其實,前100名用戶佔了全部12%的點贊數。考慮到2017年Reddit已經有超過16億獨立訪客,這顯得非常不平衡。而這也揭示出這些頭部用戶的發帖方式與其他普通用戶肯定有很大不同。接下來我們就來研究這些成功的帖子背後有哪些特徵。\n\n

\n\n
上圖是所有帖子在一天內的發帖時間的分類統計,可以看到0點到12點之間呈下滑走勢。而這之後,平均數保持平穩。按照星期來統計(下圖),則沒有發現任何規律。\n\n

\n\n
接下來我對獲得點贊最多的帖子中包含的鏈接所對應的域名進行分析,將每一個域名的全部點贊數加總呈現在下圖。\n\n

\n\n