Page 1 of 1

來自爬蟲(推薦)垃圾郵件

Posted: Thu Dec 26, 2024 4:26 am
by masud.ibn.e#4552
從積極的方面來說,爬蟲是搜尋引擎用來訪問網站的所有頁面並解析(“讀取”)它們的電腦應用程序,以便在用戶執行與這些頁面相關的搜尋時對它們進行索引和定位。

這些爬蟲通常遵守一系列「良好文明」規則,即它們不會進行超出實際需要的訪問,以免壓垮網路伺服器或在太短的時間內進行多次訪問。

此外,這些爬蟲尊重我們在 robots.txt 檔案中告訴他們的內容,作為他們良好舉止的證明,該文件可以控制和限制他們訪問哪些頁面和不訪問哪些頁面。

一般來說,我們不應該太擔心這些追蹤器,因為它們的良好做法,但由於可能有許多不同的追蹤器可以訪問我們,因此它們所有訪問的累積效應可能會很大。

幸運的是,Google Analytics 提供了一種過濾這些存取的機制,透過以下步驟:

選擇Google Analytics 頂部選單中的「管理員」標籤。
選擇您想要過濾追蹤器造訪的網站的帳戶、屬性和視圖。
選擇所選視圖列下的“視圖設定”選項。
勾選「排除已知機器人和蜘蛛的所有命中」選項,然後按下「儲存」按鈕。
如何在 Google Analytics 中過濾已知追蹤器
然而,並不是所有的 加拿大企業電子郵件列表 追蹤者都那麼“仁慈”,他們也有自己的陰暗面。

有許多惡意的追蹤器在網路上漫遊,當然,他們不會如此「體貼」到尊重「良好文明」或 robots.txt 檔案的規則。

爬網程式推薦垃圾郵件會真正存取網站,並且不遵守伺服器上 robots.txt 檔案中的說明。

例如,為了提及他們的一些不良行為,他們可以抓取頁面和網站以查找安全漏洞並對其進行駭客攻擊或解析內容以搜尋電子郵件地址、電話號碼或其他聯絡資訊以進行濫用行銷活動。

來自幽靈垃圾郵件
我們在上面看到的兩種類型的垃圾郵件有一個共同的特徵:它們產生對網站的「真實」訪問。

它們可能看起來微不足道,但這個特性意味著我們有更多的選擇來處理它們,我們稍後會看到。

然而,Ghost Spam 實際上並沒有訪問該網站,而是直接與 Google Analytics 伺服器進行交互,使他們相信我們的網站已收到訪問。

讓我們透過簡要瀏覽 Analytics 追蹤和記錄存取的機制來更好地了解幽靈垃圾郵件的工作原理以及它如何欺騙伺服器。

頁面標題中包含 Google Analytics 追蹤程式碼的網站的「真實」存取將透過以下步驟記錄在 Google 伺服器上:


你可能想知道谷歌怎麼會允許自己被這樣“欺騙”,但問題不在谷歌,而可以說是“技術上的必然”。

對於要由訪問用戶的瀏覽器執行的追蹤程式碼,它必須是可見的和開放的,這意味著,例如,任何追蹤器都可以解析頁面並提取與網站相對應的分析程式碼。

另一方面,幽靈垃圾郵件發送者沒有必要抓取我們的頁面來讀取其分析程式碼。

您可以簡單地隨機產生一個恰好與我們的 UA 標識符匹配的 UA 標識符,並運行與我們類似的腳本。

事實上,整個過程比這個簡單的解釋要複雜一些,但它可以幫助我們很好地了解 Ghost Spam 的工作原理。

由於幽靈垃圾郵件不會造訪網站,因此我們只能透過 Google Analytics 進行反擊,而不能在網站伺服器上進行反擊。

這種行為方式的第一個後果是我們無法從網路伺服器過濾幽靈垃圾郵件(就像其他兩種類型的垃圾郵件一樣),因為它不會幹預整個過程,而只能透過 Google Analytics 進行幹預。

因此,我們需要知道如何透過分析 Analytics 收集的數據來識別和過濾這些幽靈存取。