搜索引擎的程序十分強大,通過語義技術、分詞技術理解網站內容想要表達的意義,但是對于搜索引擎來說,還是有很多地方是無能為力的,比如圖片、Flash等,如果在網站建設過程中,大量運用了這些技術,搜索引擎就很難理解網站的主題,對網站的優化將變的非常困難。
第一種、圖片,雖然搜索引擎能檢洌到你在顯示一張圖片,但是就像前面討論的,它不知道這張圖片顯示的到底是什么,除非你用alt屬性提供信息。不過,搜索引擎可以識別像素顏色,很多時候可以根據JPEG圖片中肉色的多少確定圖片是否含有色情內容。
所以搜索引擎無法分辨一張圖片中描述的是辛普森還是一條船,是一幢房子還是龍卷風。另外,搜索引擎也無法辨認圖片中的文字。目前,搜索引擎在嘗試使用光學字符識別技術(OCR)從圖片中提取文字,但是這項技術還沒有在搜索中廣泛使用。
第二種、Flash,常規SEO觀念一直認為,搜索引擎不能讀取Flash文件,這個有點過時了。正如Google所公布的,搜索引擎正開始從Flash中提取信息。當然,搜索引擎要確認Flash里有什么并非易事。
最大的一個問題是,就算搜索引擎查看Flash文件內部,它們還是在尋找文字性內容,但Flash是以圖像為主的媒介,對一個設計師來說,在Flash里放文字并沒有什么好處(除了對搜索引擎有點好處).
就算HTML和Flash一起使用,在HTML文件中能夠出現的語義提示(諸如H標簽,黑體文字等)也都不見了。所以,第二種搜索引擎看不到的內容是Flash包含的任何圖像性質的東西,Flash中的這類內容與圖片完全一樣。例如當文字被轉化為向量輪廓線時,搜索引擎能誒取的文字性信息就丟失了。
第三種、音頻和視頻,音頻和視頻文件也不容易被搜索引擎讀取。和圖片一樣,這種數據難以解析。
有幾種例外情況搜索引擎能提取一些很有限的數據,比如MP3文件中的AD3標簽,使用AAC格式內嵌文字性說明的圖片和章節標記的增強型播客。不過歸根結底,某視頻文件是關于足球比賽還是關于森林大火,搜索引擎是分辨不出來的。
搜索引擎也不能讀取程序里面的內容。搜索引擎尋找的是人能夠在頁面源代碼中看到的文字。你能在瀏覽器顯示的頁面上看到的內容,搜索引擎不一定能看到——只有頁面源代碼中可見可讀的信息搜索引擎才能看到。
第四種、Ajax,一個明顯的,人能看到但搜索引擎不能看到的內容是AJAX。AJAX是一種基于Java Script的方法,從數據庫獲取數據后,直接在頁面動態顯示內容,而不需要刷新整個頁面。
這種技術經常見于線上工具,用戶輸入一些信息,AJAX工具獲取并顯示正確的內容。在用戶輸入信息后運行于客戶端計算機(用戶計算機)的腳本才能獲得的內容,這種情況可以導致很多不同的輸出。
另外,在用戶輸入信息之前,內容在頁面HTML代碼中并不存在,所以搜索引擎也看不到。一些其他形式的&#106avascript腳本也有相似問題,在用戶采取某種行動之前,HTML中并沒有相關內容。
在HTML 5標準中,一種稱為嵌入標簽(<embed》的結構允許在頁面中放入插件。插件是安裝在用戶計算機中的軟件,不是安裝在網站的服務器上。這個標簽經常用來在頁面上放入視頻或音頻文件。
<embed>標簽告訴插件應該在哪里尋找要用的數據文件。插件中包含的內容,搜索引擎完全看不見。
第五種、框架結構,frame(框架結構)和iframe是從其他網頁調用內容的方法, iframe比frame更常用于從其他網站調用內容。frame通常用于分割網站內容,但也可以用于從其他網站調入內容。
不過搜索引擎能辨別從另一個網站調用內容的frame或iframe,因此會忽略iframe或frame里面而實際在另外一個網站的內容。換句話說,搜索引擎不會把你從另一個網站搬過來的內容當做你的頁面的獨特內容。
資訊
分享你我感悟
那些我們能看到但搜索引擎卻看不到的網站內容