全球資訊網(World Wide Web)在資訊爆炸的今天,充斥著各式各樣數量難以估算的資料,能夠快速有效的擷取與整合
這些資料成為有用的資訊或知識,是近年來很熱門的課題,由於目前全球資訊網上流通的多為HTML文件,為提供使
用者瀏覽而設計的半結構化語言,不利於分析和比較的應用,若能將HTML的網頁製作設計技術台南地區的網頁資料
透過資訊整合,由資訊擷取技術將網頁製作設計技術台南地區的網頁轉為結構化的資料,以統一的資料庫或XML文件
型式儲存,對於資訊的應用有很大的幫助,例如購物網站的比價分析、新聞資料的收集…等,而如何將全球資訊網上
的HTML網頁製作設計技術台南地區的網頁文件加以過濾、收集、擷取與整合是近年來相當重要的研究。
本文將資訊擷取技術的研究,區分為網頁製作設計技術台南地區的網頁抓取與資料擷取兩種技術,而資料擷取技術,
已經進行相當長的一段時間,而監督式與非監督式資料擷取系統,對網頁製作設計技術台南地區的網頁資料的擷取都
有很大的貢獻,然而,大多數的研究重視如何從網頁製作設計技術台南地區的網頁中擷取出資料,缺少了抓取需要擷
取網頁製作設計技術台南地區的網頁的研究。因為需要進行擷取的網頁製作設計技術台南地區的網頁是相當多的,一
頁一頁的手動抓取是沒有效率的,而且大多數的網頁製作設計技術台南地區的網頁都是以相同網頁製作設計技術台南
地區的網頁樣板所產生,在瀏覽或抓取這些網頁製作設計技術台南地區的網頁時,都會進行相同的重覆動作,因此,
有一些研究讓使用者自行建立抓取網頁製作設計技術台南地區的網頁的瀏覽模型,幫助使用者抓取網頁製作設計技術
台南地區的網頁,但是需要使用者先學習系統所定義的瀏覽模型,對使用者而言是較不自然的作法。
本文所提出的網頁製作設計技術台南地區的網頁抓取系統,系統是以IE瀏覽器提供瀏覽網頁製作設計技術台南地區的
網頁的環境,讓使用者以平時瀏覽網頁製作設計技術台南地區的網頁的方式,瀏覽過部分需要抓取的網頁製作設計技
術台南地區的網頁,系統則記錄瀏覽過的網頁製作設計技術台南地區的網頁和瀏覽動作,透過瀏覽的歷程,建立使用
者瀏覽網頁製作設計技術台南地區的網頁的模型,並以執行器抓取所需的網頁製作設計技術台南地區的網頁。此外,
由於網頁製作設計技術台南地區的網頁製作設計技術台南地區的網頁中可能存有Client-side程式,執行器在抓取網頁
製作設計技術台南地區的網頁時,也是以IE瀏覽器模擬使用者瀏覽網頁製作設計技術台南地區的網頁的過程來抓取網
頁製作設計技術台南地區的網頁,讓抓取網頁製作設計技術台南地區的網頁時,同時執行網頁製作設計技術台南地區
的網頁中的Client-side程式。
|