Web Crawler Là Gì - CáCh Bot Công Cụ Tìm Kiếm Web Crawler Ra Sao

Web crawler là gì?

Web crawler có chức năng lấy thông tin từ website , trích xuất ra những thông tin người sử dụng cần, đồng thời cũng tìm những link có trong trang web đó và tự động truy cập vào những link đó.Các tên gọi khác của crawler là robot, bot, spider, worm, ant. Nhưng gần đây tên gọi crawler là thông dụng nhất.

Mô hình crawler đơn giản:

Chọn URL khởi đầuSử dụng HTML protocol để lấy trang webTrích xuất ra các link. Lưu lại trong queueLặp đi lặp lại bước 2,3

Cụ thể hơn, các module quan trọng của 1 crawler:

URL Frontier: chứa danh sách các URl chưa được lấyFetch module lấy các trang webDNS resolution module xác định địa chỉ của server của trang web đã lấyParsing module trích xuất text và link từ trang web đã lấyDuplicate elimination module loại bỏ các URL trùng lặp

Xây dựng web crawler với rails và mechanize

Ví dụ minh họa về việc lấy thông tin nhà đất từ trang http://nhadat24h.netCài đặt:

gem “mechanize”bundle installCrawl data:Khởi tạo đối tượng

agent = Mechanize.newLấy thông tin trang, trong trang này chúng ta sẽ có 1 danh sách các nhà đang được bán và cho thuê:

page = agent.get “http://nhadat24h.net/ban-bat-dong-san-viet-nam-nha-dat-viet-nam-s686599” + “/#{page_number}”Để lấy được thông tin từ từng page, chúng ta cần có được cấu trúc của trang:

Như các bạn có thể thấy, chúng ta có id của từng trường, vậy chúng ta có thể lấy như sau:

crawled_page = Mechanize.new.get room_url#get price crawled_page.at(“#ContentPlaceHolder2_lbGiaTien”).try :text#get areacrawled_page.at(“#ContentPlaceHolder2_lbDienTich”).try :textLấy thông tin chi tiết, chúng ta sẽ truy cập vào từng trang đã lấy ở trên để lấy thông tin chi tiết từng nhà:

room_url = “http://nhadat24h.net” + link.attributes<"href">.try :valuepage.search(“#ContentPlaceHolder2_KetQuaTimKiem1_Pn1 “).each do |link| crawl_room room_url endprivatedef crawl_room room_url crawled_params = Crawlers::RoomFromNhadat24h.new(room_url).crawled_params room = Room.find_or_initialize_by code: crawled_params<:code>, provider_site_cd: crawled_params<:provider_site_cd> room.assign_attributes crawled_params room.saveendVậy là chúng ta đã hoàn thành việc crawl.

Chú ý:Thông thường, chúng ta sẽ lưu trữ số lượng khổng lồ thông tin sau khi crawl, vậy để có tốc độ đọc ghi cao, hiệu suất lớn và dễ mở rộng, chúng ta nên sử dụng MongoDB.Để tìm hiểu thêm về MongoDB các bạn có thể tham khảo tại: https://gocnhintangphat.com/tags/mongodb

Demo

Demo project về crawl thông tin nhà đất từ 2 trang http://www.muabannhadat.vn và http://nhadat24h.nethttps://github.com/otchoo/room_crawler/tree/develop

Web Crawler Là Gì – CáCh Bot Công Cụ Tìm Kiếm Web Crawler Ra Sao

By admin-gocnhintangphat

Related Post

Biểu Hiện Và Biến Chứng Khi Nhiễm Virus Zika Là Gì? Nguyên Nhân Gây Bệnh

Trình Độ Chuyên Môn Nghiệp Vụ Là Gì, Hiểu Về Chuyên Môn Nghiệp Vụ

Chuyên Viên Tuyển Dụng Là Gì, Kỹ Năng Và Ngành Học Phù Hợp

Leave a Reply Cancel reply

You Missed

Kinh nghiệm du lịch Hà Giang tháng 10 chi tiết nhất 2023

Nạp Tiền FB8 – Hướng Dẫn Cách Nạp Tiền Nhanh

Cách đánh đề miền bắc chuẩn ngày nào trúng ngày đó

Trang cá cược uy tín Soccerreporters