Do nhu cầu công việc và cũng muốn giúp các bạn đang đang làm dự án về cách lấy link trong các thẻ html nhanh chóng. Vì vậy haminh thấy cần thiết nên viết bài hướng dẫn cách làm này, nào chúng ta cùng nhau tìm hiểu những cách sau đây xem nó hiệu quả thế nào trong công việc nhất.
I. Định dạng link liên kết không liên quan đến thuốc tính của các thẻ.
/(.*)<\/a>/iUKý tự "i" không phân biệt chữ hoa chữ thường Ký tự "U" bất kỳ các ký tự Ký tự "s" tất cả các ký tự xuống hàng
/(.*)<\/a>/siUII.Thêm các thuộc tính liên kết
/]*href=\"([^\"]*)\"[^>]*>(.*)<\/a>/siUIII. Cho phép thiếu các thuộc tính quote
/]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>/siUIV. Cho phép thiếu các thuộc tính quote
/]*href\s*=\s*(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>/siU
/]*href=(\"??)(http[^\" >]*?)\\1[^>]*>(.*)<\/a>/siU
/]*href=([\"\']??)([^\" >]*?)\\1[^>]*>(.*)<\/a>/siUV. Cho phép thiếu các thuộc tính quote
]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>"; if(preg_match_all("/$regexp/siU", $input, $matches)) { // $matches[2] = array of link addresses // $matches[3] = array of link text - including HTML code } ?>
]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>"; if(preg_match_all("/$regexp/siU", $input, $matches, PREG_SET_ORDER)) { foreach($matches as $match) { // $match[2] = link address // $match[3] = link text } } ?>
]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>"; if(preg_match_all("/$regexp/siU", $input, $matches, PREG_SET_ORDER)) { foreach($matches as $match) { // $match[2] = link address // $match[3] = link text } } } else { die('Access denied by robots.txt'); } ?>Bây giờ bạn đang trên con đường xây dựng một con nhện web chuyên nghiệp. Nếu bạn định sử dụng các mã nguồn trên trong thực tế, bạn có thể muốn xem: lưu trữ tệp robots.txt để nó không được tải xuống mọi lúc kiểm tra các tiêu đề máy chủ và mã phản hồi của máy chủ; và thêm tạm dừng giữa nhiều yêu cầu - cho người mới bắt đầu. Chúc các bạn thành công
0 comments:
Post a Comment