Size: 2515
Comment:
|
Size: 2517
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 11: | Line 11: |
웹로봇이 멍청하다는 문제점이 있다. 특히 많은 부분 고려를 안하고 대충만들어지게 되면, 웹서버를 죽이던가 하여 다른 시스템들을 파괴할 수 있다. 이를 막기 위해, robot.txt 파일을 사용한다. 거의 무시당하는 경우가 많은듯. 도저히 안되면 IpToBlock방법밖에 없다. | 웹로봇이 멍청하다는 문제점이 있다. 특히 많은 부분 고려를 안하고 대충만들어지게 되면, 웹서버를 죽이던가 하여 다른 시스템들을 파괴할 수 있다. 이를 막기 위해, robots.txt 파일을 사용한다. 거의 무시당하는 경우가 많은듯. 도저히 안되면 IpToBlock방법밖에 없다. |
Line 13: | Line 13: |
robot.txt 파일의 형식은 SeeAlso [http://www.robotstxt.org/wc/norobots.html robot.txt 표준] | robots.txt 파일의 형식은 SeeAlso [http://www.robotstxt.org/wc/norobots.html robot.txt 표준] |
웹서버([HTTP])를 순회하며 각 홈페이지에 있는 수많은 정보를 수집하는 프로그램으로, 사람이 일일이 홈페이지의 각 링크를 따라가서 정보를 얻는 반복적인 작업을 대신하여 프로그램이 스스로 데이터를 분석하고 그 안의 [URL]들을 추출하여 다른 [URL]로 이동하면서 정보를 가지고 오는 것이다. 웹의 여기저기를 돌아다닌다는 의미에서 WWW wanderer, 웹이 그물 또는 거미줄을 의미하는 점에서 WWW spider라 불리기도 한다.
주로 다음의 것들이 있다.
주요기능 |
WebRobot |
자원발견 DB구축 |
[Google]bot 등 검색엔진용 |
연결점확인 |
MOM spider, EIT Link Verifier Robot |
Web site mirroring |
HTMLgobble, GetUrl, WebCopy, WebFetcher |
웹성장 모니터링 |
W4 |
웹로봇이 멍청하다는 문제점이 있다. 특히 많은 부분 고려를 안하고 대충만들어지게 되면, 웹서버를 죽이던가 하여 다른 시스템들을 파괴할 수 있다. 이를 막기 위해, robots.txt 파일을 사용한다. 거의 무시당하는 경우가 많은듯. 도저히 안되면 IpToBlock방법밖에 없다.
robots.txt 파일의 형식은 SeeAlso [http://www.robotstxt.org/wc/norobots.html robot.txt 표준]
# --> 주석문 User-agent: --> Agent의 이름, 최소한 '*'라도 입력 Disallow: --> Robot이 방문할 수 없는 URL 기술, 전체 경로나 부분 경로 설정
[Perky]씨의 크롤러 필터링내용 in httpd.conf --[yong27], 2004-04-26
BrowserMatch "HTTrack" bad_bot BrowserMatch "Download Ninja 2.0" bad_bot BrowserMatch "JBH Agent 2.0" bad_bot BrowserMatch "EmailCollector/1.0" spam_bot BrowserMatch "EmailSiphon" spam_bot BrowserMatch "EmailWolf 1.00" spam_bot BrowserMatch "ExtractorPro" spam_bot BrowserMatch "Crescent Internet ToolPak HTTP OLE Control v.1.0" spam_bot BrowserMatch "Mozilla/2.0 (compatible; NEWT ActiveX; Win32)" spam_bot BrowserMatch "CherryPicker/1.0" spam_bot BrowserMatch "CherryPickerSE/1.0" spam_bot BrowserMatch "CherryPickerElite/1.0" spam_bot BrowserMatch "NICErsPRO" spam_bot BrowserMatch "WebBandit/2.1" spam_bot BrowserMatch "WebBandit/3.50" spam_bot BrowserMatch "webbandit/4.00.0" spam_bot BrowserMatch "WebEMailExtractor/1.0B" spam_bot BrowserMatch "autoemailspider" spam_bot
주요로봇현황
[Google]bot |
64.68.*.* |
관련자료