2005년 07월 21일
검색엔진 수집 제외는 어떻게 하나요?
'검색엔진 수집 제외' 는 외부 검색엔진에 본인의 글이 수집되는 것을 원치 않는 경우 사용하실 수 있습니다. "이글루관리 - 검색엔진 수집 제외" 로 들어가시면 이용하실 수 있으며, 각 검색 서비스에 대하여 검색허용 및 검색제외의 옵션을 선택할 수 있습니다. 선택하신 옵션은 robots.txt 라는 파일로 저장됩니다.
검색엔진 로봇을 막는 robots.txt 는 "로봇 배제 표준(Robot Exclusion Standard)"에 맞추어 작성됩니다. robots.txt 파일은 각 이글루가 위치하는 폴더에 저장(http://id.egloos.com/robots.txt)되어 검색로봇으로부터 웹페이지의 수집을 막게됩니다. 단, '로봇 배제 표준' 을 따르지 않는 검색 사이트일 경우 robots.txt 파일로도 수집을 막을 수 없습니다.
'검색엔진 수집 제외' 의 기본값은 모든 검색엔진의 수집을 허용하도록 설정되어 있습니다.
특정 검색엔진의 수집 제외 방법은 다음과 같습니다.

모든 검색엔진의 수집은 막고 구글과 야후만을 허용한다는 의미입니다.

모든 검색엔진의 수집은 허용하고 구글만 거부한다는 의미입니다.
robots.txt 는 아래쪽의 입력박스에서 직접 내용을 수정할 수도 있습니다. 직접 수정을 원하시는 분은 robotstxt.org (영문) 를 참고하시기 바랍니다.
robots.txt 파일은 설정한 순간부터 검색 로봇이 방문하지 않게 됩니다. 따라서 이미 검색엔진에 수집된 페이지가 삭제되는 데는 시간이 걸립니다. 바로 삭제하길 원하시는 분은 직접 해당 검색 사이트에 요청하시기 바랍니다.
추가
archive.org 의 수집을 차단하고 싶으신 분은 입력창에 아래의 내용을 삽입해 주시기 바랍니다.
추가
구글 이미지의 경우 검색 수집 로봇의 이름이 다릅니다. 구글 이미지 검색에서 수집을 차단하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다. (알려주신 cre+s님 감사합니다.)
추가
야후 이미지 검색에서 수집을 차단하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다.
추가
벅스뮤직을 비롯한 코리아와이즈넛의 검색로봇을 수집 거부하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다.
※ 다음(www.daum.net)은 구글과 같은 검색로봇을 사용합니다. 구글을 거부하면 다음 검색 로봇도 거부하게 됩니다.
※ '검색엔진 수집 제외'에는 현재 국내의 대표적인 검색엔진 만을 담고 있습니다. 추가를 원하는 검색로봇이 있다면 덧글을 통해 알려주시기 바랍니다. 추가해드리도록 하겠습니다.
※ 파란(www.paran.com)은 야후의 검색로봇을 사용합니다. 야후를 제외하시면 파란도 함께 제외됩니다.
※ 엠파스 블로그검색의 경우 수집거부는 개별적으로 하실 수 있습니다. "엠파스 블로그검색 제외 신청하기" 에서 확인하시기 바랍니다.
검색엔진 로봇을 막는 robots.txt 는 "로봇 배제 표준(Robot Exclusion Standard)"에 맞추어 작성됩니다. robots.txt 파일은 각 이글루가 위치하는 폴더에 저장(http://id.egloos.com/robots.txt)되어 검색로봇으로부터 웹페이지의 수집을 막게됩니다. 단, '로봇 배제 표준' 을 따르지 않는 검색 사이트일 경우 robots.txt 파일로도 수집을 막을 수 없습니다.
'검색엔진 수집 제외' 의 기본값은 모든 검색엔진의 수집을 허용하도록 설정되어 있습니다.
User-agent: *
Disallow:
Disallow:
특정 검색엔진의 수집 제외 방법은 다음과 같습니다.

모든 검색엔진의 수집은 막고 구글과 야후만을 허용한다는 의미입니다.

모든 검색엔진의 수집은 허용하고 구글만 거부한다는 의미입니다.
robots.txt 는 아래쪽의 입력박스에서 직접 내용을 수정할 수도 있습니다. 직접 수정을 원하시는 분은 robotstxt.org (영문) 를 참고하시기 바랍니다.
robots.txt 파일은 설정한 순간부터 검색 로봇이 방문하지 않게 됩니다. 따라서 이미 검색엔진에 수집된 페이지가 삭제되는 데는 시간이 걸립니다. 바로 삭제하길 원하시는 분은 직접 해당 검색 사이트에 요청하시기 바랍니다.
추가
archive.org 의 수집을 차단하고 싶으신 분은 입력창에 아래의 내용을 삽입해 주시기 바랍니다.
User-agent: ia_archiver
Disallow: /
Disallow: /
추가
구글 이미지의 경우 검색 수집 로봇의 이름이 다릅니다. 구글 이미지 검색에서 수집을 차단하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다. (알려주신 cre+s님 감사합니다.)
User-Agent: Googlebot-Image
Disallow: /
Disallow: /
추가
야후 이미지 검색에서 수집을 차단하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다.
User-Agent: Yahoo-MMCrawler
Disallow: /
Disallow: /
추가
벅스뮤직을 비롯한 코리아와이즈넛의 검색로봇을 수집 거부하고 싶으시면 아래의 내용을 직접 삽입해 주시기 바랍니다.
User-Agent: wisebot
Disallow: /
Disallow: /
※ 다음(www.daum.net)은 구글과 같은 검색로봇을 사용합니다. 구글을 거부하면 다음 검색 로봇도 거부하게 됩니다.
※ '검색엔진 수집 제외'에는 현재 국내의 대표적인 검색엔진 만을 담고 있습니다. 추가를 원하는 검색로봇이 있다면 덧글을 통해 알려주시기 바랍니다. 추가해드리도록 하겠습니다.
※ 파란(www.paran.com)은 야후의 검색로봇을 사용합니다. 야후를 제외하시면 파란도 함께 제외됩니다.
※ 엠파스 블로그검색의 경우 수집거부는 개별적으로 하실 수 있습니다. "엠파스 블로그검색 제외 신청하기" 에서 확인하시기 바랍니다.
다른 궁금한 사항은 webmaster@egloos.com 으로 메일을 보내주시기 바랍니다.
# by | 2005/07/21 15:55 | 이글루 관리 | 트랙백(3) | 덧글(106)





제목 : 검색엔진 수집 제외하기
검색엔진 수집 제외 도움말 ...more
제목 : 네이버 웹문서에서 블로그 검색내용 삭제하기
이글루스 세부통계에서 네이버 리퍼러가 발견되어서 검색엔진 수집제외에 네이버가 제외대상으로 되어 있는데도 나온다고 우선 이글루스쪽에 문의를 했습니다. 이글루스 검색엔진 수집 제외 도움말도 읽긴 했는데 명확한 답변이 없어서요. 그래서 다음과 같은 답변을 받았습니다. 신청할 때는 제 블로그주소와 제가 블로그 주인이라는 것을 입증할 수 있는 자료로 통계화면 스크린샷을 저장해서 첨부했습니다. 실제로 네이버의 웹문서 삭제요청에는 다음 2가지 사항을 ......more
제목 : 로봇 배제 규칙을 이용한 아주 사소한 해킹
현재에는 구글과 같은 의식있는 서비스제공자들이 웹 페이지 수집 로봇의 매너를 위해 Robot exclusion 규정이라는 것을 만들어 양심적으로 준수하고 있다. 웹 수집 로봇이 서버에 주는 부하를 줄이고 싶거나 자신의 자료를 보호 하고 싶다면 루트 페이지에 robots.txt 라는 파일을 만들어 다음과 같은 필드를 채워 넣어 주기만 하면 된다. 예를 들어 로봇 배재 규칙 파일의 내용은 다음과 같다. ======......more
저만 그런건가요?
이시기//파란 역시 Google의 검색엔진을 사용합니다. google과 같이 다음과 파란도 설명을 해주는게 좋지 않을까요?
헌데, 다음 등의 검색프로그램은 html을 검색해서 인덱스를 만들기도 하지만, RSS에 대한 검색도 실시하고 있습니다.
헌데 RSS의 경우는 아예 공개하지 않든가, 공개하든가(제목만 공개하든, 내용도 공개하든) 둘 중 하나이고 검색은 막고 리더는 허용한다든가 하는 방식은 불가능한 것 같습니다.
아직 표준이 개발되지 않은건지, 단지 이글루스에서 지원하지 않는 것인지, 아니면 제가 잘못 알고 있는 것인지 궁금하네요. 사실 다음쪽은 html(구글검색)보다 RSS 검색쪽이 더 심각하거든요. 그렇다고 리더 사용을 막기도 어렵구요..
http://contents.search.daum.net:8008/search/formmail_search2
감사합니다. 신청해 보아야겠네요.
아직은 RSS의 경우, 직접 검색중지를 요청하는 방법밖에 없는 것이군요..
네이버에도 걸리던데 혹시 다른 분들도 그런 분 있으신가요?
어떻게 해야 할까요?
User-agent: *
Disallow: /
검색이 제대로 안되는 것에 대해서는 해당 검색엔진에 문의하시기 바랍니다.
위 주소에 검색엔진 로봇이름이 있으니 참고바랍니다.
라고 하셨는데 전부 다 차단했음에도 불구하고 다음으로 검색해서 들어오시는 분들이 계시네요.
이건 다음에다가 따로 말을 해둬야 하는건가요?
엠파스 블로그검색의 경우 수집거부는 개별적으로 하실 수 있습니다. "엠파스 블로그검색 제외 신청하기(http://blog.empas.com/empas/9224176)" 에서 확인하시기 바랍니다.
sugar.pe.kr이라는 사이트에서 나오는 봇이 있는데요(주소가 http://sugar.pe.kr/sugar_bot.php이니 봇 맞겠죠), 하루에 한번 정도 오는 거기 때문에 놔둬도 될까 생각했지만 신경쓰이고... 결정적으로 저 사이트는 운영자나 관리자와 연락할 방법이 전혀 없습니다. 비슷한 사례를 겪으신 분이나 해당 사이트를 차단하는 방법을 아시는 분의 정보가 있으면 좋겠네요.
그렇다는건 말이 안되는데...가만있으면 안될것 같군요
첫번째 질문에 대해서는 각 검색엔진으로 문의를 하셔야 합니다. 저희가 도움을 드리지는 못할 것 같습니다.
두번째 robots.txt 파일을 작성하여 게시판이 설치된 폴더에 넣어두시면 동일한 요과를 얻을 수 있습니다. robots.txt 에 대한 자세한 내용은 위 본문의 링크에서 확인하시기 바랍니다.
검색이 되면 홍보도 되고 좋지 않나요?
요청하신 곳의 로봇도 찾아보도록 하겠습니다. 하지만 이 표준안을 지키지 않는 검색엔진의 경우는 저희도 다른 막을 방법이 없습니다. 이점 유의해 주시기 바랍니다.
혹시 모를 확인을 하기 위해 회원님이 확인하신 검색된 페이지의 URL과 함께 webmaster@egloos.com 으로 메일 주시면 자세히 알아보도록 하겠습니다. 불편을 드려 죄송합니다.
기분이 참 안좋던데요... 이것은 변경된 약관에 해당되는 건가요?
알수가 없네요.
어떻게 하면 되는건가요.
ㅠ.ㅠ;
이 사이트의 경우 저희가 직접 문의도 해 보았지만 아직 정확한 답변을 받지 못했습니다. 만약 답변을 받는다면 내용을 다시 전해드리도록 하겠습니다.
검색엔진 수집거부를 적용한 경우 적용한 날짜부터 수집이 되지 않습니다. 만약 이전에 이미 수집된 글이 있다면 해당 검색엔진에 직접 문의하셔야 합니다. 감사합니다.
어떻게 해야 하나요? 기분이 상당히 안좋은데...
물론 그걸 클릭해도 글은 볼 수 없습니다만(삭제된 글이라는 메세지가 뜸), 그런 식으로 제 블로그에 불특정 사람들이 오는 게 참 마음이 불편한데요..
그 글은 지워져도 글의 주소는 계속 검색수집이 되는 것 같습니다.
(모든 검색사이트 수집을 훨씬 이전부터 막아왔음에도.)
삭제된 글은 어떻게 하면 검색이 안되게 할 수 있나요?
이미 위에서도 답변드렸지만, 저희는 robots.txt 라는 검색거부표준에 의거하여 검색로봇을 차단합니다. 이를 지키지 않는 검색사이트에 대해서는 거부할 수 없습니다. 또, 이런 방식으로 검색결과에 이미 포함된 경우는 해당 검색엔진에 문의하셔서 직접 포스트를 삭제할 수 있습니다.
될수있는거면 수집제외에 포함시켜주세요...
장턱선본처님, 엠파스의 경우 검색 수집제외를 요청할 수 있는 페이지가 있습니다.
행인1님, 네이트는 서치플러스를 체크하시면 됩니다.
비공개님, 한RSS는 검색엔진이 아니기 RSS 구독서비스이기 때문에 검색엔진 수집제외 기능으로는 제어할 수 없습니다. 궁금한 점을 webmaster@egloos.com 으로 메일 주시기 바랍니다.
단, 위의 기능은 검색엔진에 자신의 글이 노출되기를 꺼려하시는 회원님의 편의를 위해 제공하는 기능이며, 위의 옵션을 통해 외부 검색로봇의 수집을 차단할 수 있습니다. 하지만 이 기능은 외부 검색엔진들과 제휴를 통해 차단하는 것이 아니라 robots.txt 라는 검색 거부 표준의 의거한 검색엔진 차단 방식이기 때문에 만약 위의 옵션이 제대로 적용되지 않는 검색엔진의 경우는 해당 사이트에 직접 문의하셔야 합니다.
위의 robots.txt 표준안은 권고하는 방식이지 강제적인 방식은 아니기 때문에 저희가 각 검색사이트에 지키기를 요구할 수는 없는 부분입니다. 이 점 양해해 주시기 바랍니다.