profile image

L o a d i n g . . .

Published 2022. 11. 17. 22:53

noindex?

프로젝트를 만들 때 타 사이트의 DB를 크롤링 했다면 배포 후 프로젝트가 검색엔진에 노출될 경우 저작권 관련 문제가 발생 할 수 있기 때문에 noindex를 사용하여 검색결과에서 제외시켜야한다

noindex 태그나 헤더로 검색결과에서 제외시킬 수 있다

 

<!-- 대부분의 검색엔진 웹 크롤러 차단 -->
<meta name="robots" content="noindex">

<!-- 구글 검색엔진 웹 크롤러만 차단 -->
<meta name="googlebot" content="noindex">

 

robot.txt?

웹크롤러같은 로봇들의 접근을 제어하기 위한 규약. 경로의 최상단에 파일을 넣어주어야한다

구글봇, 네이버예티, 다음 같은 로봇들이 있다. robots.txt 작성 전 검색엔진별 크롤러 이름을 확인해보는 것을 권장

 

서버의 트래픽이 한정되어있거나 검색엔진노출을 원하지 않는경우 robot.txt에 안내문 형식으로 특정 경로에 대한 크롤링을 자제해줄것을 권고한다. 

 

User-agent: *
Disallow: /

모든 봇에 모든 파일접근을 차단한 예시

반드시 폴더명 맨 끝에 /를 붙여야 한다. 붙이지 않으면 확장자가 없는 파일로 인식하기 때문에 제대로 작동하지 않는다.

 

 

 

User-Agent : Yeti
Disallow: /foo/bar/

네이버 봇만 특정디렉토리 접근 차단

User-Agent : *
Disallow : /
User-Agent : Googlebot
User-Agent : Yeti
User-Agent : Daumoa
Allow : /
Disallow: /admin/

네이버,구글,다음이외 모든로봇의 접근을 차단하고 네이버, 구글, 다음봇은 /admin/디렉토리접근만 차단

 

구글의 robots.txt : https://www.google.com/robots.txt

 

 

참고:

- https://baessi.tistory.com/5

- https://yermi.tistory.com/entry/%EA%BF%80%ED%8C%81-%EC%A0%80%EC%9E%91%EA%B6%8C-%EA%B4%80%EB%A0%A8-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%B0%B0%ED%8F%AC-%EC%8B%9C-%EC%9C%A0%EC%9D%98%EC%82%AC%ED%95%AD-noindex%EB%A1%9C-%EA%B2%80%EC%83%89-%EC%83%89%EC%9D%B8-%EC%83%9D%EC%84%B1-%EC%B0%A8%EB%8B%A8%ED%95%98%EA%B8%B0

- https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ko 

- https://searchadvisor.naver.com/guide/seo-basic-robots

반응형
복사했습니다!