Published 2022. 11. 17. 22:53

noindex? robot.txt

noindex?

프로젝트를 만들 때 타 사이트의 DB를 크롤링 했다면 배포 후 프로젝트가 검색엔진에 노출될 경우 저작권 관련 문제가 발생 할 수 있기 때문에 noindex를 사용하여 검색결과에서 제외시켜야한다

noindex 태그나 헤더로 검색결과에서 제외시킬 수 있다

<!-- 대부분의 검색엔진 웹 크롤러 차단 -->
<meta name="robots" content="noindex">

<!-- 구글 검색엔진 웹 크롤러만 차단 -->
<meta name="googlebot" content="noindex">

robot.txt?

웹크롤러같은 로봇들의 접근을 제어하기 위한 규약. 경로의 최상단에 파일을 넣어주어야한다

구글봇, 네이버예티, 다음 같은 로봇들이 있다. robots.txt 작성 전 검색엔진별 크롤러 이름을 확인해보는 것을 권장

서버의 트래픽이 한정되어있거나 검색엔진노출을 원하지 않는경우 robot.txt에 안내문 형식으로 특정 경로에 대한 크롤링을 자제해줄것을 권고한다.

User-agent: *
Disallow: /

모든 봇에 모든 파일접근을 차단한 예시

반드시 폴더명 맨 끝에 /를 붙여야 한다. 붙이지 않으면 확장자가 없는 파일로 인식하기 때문에 제대로 작동하지 않는다.

User-Agent : Yeti
Disallow: /foo/bar/

네이버 봇만 특정디렉토리 접근 차단

User-Agent : *
Disallow : /
User-Agent : Googlebot
User-Agent : Yeti
User-Agent : Daumoa
Allow : /
Disallow: /admin/

네이버,구글,다음이외 모든로봇의 접근을 차단하고 네이버, 구글, 다음봇은 /admin/디렉토리접근만 차단

참고:

[HTML] 시맨틱 태그 - 웹 페이지 구조 분리 (0)	2023.02.15
[UI/UX] 인터랙티브?UI/UX? (1)	2023.02.11
[CSS] 글씨 크기 지정하기 (0)	2023.02.05
[VSCode] CSS속성들을 정렬할 수 있는 익스텐션 PostCSS Sorting (0)	2022.12.02
[CSS] SCSS? (0)	2022.11.15

티스토리툴바