noindex?
프로젝트를 만들 때 타 사이트의 DB를 크롤링 했다면 배포 후 프로젝트가 검색엔진에 노출될 경우 저작권 관련 문제가 발생 할 수 있기 때문에 noindex를 사용하여 검색결과에서 제외시켜야한다
noindex 태그나 헤더로 검색결과에서 제외시킬 수 있다
<!-- 대부분의 검색엔진 웹 크롤러 차단 -->
<meta name="robots" content="noindex">
<!-- 구글 검색엔진 웹 크롤러만 차단 -->
<meta name="googlebot" content="noindex">
robot.txt?
웹크롤러같은 로봇들의 접근을 제어하기 위한 규약. 경로의 최상단에 파일을 넣어주어야한다
구글봇, 네이버예티, 다음 같은 로봇들이 있다. robots.txt 작성 전 검색엔진별 크롤러 이름을 확인해보는 것을 권장
서버의 트래픽이 한정되어있거나 검색엔진노출을 원하지 않는경우 robot.txt에 안내문 형식으로 특정 경로에 대한 크롤링을 자제해줄것을 권고한다.
User-agent: *
Disallow: /
모든 봇에 모든 파일접근을 차단한 예시
반드시 폴더명 맨 끝에 /를 붙여야 한다. 붙이지 않으면 확장자가 없는 파일로 인식하기 때문에 제대로 작동하지 않는다.
User-Agent : Yeti
Disallow: /foo/bar/
네이버 봇만 특정디렉토리 접근 차단
User-Agent : *
Disallow : /
User-Agent : Googlebot
User-Agent : Yeti
User-Agent : Daumoa
Allow : /
Disallow: /admin/
네이버,구글,다음이외 모든로봇의 접근을 차단하고 네이버, 구글, 다음봇은 /admin/디렉토리접근만 차단
구글의 robots.txt : https://www.google.com/robots.txt
참고:
- https://baessi.tistory.com/5
- https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ko
반응형
'개발 > HTML, CSS' 카테고리의 다른 글
[HTML] 시맨틱 태그 - 웹 페이지 구조 분리 (0) | 2023.02.15 |
---|---|
[UI/UX] 인터랙티브?UI/UX? (1) | 2023.02.11 |
[CSS] 글씨 크기 지정하기 (0) | 2023.02.05 |
[VSCode] CSS속성들을 정렬할 수 있는 익스텐션 PostCSS Sorting (0) | 2022.12.02 |
[CSS] SCSS? (0) | 2022.11.15 |