검색엔진 로봇의 크롤링 제어 - robots.txt


robots.txt

기본 모양

User-agent: Googlebot   // 구글봇에 대해서
Disallow: /nogooglebot/   // /nogooglebot/ 부터 크롤링 금지

User-agent: *                  // 모든 봇은
Allow: /                           //  모든 페이지 크롤링 가능

Sitemap: https://www.example.com/sitemap.xml

특이 모양

Allow: /$      // 루트만 허용한다.
Disallow: /aaa*/     //  /aaab/, /aaa-b/, /aaabcde/ 등으로 aaa 로 직하는 경로를 거부한다



주의

구글의 경우 robots.txt로 막혀서 URL은 수집될 수 있음!
=>
경고: robots.txt 파일을 Google 검색결과에서 웹페이지를 숨기는 수단으로 사용하지 마세요.

다른 페이지 내의 설명 텍스트에서 내 페이지를 가리키는 경우 Google은 페이지를 방문하지 않고도 URL의 색인을 생성할 수 있습니다. 검색결과에 페이지가 표시되지 않도록 하려면 비밀번호 보호나 noindex 등 다른 방법을 사용하세요.

댓글
  • No Nickname
    No Comment
  • 권한이 없습니다.
    {{m_row.m_nick}}
    -
목록형 📷 갤러리형
제목
[기본형] HTML (with 부트스트랩5.3 , jquery 3.7, vue.js)
유용한 리눅스(LINUX) 명령어
[공지] 기술 게시판
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
6.14
6.15
6.16
6.17
6.18
6.19
6.20
6.21
6.22
6.23
6.24
6.25
6.26
6.27
6.28
6.29
6.30
7.1
7.2
7.3
7.4
7.5