티스토리로 운영하는 블로그가 구글 서치 콘솔 크롤링 과정중 robots.txt에 의해 차단됐을 경우 해결해 가는 과정을 기록한 글이다.
robots.txt에 의해 차단됨
구글 서치 콘솔을 이용하고 있다면 가끔 이런 메일이 오곤 한다.
색인 생성에 문제가 해결되지 않았다는 것이다. 메일을 확인해 보면 아래와 같이 세부 문제를 바로 볼 수 있도록 링크를 보내준다.
링크를 타고 들어가면 robots.txt에 의해 차단됨이라는 메시지가 뜬다.
보통 이 메시지는 구글봇이 사이트를 크롤링(페이지 하나하나를 긁어가기)이 성공적으로 완료 되지 않았을 때 나타난다. 자세히는 제출한 사이트맵에는 존재하는 페이지가 구글이 긁어 갈 수 없기 때문에 발생한다. 세부정보 보기를 눌러 정확히 어떤 페이지에서 문제가 발생했는지 확인해 보자.
문제를 일으킨 페이지는 정확히 /guestbook 이라는 url을 갖는 페이지이다. 그럼 정확히 이 페이지가 구글봇이 읽지 못하게 되어 있는지 확인해 보도록 하자.
위 링크를 클릭하면 아래와 같은 페이지가 나타난다. 여기서 속성을 선택하세요를 눌러서 해당 도메인 주소를 선택한다.
선택하고 조금 기다리면 해당 웹사이트가 어떤 URL들을 구글이 크롤링 못하게 막아놨는지 뜬다.
역시나 guestbook이 리스트에 있고 Disallow로 설정되어 있다.
해결방법
이제 해결 방법은 두가지이다.
Allow로 변경
Disallow를 Allow로 변경한 뒤 제출 버튼을 눌러주면된다. 그럼 guestbook이라는 페이지를 구글이 크롤링 할 수 있게 되고 문제는 해결된다. (수정 이유 : 티스토리의 robots.txt 파일은 수정할수 없다. Meta 데이터 등록을 통해 크롤링 허용 또는 비허용만 할 수 있다.)
1. guestbook 페이지 제거
또는 guestbook 페이지를 제거해주면 된다. guestbook은 티스토리에서 방명록을 말한다. 해당 웹사이트의 티스토리 관리자 페이지로 가서 왼쪽 메뉴의 "댓글 방명록"에서 설정을 눌러준다.
그럼 아래와 같은 페이지를 볼수 있는데 역시나 방명록 작성을 허용해 두었다. 이 것을 비허용으로 바꿔준다.
이렇게 한 다음 다시 구글 서치 콘솔로 돌아가서 왼쪽 메뉴에서 Sitemaps를 찾는다. 여기서 sitemap.xml을 입력하여 사이트맵을 다시 한 번 제출해 준다.
직접 하지 않아도 구글이 주기적으로 사이트맵을 최신상태로 유지하지만 당장 변한걸 반영하기 위해 제출해주는 것이다. 이제 다시 페이지 유효성 페이지로 돌아가서 "새로운 유효성 검사 시작"을 눌러준 뒤 기다려주면 된다.
결과
- 2023년 1월 24일 위 작업수행
결과가 나오는데 까지는 수시간에서 며칠이 걸릴 수 있다.
- 2023년 1월 28일 결과 메일로 통보
최종적으로 문제가 해결됐다는 메일을 일수로는 4일, 실제 시간으로는 3일정도 뒤에 받을 수 있었다.
'ICT' 카테고리의 다른 글
쿠팡 | Whitelabel Error Page (0) | 2023.02.07 |
---|---|
포토샵 | 좌우 상하 반전으로 뒤집는 방법 (0) | 2023.02.06 |
웹툴 | 무료 배경 제거 누끼 웹사이트 추천 (Feat. 회원가입 없음) (0) | 2022.09.28 |
Network | 보안 | 해쉬 엔코딩 엔크립트가 구분이 안가면 모르는 겁니다 (0) | 2022.08.04 |
포토샵 | 이미지 외곽선 만들기 (0) | 2022.08.03 |
댓글