본문 바로가기
  • Survival Plan
IT 이야기

웹사이트 최적화 - 사이트맵이 뭐야? RSS는 또 뭐야?

by IT/머신러닝 엔지니어의 독서/경제/육아 공부 리치윈드 - windFlex 2020. 5. 29.

사이트맵 (Sitemap.xml) 

 

 

 

 

 

사이트맵 (Sitemap)은 무엇일까? 왜 필요할까?

사이트맵. 그것은 단순히 사이트의 URL을 나열한 것 뿐이다. 그런데 왜 자꾸 웹사이트 최적화에 거론되는 것일까?

 

여러분은 웹사이트에서 무엇인가를 검색할 때 어디를 처음 가는가? Naver, Google 같은 검색엔진 사이트 아닌가?

 

그런데, 그 검색엔진들은 어떻게 찾아 주겠는가?

단순하게 말해서, 미리 "키워드-결과"쌍이 잘 나오드록 정리해 두는 것이다. (이것을 인덱싱이라고 한다.) 그 후, 키워드를 입력하면, 잘 정리해 둔 결과물을 출력해 주는 것 뿐이다. 그런데, 결과물은 한두개가 아니니깐 당연히 우선순위를 측정하는 기준이 있다. 우선순위가 높아야 상위에 노출이 되게 될 것이기 때문에, 사이트 최적화는 우선순위를 높이는 작업이라 할 수 있겠다. 그리고, 우선순위를 높이는 작업의 첫단추는 인덱싱이다. 이 인덱싱 과정을 잘..... 도와 주어야 검색엔진이 좋아하지 않을까?

 

결론부터, 이야기 하면, 이 검색엔진이 어떤 결과를 가져다가 수집/저장 (인덱싱) 을 도와 줄 부분이 사이트맵의 역할 이다. 검색엔진의 크롤러봇 (구글봇, 네이버봇)이 어떤 웹페이지를 수집해 가야할지를 알려주는 안내문 인 것이다. 


[ 인덱싱 ]

인덱싱을 하기위해서, 인터넷 전반을 돌아 다니면서 문서(웹페이지)를 수집하고 다니는 프로그램을 크롤러(Crawler-한마디로 갈퀴)라고한다.  또한, 이러한 크롤러는 보통 자동으로 계속 동작하고 있기 때문에 bot이라는 용어를 사용한다. 이 때문에 검색엔진별 크롤러들을 GoogleBot, NaverBot 등으로 표현하기도한다. 

 

크롤러는 등록된 웹사이트를 시작해서, 링크가 달려있거나 발견되는 파생 URL을을 추적한다. 쉽게 말해서, 웹페이지 한번 열고, 발견되는 URL들을 따로 모아서 다시 수집하는것이다. 계속 반복한다. 

 

 

 

 

 

 

 

당신이 웹검색엔진을 개발한다고 생각해 보시라. 여기에 몇몇 고민이 들것이다. 

  • 1) 그럼 링크가 없거나, 외부에서 드러나지 않은 URL은 영원히 수집 불가능한가?
  • 2) 얼마나 빈번하게 자주 수집해야 하나?
  • 2) 링크가 순환 되는 회전식 링크이면 어떻게 되나?
  • 3) 링크-> 링크 -> 링크 -> ..... 무수히 깊은 링크를 가지면 어떻게 되나?
  • 4) 왜 니 마음데로 내 웹문서를 수집해 가나? 수집해 가지 못하게 할 수는 없나? 라고 질문하면 ???

 

 

사이트맵 (Sitemap) - 우리집 안내 문서

 

이러한 고민들, 또는 문제점 들 때문에 나온 발상 중 하나가 사이트맵 (Sitemap)이라 하겠다. 

개념상으로 사이트맵은 다음과 같은 역할을 한다. 

1) 내 사이트는 이런 구조로 되어 있어..

2) 내 사이트에는 외부로 공개할 만한 웹문서가 ㅇㅇㅇ URL에 있어.. 가져가도록 해~

3) 내 사이트의 웹문서는 언제 만들어졌고, 언제 갱신되었어..

    내 사이트를 최신 상태를 유지하도록 적당히 수집해 가도록 해줘~

 

따라서, GoogleBot등의 크롤러는 사이트맵(Sitemap)을 참조해서, 수집해 가야할 주체 (Starting Point)를 잡고, 사이트맵에서 제공하고 있는 URL을 우선적으로 수집한다. 또한, Update 주기 등을 확인하여, URL별로 차별적인 주기로 수집할 수 있도록 노력한다. 

(변경 되었으면, 그것만 수집하여 다시 인덱싱)

 

Naver의 웹사이트 구조 설명

 

이 시점에서 다시 생각해 보자. 

내가 사이트맵을 제공하지 않거나, 엉망으로 제공하면, 구글 검색엔진은 내 사이트를 잘 노출 시켜 줄까?

수많은 인터넷 문서에서, 내 웹사이트를 속속들이 들어가서 잘 검색어로 노출 시켜 줄까?

 

구글봇은 할일이 많다. 

구글봇이 "니가 가져가 야 할 것은 여기있어, 최근에 변경 되었으니, 얼른 가져가서 업데이트 하도록 해줘~"

라고 알려주는 것이 바로 사이트맵의 가장 중요한 역할이라고 할 수 있겠다. 

 

 

실제 사이트맵 파일 (sitemap.xml) 의 예

 

 

 

다음은 필자의 사이트맵 (http://richwind.co.kr/sitemap.xml)의 XML원문자체를 열어본 결과이다. 

 

sitemap.xml과 rss 실제 내용

 

Sitemap의 내용은 단순한 구조로 되어 있다.  정발 별거 없다.

 

공개하고자 하는 웹문서 별로 URL이라는 구조 아래, 1) URL주소 : loc, 2) 업데이트 시기 : Lastmod, 3) 우선순위 등의 속성이 있다. 

이중에서 가장 중요한것은 당연히 URL 주소 이다. 

 

블로그의 개별 포스팅은 URL과 업데이트 시기만 으로 이루어 져 있고, 이것이 모든 포스팅 (혹은 sitemap 공개 갯수 만큼) 반복되어 있는 문서라고 보면 된다. 

 

 

 

 

 

 

RSS (Rich Site Summary)는 또 뭐야 ?

 

RSS (Rich Site Summary) 또한 Sitemap과 비슷한 needs에 의하여 사용되어 왔다. 

실제 파일을 열어서 확인을 해 보면, 사이트맵은 웹페이지별 URL만 반복되는 구조인 반면, RSS는 URL과 더불어 해당 웹페이지의 컨텐츠까지 포함을 하고 있다. 이것을 제외하면 거의 비슷하다고 보면 된다. 

 

지금은 URL만 알면 GoogleBot이 URL에서 문서를 수집해서 빠르게 분석/인덱싱 한다. 그러나, 과거에는 GoogleBot 및 검색엔진 컴퓨팅이 이렇게 까지 좋지는 않았으며, 검색엔진이 일일이 방문하기 보다는 타겟 사이트에서 변경을 고지하고, 변경 내용까지 던져주면 더욱 편했기 때문에 RSS같은 방식이 유용하였다. 그러나, 지금은 충분히 빠른 네트워크 속도와 컴퓨팅이 받쳐 주기 때문에, URL만 알고있는 것이 오히려 심플하고 유연하게 사용할 수 있어서 더욱 좋다고 볼 수 있다. 

그러나, 아직까지도 RSS서비스를 사용하는 경우는 많이 남아 있다. 대표적으로 구독 서비스이다. 새로운 글이 올라왔거나, 새로운 업데이트가 발생하면, 일일이 모든 컨텐츠를 뒤적이지 않고도,  새로운 컨텐츠 또는 변경사항을 포함한 내용을 바로 바로 전달해 주기 때문이다. 

 


관련글

2020/05/31 - [IT 이야기] - [사이트 최적화 점검] 내 사이트는 얼마나 최적화 되었을까? 무엇이 부족할까?

2020/05/29 - [IT 이야기] - 웹사이트 최적화 - 사이트맵이 뭐야? RSS는 또 뭐야?

2020/05/16 - [분류 전체보기] - 검색엔진 최적화 방법 - 네이버 서치어드바이저/웹마스터 도구가 알려주는 최적화 가이드

2020/05/15 - [IT 이야기/IT 상식] - 컴.알.못 와이프, 블로거로 키우기 - 초보 블로거 따라하기 스텝 바이 스텝(Step by Step) - 1주차

2020/05/12 - [IT 이야기/IT 상식] - 검색엔진 최적화 (SEO) - 사이트 중복을 피하라 (Canonical 태그)

 

댓글2