2015-04-06

구글블로그 블로그스팟 RSS 주소 및 특징 (갱신 글 수)






구글블로그(블로그스팟)를 네이버에나 다음에 수집요청하고자 RSS 주소를 알아보았다.

일단 기본 등록하고자 하는 RSS의 주소는 아래와 같다고 한다.

(본인 블로그).blogspot.com/feeds/posts/default?alt=rss
(본인 블로그).blogspot.com/atom.xml

두 개 모두 RSS 주소로 볼 수 있는데 "atom.xml"은 간혹 오류가 발생한다고 한다.


그런데, 구글블로그(블로그스팟)의 갱신되는 글 수(게시물 수, 포스팅 수)는 25개로 되어 있다.   즉, 25개 이상 글이 넘어갔을 경우 RSS로 수집 요청을 하면 그 이전의 글은 네이버나 다음 등 포털 사이트에 수집되지 않는다는 것이다.   따로 페이지를 요청하지 않는 한....


하지만, 아래와 같이 RSS 주소를 기입하면 최신 50개의 글까지 수집하게 할 수 있다고 한다.   명령어를 보면 인덱스 50까지라는 것을 알 수 있는데, "50"이란 숫자를 "100"으로 수정하면 최신 글 100개까지 수집 요청을 할 수 있다고 한다.  

(본인 블로그.blogspot.com/feeds/posts/default?alt=rss&start-index=1&max-results=50
(본인 블로그).blogspot.com/atom.xml?alt=rss&start-index=1&max-results=50


100 개 이상으로 하면 과부하가 생길 수도 있으니 혹시라도 추가로 요청하고 싶다면 50개나 100개씩 나눠서 하는 것이 좋겠다.   관련 자세한 내용은 아래 블로그 글을 참고하시길....   단, 네이버나 다음의 경우 원래 RSS 주소에 추가 명령어를 추가하여 수집 요청할 때 그 요청이 받아들여질 지는 모르겠다.

RSS 개수 조절 관련 글 ☞ http://www.graphai.com/2012/12/rss-atom-feeds.html?m=1




구글블로그(블로그스팟)의 RSS의 또 다른 특징은 기존에 썼던 글을 수정하면 RSS 상 최신의 글로 표시된다는 것이다.

과거에 썼던 글들의 태그가 여러 개 설정되어 있는 글도 있고, 태그를 설정해놓지 않은 글이 있어서 태그만 수정했는데, RSS 상 수정한 날짜로 하여 최신 글로 나타나 있는 것이다.   RSS 페이지의 상단에....

구글은 기존에 수집되어 있는 글이 수정되었을 경우, 그 페이지를 다시 한번 크롤링(수집)하는 것으로 알고 있는데, 그런 이유로 수정하면 바로 RSS 상에서도 갱신되어 최상단의 위치로 변경되는 것으로 보인다.   그래서 RSS 상의 갱신 날짜와 블로그 상 게시된 날짜가 틀린 경우가 발생한다.




0 개의 댓글:

댓글 쓰기

Categories

Powered by Blogger.