구글, 이제 form 태그도 탐색한다?
- Posted at 2008/04/18 23:53
- Filed under 소식
구글, 네이버, 다음 등과 같은 검색 엔진은 데이터베이스(DB)에 수많은 웹 사이트 정보를 가지고 있습니다. 이러한 데이터베이스는 보통 검색 봇이 웹을 일일이 방문(crawling, 크롤링)하여 채웁니다. 사이트 방문자에는 인간 방문자뿐만 아니라 봇 방문자도 있는 것이지요.

지금까지 대다수 검색 봇은 링크를 타는 방식으로 사이트를 탐색하였습니다. 예를 들어, 어떤 페이지에 <a href=""> 가 있으면, 그 링크를 통해 다른 페이지로 이동하고, 새로운 페이지에서 똑같은 과정을 통해 또 새로운 페이지로 이동하고, 이 과정이 반복되지요.
이 방식에는 문제가 있는데, <a href="">가 아닌 링크는 처리할 수가 없다는 점입니다. 자바스크립트 링크라든지, 플래시라든지, 기타 HTML로 직접 링크한 경우가 아니면 검색 봇이 새로운 페이지의 주소를 얻을 수가 없지요. 이러한 '숨겨진' 웹을 깊은 웹(Deep Web)이라고 합니다.
얼마 전 구글(Google)이 블로그에서 언급한 HTML form을 통한 크롤링은 이러한 문제에 대한 대책으로 제시된 것입니다.
구글에 따르면, 현재 구글의 검색 봇은 자바스크립트와 플래시 등의 링크를 이미 탐색하고 있습니다. 거기에 덧붙여, 구글은 폼(<form>)을 통해 크롤링하는 방식을 실험 중이라고 합니다.
<form>은 로그인, 게시판, 검색 등과 같이 사용자의 입력을 받는 페이지에 쓰이는 태그입니다. '입력'을 받아야 하므로 검색 봇은 이러한 페이지를 통과하지 못합니다. 하지만 구글은 검색 봇이 일정한 입력을 직접 하게 함으로써 이러한 문제를 극복하겠다고 합니다.
보통 form은 사람이 입력할 것은 가정하고 쓰입니다. 하지만 이를 악용하는 무리가 있으니, 가장 대표적인 것이 바로 스팸 봇이지요. 스팸 봇은 게시판 폼에 직접 글을 입력하여 광고 글을 남기지요. 그렇다면 구글 봇도 이와 비슷한 해악을 끼치게 될까요?
물론 구글은 이에 대한 대책을 잘 세워 놓았다고 밝히고 있습니다. 몇몇 '유용한' 사이트에만 적용할 것이고, robots.txt의 nofollow와 noindex 등을 준수할 것이며, GET 방식의 form에만 적용될 것입니다. 또한 비밀번호를 입력받거나 로그인 및 개인 정보 입력 화면으로 추정되면 크롤링하지 않겠다고 합니다.
이번 실험으로 지금까지 가려져 있었던 웹까지 구글의 검색 능력이 확장될까요? 아니면 구글 봇이 웹 개발자에게 짜증을 불러일으키는 악성 봇으로 인정받는 계기가 될까요?
Crawling through HTML forms
이 방식에는 문제가 있는데, <a href="">가 아닌 링크는 처리할 수가 없다는 점입니다. 자바스크립트 링크라든지, 플래시라든지, 기타 HTML로 직접 링크한 경우가 아니면 검색 봇이 새로운 페이지의 주소를 얻을 수가 없지요. 이러한 '숨겨진' 웹을 깊은 웹(Deep Web)이라고 합니다.
얼마 전 구글(Google)이 블로그에서 언급한 HTML form을 통한 크롤링은 이러한 문제에 대한 대책으로 제시된 것입니다.
구글에 따르면, 현재 구글의 검색 봇은 자바스크립트와 플래시 등의 링크를 이미 탐색하고 있습니다. 거기에 덧붙여, 구글은 폼(<form>)을 통해 크롤링하는 방식을 실험 중이라고 합니다.
<form>은 로그인, 게시판, 검색 등과 같이 사용자의 입력을 받는 페이지에 쓰이는 태그입니다. '입력'을 받아야 하므로 검색 봇은 이러한 페이지를 통과하지 못합니다. 하지만 구글은 검색 봇이 일정한 입력을 직접 하게 함으로써 이러한 문제를 극복하겠다고 합니다.
보통 form은 사람이 입력할 것은 가정하고 쓰입니다. 하지만 이를 악용하는 무리가 있으니, 가장 대표적인 것이 바로 스팸 봇이지요. 스팸 봇은 게시판 폼에 직접 글을 입력하여 광고 글을 남기지요. 그렇다면 구글 봇도 이와 비슷한 해악을 끼치게 될까요?
물론 구글은 이에 대한 대책을 잘 세워 놓았다고 밝히고 있습니다. 몇몇 '유용한' 사이트에만 적용할 것이고, robots.txt의 nofollow와 noindex 등을 준수할 것이며, GET 방식의 form에만 적용될 것입니다. 또한 비밀번호를 입력받거나 로그인 및 개인 정보 입력 화면으로 추정되면 크롤링하지 않겠다고 합니다.
이번 실험으로 지금까지 가려져 있었던 웹까지 구글의 검색 능력이 확장될까요? 아니면 구글 봇이 웹 개발자에게 짜증을 불러일으키는 악성 봇으로 인정받는 계기가 될까요?
Crawling through HTML forms
Posted by 랜덤여신
Trackback URL : http://barosl.com/blog/trackback/742