이 방식에는 문제가 있는데, <a href="">가 아닌 링크는 처리할 수가 없다는 점입니다. 자바스크립트 링크라든지, 플래시라든지, 기타 HTML로 직접 링크한 경우가 아니면 검색 봇이 새로운 페이지의 주소를 얻을 수가 없지요. 이러한 '숨겨진' 웹을 깊은 웹(Deep Web)이라고 합니다.
얼마 전 구글(Google)이 블로그에서 언급한 HTML form을 통한 크롤링은 이러한 문제에 대한 대책으로 제시된 것입니다.
구글에 따르면, 현재 구글의 검색 봇은 자바스크립트와 플래시 등의 링크를 이미 탐색하고 있습니다. 거기에 덧붙여, 구글은 폼(<form>)을 통해 크롤링하는 방식을 실험 중이라고 합니다.
<form>은 로그인, 게시판, 검색 등과 같이 사용자의 입력을 받는 페이지에 쓰이는 태그입니다. '입력'을 받아야 하므로 검색 봇은 이러한 페이지를 통과하지 못합니다. 하지만 구글은 검색 봇이 일정한 입력을 직접 하게 함으로써 이러한 문제를 극복하겠다고 합니다.
보통 form은 사람이 입력할 것은 가정하고 쓰입니다. 하지만 이를 악용하는 무리가 있으니, 가장 대표적인 것이 바로 스팸 봇이지요. 스팸 봇은 게시판 폼에 직접 글을 입력하여 광고 글을 남기지요. 그렇다면 구글 봇도 이와 비슷한 해악을 끼치게 될까요?
물론 구글은 이에 대한 대책을 잘 세워 놓았다고 밝히고 있습니다. 몇몇 '유용한' 사이트에만 적용할 것이고, robots.txt의 nofollow와 noindex 등을 준수할 것이며, GET 방식의 form에만 적용될 것입니다. 또한 비밀번호를 입력받거나 로그인 및 개인 정보 입력 화면으로 추정되면 크롤링하지 않겠다고 합니다.
이번 실험으로 지금까지 가려져 있었던 웹까지 구글의 검색 능력이 확장될까요? 아니면 구글 봇이 웹 개발자에게 짜증을 불러일으키는 악성 봇으로 인정받는 계기가 될까요?
Crawling through HTML forms
Posted by 랜덤여신

