블로그 방명록 사전 갤러리 게시판 인클봇 인클챗 웹 IRC
 


구글, 이제 form 태그도 탐색한다?

구글, 네이버, 다음 등과 같은 검색 엔진은 데이터베이스(DB)에 수많은 웹 사이트 정보를 가지고 있습니다. 이러한 데이터베이스는 보통 검색 봇이 웹을 일일이 방문(crawling, 크롤링)하여 채웁니다. 사이트 방문자에는 인간 방문자뿐만 아니라 봇 방문자도 있는 것이지요.

세계를 정복하는 구글 봇

지금까지 대다수 검색 봇은 링크를 타는 방식으로 사이트를 탐색하였습니다. 예를 들어, 어떤 페이지에 <a href=""> 가 있으면, 그 링크를 통해 다른 페이지로 이동하고, 새로운 페이지에서 똑같은 과정을 통해 또 새로운 페이지로 이동하고, 이 과정이 반복되지요.

이 방식에는 문제가 있는데, <a href="">가 아닌 링크는 처리할 수가 없다는 점입니다. 자바스크립트 링크라든지, 플래시라든지, 기타 HTML로 직접 링크한 경우가 아니면 검색 봇이 새로운 페이지의 주소를 얻을 수가 없지요. 이러한 '숨겨진' 웹을 깊은 웹(Deep Web)이라고 합니다.

얼마 전 구글(Google)이 블로그에서 언급한 HTML form을 통한 크롤링은 이러한 문제에 대한 대책으로 제시된 것입니다.

구글에 따르면, 현재 구글의 검색 봇은 자바스크립트와 플래시 등의 링크를 이미 탐색하고 있습니다. 거기에 덧붙여, 구글은 폼(<form>)을 통해 크롤링하는 방식을 실험 중이라고 합니다.

<form>은 로그인, 게시판, 검색 등과 같이 사용자의 입력을 받는 페이지에 쓰이는 태그입니다. '입력'을 받아야 하므로 검색 봇은 이러한 페이지를 통과하지 못합니다. 하지만 구글은 검색 봇이 일정한 입력을 직접 하게 함으로써 이러한 문제를 극복하겠다고 합니다.

보통 form은 사람이 입력할 것은 가정하고 쓰입니다. 하지만 이를 악용하는 무리가 있으니, 가장 대표적인 것이 바로 스팸 봇이지요. 스팸 봇은 게시판 폼에 직접 글을 입력하여 광고 글을 남기지요. 그렇다면 구글 봇도 이와 비슷한 해악을 끼치게 될까요?

물론 구글은 이에 대한 대책을 잘 세워 놓았다고 밝히고 있습니다. 몇몇 '유용한' 사이트에만 적용할 것이고, robots.txt의 nofollow와 noindex 등을 준수할 것이며, GET 방식의 form에만 적용될 것입니다. 또한 비밀번호를 입력받거나 로그인 및 개인 정보 입력 화면으로 추정되면 크롤링하지 않겠다고 합니다.

이번 실험으로 지금까지 가려져 있었던 웹까지 구글의 검색 능력이 확장될까요? 아니면 구글 봇이 웹 개발자에게 짜증을 불러일으키는 악성 봇으로 인정받는 계기가 될까요?

Crawling through HTML forms

Posted by 랜덤여신

이 글의 관련글
2008/04/18 23:53 2008/04/18 23:53

Trackback URL : http://barosl.com/blog/trackback/742

Leave a comment
[로그인][오픈아이디란?]
« Previous : 1 : ... 51 : 52 : 53 : 54 : 55 : 56 : 57 : 58 : 59 : ... 705 : Next »

블로그 이미지

랜덤여신이 살아가는 이야기입니다. / 국내 점유율이 1%도 안 되는 리눅스 관련 글을 주로 씁니다. 관심 좀... ㅠㅠ / 컴퓨터쪽 이야기도 씁니다.

- 랜덤여신

Recent Posts

  1. PHP 4, 개발 중단 (6)
  2. 동화 같은 README 파일 (6)
  3. 아무 기능도 없는 '나는 부자다' 아이폰... (9)
  4. 리눅스 사용자, 급팽창 중 (11)
  5. 파이어폭스, Qt 이식 성공 (5)
  6. IBM, 리눅스 데스크톱 제작사들과 제휴... (5)
  7. 파이어폭스 3의 달라진 SSL 정책, 웹을... (15)
  8. 야후, 서비스 중단으로 재생할 수 없게... (1)
  9. 파이어폭스 개발자 모임, 낙석으로 갇히... (3)
  10. 리눅스 커널에 대한 신화, 거짓, 그리고... (7)
  11. 자기가 만든 프로그램에 해킹당하다 - H... (2)
  12. 컴피즈의 어머니 XGL, 개발 중단 (1)
  13. KDE 4.1 발표 - 일반 사용자를 위한 첫...
  14. 구글 코드, MPL 라이선스 사용 금지
  15. MS 워드 95에서 2007까지 성능 비교 (8)
  16. 두 번째 맥 클론 제작사 등장 - 오픈 테크 (8)
  17. 리눅스 커널에 대한 신화, 거짓, 그리고... (16)
  18. 오픈웹, 금융결제원 상대로 1심 패소 (8)
  19. 구글, 실명 기반 위키 '놀(Knol)' 공개... (3)
  20. 해킹도 하고 직업도 얻고 (4)
  21. 파이어폭스, 1등 안 노려 - 인터넷 익스... (22)
  22. '콜드 부트 공격' 예제 발표 - 전원 꺼... (6)
  23. 패치하지 않은 윈도우 PC의 생존 시간 -... (6)
  24. GNOME 창시자 미겔, GTK+ 3.0 구상 비판
  25. Gmail로 보내는 스팸 급격히 증가 (2)
  26. GNOME 3.0 계획 발표 - 2010년 출시 예상 (4)
  27. 애플, 비공식 맥 클론 제작사 사이스타... (14)
  28. Wine 1.1.1 발표 (5)
  29. 33년 묵은 버그, 마침내 패치 (7)
  30. 윈도우 3.11, 4개월 후 판매 종료 (14)