네이버, 웹 검색 개선…"양질의 외부 콘텐츠 더 많이 노출"

아시아경제

2017-12-07 17:30:25

외부 콘텐츠 범위 확대에 주력…내년 PDF 분석 솔루션 개발 예정
7일부터 웹문서·사이트 탭 통합…양질 정보·사이트 더 광범위하게 노출



[아시아경제 한진주 기자] 네이버가 외부의 학술 정보 등 유용한 콘텐츠 검색을 원활하게 할 수 있도록 웹문서·사이트 검색 서비스를 개선한다. AI 기술을 활용해 더 유용한 웹문서를 실시간으로 수집하고, 스팸 문서 처리 기술을 고도화한다.

7일 서울 강남구 역삼동 네이버 파트너스퀘어에서 진행된 웹커넥팅데이에서 김상범 네이버 웹검색 리더는 "올해 외부 문서를 잘 검색할 수 있도록 창사 이래 가장 많은 노력을 쏟았다"며 "네이버 검색 결과에 자체 콘텐츠가 많아 '가두리'라는 비판이 있었지만 앞으로는 외부 콘텐츠도 잘 가져오려고 한다"고 설명했다.

지금까지 네이버 검색은 구글 등과 비교해 외부 사이트 웹문서 검색 결과가 제대로 반영되지 않는다는 지적을 받아왔다. 네이버는 AI 기술을 토대로 외부 학술정보를 포함한 양질의 웹문서를 더 많이 노출시키는 데 주력하겠다는 계획이다.

네이버는 전 세계 1조개 링크 중 100억개 가량을 관찰한다. 네이버가 수집하는 정보는 3억개 이상의 도메인, 10억개 이상의 웹사이트다. 이 중 네이버에서 검색할 수 있는 웹사이트 규모는 1000만개다. 웹 상의 방대한 정보를 크롤러가 수집하고, 가치있는 정보를 검색 랭킹에 따라 선별해서 보여준다.

네이버는 학술전문자료나 해외 사이트 검색 강화를 위해 검증된 출처에서 발견된 문서를 수집·분석하는 '화이트 네트워크'를 구축해왔다. 출처가 지닌 가치, 문서 자체의 가치를 조합해서 수집 우선순위를 결정하는 방식이다. 여기에 AI 기술을 더해 더 유용한 학술 자료를 노출하기 위한 기술 개발도 힘쓰기로 했다.

김상범 리더는 "내년 2월 경 PDF 분석 솔루션을 만들어서 PDF 자료 검색을 강화할 것"이라며 "국내 연구소 자료, 페이지, 그래프 여부까지 분석해서 이용자가 자료 찾을 때 '네이버에서도 이런 결과가 나오네'라고 생각하도록 1년 안에 만들겠다"고 강조했다.


검색 품질을 결정짓는 또 한 축은 '스팸 필터링'이다. 네이버는 지난해부터 개발한 '그리핀 프로젝트'를 통해 딥러닝 기술로 스팸 문서를 걸러내고 있다. 스팸 문서들이 자주 쓰는 단어를 학습시켜 관련 문서는 검색 결과에서 제외시키는 것이다. 문서가 어디에 노출되는지, 어떤 사람들이 클릭하는지도 분석해서 스팸 여부를 판단한다.

강성구 네이버 엔지니어는 "전체 수집되는 문서 중 25~30%가 스팸 문서"라며 "앞으로 네이버에서 해당 문서가 가진 정보량을 측정해서 더 좋은 품질의 문서로 판단할 예정"이라고 말했다.

또한 네이버는 7일부터 검색결과에 웹문서·사이트 탭을 통합한다. 기존에 내부 기준에 따라 구분했던 것을 없애고 외부의 읽을만한 정보나 방문할만한 사이트를 더 광범위하게 노출시키겠다는 계획이다. 나아가 웹사이트 관리자들이 더 좋은 검색결과를 보여줄 수 있도록 검색 서비스를 개선할 수 있도록 교육과 가이드도 제공하기로 했다.

김상범 리더는 "기존과 동일하게 사이트나 웹문서는 서브탭에서 확인할 수 있지만 내년 1월에는 통합검색 결과에서 두 탭을 완전히 통합시킬 것"이라며 "사용자의 의도를 기반으로 좋은 검색 결과를 내는 데 중점을 두겠다"고 말했다.




한진주 기자 truepearl@asiae.co.kr
<ⓒ세계를 보는 창 경제를 보는 눈, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

핫포토
스토리카드