부본 머신 러닝으로 '리더 모드'를 넘어서 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습으로 '리더 모드'를 넘어

mm
업데이트 on

한국 연구원들은 기계 학습을 사용하여 사이드 바, 바닥글, 탐색 헤더 및 광고 블록과 같은 웹 페이지의 '가구'가 독자에게 사라지도록 웹 페이지에서 실제 콘텐츠를 추출하는 향상된 방법을 개발했습니다. .

이러한 기능은 가장 널리 사용되는 웹 브라우저에 내장되어 있거나 확장 프로그램 및 플러그인을 통해 쉽게 사용할 수 있지만 이러한 기술은 웹 페이지에 없을 수 있거나 사이트 소유자가 의도적으로 손상했을 수 있는 시맨틱 형식에 의존합니다. 독자가 페이지의 '완전한' 경험을 숨기는 것을 방지하기 위해.

자체 웹 페이지 중 하나가 Firefox의 통합 리더 보기 기능으로 '축소'되었습니다.

자체 웹 페이지 중 하나가 Firefox의 통합 리더 보기 기능으로 '축소'되었습니다.

대신 새로운 방법은 웹 페이지를 반복하는 그리드 기반 시스템을 사용하여 콘텐츠가 페이지의 핵심 목표와 얼마나 관련이 있는지 평가합니다.

콘텐츠 추출 파이프라인은 먼저 페이지를 그리드(상단)로 분할한 후 발견된 관련 셀과 다른 셀의 관계를 평가(중간)하고 마지막으로 승인된 셀을 병합합니다(하단). 출처: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

콘텐츠 추출 파이프라인은 먼저 페이지를 그리드(상단)로 분할한 후 발견된 관련 셀과 다른 셀의 관계를 평가(중간)하고 마지막으로 승인된 셀을 병합합니다(하단). 출처: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

해당 셀이 식별되면 인접 셀과의 관계도 평가한 후 해석된 '핵심 콘텐츠'로 병합됩니다.

접근 방식의 핵심 아이디어는 코드 기반 마크업을 관련성 지표(예: 일반적으로 단락의 시작 부분을 나타내는 HTML 태그)로 대체하는 것입니다. Reader View와 같은 유틸리티), 시각적인 모양만으로 콘텐츠를 추론합니다.

GCE(Grid-Center-Expand)라고 하는 이 접근 방식은 Google의 기술을 활용하는 DNN(심층 신경망) 모델로 연구원에 의해 확장되었습니다. 탭넷, 해석 테이블 학습 아키텍처.

핵심을 짚다

XNUMXD덴탈의 종이 제목이 읽지 말고 보기만 : 시각적으로 명확한 기능을 활용한 웹 페이지의 주요 콘텐츠 추출, 한양대학교 연구원 XNUMX명, 융합기술원 연구원 XNUMX명 출신으로 모두 서울에 있습니다.

핵심 웹 페이지 콘텐츠의 향상된 추출은 일반 최종 사용자뿐만 아니라 자연어 처리(NLP) 및 기타 AI 부문을 위해 도메인 콘텐츠를 수집하거나 색인화하는 작업을 수행하는 기계 시스템에도 잠재적으로 가치가 있습니다.

그대로, 관련 없는 콘텐츠가 이러한 추출 프로세스에 포함되는 경우 많은 비용을 들여 수동으로 필터링(또는 레이블 지정)해야 할 수 있습니다. 더군다나 원치 않는 콘텐츠가 핵심 콘텐츠에 포함되면 핵심 콘텐츠가 해석되는 방식과 깨끗한 콘텐츠에 의존하는 변환기 및 인코더/디코더 시스템의 결과에 영향을 미칠 수 있습니다.

연구자들은 개선된 방법이 특히 필요하다고 주장합니다. 기존 접근 방식이 영어가 아닌 웹 페이지에서는 종종 실패하기 때문입니다.

프랑스어, 일본어 및 러시아어 웹 페이지는 가장 일반적인 2가지 'Reader View' 접근 방식에 대한 성공률에서 최악의 점수를 받았습니다. Mozilla의 Readability.js; Google의 DOM Distiller; WebXNUMXText; 그리고 보일러넷.

프랑스어, 일본어 및 러시아어 웹 페이지는 가장 일반적인 2가지 'Reader View' 접근 방식에 대한 성공률에서 최악의 점수를 받았습니다. Mozilla의 Readability.js; Google의 DOM Distiller; WebXNUMXText; 그리고 보일러넷.

데이터 세트 및 교육

연구원들은 영어 키워드에서 데이터 세트 자료를 편집했습니다. Google트렌드-2017Google트렌드-2020 그러나 결과 측면에서 두 데이터 세트 간에 실질적인 차이가 없음을 관찰했습니다.

또한 저자는 한국, 프랑스, ​​일본, 러시아, 인도네시아, 사우디아라비아에서 비영어권 키워드를 수집했습니다. 에서 중국어 키워드가 추가되었습니다. 바이두 데이터세트, Google 트렌드는 중국 데이터를 제공할 수 없기 때문입니다.

테스트 및 결과

시스템을 테스트하면서 작성자는 최신 DNN 모델과 동일한 수준의 성능을 제공하는 동시에 더 다양한 언어에 대해 더 나은 수용을 제공한다는 사실을 발견했습니다.

예를 들어, 보일러넷 아키텍처는 적절한 콘텐츠를 추출하는 데 좋은 성능을 유지하지만 중국어 및 일본어 데이터 세트에 잘 적응하지 못하는 반면 웹투텍스트, 저자는 다국어가 아니며 웹 페이지에서 중앙 콘텐츠를 추출하는 데 부적합한 언어 기능을 사용하여 전체적으로 '상대적으로 성능이 좋지 않음'을 발견했습니다.

모질라 Readbility.js 규칙 기반 방법으로도 영어를 포함한 여러 언어에서 허용 가능한 성능을 달성하는 것으로 나타났습니다. 그러나 연구원들은 일본과 프랑스 데이터 세트에서 그 성능이 현저하게 떨어짐을 발견했으며, 이는 규칙 기반 접근 방식으로 특정 지역의 특성을 분석하려는 시도의 한계를 강조했습니다.

한편 구글의 DOM 증류기휴리스틱과 기계 학습 접근 방식을 혼합한 는 전반적으로 잘 수행되는 것으로 나타났습니다.

연구원의 자체 GCE 모듈을 포함하여 프로젝트 중에 테스트한 방법에 대한 결과 표입니다. 숫자가 높을수록 좋습니다.

연구원의 자체 GCE 모듈을 포함하여 프로젝트 중에 테스트한 방법에 대한 결과 표입니다. 숫자가 높을수록 좋습니다.

연구원들은 다음과 같이 결론을 내립니다. 'GCE는 인간 본성에 의존하기 때문에 빠르게 변화하는 웹 환경을 따라갈 필요가 없습니다. 진정한 글로벌 및 다국어 기능'.