Connect with us

인공지능

자동화된 과학 글쓰기 향한 도전

mm

오늘 아침, 나는 대부분의 아침과 마찬가지로 Arxiv의 컴퓨터 과학 섹션을 살펴보던 중에 브라질의 연방 대학교에서 나온 새로운 자연어 처리 프레임워크를 제안하는 최근의 논문을 발견했다. 이 논문은 과학 논문의 요약과 핵심 데이터 추출을 자동화하는 새로운 프레임워크를 제공한다.

이것은 내가 매일 하는 일과 거의 일치하므로, 이 논문은 올해 초에 레딧 작가 스레드에서 한 댓글을 생각나게 했다. 그 댓글은 과학 글쓰기가 기계 학습에 의해 가장 먼저 대체될 언론 직업 중 하나가 될 것이라는 예측이었다.

명확하게 말하자면, 나는 절대적으로 자동화된 과학 작가가 나타날 것이라고 믿으며, 이 글에서 내가 설명하는 모든 도전은 현재 해결 가능하거나 결국 해결될 것이라고 믿는다. 가능하다면, 나는 예를 들어 설명한다. 또한, 나는 현재 또는 가까운 미래의 과학 글쓰기 AI가 의미 있게 글을 쓸 수 있는지 여부를 다루고 있지 않다. 이 분야의 NLP에 대한 관심 수준을 고려할 때, 나는 이 도전이 결국 해결될 것이라고 가정한다.

그 대신, 나는 과학 글쓰기 AI가 출판사의 다양한 원하는 결과에 따라 관련 과학 이야기를 식별할 수 있는지 묻고 있다. 나는 이것이 임박하지 않다고 생각한다. 매주 약 2,000개의 새로운 과학 논문을 살펴보면서, 나는 학술 제출물이 알고리즘적으로 분해될 수 있는 정도에 대해 더 비관적인 견해를 가지고 있다. 이는 학술 색인 또는 과학 저널리즘을 위한 목적으로 이루어진다. 보통, 그것은 우리를 방해하는 것은 바로 사람들이다.

자동화된 과학 작가의 요구 사항

자동화된 과학 리포팅의 도전을 고려해 보자. 공정하게 유지하기 위해, 우리는 주로 코넬 대학교의 非유료 Arxiv 도메인의 CS 카테고리에 국한하겠다. 이는 적어도 데이터 추출 파이프라인에 플러그인할 수 있는 일련의 체계적이고 템플릿화된 기능을 제공한다.

새로운 브라질 논문과 마찬가지로, 과제는 새로운 과학 논문의 제목, 요약, 메타데이터 및(정당한 경우) 본문 내용을 반복하여 상수, 신뢰할 수 있는 매개변수, 토큰 및 실행 가능한, 축소 가능한 도메인 정보를 찾는 것이다.

이는 높은 성공을 거둔 새 프레임워크가 지진 보고, 스포츠 글쓰기, 금융 저널리즘 및 건강 보도와 같은 분야에서 지면을 얻고 있는 원칙이다.

복잡한 템플릿

한 가지 장려하는 일관성과 규칙화의 층은 Arxiv가 제출물에 대해 꽤 잘 시행되는 템플릿을 제공한다는 것이다. 또한 제출 저자를 위한詳細한 지침을 제공한다. 따라서 논문은 일반적으로 해당 작업을 설명하는 프로토콜의 일부에 따라 규칙을 따른다.

따라서 자동화된 과학 작가의 예비 처리 시스템은 이러한 섹션을 하위 도메인으로 처리할 수 있다. 즉, 초록, 소개, 관련/이전 작업, 방법론/데이터, 결과/발견, 제거 연구, 토론, 결론이다.

그러나 실제로, 이러한 섹션 중 일부는 누락되거나 이름이 바뀌었거나, 엄격히 말해서 다른 섹션에 속하는 내용을 포함할 수 있다. 또한, 저자들은 템플릿에 맞지 않는 제목과 하위 제목을 포함할 수 있다. 따라서 NLP/NLU는 contexto에서 관련 섹션 관련 내용을 식별해야 한다.

문제를 향한 진행

헤더 계층은 NLP 시스템이 초기에 콘텐츠 블록을 분류하는 쉬운 방법이다. 많은 Arxiv 제출물은 Microsoft Word에서 내보낸 것이다(.Arxiv PDF에서 ‘Microsoft Word’라는 제목 헤더가 남아 있는 것을 보면 알 수 있다). Word에서 올바른 섹션 제목을 사용하면 PDF로 내보낼 때 계층적인 헤더로 재생성되어 기계 리포터의 데이터 추출 프로세스에 유용하다.

그러나, 이것은 저자들이 실제로 Word나 다른 문서 생성 프레임워크에서 이러한 기능을 사용하고 있다고 가정한다. 기반으로 한 네이티브 대안 형식은 Arxiv 제출물에서 거의 제공되지 않는다. 대부분의 제출물은 PDF와, 때때로, 더 불투명한 PostScript로 제한된다.

GluedText at ParagraphReturns

PDF와 PostScript가 가장 일반적인 제출 형식인 경우, NLP 시스템은 PDF 형식의 불행한 기본 최적화 방법으로 인해 끝에서 시작하는 줄의 단어와 시작하는 줄의 단어를 분리하는 루틴이 필요하다.

단어를 분리하고(및 하이페이션을 제거)하는 것은 Perl과 같은 많은 단순한 재귀 루틴에서 수행할 수 있다. 그러나 Python 기반 접근 방식은 ML 프레임워크에 더 적합할 수 있다. PDF 형식의 원래 개발자인 Adobe는 텍스트를 ‘재흐름’할 수 있는 AI启用된 변환 시스템인 Liquid Mode를 개발했다.

나쁨 영어

영어는 과학 논문의 전 세계적인 표준이지만, 이것은 논란의 여지가 있다. 따라서, 흥미롭고 뉴스 가치가 있는 논문은 때때로 비영어권 연구자들로부터 나쁨의 영어 표준을 포함할 수 있다. 만약 영어 사용의 유능한 사용을 지표로 포함한다면, 좋은 이야기는 종종 손실될 수 있고, 거만한 하위 가치 출력은 더 높은 등급을 받을 수 있다.

NLP 시스템이 이 점에서 유연하지 않으면, 특히 가장 엄격하고 매개변수화된 과학 분야에서 데이터 추출에 추가적인 장벽을 경험할 수 있다.

선택: 청중 요구 사항 결정

우리는 잠시 과학 논문을 분해하는 문제로 돌아갈 것이다. 이제, 우리의 청중과 목표를 고려해 보자. 이것은 과학 글쓰기 AI가 수천 개의 논문을 걸러내는 데 도움이 될 것이다. 잠재적인 뉴스 이야기의 성공을 예측하는 것은 이미 기계 학습의 활발한 분야이다.

예를 들어, 과학 트래픽의 높은 볼륨이 웹사이트의 唯一 목표라면(예를 들어, UK의 데일리 메일 과학 섹션과 같이), AI는 가장 높은 수익을 올리는 주제를 결정하고, 그 주제로 최적화해야 한다. 이 과정은 상대적으로 낮은 과일인 로봇, 드론, 딥페이크, 개인 정보보안 취약점을 우선시할 수 있다.

한 번하고 끝!

좋은 과학 뉴스 재료는 때때로 이상하고 예상치 못한 곳에서 나올 수 있다. 또한, 과거에 결실이 없는 섹터나 주제에서 나올 수 있다. 따라서 우리의 AI 과학 작가는 생산적인 뉴스 소스 인덱스를 생성하려고 했지만, 오프비트 ‘히트’의 출처는 다시는 가치 있는 자료를 생산하지 않을 수 있다.

이것은 우리의 AI 작가 시스템에 대해 어떤 것을 의미할 수 있는가? 이전에 식별하고 제외한 수천 개의 이전 ‘아웃라이어’ 뉴스 소스를 다시 우선순위로 설정해야 하는가? 주제 자체가 뉴스 소스보다 더 가치 있는 활성화 계층인가? 더 유용하게, 시스템은 패턴을 찾기 위해 데이터 차원성 계층을 위아래로 이동해야 한다는 것을 학습할 수 있다.

가설 실패 식별

학술 압력으로 인해, 학술 부서에서는 가설이 완전히 실패한 경우에도 작업을 발표할 수 있다. 이러한 경우, 프로젝트의 방법과 발견은 여전히 가치가 있을 수 있다.

이러한 실망은 요약에 신호되지 않을 수 있다. 최악의 경우, 반증된 가설은 결과 그래프만 읽음으로써 식별할 수 있다. 이것은 방법론에 대한 자세한 이해를 제공하는 정보가 제한적이거나 선택적일 수 있는 경우에 그래프와 표를 의미 있게 해석할 수 있는 알고리즘을 필요로 한다.

재현과 ‘신선함’ 평가

때때로 ‘마른’ 논문은 저자들이 과소평가하거나 무시한 중요한 뉴스 가치가 있는 발견을 포함할 수 있다. 때때로, 저자들은 일반 대중보다 학술적 수용에 더 관심이 있을 수 있다.

이스터 에그

때때로 ‘마른’ 논문은 저자들이 과소평가하거나 무시한 중요한 뉴스 가치가 있는 발견을 포함할 수 있다. 때때로, 저자들은 일반 대중보다 학술적 수용에 더 관심이 있을 수 있다.

아래로

자동화된 과학 작가는 과학 보고의 다른 섹터에서 자동화의 잠재력을 고려해야 한다. Arxiv와 같은 도메인은 일관성과 템플릿화된 ‘훅’을 제공한다. 그러나, 다른 과학 출판 플랫폼은 구조적으로 체계적인 탐색에 저항할 수 있다.

확산 결정

대부분의 기자와 마찬가지로, 우리의 예상된 AI 과학 작가는 보고되지 않은 또는 보고되지 않은 뉴스를 찾고 있다. 따라서, 우리의 AI 작가는 이미 대규모 플랫폼에서 보도된 이야기를 다시 보도하는 것은 무의미하다는 것을 결정해야 한다.

가장 쉬운 방법은 최근 인바운드 링크를 식별하는 것이다. 그러나, 이러한 정보를 제공하는 프레임워크는 일반적으로 오픈 소스나 저렴하지 않다.

이스터 에그

때때로 ‘마른’ 논문은 저자들이 과소평가하거나 무시한 중요한 뉴스 가치가 있는 발견을 포함할 수 있다. 때때로, 저자들은 일반 대중보다 학술적 수용에 더 관심이 있을 수 있다.

자동화된 과학 작가의 사회적 측면

Arxiv와 같은 ‘개방형’ 과학 출판 플랫폼을 넘어서, 새로운 논문을 접근하는 것은 저자에게 연락처를 찾고, 접근을 요청하고, 인용을 얻는 것을 포함하는 도전이 될 수 있다.

이것은 과학 도메인의 자동화된 탐색과 계정을 생성하는 것을 포함할 수 있다. 그러나, LinkedIn과 같은 플랫폼은 AI 시스템이 회원과 연락하는 것을 금지한다.

뉴스 식별

다른 저널리즘 섹터에서 자동화의 가능성과 마찬가지로, 잠재적인 이야기를 식별하는 것이 핵심 도전이다. 대부분의 인간 기자들은 실제로 글을 쓰는 것이 마지막 10%의 노력이며, 키보드가 클랙클하는 순간, 대부분의 작업은 이미 끝났다고 인정한다.

주된 도전은 뉴스를 식별하고, 조사하고, 인증할 수 있는 AI 시스템을 개발하는 것이다. 이는 뉴스 게임의 많은 미묘한 측면과, 이미 인간이나 다른 것으로부터의 탐색과 추출에 저항하는 플랫폼을 탐색하는 것을 포함한다.

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai