Connect with us

์•ˆ๋“œ๋ ˆ์•„ ๋ฐ”ํƒ€๋‹ˆ, ์Šคํ”ผ์ผ“๋žฉ์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž ๋ฐ ์ตœ๊ณ  ๊ณผํ•™์ž – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

์•ˆ๋“œ๋ ˆ์•„ ๋ฐ”ํƒ€๋‹ˆ, ์Šคํ”ผ์ผ“๋žฉ์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž ๋ฐ ์ตœ๊ณ  ๊ณผํ•™์ž – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

안드레아 바타니는 스피켓랩의 공동 창립자 및 최고 과학자입니다. 스피켓랩은 크리에이터, 플랫폼, 브랜드를 위한 오디오언스 인텔리전스와 미디어 성능을 강화하는 컨텍스트화 회사입니다. 자체 개발한 클레어 AI는 비정형 데이터셋의 노이즈로부터 신호를 추출하여 특히 고속 온라인 환경에서 비할 수 없는 명확성과 컨텍스트를 제공합니다.

컴퓨터 과학과 AI에 처음 관심을 갖게 된 계기는 무엇인가?

그것은 운이 좋게도 여러 가지 상황이 겹친 결과였습니다. 로마 대학교에서 통계학 입학 시험을 보러 갔는데, 시험을 보러 가는 날이 아니었습니다! 그래서 컴퓨터 과학으로 신청하라고 조언받았고, 1년 후에 통계학과로 옮길 수 있다고 했습니다. 그래서 컴퓨터 과학 입학 시험(그날 있었음!)을 보러 갔고, 통과했습니다… 결국 통계학과로 옮기지 않았습니다! 내게 AI에 대한 관심은 컴퓨터가 자동화하는 것을 도와줄 수 있다는 것을 깨닫기 시작하면서부터였습니다. 또한 자연어와 사람들이 그것을 사용하는 방식에 관심이 많았습니다. 고등학교에서 고전 연구를 했는데, 그 때는 라틴어와 고대 그리스어를 공부했었습니다. 그것은 기계가 단어의 흐름을 받았을 때 느낄 수 있는 것과 비슷합니다.

이전에는 아마존 구드리즈의 선임 리드 소프트웨어 엔지니어로 일했습니다. 그때 어떤 프로젝트를 했으며, 그 경험에서 어떤 것을 얻었나요?

구드리즈에서 일할 때 여러 머신 러닝 프로젝트를 진행했는데, 그 중에는 스팸 감지와 책 추천 엔진의 확장 등이 있었습니다. 그때의 경험에서 얻은 교훈은 비즈니스와 고객의 목표에 맞는 머신 러닝 메트릭을 정의하는 것이 중요하다는 것입니다. 예를 들어, 추천 엔진은 이미 오래전부터 존재했습니다. 2009년에 넷플릭스 프라이즈 대회를 기억하시나요? 최고의 영화 추천을 찾기 위한 대회였는데, 그 대회에서 우승한 팀의 솔루션은 영화를 보는 확률이 영화를 좋아하는지 여부와는 관련이 없고, 영화의 관심사와 비슷한지 여부와 더 관련이 있다는 것을 보여주었습니다. 그것은 영화의 경우에는 90분의 짧은 시간 동안의 약속이기 때문에 작동할 수 있지만, 책의 경우에는 그렇지 않습니다. 메트릭에 올바른 목표를 통합하는 것이 중요합니다.

스피켓랩에서 적용한 또 다른 교훈은 제품 로드맵과 통합된 배달 중심의 AI 팀을 구축하는 것입니다.那样하면 목표, 일정, ROI에 대한 이해가 더 잘 정의되고, 팀은 탐색과 연구에만 집중하는 것이 아니라 모델의 속도와 실제성에 더 집중할 수 있습니다. 넷플릭스 대회 예를 다시 들어보면, 우승 팀의 모델은 실제로 통합되지 않았는데, 그것은 실제성과 속도가 부족했기 때문입니다.

您的 연구는 수많은 저널에 발표되었습니다. 지금까지 가장 중요한 논문은 무엇이라고 생각하나요?

박사 과정 동안 여러 분야의 연구자들과 협력할 수 있었습니다. 그 중에서 간단하고 적용이 용이한 논문은 “Scalable K-Means++“입니다. K-means++는 무监督 클러스터링 방법으로 데이터셋을 K개의 일관된 그룹으로 나눕니다. 하지만 데이터와 그룹이 많아지면 너무 느려집니다. 그 논문에서 우리는 동일한 정확도를 얻을 수 있지만 병렬화하여 더 빠르게 할 수 있는 방법을 보여줍니다. 우리의 방법론은 매우 간단하고 여러 머신 러닝 라이브러리에 구현되었습니다.

스피켓랩의 창립 배경에 대해 알려주세요.

구드리즈에서 일한 후, 스피켓랩의 공동 창립자들과 함께 니치 소셜 플랫폼에서 고급 브랜드 인사이트를 얻는 산업의 간격을 이해했습니다. AI 기술을 적용하여 효율적으로 문제를 해결할 수 있습니다.

오늘날 경제에서 회사들은 고객과 산업 전체를 들어야 합니다. 하지만 고객이 브랜드에 대해 말하는 많은 내용이 들리지 않습니다. 매일 수백만 명의 사람들이 의견을 개방적으로 표현합니다. 트위터, 레딧, 트위치 등에서 vậy입니다. 그것은 시장 연구자에게 매우 유용한 자원입니다. 하지만 내용을 대규모로 컨텍스트화할 수 있어야 합니다. 문제는 인사이트 산업이 디지털 행동과 언어의 발전에 따라가지 못했다는 것입니다.

청취 도구는 키워드와 불리언 검색에 의존하여 브랜드에 속하는 대화의 많은 부분을 놓치고 있습니다. 한편, 시장 연구 회사들은 질적 인사이트를 얻기 위해 양적이고 비용 제한적인 방법론을 사용하려고 하는 어려운 균형을 유지하려고 합니다.

간단히 말해서, 사람들은 대규모로 청중을 이해하기 위한 도구가 부족했습니다. 판매 숫자와 뷰어 수는 청중 행동의 “무엇”을 대답하지만, “왜”를 대답하지 못합니다. 컨텍스트가 없으면 상관관계와 인과관계를 구분하는 것은 추측의 게임입니다. 우리는 이 공백을 인식하고, 컨텍스트 이해를 위한 솔루션은 무엇일지 조사했습니다. 그렇게 스피켓랩이 탄생했습니다.

스피켓랩에서 사용하는 머신 러닝 기술은 무엇인가?

우리는 일반적인 Scikit-learn에서부터 Pytorch와 같은 딥 러닝 라이브러리를 사용합니다. 라이브러리 외에도 사용하는 방법론, 모델, 데이터셋은 대부분 자체 개발한 것입니다. 우리는 오프-더-シェルフ 방법과 모델은 어느 정도까지밖에 가지 못한다는 것을 배웠습니다. 하지만 실제로 문제를 해결하려면 목표에서부터 모델 아키텍처와 데이터셋까지 자신만의 작업을 해야 합니다. 예를 들어, 토픽 모델링은 텍스트 컬렉션에서 테마를 추출하는 작업입니다. 스피켓랩의 “스피켓랩 컨버스”는 고객에게 청중에 대한 중요한 인사이트를 제공하며, 토픽 모델링을 하나의 신호로 사용합니다. 일반적인 토픽 모델링 방법은 LDA(라틴 디리클레 할당)입니다. 하지만 그것은 너무 불일치하고 예측할 수 없으며, 너무 강력하지도 않습니다. 반면에, 현대적인 사전 훈련 모델인 Bert-Topics는 강력하고 포괄적이지만, 너무僵硬하고 느립니다. NLP와 언어 AI는 지난 10년 동안 큰 발전을 이루었지만, 기존 모델을 제품으로 전환하는 것은 아직 최적화되지 않았으며, 위험한 베팅입니다.

스피켓랩이 크리에이터, 플랫폼, 브랜드를 위한 즉각적인 청중 이해를 어떻게 강화하는지 설명해주세요.

광고주와 에이전시는 스피켓랩의 인플루언서 리더보드와 브랜드 어피니티 툴을 사용하여 여러 카테고리에서 브랜드 안전 등급을 가진 크리에이터의 커뮤니티를 식별합니다. 크리에이터는 도구를 사용하여 개별 스트림을 살펴보고, 가장 안전하지 않은 대화는 무엇인지, 어떤 대화가 스폰서를 위한 긍정적인 참여를 유도했는지, 그리고 어디서 더 나은 모더레이션 노력을 할 수 있는지 확인할 수 있습니다.

스피켓랩에서 최근에 발표한 논문 ‘FeelsGoodMan: Inferring Semantics of Twitch Neologisms‘에 대해 간단히 설명해주세요.

온라인에서 사람들이 소통하고 표현하는 방식은 점점 더 복잡하고 해석하기 어려워졌습니다. 먼저 이모티콘이 왔습니다. 그런 다음 이모지가 왔습니다. 그런 다음 메모… 그리고 이제 “이모트”, 트위치 스트리밍 플랫폼에서 인기 있는 새로운 형태의 아이콘 기반 소통입니다. 그것은 이모지와 비슷하게 텍스트와 함께 사용되지만, 의미가 실제 이미지와 관련이 없기 때문에 메모와 비슷한 도전을 제기합니다. 현재 800만 개 이상의 고유한 이모트가 있으며, 매주 40만 개 이상의 이모트가 사용됩니다. 하지만 사람들은 효과적으로 이모트를 사용하여 기쁨, 지루함, 흥奮, 또는 비꼬기를 표현합니다. 최근의 논문은 이모트의 의미를 추론하기 위한 AI 레시피입니다. 우리의 접근 방식은 수동으로 유지하고 업데이트하는 데이터셋을 필요로하지 않으며, 새로운 이모트의 지속적인 도입과 인기 있는 이모트의 의미의 발전에 따라 자동으로 적응할 수 있습니다. 이것은 특히 이모티콘 “TriHard”, “PogChamp”, “FeelsGoodMan”과 같이 정치적 또는 인종적으로 불러일으키는 이모티콘이 사용될 때 중요합니다. 언어의 동적 사용과 의미의 변화는 모더레이션 시스템이나 감정 분석 프레임워크에巨大한 문제를 제기합니다. 그래서 우리는 스피켓랩에서 이 문제를 올바른 방법으로 해결하고자 합니다.

스피켓랩에 대해 더 알고 싶은 내용이 있나요?

올해를 앞두고, 스피켓랩은 클라이언트를 위한 브랜드 감정에 대한 더 깊은 이해를 제공하는 새로운 툴을 개발하고 완성 중입니다. 스피켓랩의 새로운 어피니티 툴은 크리에이터, 브랜드, 게임 등 사이의 어피니티를 식별하고 양적으로 분석하는 상호작용적이고 직관적인 방법을 제공합니다. 어떤 쿼리에도 대해, 툴은 관련 언급의 빈도와 감정과 같은 수많은 컨텍스트 신호를 구성하여 어피니티 인덱스 점수를 생성합니다. 스피켓랩의 기술 스택은 게임, 브랜드, 크리에이터 사이의 어피니티를 인덱싱하는 데 유일하게 위치하고 있습니다. 자체 개발한 클레어 NLP AI는 매일 수백만 개의 공개된 사용자 생성 메시지를 처리하며, 다른 방법으로는 모호한 내용을 스피켓랩의 광범위한 지식 그래프 내의 엔티티에 속성화하고, 대화의 주제를 결정하며, 감정을 모니터링하고, 안전성을 확인합니다. 새로운 어피니티 툴은 개발자, 크리에이터, 브랜드 등이 청중과 브랜드의 영향을 더 잘 이해할 수 있도록 합니다.

멋진 인터뷰 감사합니다. 더 많은 정보를 원하는 독자는 스피켓랩을 방문하세요.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.