Rescale 미팅 예약

인터뷰

Erik Gfesser, SPR의 데이터 관행을 위한 수석 설계자 - 인터뷰 시리즈

mm
업데이트 on

Erik은 SPR의 Emerging Technology Group에서 2018년 수석 설계자로 선정되었습니다.

Erik은 데이터, Java를 사용한 오픈 소스 개발, PoC, 프로토타입 및 MVP 구축을 포함한 실용적인 엔터프라이즈 아키텍처의 전문가가 되었습니다.

처음에 기계 학습에 끌린 이유는 무엇입니까?

애플리케이션이 지속적으로 학습할 수 있도록 합니다. 저는 글로벌 시장 조사 회사가 된 SPSS를 사용하는 선임 데이터 분석가로 개발 경력을 시작했으며 나중에 고객을 위해 구축한 애플리케이션에 Drools라는 비즈니스 규칙 엔진 사용을 통합했지만 이 모든 작업의 ​​결과는 본질적으로 정적입니다.

나중에 프로세스 개선 교육을 통해 강사가 통계 및 기타 방법을 통해 고객이 사용하는 비즈니스 프로세스를 개선할 수 있는 방법을 자세히 시연했지만 여기서도 출력은 주로 특정 시점에 집중되었습니다. 같은 시기에 동료들과 함께 의료 제품을 개선하기 위해 노력한 경험을 통해 그러한 노력에 지속적인 학습이 필요한 이유를 알 수 있었지만 현재 사용 가능한 리소스는 그 당시에는 존재하지 않았습니다.

흥미롭게도 기계 학습에 대한 나의 매력은 당시 AI 겨울로 인해 대학원 고문이 인공 지능이라고 불리는 전문 분야에 대해 경고하면서 완전히 돌아 왔습니다. 대신 ML과 같은 용어를 사용하기로 선택한 이유는 의미가 적고 AWS도 AI 서비스 계층이 실제로는 ML 서비스 계층 위에 구축된 더 높은 수준의 추상화라는 것을 인정하기 때문입니다. 일부 ML 과대 광고는 비현실적이지만, 동일한 실무자가 ML이 제공하는 가치가 ML에서 처리하는 데이터만큼만 우수하다는 사실을 인정하는 한 개발자의 관점에서 강력한 기능을 제공합니다.

 

당신은 거대한 오픈 소스 지지자입니다. 오픈 소스가 왜 그렇게 중요한지 논의할 수 있습니까?

내가 수년 동안 경영진에게 설명해야 했던 오픈 소스에 대한 한 가지 측면은 오픈 소스의 주요 이점은 그러한 소프트웨어를 금전적 비용 없이 사용할 수 있다는 것이 아니라 소스 코드를 자유롭게 사용할 수 있다는 것입니다.

또한 이 소스 코드를 사용하는 개발자는 자신의 용도에 맞게 수정할 수 있으며 제안된 변경 사항이 승인되면 이를 사용하는 다른 개발자에게 이러한 변경 사항을 제공할 수 있습니다. 사실, 오픈 소스 소프트웨어의 뒤를 잇는 움직임은 상업용 회사가 라이센스를 부여한 제품을 변경하기를 오랫동안 기다리는 개발자들 때문에 시작되었습니다. 개발자.

상용화된 오픈 소스는 이러한 이점을 활용합니다. 이러한 소프트웨어의 상용 변형은 일반적으로 주어진 오픈 소스 릴리스의 일부로 사용할 수 없는 추가 구성 요소를 제공하지만 필요한 경우 지원도 제공합니다.

오픈 소스에 대한 나의 첫 경험은 앞서 언급한 의료 제품을 구축하는 동안 발생했으며, 소프트웨어를 구축하는 데 사용되는 Apache Ant와 같은 도구와 Hudson(나중에 Jenkins가 된 코드 베이스가 된 코드 베이스)이라는 당시의 초기 DevOps 제품을 사용했습니다. ). 우리가 이러한 오픈 소스 제품을 사용하기로 결정한 주된 이유는 이것이 상업적 대안에 대한 더 나은 솔루션을 제공했거나 상업적 주체가 제공하지 않는 혁신적인 솔루션이었기 때문입니다. 지나치게 제한적이어서 관련 비용으로 인해 더 많은 라이센스가 필요할 때 과도한 관료주의가 필요했습니다.

시간이 지남에 따라 오픈 소스 오퍼링이 계속해서 진화하여 절실히 필요한 혁신을 제공하는 것을 보았습니다. 예를 들어, 이 의료 제품을 구축하면서 동료들과 씨름했던 많은 문제는 나중에 우리가 사용하기 시작한 혁신적인 오픈 소스 Java 제품인 Spring Framework로 해결되었습니다. 이제는 종속성 주입과 같이 처음에 제공한 혁신 중 일부를 훨씬 뛰어넘어 이제 일반화되었습니다.

 

PoC, 프로토타입 및 MVP를 구축하기 위해 오픈 소스를 사용했습니다. 이러한 제품 중 일부에 대한 귀하의 여정을 공유해 주시겠습니까?

최근 고객에게 제시한 기본 원칙 중 하나에서 설명했듯이 고객을 위해 구축한 데이터 플랫폼의 구축은 시간이 지남에 따라 필요에 따라 계속 반복적으로 수행되어야 합니다. 이 플랫폼용으로 구축된 구성 요소는 필요 사항이 변경되고 시간이 지남에 따라 새로운 구성 요소와 구성 요소 기능이 제공되므로 정적으로 유지될 것으로 기대해서는 안 됩니다.

플랫폼 기능을 구축할 때 불필요한 종소리와 휘파람을 추가하기 전에 항상 최소한으로 실행 가능한 것부터 시작하십시오. 어떤 경우에는 구성도 포함됩니다. 기능적인 것부터 시작하여 이해했는지 확인한 다음 발전시키십시오. 사용 가능성이 낮은 것을 구축하는 데 시간과 비용을 낭비하지 말고 미래의 요구 사항을 미리 확보하기 위해 노력하십시오.

이 제품을 위해 구축한 MVP는 비용 이상 감지를 위해 단일 사용 사례의 구현과 함께 패키지로 제공되더라도 그 위에 추가 사용 사례를 계속 구축할 수 있도록 구축해야 했습니다. 이 클라이언트와 달리 내가 만든 이전 제품에는 내가 도착하기 전에 약간의 역사가 있었습니다. 이 경우 이해 관계자는 XNUMX년(!) 동안 구축하려는 제품에 접근하는 방법을 논의했습니다. 한 클라이언트 임원은 그가 나를 데려온 이유 중 하나는 특히 그가 만들고자 하는 제품이 관련된 조직의 계층을 만족시켜야 하기 때문에 회사가 이러한 내부 논쟁 중 일부를 통과하도록 돕기 위한 것이라고 설명했습니다.

저는 이러한 영역 전쟁이 주로 고객, 자회사 및 외부 고객이 소유한 데이터와 관련이 있다는 것을 알게 되었습니다. 따라서 이 경우 전체 제품 백로그는 이 데이터를 수집, 저장, 보안 및 소비하는 방법을 중심으로 이루어졌습니다. 비용 분석을 위해 의료 제공자의 즉각적인 네트워크를 생성하는 단일 사용 사례의 경우.

경력 초기에 나는 "사용성"이라는 아키텍처 품질이 최종 사용자에게만 국한되지 않고 소프트웨어 개발자 자신에게만 국한된다는 것을 이해하게 되었습니다. 그 이유는 최종 사용자가 사용자 인터페이스를 사용할 수 있어야 하는 것처럼 작성된 코드도 사용할 수 있어야 하기 때문입니다. 제품을 사용할 수 있으려면 특히 개발자가 선택한 특정 기술과 관련하여 개발자가 설정한 작업을 수행할 수 있음을 입증하기 위해 개념 증명을 구축해야 합니다. 그러나 제품은 시간이 지남에 따라 진화할 때 가장 좋기 때문에 개념 증명은 시작에 불과합니다. 그러나 내 생각에 MVP의 기반은 개발자가 계속해서 발전시킬 수 있도록 어느 정도 안정성을 보이는 프로토타입 위에 이상적으로 구축되어야 합니다.

 

DaVinci에는 책 '엔터프라이즈 규모의 기계 학습' 검토 당신은 '오픈 소스와 상용 구성 요소의 혼합으로 구성된 민첩한 아키텍처와 함께 오픈 소스 제품, 프레임워크 및 언어를 사용하면 많은 기업이 필요로 하지만 처음부터 즉시 깨닫지 못하는 민첩성을 제공한다'고 말했습니다. 오픈 소스를 사용하는 회사가 더 민첩하다고 생각하는 이유에 대해 자세히 설명해 주시겠습니까?

많은 상용 데이터 제품은 내부적으로 주요 오픈 소스 구성 요소를 사용하며 개발자가 Python과 같은 널리 사용되는 프로그래밍 언어를 사용할 수 있도록 합니다. 이러한 제품을 만드는 회사는 그들이 통합하기로 선택한 오픈 소스 구성 요소가 커뮤니티에서 이미 널리 사용되고 있을 때 바로 시작할 수 있다는 것을 알고 있습니다.

강력한 커뮤니티가 있는 오픈 소스 구성 요소는 이것이 테이블에 가져오는 친숙함으로 인해 판매하기가 더 쉽습니다. 주로 폐쇄형 소스로 구성된 상용 제품 또는 주로 특정 상용 제품에서만 사용되는 오픈 소스인 경우 소프트웨어를 사용하려면 이러한 공급업체의 교육이나 라이선스가 필요한 경우가 많습니다.

또한 이러한 구성 요소에 대한 문서는 대부분 공개적으로 사용할 수 없으므로 개발자가 이러한 회사에 지속적으로 의존해야 합니다. Databricks 통합 분석 플랫폼과 같은 제품과 같이 Apache Spark와 같이 널리 사용되는 오픈 소스 구성 요소가 핵심적인 초점일 때 이러한 항목 중 많은 항목이 이미 커뮤니티에서 사용 가능하므로 개발 팀이 상업적 엔터티에 의존해야 하는 부분을 최소화합니다. 그들의 일을 하기 위해.

또한 Apache Spark와 같은 구성 요소가 사실상의 업계 표준 도구로 광범위하게 수용되기 때문에 이러한 제품의 상용 구현 간에 코드를 더 쉽게 마이그레이션할 수도 있습니다. 회사는 항상 경쟁력 있는 차별화 요소로 간주되는 것을 통합하려는 경향이 있지만 많은 개발자는 완전히 새로운 제품을 사용하는 것을 원하지 않습니다. 이는 회사 간 이동이 어렵고 그들이 온 강력한 커뮤니티와의 관계를 끊는 경향이 있기 때문입니다. 예상되는.

개인적인 경험으로 볼 때, 나는 과거에 그러한 제품을 사용해 본 적이 있으며 유능한 지원을 받는 것이 어려울 수 있습니다. 적시에 지원이 제공될 것이라는 고객의 기대를 가지고 제품을 판매한다는 점에서 이는 아이러니합니다. 같은 날 수정 사항이 빌드에 통합된 오픈 소스 프로젝트에 풀 리퀘스트를 제출한 경험이 있지만, 내가 함께 일한 상업 프로젝트에 대해 똑같이 말할 수는 없습니다.

 

오픈 소스에 대해 생각하는 또 다른 점은 오픈 소스가 '강력한 개발자 커뮤니티에 대한 액세스'로 이어진다는 것입니다. 이러한 커뮤니티 중 일부는 얼마나 크며 무엇이 그렇게 효과적입니까?

주어진 오픈 소스 제품에 대한 개발자 커뮤니티는 수십만 명에 달할 수 있습니다. 채택률이 반드시 커뮤니티의 강점을 가리키는 것은 아니지만 선순환을 생성하는 경향이 있기 때문에 이것이 사실임을 나타내는 좋은 지표입니다. 건전한 토론과 효과적인 문서 작성이 이루어지고 활발한 개발이 진행되는 커뮤니티가 강하다고 생각합니다.

아키텍트나 수석 개발자가 구축 중인 제품에 통합할 그러한 제품을 선택하는 프로세스를 통해 작업할 때 일반적으로 제품 자체와 커뮤니티의 모습뿐만 아니라 다음을 수행할 개발 팀에 대한 많은 요소가 작용합니다. 개발 중인 생태계에 적합한지, 로드맵이 어떻게 생겼는지, 경우에 따라 이것이 필요할 수 있는 경우 상업적 지원을 찾을 수 있는지 여부입니다. 그러나 강력한 개발자 커뮤니티가 없으면 이러한 측면 중 많은 부분이 실패합니다.

 

귀하의 웹사이트에서 100권의 책을 검토하셨습니다. 독자들에게 추천할 수 있는 세 권이 있습니까?

요즘 저는 프로그래밍 책을 거의 읽지 않습니다. 예외도 있지만 실제로는 이러한 책은 일반적으로 매우 빠르게 구식이며 개발자 커뮤니티는 일반적으로 토론 포럼과 문서를 통해 더 나은 대안을 제공합니다. 현재 읽고 있는 많은 책은 내가 구독하는 기술 뉴스레터, 저에게 연락하는 저자 및 홍보 담당자 또는 Amazon이 저에게 보내는 뉴스레터를 통해 무료로 제공됩니다. 예를 들어 Amazon은 2011년 검토를 위해 수정되지 않은 "The Lean Startup"의 사전 출판물을 보내 MVP의 개념을 소개했으며 최근에는 "Julia for Beginners" 사본을 보냈습니다.

(1) 내가 추천한 오라일리의 한 책은 “데이터베이스 열반을 찾아서”. 저자는 중간에 운영 및 비즈니스 인텔리전스 워크로드가 있는 한쪽 끝의 OLTP 범위에서 다른 쪽 끝의 분석에 이르는 워크로드를 지원하기 위한 데이터 쿼리 엔진의 과제를 자세히 다룹니다. 이 책은 데이터베이스 엔진 또는 쿼리와 스토리지 엔진의 조합을 평가하기 위한 가이드로 사용할 수 있으며 트랜잭션, 분석 또는 이 둘의 혼합 여부에 관계없이 워크로드 요구 사항을 충족하도록 조정됩니다. 또한 최근 몇 년 동안 "흔들리는 데이터베이스 진자"에 대한 저자의 취재가 특히 잘 이루어졌습니다.

(2) 지난 몇 년 동안 데이터 공간에서 많은 변화가 있었지만 새로운 데이터 분석 제품이 계속 도입된 이후 "파괴적인 분석" 다른 곳에서는 본 적이 없는 분석 혁신의 지난 50년에 대한 접근하기 쉬운 짧은 역사를 제시하고 분석 가치 사슬 내의 파괴적 혁신과 분석 혁신에 의한 산업 파괴라는 두 가지 유형의 파괴에 대해 논의합니다. 스타트업과 분석 전문가의 관점에서 볼 때 성공은 산업을 혁신함으로써 가능해집니다. 분석을 사용하여 제품을 차별화하는 것은 파괴적인 비즈니스 모델을 만들거나 새로운 시장을 창출하는 방법이기 때문입니다. 조직을 위한 분석 기술에 대한 투자의 관점에서 보면 중단 위험이 있는 기술은 단축된 유효 수명으로 인해 위험한 투자이기 때문에 관망하는 접근 방식을 취하는 것이 합리적일 수 있습니다.

(3) 내가 읽은 최고의 기술 비즈니스 텍스트 중 하나는 “전략의 한계"는 컴퓨팅 세계의 발전과 기업의 적응 방법을 조사하는 국제 싱크 탱크인 Research Board(Gartner에서 인수)의 공동 창립자입니다. 저자는 비즈니스 리더들과의 많은 대화에서 얻은 매우 상세한 메모를 제공하며 폭발적인 컴퓨팅 세계와 전략을 결합해야 하는 주요 회사인 클라이언트 그룹을 구축(아내와 함께)한 경험에 대한 통찰력 있는 분석을 제공합니다. 내 서평에서 언급한 것처럼 이 책이 다른 관련 노력과 차별화되는 점은 상반되는 것처럼 보이는 두 가지 특성입니다. 바로 업계 전반의 폭과 대면 상호 작용을 통해서만 얻을 수 있는 친밀감입니다.

 

귀하는 SPR의 데이터 사례에 대한 수석 설계자입니다. SPR이 무엇을 하는지 설명해 주시겠습니까?

SPR은 시카고 지역에 기반을 둔 디지털 기술 컨설팅 회사로서 Fortune지 선정 1000대 기업에서 지역 신생 기업에 이르기까지 다양한 고객을 위한 기술 프로젝트를 제공합니다. 맞춤형 소프트웨어 개발, 사용자 경험, 데이터 및 클라우드 인프라에서 DevOps 코칭, 소프트웨어 테스트 및 프로젝트 관리에 이르기까지 다양한 기술 기능을 사용하여 종단 간 디지털 경험을 구축합니다.

 

SPR에 대한 귀하의 책임은 무엇입니까?

수석 설계자로서 저의 주요 책임은 클라이언트를 위한 솔루션 제공을 주도하고 프로젝트를 위한 아키텍처 및 개발을 주도하는 것입니다. 특히 처음부터 구축할 때 작업의 우선 순위를 지정하는 방법과 관련하여 매우 중요합니다. 나는 또한 내 전문 지식이 필요할 때 잠재 고객과의 토론에 참여하고 회사는 최근에 데이터 프랙티스의 동료 설계자와 지속적인 일련의 세션을 시작하여 고객 프로젝트, 사이드 프로젝트 및 동료가 무엇인지 논의하도록 요청했습니다. 말하자면 이 다른 회사에 대한 내부 모임에는 데이터 작업에만 국한되지 않고 전체 기술 관행이 포함되었지만 이전 컨설팅을 위해 실행한 것과 유사하게 기술을 따라잡기 위해 수행했습니다.

경력의 대부분 동안 저는 Java를 사용한 오픈 소스 개발을 전문으로 했으며 그 과정에서 점점 더 많은 양의 데이터 작업을 수행했습니다. 이 두 가지 전문 분야 외에도 동료들과 함께 "실용적인" 또는 "실용적인" 엔터프라이즈 아키텍처라고 부르게 된 작업도 수행합니다. 그것에 대해 이야기하거나 다이어그램을 그리는 것보다 물론 이러한 다른 작업도 중요하다는 것을 깨닫습니다.

내 생각에 이 세 가지 전문화는 서로 겹치며 상호 배타적이지 않습니다. 저는 지난 몇 년 동안 기술 산업에서 소프트웨어 개발과 데이터 작업 사이에 전통적으로 그렸던 선이 더 이상 잘 정의되지 않는다고 설명했습니다. 이러한 수렴의 결과로 데이터 작업 자체가 대체로 소프트웨어 개발 노력이 되었습니다. 그러나 기존의 데이터 실무자는 일반적으로 소프트웨어 개발 배경이 없고 ​​그 반대도 마찬가지이므로 이 격차를 해소하는 데 도움을 줍니다.

 

현재 SPR과 함께 작업하고 있는 흥미로운 프로젝트는 무엇입니까?

최근에 나는 여러 부분으로 구성된 사례 연구 시리즈의 첫 번째 게시물 작년에 시카고에 본사를 둔 글로벌 컨설팅 회사의 CIO를 위해 우리 팀과 제가 처음부터 AWS에서 구현한 앞에서 언급한 데이터 플랫폼에 대해 이야기합니다. 이 플랫폼은 데이터 파이프라인, 데이터 레이크, 정식 데이터 모델, 시각화 및 기계 학습 모델로 구성되며 기업 부서, 관행 및 고객의 최종 고객이 사용할 수 있습니다. 핵심 플랫폼은 CIO가 운영하는 기업 IT 조직에서 구축하는 것이었지만, 기업 IT 외부의 다른 조직에서 이 플랫폼을 사용하여 공통 아키텍처를 사용하여 회사 전체에서 데이터 자산 및 데이터 분석을 중앙 집중화하는 것이 목표였습니다. 각 조직의 사용 사례 요구 사항을 충족하기 위해 그 위에 구축합니다.

많은 기성 회사와 마찬가지로 Microsoft Excel의 사용이 보편화되었으며 스프레드시트는 일반적으로 조직 내외뿐만 아니라 회사와 외부 고객 간에 배포되었습니다. 또한 사업부와 컨설팅 관행은 사일로화되어 각각 서로 다른 프로세스와 도구를 사용했습니다. 따라서 데이터 자산 및 데이터 분석을 중앙 집중화하는 것 외에도 데이터 소유권 개념을 구현하고 안전하고 일관된 방식으로 조직 간에 데이터를 공유할 수 있도록 하는 것이 또 다른 목표였습니다.

 

오픈 소스, SPR 또는 작업 중인 다른 프로젝트에 대해 공유하고 싶은 다른 사항이 있습니까?  

다른 프로젝트(관련 정보 읽기 여기에서 지금 확인해 보세요. 및 여기에서 지금 확인해 보세요.) 최근에 저는 Databricks 통합 분석 플랫폼을 성공적으로 구현하고 대규모 보험사의 데이터 엔지니어링 책임자를 위해 Hadoop 배포판인 Azure HDInsight에서 기계 학습 모델 실행을 마이그레이션하는 작업을 이끌었습니다.

마이그레이션된 모든 모델은 다양한 보험 상품에 대해 예상할 수 있는 소비자 채택 수준을 예측하기 위한 것입니다. 일부 모델은 회사가 HDInsight를 사용하기로 이전한 몇 년 전에 SAS에서 마이그레이션되었습니다. 가장 큰 문제는 열악한 데이터 품질이었지만 다른 문제로는 포괄적인 버전 관리 부족, 부족 지식 및 불완전한 문서, 미성숙한 Databricks 문서 및 당시 R 사용과 관련된 지원이 포함되었습니다(Databricks의 Azure 구현은 이제 막 일반적으로 사용 가능하게 되었습니다. 이 프로젝트보다 몇 달 전).

이러한 주요 문제를 해결하기 위해 구현 작업의 후속 조치로 자동화, 구성 및 버전 관리, 데이터 문제 분리, 문서화, 데이터, 플랫폼 및 모델링 팀 간의 필요한 조정에 대한 권장 사항을 만들었습니다. 우리의 작업은 처음에는 매우 회의적인 수석 ​​데이터 과학자에게 Databricks가 가야 할 길이라고 확신시켰습니다. 우리가 떠난 후 남은 모델을 가능한 한 빨리 Databricks로 마이그레이션하는 것이 목표라고 밝혔습니다.

이것은 많은 주제를 다루는 매혹적인 인터뷰였으며 오픈 소스에 대해 많은 것을 배운 것 같습니다. 자세한 내용을 알고 싶은 독자는 SPR 기업 홈페이지나 에릭 그페서의 웹사이트.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.