Phỏng vấn
Steven Hillion, Phó Chủ tịch cấp cao về Dữ liệu và Trí tuệ Nhân tạo tại Astronomer – Loạt Phỏng vấn

Steven Hillion là Phó Chủ tịch cấp cao về Dữ liệu và Trí tuệ Nhân tạo tại Astronomer, nơi ông tận dụng kiến thức sâu rộng về toán học nghiên cứu và hơn 15 năm kinh nghiệm trong phát triển nền tảng học máy tại Thung lũng Silicon. Tại Astronomer, ông đứng đầu việc tạo ra các tính năng Apache Airflow được thiết kế đặc biệt cho các đội ML và AI, cũng như giám sát đội khoa học dữ liệu nội bộ. Dưới sự lãnh đạo của ông, Astronomer đã phát triển nền tảng điều phối dữ liệu hiện đại, nâng cao đáng kể khả năng đường ống dữ liệu để hỗ trợ nhiều nguồn dữ liệu và nhiệm vụ khác nhau thông qua học máy.
Bạn có thể chia sẻ một số thông tin về hành trình của mình trong khoa học dữ liệu và trí tuệ nhân tạo, và cách nó đã định hình phương pháp tiếp cận của bạn trong việc lãnh đạo các đội kỹ sư và phân tích?
Tôi có nền tảng về toán học nghiên cứu tại Berkeley trước khi tôi chuyển sang Thung lũng Silicon và làm việc như một kỹ sư trong một loạt các công ty khởi nghiệp thành công. Tôi rất vui khi rời bỏ chính trị và quan liêu của học thuật, nhưng tôi đã tìm thấy trong vài năm rằng tôi nhớ toán học. Vì vậy, tôi đã chuyển sang phát triển các nền tảng cho học máy và phân tích, và đó基本 là những gì tôi đã làm từ đó.
Đào tạo toán học thuần túy của tôi đã dẫn đến sự ưa thích những gì các nhà khoa học dữ liệu gọi là ‘tính đơn giản’ – công cụ phù hợp cho công việc, và không có gì hơn. Bởi vì các nhà toán học thường ưa thích các giải pháp thanh lịch hơn máy móc phức tạp, tôi đã luôn cố gắng nhấn mạnh sự đơn giản khi áp dụng học máy vào các vấn đề kinh doanh. Học sâu là tuyệt vời cho một số ứng dụng – các mô hình ngôn ngữ lớn là tuyệt vời cho việc tóm tắt tài liệu, ví dụ – nhưng đôi khi một mô hình hồi quy đơn giản hơn và dễ giải thích hơn.
Đó là một điều thú vị khi thấy vai trò thay đổi của nhà khoa học dữ liệu và kỹ sư phần mềm trong những năm qua kể từ khi học máy trở nên phổ biến. Đã từng đeo cả hai mũ, tôi rất nhận thức được tầm quan trọng của chu kỳ phát triển phần mềm (đặc biệt là tự động hóa và kiểm tra) khi áp dụng cho các dự án học máy.
Những thách thức lớn nhất trong việc di chuyển, xử lý và phân tích dữ liệu không cấu trúc cho trí tuệ nhân tạo và mô hình ngôn ngữ lớn (LLM) là gì?
Trong thế giới của Trí tuệ Nhân tạo Tạo, dữ liệu của bạn là tài sản quý giá nhất. Các mô hình ngày càng trở nên phổ biến, vì vậy sự khác biệt của bạn là tất cả kiến thức tổ chức được thu thập trong các tập dữ liệu độc quyền và được kiểm soát của bạn.
Cung cấp dữ liệu đúng vào đúng thời điểm đặt ra những yêu cầu cao đối với đường ống dữ liệu của bạn – và điều này áp dụng cho dữ liệu không cấu trúc cũng như dữ liệu cấu trúc, hoặc có thể nhiều hơn. Thường thì bạn đang tiêu thụ dữ liệu từ nhiều nguồn khác nhau, ở nhiều định dạng khác nhau. Bạn cần truy cập vào nhiều phương pháp để giải mã dữ liệu và chuẩn bị nó cho sử dụng trong suy luận mô hình hoặc đào tạo mô hình. Bạn cũng cần hiểu nguồn gốc của dữ liệu và nơi nó kết thúc để “hiển thị công việc của bạn”.
Nếu bạn chỉ làm điều này một lần để đào tạo một mô hình, thì điều đó ổn. Bạn không nhất thiết phải vận hành nó. Nếu bạn sử dụng mô hình hàng ngày để hiểu cảm xúc của khách hàng từ các diễn đàn trực tuyến, hoặc để tóm tắt và định tuyến hóa đơn, thì nó bắt đầu giống như bất kỳ đường ống dữ liệu vận hành nào khác, điều đó có nghĩa bạn cần nghĩ về độ tin cậy và tái tạo.
Tin tốt là các kỹ sư dữ liệu đã phát triển một nền tảng tuyệt vời, Airflow, để quản lý đường ống dữ liệu, đã được áp dụng thành công để quản lý việc triển khai mô hình và giám sát bởi một số đội học máy tinh vi nhất trên thế giới. Vì vậy, các mô hình có thể mới, nhưng điều phối không phải là như vậy.
Bạn có thể giải thích về việc sử dụng dữ liệu tổng hợp để tinh chỉnh các mô hình nhỏ hơn cho độ chính xác không?
Đó là một kỹ thuật mạnh mẽ. Bạn có thể nghĩ về các mô hình ngôn ngữ lớn tốt nhất như một cách nào đó bao gồm những gì chúng đã học về thế giới, và chúng có thể truyền đạt điều đó cho các mô hình nhỏ hơn bằng cách tạo ra dữ liệu tổng hợp. Các mô hình LLM bao gồm một lượng lớn kiến thức được học từ đào tạo rộng rãi trên nhiều tập dữ liệu. Những mô hình này có thể tạo ra dữ liệu tổng hợp mà nắm bắt các mẫu, cấu trúc và thông tin mà chúng đã học. Dữ liệu tổng hợp này sau đó có thể được sử dụng để đào tạo các mô hình nhỏ hơn, hiệu quả chuyển giao một số kiến thức từ các mô hình lớn hơn sang các mô hình nhỏ hơn. Quá trình này thường được gọi là “chưng cất kiến thức” và giúp tạo ra các mô hình hiệu quả, nhỏ hơn vẫn hoạt động tốt trên các nhiệm vụ cụ thể. Và với dữ liệu tổng hợp, sau đó bạn có thể tránh các vấn đề về quyền riêng tư và lấp đầy khoảng trống trong dữ liệu đào tạo nhỏ hoặc không đầy đủ.
Điều này có thể hữu ích cho việc đào tạo một mô hình Trí tuệ Nhân tạo Tạo miền cụ thể hơn, và thậm chí có thể hiệu quả hơn việc đào tạo một “mô hình lớn hơn” với mức độ kiểm soát lớn hơn.
Những nhà khoa học dữ liệu đã tạo ra dữ liệu tổng hợp trong một thời gian và việc điền vào chỗ trống đã tồn tại từ khi các tập dữ liệu bị xáo trộn. Nhưng bạn luôn phải rất cẩn thận để không giới thiệu các thiên vị hoặc đưa ra các giả định không chính xác về phân phối dữ liệu. Giờ đây, việc tổng hợp dữ liệu trở nên dễ dàng và mạnh mẽ hơn, bạn phải cẩn thận hơn. Các lỗi có thể được khuếch đại.
Thiếu đa dạng trong dữ liệu tạo ra có thể dẫn đến ‘sụp đổ mô hình’. Mô hình nghĩ nó đang hoạt động tốt, nhưng đó là vì nó chưa thấy toàn cảnh. Và, nói chung, thiếu đa dạng trong dữ liệu đào tạo là điều mà các đội dữ liệu nên luôn tìm kiếm.
Ở mức cơ bản, dù bạn sử dụng dữ liệu tổng hợp hay dữ liệu hữu cơ, nguồn gốc và chất lượng là tối quan trọng cho việc đào tạo hoặc tinh chỉnh bất kỳ mô hình nào. Như chúng ta biết, các mô hình chỉ tốt như dữ liệu chúng được đào tạo. Trong khi dữ liệu tổng hợp có thể là một công cụ tuyệt vời để giúp đại diện cho một tập dữ liệu nhạy cảm mà không暴露 nó hoặc để lấp đầy khoảng trống có thể bị bỏ qua trong một tập dữ liệu đại diện, bạn phải có một giấy tờ theo dõi cho thấy dữ liệu đến từ đâu và có thể chứng minh mức chất lượng của nó.
Có những kỹ thuật đổi mới nào mà nhóm của bạn tại Astronomer đang thực hiện để cải thiện hiệu quả và độ tin cậy của đường ống dữ liệu?
Rất nhiều! Cơ sở hạ tầng Astro được quản lý đầy đủ và Hypervisor Astro hỗ trợ khả năng mở rộng động và giám sát chủ động thông qua các chỉ số sức khỏe nâng cao. Điều này đảm bảo rằng tài nguyên được sử dụng hiệu quả và hệ thống đáng tin cậy ở mọi quy mô. Astro cung cấp cảnh báo tập trung vào dữ liệu với thông báo có thể tùy chỉnh được gửi qua các kênh khác nhau như Slack và PagerDuty. Điều này đảm bảo sự can thiệp kịp thời trước khi vấn đề trở nên nghiêm trọng.
Các thử nghiệm kiểm tra dữ liệu, thử nghiệm đơn vị và kiểm tra chất lượng dữ liệu đóng vai trò quan trọng trong việc đảm bảo độ tin cậy, độ chính xác và hiệu quả của đường ống dữ liệu và cuối cùng là dữ liệu cung cấp năng lượng cho doanh nghiệp của bạn. Những kiểm tra này đảm bảo rằng trong khi bạn nhanh chóng xây dựng đường ống dữ liệu để đáp ứng thời hạn, chúng đang chủ động bắt lỗi, cải thiện thời gian phát triển và giảm thiểu các lỗi không lường trước được ở hậu trường. Tại Astronomer, chúng tôi đã xây dựng các công cụ như Astro CLI để giúp kiểm tra tính năng mã hoặc xác định vấn đề tích hợp trong đường ống dữ liệu của bạn.
Bạn nhìn thấy sự tiến hóa của quản trị Trí tuệ Nhân tạo Tạo như thế nào, và những biện pháp nào nên được thực hiện để hỗ trợ việc tạo ra nhiều công cụ hơn?
Quản trị là điều bắt buộc nếu các ứng dụng của Trí tuệ Nhân tạo Tạo sẽ thành công. Đó là tất cả về tính minh bạch và tái tạo. Bạn có biết làm thế nào bạn có được kết quả này, từ đâu, và bởi ai? Airflow bằng chính nó đã cung cấp cho bạn một cách để xem những gì từng đường ống dữ liệu riêng lẻ đang làm. Giao diện người dùng của nó là một trong những lý do cho sự áp dụng nhanh chóng ban đầu, và tại Astronomer, chúng tôi đã tăng cường điều đó với khả năng hiển thị trên các đội và triển khai. Chúng tôi cũng cung cấp cho khách hàng của mình các Bảng điều khiển Báo cáo cung cấp thông tin toàn diện về việc sử dụng nền tảng, hiệu suất và phân bổ chi phí cho việc ra quyết định thông minh. Ngoài ra, API Astro cho phép các đội triển khai, tự động hóa và quản lý đường ống Airflow của họ một cách lập trình, giảm thiểu các rủi ro liên quan đến các quá trình thủ công và đảm bảo hoạt động trơn tru ở quy mô khi quản lý nhiều môi trường Airflow. Khả năng nguồn gốc được tích hợp vào nền tảng.
Đây đều là những bước hướng tới giúp quản lý quản trị dữ liệu, và tôi tin rằng các công ty thuộc mọi quy mô đang nhận ra tầm quan trọng của quản trị dữ liệu để đảm bảo niềm tin vào các ứng dụng Trí tuệ Nhân tạo. Sự công nhận và nhận thức này sẽ chủ yếu thúc đẩy nhu cầu về các công cụ quản trị dữ liệu, và tôi dự đoán việc tạo ra nhiều công cụ hơn sẽ tăng tốc khi Trí tuệ Nhân tạo Tạo trở nên phổ biến. Nhưng chúng cần phải là một phần của ngăn xếp điều phối lớn hơn, đó là lý do tại sao chúng tôi xem nó là cơ bản cho cách chúng tôi xây dựng nền tảng của mình.
Bạn có thể cung cấp các ví dụ về cách các giải pháp của Astronomer đã cải thiện hiệu quả vận hành và năng suất cho khách hàng không?
Quá trình Trí tuệ Nhân tạo Tạo liên quan đến các nhiệm vụ phức tạp và đòi hỏi nhiều tài nguyên cần được tối ưu hóa và thực hiện lặp đi lặp lại. Astro, nền tảng Apache Airflow được quản lý bởi Astronomer, cung cấp một khuôn khổ tại trung tâm của ngăn xếp ứng dụng Trí tuệ Nhân tạo Tạo đang xuất hiện để giúp đơn giản hóa các nhiệm vụ này và tăng cường khả năng đổi mới nhanh chóng.
Bằng cách điều phối các nhiệm vụ Trí tuệ Nhân tạo Tạo, các doanh nghiệp có thể đảm bảo rằng tài nguyên tính toán được sử dụng hiệu quả và các quy trình làm việc được tối ưu hóa và điều chỉnh trong thời gian thực. Điều này đặc biệt quan trọng trong các môi trường mà các mô hình Trí tuệ Nhân tạo Tạo phải được cập nhật hoặc đào tạo lại thường xuyên dựa trên dữ liệu mới.
Bằng cách tận dụng quản lý quy trình làm việc của Airflow và khả năng triển khai và mở rộng của Astronomer, các đội có thể dành ít thời gian hơn để quản lý cơ sở hạ tầng và tập trung sự chú ý của họ vào việc phát triển mô hình và chuyển đổi dữ liệu, điều này tăng tốc việc triển khai các ứng dụng Trí tuệ Nhân tạo Tạo và cải thiện hiệu suất.
Theo cách này, nền tảng Astro của Astronomer đã giúp khách hàng cải thiện hiệu quả vận hành của Trí tuệ Nhân tạo Tạo trên nhiều trường hợp sử dụng khác nhau. Để đặt tên một vài, các trường hợp sử dụng bao gồm khám phá sản phẩm thương mại điện tử, phân tích rủi ro mất khách hàng, tự động hóa hỗ trợ, phân loại và tóm tắt tài liệu pháp lý, thu thập thông tin sản phẩm từ đánh giá của khách hàng và cung cấp cluster động cho việc tạo hình ảnh sản phẩm.
Vai trò của Astronomer trong việc nâng cao hiệu suất và khả năng mở rộng của các ứng dụng Trí tuệ Nhân tạo và Học máy là gì?
Khả năng mở rộng là một thách thức lớn cho các doanh nghiệp tận dụng Trí tuệ Nhân tạo Tạo vào năm 2024. Khi chuyển từ nguyên mẫu sang sản xuất, người dùng mong đợi các ứng dụng Trí tuệ Nhân tạo Tạo của họ đáng tin cậy và hiệu suất, và đầu ra chúng tạo ra phải đáng tin cậy. Điều này cần được thực hiện một cách tiết kiệm và các doanh nghiệp thuộc mọi quy mô cần phải tận dụng được tiềm năng của nó. Với điều này trong tâm trí, bằng cách sử dụng Astronomer, các nhiệm vụ có thể được mở rộng theo chiều ngang để xử lý động một số lượng lớn nguồn dữ liệu. Astro có thể mở rộng triển khai và các cluster chúng được lưu trữ một cách co giãn, và thực hiện nhiệm vụ dựa trên hàng đợi với các loại máy chuyên dụng cung cấp độ tin cậy và sử dụng tài nguyên tính toán hiệu quả hơn. Để giúp với phần tiết kiệm chi phí của câu đố, Astro cung cấp các tính năng mở rộng đến không và hibernation, giúp kiểm soát chi phí mòn mỏi và giảm chi tiêu trên đám mây. Chúng tôi cũng cung cấp tính minh bạch hoàn toàn về chi phí của nền tảng. Đội dữ liệu của tôi tạo ra các báo cáo về việc sử dụng mà chúng tôi cung cấp hàng ngày cho khách hàng của mình.
Có những xu hướng tương lai nào trong Trí tuệ Nhân tạo và Khoa học Dữ liệu mà bạn hào hứng, và Astronomer đang chuẩn bị cho chúng như thế nào?
Trí tuệ Nhân tạo Giải thích là một lĩnh vực phát triển quan trọng và thú vị. Có thể nhìn vào các mô hình lớn để xem các hoạt động bên trong của chúng gần như là một điều kỳ diệu. Và tôi cũng quan tâm đến việc xem cộng đồng giải quyết tác động môi trường của việc đào tạo và tinh chỉnh mô hình như thế nào. Tại Astronomer, chúng tôi tiếp tục cập nhật Registry của mình với tất cả các tích hợp mới nhất, để các đội dữ liệu và học máy có thể kết nối với các dịch vụ mô hình tốt nhất và các nền tảng tính toán hiệu quả nhất mà không cần phải thực hiện bất kỳ công việc nặng nhọc nào.
Bạn hình dung sự tích hợp của các công cụ Trí tuệ Nhân tạo Tạo tiên tiến như LLM với các hệ thống quản lý dữ liệu truyền thống sẽ phát triển như thế nào trong vài năm tới?
Chúng tôi đã thấy cả Databricks và Snowflake đưa ra các thông báo gần đây về cách họ tích hợp cả việc sử dụng và phát triển LLM trong các nền tảng của họ. Các hệ thống quản lý cơ sở dữ liệu và nền tảng học máy khác sẽ làm điều tương tự. Thật tuyệt khi thấy các kỹ sư dữ liệu có quyền truy cập dễ dàng vào các phương pháp mạnh mẽ như vậy, ngay từ dòng lệnh hoặc提示 SQL.
Tôi đặc biệt quan tâm đến việc các cơ sở dữ liệu quan hệ tích hợp học máy. Tôi luôn chờ đợi các phương pháp học máy được tích hợp vào tiêu chuẩn SQL, nhưng vì một số lý do, hai lĩnh vực này chưa bao giờ thực sự “đồng hành”. Có lẽ lần này sẽ khác.
Tôi rất hào hứng về tương lai của các mô hình ngôn ngữ lớn để hỗ trợ công việc của kỹ sư dữ liệu. Để bắt đầu, các mô hình LLM đã đặc biệt thành công với việc tạo mã, mặc dù những nỗ lực đầu tiên để cung cấp cho các nhà khoa học dữ liệu các gợi ý được hỗ trợ bởi Trí tuệ Nhân tạo đã lẫn lộn: Hex là tuyệt vời, ví dụ, trong khi Snowflake thì không mấy ấn tượng cho đến nay. Nhưng có tiềm năng khổng lồ để thay đổi bản chất công việc cho các đội dữ liệu, nhiều hơn so với các nhà phát triển. Tại sao? Đối với các kỹ sư phần mềm, lời nhắc là tên hàm hoặc tài liệu, nhưng đối với các kỹ sư dữ liệu, còn có dữ liệu. Có rất nhiều ngữ cảnh mà các mô hình có thể làm việc để đưa ra các gợi ý hữu ích và chính xác.
Có lời khuyên nào bạn muốn dành cho các nhà khoa học dữ liệu và kỹ sư Trí tuệ Nhân tạo Tạo đang tìm cách tạo ra tác động trong ngành không?
Học bằng cách làm. Thật dễ dàng để xây dựng các ứng dụng ngày nay, và để tăng cường chúng với trí tuệ nhân tạo. Vì vậy, hãy xây dựng một cái gì đó cool, và gửi nó cho một người bạn của một người bạn làm việc tại một công ty bạn ngưỡng mộ. Hoặc gửi nó cho tôi, và tôi hứa sẽ xem nó!
Bí quyết là tìm ra điều gì đó bạn đam mê và tìm một nguồn dữ liệu liên quan. Một người bạn của tôi đã thực hiện một phân tích thú vị về các mùa bóng chày bất thường từ thế kỷ 19 và đã khám phá ra những câu chuyện xứng đáng có một bộ phim được làm về chúng. Và một số kỹ sư của Astronomer gần đây đã tụ họp vào một cuối tuần để xây dựng một nền tảng cho các đường ống dữ liệu tự chữa lành. Tôi không thể tưởng tượng được việc cố gắng làm điều gì đó như thế này chỉ vài năm trước, nhưng với chỉ một vài ngày nỗ lực, chúng tôi đã giành được cuộc thi hackathon của Cohere và xây dựng nền tảng cho một tính năng mới quan trọng trong nền tảng của chúng tôi.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Astronomer.












