Phỏng vấn
Anais Dotis-Georgiou, Developer Advocate tại InfluxData – Loạt phỏng vấn

Anais Dotis-Georgiou là một Developer Advocate cho InfluxData với niềm đam mê làm cho dữ liệu trở nên đẹp hơn với sự sử dụng của Data Analytics, AI và Machine Learning. Cô lấy dữ liệu mà cô thu thập, thực hiện một sự kết hợp của nghiên cứu, khám phá và kỹ thuật để dịch dữ liệu thành một thứ gì đó có chức năng, giá trị và vẻ đẹp. Khi cô không ngồi sau màn hình, bạn có thể tìm thấy cô ngoài trời vẽ, giãn cơ, trượt ván hoặc đuổi theo một quả bóng đá.
InfluxData là công ty xây dựng InfluxDB, cơ sở dữ liệu thời gian loạt mã nguồn mở được sử dụng bởi hơn một triệu nhà phát triển trên toàn thế giới. Sứ mệnh của họ là giúp các nhà phát triển xây dựng các hệ thống thông minh, thời gian thực với dữ liệu thời gian loạt của họ.
Bạn có thể chia sẻ một chút về hành trình của mình từ một trợ lý nghiên cứu đến trở thành một Lead Developer Advocate tại InfluxData? Làm thế nào nền tảng của bạn trong phân tích dữ liệu và học máy đã định hình vai trò hiện tại của bạn?
Tôi đã kiếm được bằng cấp đại học về kỹ thuật hóa học với trọng tâm vào kỹ thuật sinh học và cuối cùng đã làm việc trong các phòng thí nghiệm thực hiện phát triển vắc xin và phát hiện tự kỷ trước khi sinh. Từ đó, tôi bắt đầu lập trình rô-bốt xử lý chất lỏng và giúp các nhà khoa học dữ liệu hiểu các tham số cho phát hiện bất thường, điều này đã khiến tôi quan tâm hơn đến lập trình.
Tôi sau đó trở thành một đại diện phát triển bán hàng tại Oracle và nhận ra rằng tôi thực sự cần tập trung vào mã hóa. Tôi đã tham gia một trại mã hóa tại Đại học Texas về phân tích dữ liệu và có thể phá vỡ vào lĩnh vực công nghệ, cụ thể là quan hệ nhà phát triển.
Tôi đến từ một nền tảng kỹ thuật, vì vậy điều đó đã giúp định hình vai trò hiện tại của tôi. Mặc dù tôi không có kinh nghiệm phát triển, nhưng tôi có thể liên quan và đồng cảm với những người có nền tảng kỹ thuật và tâm trí nhưng cũng đang cố gắng học phần mềm. Vì vậy, khi tôi tạo nội dung hoặc hướng dẫn kỹ thuật, tôi có thể giúp người dùng mới vượt qua các thách thức kỹ thuật trong khi đặt cuộc trò chuyện trong một ngữ cảnh có liên quan và thú vị đối với họ.
Công việc của bạn dường như kết hợp sự sáng tạo với chuyên môn kỹ thuật. Bạn làm thế nào để kết hợp niềm đam mê của mình trong việc làm cho dữ liệu ‘đẹp’ vào công việc hàng ngày tại InfluxData?
Gần đây, tôi đã tập trung nhiều hơn vào kỹ thuật dữ liệu hơn là phân tích dữ liệu. Mặc dù tôi không tập trung vào phân tích dữ liệu nhiều như trước, nhưng tôi vẫn thực sự thích toán học – tôi nghĩ toán học là đẹp, và sẽ nhảy vào cơ hội để giải thích toán học đằng sau một thuật toán.
InfluxDB đã là một góc đá trong không gian dữ liệu thời gian loạt. Bạn nhìn thấy cộng đồng mã nguồn mở ảnh hưởng đến sự phát triển và tiến hóa của InfluxDB như thế nào?
InfluxData rất cam kết kiến trúc dữ liệu mở và hệ sinh thái Apache. Năm ngoái, chúng tôi đã công bố InfluxDB 3.0, lõi mới cho InfluxDB được viết bằng Rust và xây dựng với Apache Flight, DataFusion, Arrow và Parquet – những gì chúng tôi gọi là ngăn xếp FDAP. Khi các kỹ sư tại InfluxData tiếp tục đóng góp cho các dự án nguồn lên, cộng đồng tiếp tục phát triển và tập hợp dự án Apache Arrow trở nên dễ sử dụng hơn với nhiều tính năng và chức năng, và khả năng tương tác rộng hơn.
Điều gì là một số dự án hoặc đóng góp mã nguồn mở thú vị nhất mà bạn đã thấy gần đây trong bối cảnh dữ liệu thời gian loạt và AI?
Điều đó thật tuyệt khi thấy sự bổ sung của LLMs được tái sử dụng hoặc áp dụng cho thời gian loạt để dự báo không có cảnh. Autolab có một bộ sưu tập các mô hình ngôn ngữ thời gian loạt mở, và TimeGPT là một ví dụ tuyệt vời khác.
Ngoài ra, các thư viện xử lý luồng mã nguồn mở khác nhau, bao gồm Bytewax và Mage.ai, cho phép người dùng tận dụng và kết hợp các mô hình từ Hugging Face là khá thú vị.
Làm thế nào InfluxData đảm bảo các sáng kiến mã nguồn mở của họ vẫn liên quan và có lợi cho cộng đồng nhà phát triển, đặc biệt là với sự phát triển nhanh chóng trong AI và học máy?
Các sáng kiến của InfluxData vẫn liên quan và có lợi bằng cách tập trung vào việc đóng góp cho các dự án mã nguồn mở mà các công ty AI cụ thể cũng tận dụng. Ví dụ, mỗi khi InfluxDB đóng góp cho Apache Arrow, Parquet hoặc DataFusion, nó sẽ mang lại lợi ích cho mọi công ty AI khác tận dụng nó, bao gồm Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace và nhiều hơn nữa.
Mô hình ngôn ngữ thời gian loạt đang trở nên quan trọng hơn trong phân tích dự đoán. Bạn có thể giải thích thêm về cách các mô hình này đang biến đổi dự báo thời gian loạt và phát hiện bất thường?
Mô hình ngôn ngữ thời gian loạt vượt trội so với các mô hình tuyến tính và thống kê trong khi cũng cung cấp dự báo không có cảnh. Điều này có nghĩa là bạn không cần phải đào tạo mô hình trên dữ liệu của mình trước khi sử dụng nó. Không cần phải điều chỉnh mô hình thống kê, điều này đòi hỏi chuyên môn sâu về thống kê thời gian loạt.
Tuy nhiên, không giống như xử lý ngôn ngữ tự nhiên, lĩnh vực thời gian loạt thiếu các tập dữ liệu lớn có sẵn công khai. Hầu hết các mô hình được đào tạo trước cho thời gian loạt được đào tạo trên các kích thước mẫu nhỏ, chỉ chứa một vài nghìn – hoặc có thể chỉ một vài trăm – mẫu. Mặc dù các tập dữ liệu chuẩn này đã được chứng minh là rất quan trọng trong tiến bộ của cộng đồng thời gian loạt, nhưng kích thước mẫu hạn chế và thiếu tính tổng quát của chúng gây ra thách thức cho việc đào tạo các mô hình học sâu.
Điều đó nói rằng, đây là những gì tôi tin rằng làm cho mô hình ngôn ngữ thời gian loạt mã nguồn mở khó đến. TimesFM của Google và Tiny Time Mixers của IBM đã được đào tạo trên các tập dữ liệu khổng lồ với hàng trăm tỷ điểm dữ liệu. Với TimesFM, ví dụ, quá trình đào tạo trước được thực hiện bằng cách sử dụng Google Cloud TPU v3 – 256, bao gồm 256 lõi TPU với tổng cộng 2 terabyte bộ nhớ. Quá trình đào tạo trước mất khoảng mười ngày và kết quả là một mô hình với 1,2 tỷ tham số. Mô hình được đào tạo trước sau đó được tinh chỉnh trên các nhiệm vụ và tập dữ liệu cụ thể bằng cách sử dụng tốc độ học thấp hơn và ít kỷ hơn.
Hy vọng rằng sự chuyển đổi này ngụ ý rằng nhiều người có thể thực hiện dự đoán chính xác mà không cần kiến thức chuyên sâu về lĩnh vực. Tuy nhiên, nó đòi hỏi rất nhiều công việc để cân nhắc ưu và nhược điểm của việc tận dụng các mô hình tốn kém về tính toán như mô hình ngôn ngữ thời gian loạt từ cả góc độ tài chính và môi trường.
Bài đăng trên Hugging Face Blog chi tiết một ví dụ khác về dự báo thời gian loạt.
Điều gì là những lợi thế chính của việc sử dụng mô hình ngôn ngữ thời gian loạt so với các phương pháp truyền thống, đặc biệt là trong việc xử lý các mẫu phức tạp và hiệu suất không có cảnh?
Lợi thế quan trọng là không cần phải đào tạo và đào tạo lại một mô hình trên dữ liệu thời gian loạt của bạn. Điều này hy vọng sẽ loại bỏ vấn đề học máy trực tuyến về việc theo dõi sự thay đổi của mô hình và kích hoạt đào tạo lại, lý tưởng là loại bỏ sự phức tạp của đường ống dự báo của bạn.
Bạn cũng không cần phải đấu tranh để ước tính các mối quan hệ và tương quan giữa các chuỗi thống kê. Thêm phương sai được thêm bởi các ước tính thường gây hại cho các dự báo kết quả và có thể khiến mô hình học được các mối quan hệ giả.
Bạn có thể cung cấp một số ví dụ thực tế về cách các mô hình như TimesFM của Google, TinyTimeMixer của IBM và MOMENT của AutoLab đã được triển khai trong các kịch bản thế giới thực?
Điều này khó trả lời; vì những mô hình này vẫn còn trong giai đoạn sơ sinh, rất ít thông tin về cách các công ty sử dụng chúng trong các kịch bản thế giới thực.
Trong kinh nghiệm của bạn, những thách thức nào mà các tổ chức thường gặp phải khi tích hợp mô hình ngôn ngữ thời gian loạt vào cơ sở hạ tầng dữ liệu hiện có của họ, và họ có thể vượt qua chúng như thế nào?
Mô hình ngôn ngữ thời gian loạt còn quá mới để tôi không biết những thách thức cụ thể mà các tổ chức gặp phải. Tuy nhiên, tôi tưởng tượng họ sẽ đối mặt với những thách thức giống như những thách thức mà họ gặp phải khi tích hợp bất kỳ mô hình GenAI nào vào đường ống dữ liệu của họ. Những thách thức này bao gồm:
- Vấn đề tương thích và tích hợp dữ liệu: Mô hình ngôn ngữ thời gian loạt thường yêu cầu các định dạng dữ liệu cụ thể, đánh dấu thời gian nhất quán và khoảng thời gian đều đặn, nhưng cơ sở hạ tầng dữ liệu hiện có có thể bao gồm dữ liệu thời gian loạt không cấu trúc hoặc không nhất quán được phân散 trên các hệ thống khác nhau, chẳng hạn như cơ sở dữ liệu cũ, lưu trữ đám mây hoặc luồng thời gian thực. Để giải quyết vấn đề này, các nhóm nên triển khai các đường ống ETL (trích xuất, chuyển đổi, tải) mạnh mẽ để tiền xử lý, làm sạch và căn chỉnh dữ liệu thời gian loạt.
- Khả năng mở rộng và hiệu suất mô hình: Mô hình ngôn ngữ thời gian loạt, đặc biệt là các mô hình học sâu như transformer, có thể là tốn tài nguyên, đòi hỏi tài nguyên tính toán và bộ nhớ đáng kể để xử lý lượng lớn dữ liệu thời gian loạt trong thời gian thực hoặc gần thời gian thực. Điều này sẽ đòi hỏi các nhóm phải triển khai mô hình trên các nền tảng có thể mở rộng như Kubernetes hoặc dịch vụ ML được quản lý bởi đám mây, tận dụng tăng tốc GPU khi cần và sử dụng các khuôn khổ xử lý phân tán như Dask hoặc Ray để song song hóa suy luận mô hình.
- Giải thích và tin cậy: Mô hình thời gian loạt, đặc biệt là các mô hình LM phức tạp, có thể được coi là “hộp đen”, khiến việc giải thích dự đoán trở nên khó khăn. Điều này có thể đặc biệt gây vấn đề trong các ngành công nghiệp được quản lý như tài chính hoặc chăm sóc sức khỏe.
- Bảo mật và quyền riêng tư của dữ liệu: Xử lý dữ liệu thời gian loạt thường liên quan đến thông tin nhạy cảm, chẳng hạn như dữ liệu cảm biến IoT hoặc dữ liệu giao dịch tài chính, vì vậy việc đảm bảo bảo mật và tuân thủ dữ liệu là rất quan trọng khi tích hợp mô hình LM. Các tổ chức phải đảm bảo đường ống dữ liệu và mô hình của họ tuân thủ các phương pháp bảo mật tốt nhất, bao gồm mã hóa và kiểm soát truy cập, và triển khai mô hình trong môi trường an toàn và cô lập.
Nhìn về phía trước, bạn hình dung vai trò của mô hình ngôn ngữ thời gian loạt sẽ phát triển như thế nào trong lĩnh vực phân tích dự đoán và AI? Có những xu hướng hoặc công nghệ mới nào đặc biệt thú vị bạn?
Một bước tiếp theo có thể trong sự tiến hóa của mô hình ngôn ngữ thời gian loạt có thể là giới thiệu các công cụ cho phép người dùng triển khai, truy cập và sử dụng chúng dễ dàng hơn. Nhiều mô hình ngôn ngữ thời gian loạt mà tôi đã sử dụng đòi hỏi môi trường rất cụ thể và thiếu chiều rộng của các hướng dẫn và tài liệu. Cuối cùng, những dự án này vẫn còn trong giai đoạn sơ sinh, nhưng sẽ rất thú vị khi xem chúng tiến hóa trong những tháng và năm tới.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, người đọc muốn tìm hiểu thêm nên truy cập InfluxData.












