Connect with us

Andrew Feldman, Đồng sáng lập & CEO của Cerebras Systems – Loạt phỏng vấn

Phỏng vấn

Andrew Feldman, Đồng sáng lập & CEO của Cerebras Systems – Loạt phỏng vấn

mm

Andrew là đồng sáng lập và CEO của Cerebras Systems. Ông là một doanh nhân dành để đẩy ranh giới trong không gian tính toán. Trước khi Cerebras, ông đã đồng sáng lập và là CEO của SeaMicro, một người tiên phong trong lĩnh vực máy chủ micro hiệu suất năng lượng cao. SeaMicro đã được AMD mua lại vào năm 2012 với giá 357M đô la. Trước SeaMicro, Andrew là Phó Chủ tịch Quản lý Sản phẩm, Tiếp thị và Phát triển Kinh doanh tại Force10 Networks, sau đó được Dell Computing mua lại với giá 800M đô la. Trước Force10 Networks, Andrew là Phó Chủ tịch Tiếp thị và Phát triển Doanh nghiệp tại RiverStone Networks từ khi thành lập công ty cho đến khi IPO vào năm 2001. Andrew holds a BA và MBA từ Đại học Stanford.

Cerebras Systems đang xây dựng một lớp mới của hệ thống máy tính, được thiết kế từ các nguyên tắc cơ bản cho mục tiêu duy nhất là tăng tốc AI và thay đổi tương lai của công việc AI.

Có thể bạn chia sẻ câu chuyện về nguồn gốc của Cerebras Systems?

Tôi và các đồng sáng lập của tôi đã làm việc cùng nhau tại một công ty khởi nghiệp trước đó mà tôi và CTO Gary đã bắt đầu vào năm 2007, gọi là SeaMicro (đã được AMD mua lại vào năm 2012 với giá 334 triệu đô la). Các đồng sáng lập của tôi là một số kiến trúc sư máy tính và kỹ sư hàng đầu trong ngành – Gary Lauterbach, Sean Lie, JP Fricker và Michael James. Khi chúng tôi tái hợp vào năm 2015, chúng tôi đã viết hai điều trên bảng trắng – rằng chúng tôi muốn làm việc cùng nhau, và chúng tôi muốn xây dựng một thứ gì đó sẽ biến đổi ngành công nghiệp và được đưa vào Bảo tàng Lịch sử Máy tính, đây là tương đương với Hội trường Danh vọng Máy tính. Chúng tôi vinh dự khi Bảo tàng Lịch sử Máy tính công nhận thành tựu của chúng tôi và thêm bộ xử lý WSE-2 vào bộ sưu tập của họ vào năm ngoái, đề cập đến cách nó đã biến đổi cảnh quan trí tuệ nhân tạo.

Cerebras Systems là một đội gồm các kiến trúc sư máy tính tiên phong, nhà khoa học máy tính, nhà nghiên cứu học sâu và kỹ sư mọi loại người yêu thích làm việc kỹ thuật không sợ hãi. Nhiệm vụ của chúng tôi khi chúng tôi đến với nhau là xây dựng một lớp máy tính mới để tăng tốc học sâu, đã trở thành một trong những khối lượng công việc quan trọng nhất của thời đại chúng ta.

Chúng tôi nhận ra rằng học sâu có các yêu cầu tính toán lớn, khổng lồ và ngày càng tăng. Và nó không được ghép nối tốt với các máy cũ như đơn vị xử lý đồ họa (GPU), vốn được thiết kế cơ bản cho công việc khác. Kết quả là, AI ngày nay bị hạn chế không phải bởi ứng dụng hoặc ý tưởng, mà bởi sự sẵn có của tính toán. Việc kiểm tra một giả thuyết mới – đào tạo một mô hình mới – có thể mất vài ngày, vài tuần hoặc thậm chí vài tháng và chi phí hàng trăm nghìn đô la cho thời gian tính toán. Đó là một chướng ngại vật lớn đối với sự đổi mới.

Vì vậy, nguồn gốc của Cerebras là xây dựng một loại máy tính mới được tối ưu hóa độc quyền cho học sâu, bắt đầu từ một tờ giấy sạch. Để đáp ứng nhu cầu tính toán khổng lồ của học sâu, chúng tôi đã thiết kế và sản xuất chip lớn nhất từ trước đến nay – Động cơ Wafer-Scale (WSE). Trong việc tạo ra bộ xử lý wafer-scale đầu tiên trên thế giới, chúng tôi đã vượt qua các thách thức trên thiết kế, sản xuất và đóng gói – tất cả đều được coi là không thể trong suốt 70 năm lịch sử của máy tính. Mọi yếu tố của WSE đều được thiết kế để cho phép nghiên cứu học sâu với tốc độ và quy mô chưa từng có, cung cấp năng lượng cho siêu máy tính AI nhanh nhất trong ngành, Cerebras CS-2.

Với mọi thành phần được tối ưu hóa cho công việc AI, CS-2 cung cấp hiệu suất tính toán cao hơn trong không gian và công suất thấp hơn so với bất kỳ hệ thống nào khác. Nó làm điều này trong khi giảm đáng kể sự phức tạp của lập trình, thời gian tính toán và thời gian giải quyết. Tùy thuộc vào khối lượng công việc, từ AI đến HPC, CS-2 cung cấp hiệu suất cao hơn hàng trăm hoặc hàng nghìn lần so với các giải pháp thay thế cũ. CS-2 cung cấp tài nguyên tính toán học sâu tương đương với hàng trăm GPU, đồng thời cung cấp sự dễ dàng lập trình, quản lý và triển khai của một thiết bị duy nhất.

Trong vài tháng qua, Cerebras dường như đang ở khắp mọi nơi trên tin tức, bạn có thể cho chúng tôi biết về siêu máy tính AI mới Andromeda?

Chúng tôi đã công bố Andromeda vào tháng 11 năm ngoái và đây là một trong những siêu máy tính AI lớn nhất và mạnh nhất từ trước đến nay. Cung cấp hơn 1 Exaflop tính toán AI và 120 Petaflops tính toán dày đặc, Andromeda có 13,5 triệu lõi trên 16 hệ thống CS-2 và là siêu máy tính AI duy nhất từng chứng minh khả năng mở rộng tuyến tính gần hoàn hảo trên các khối lượng công việc mô hình ngôn ngữ lớn. Nó cũng rất đơn giản để sử dụng.

Để nhắc lại, siêu máy tính lớn nhất trên Trái đất – Frontier – có 8,7 triệu lõi. Về số lõi thô, Andromeda lớn hơn một lần rưỡi. Nó thực hiện công việc khác nhau rõ ràng, nhưng điều này cho bạn một ý tưởng về phạm vi: gần 100 terabit băng thông nội bộ, gần 20.000 lõi Epyc của AMD cung cấp cho nó và – không giống như các siêu máy tính khổng lồ mất nhiều năm để thiết lập – chúng tôi đã thiết lập Andromeda trong ba ngày và ngay sau đó, nó đã cung cấp khả năng mở rộng tuyến tính gần hoàn hảo của AI.

Phòng thí nghiệm Quốc gia Argonne là khách hàng đầu tiên của chúng tôi sử dụng Andromeda và họ đã áp dụng nó cho một vấn đề đã phá vỡ cụm 2.000 GPU của họ gọi là Polaris. Vấn đề là chạy các mô hình sinh trưởng GPT-3XL rất lớn, đồng thời đặt toàn bộ bộ gen Covid vào cửa sổ trình tự, để bạn có thể phân tích từng gene trong bối cảnh toàn bộ bộ gen của Covid. Andromeda đã chạy một khối lượng công việc di truyền độc đáo với độ dài trình tự dài (MSL của 10K) trên 1, 2, 4, 8 và 16 nút, với khả năng mở rộng tuyến tính gần hoàn hảo. Khả năng mở rộng tuyến tính là một trong những đặc điểm được mong muốn nhất của một cụm lớn. Andromeda đã cung cấp 15,87 lần hiệu suất trên 16 hệ thống CS-2, so với một hệ thống CS-2 duy nhất và giảm thời gian đào tạo để phù hợp.

Có thể bạn cho chúng tôi biết về quản lý với Jasper đã được công bố vào cuối tháng 11 và nó có ý nghĩa gì cho cả hai công ty?

Jasper là một công ty rất thú vị. Họ là một nhà lãnh đạo trong nội dung AI sinh trưởng cho tiếp thị và sản phẩm của họ được sử dụng bởi hơn 100.000 khách hàng trên toàn thế giới để viết bản sao cho tiếp thị, quảng cáo, sách và nhiều hơn nữa. Đó rõ ràng là một không gian phát triển nhanh chóng và thú vị ngay bây giờ. Vào năm ngoái, chúng tôi đã công bố một quan hệ đối tác với họ để tăng tốc việc áp dụng và cải thiện độ chính xác của AI sinh trưởng trên các ứng dụng doanh nghiệp và người tiêu dùng. Jasper đang sử dụng siêu máy tính Andromeda của chúng tôi để đào tạo các mô hình tính toán khổng lồ của họ trong một phần nhỏ của thời gian. Điều này sẽ mở rộng phạm vi của các mô hình AI sinh trưởng đến hàng loạt.

Với sức mạnh của siêu máy tính Andromeda của Cerebras, Jasper có thể thúc đẩy đáng kể công việc AI, bao gồm đào tạo mạng GPT để phù hợp với đầu ra AI với tất cả các cấp độ phức tạp và độ chi tiết của người dùng cuối. Điều này cải thiện độ chính xác ngữ cảnh của các mô hình sinh trưởng và sẽ cho phép Jasper cá nhân hóa nội dung trên nhiều lớp khách hàng nhanh chóng và dễ dàng.

Quan hệ đối tác của chúng tôi cho phép Jasper phát minh ra tương lai của AI sinh trưởng, bằng cách thực hiện những việc không thực tế hoặc không thể với cơ sở hạ tầng truyền thống, và để tăng tốc tiềm năng của AI sinh trưởng, mang lại lợi ích của nó đến cơ sở khách hàng đang phát triển nhanh chóng của chúng tôi trên toàn cầu.

Trong một bản phát hành báo chí gần đây, Phòng thí nghiệm Công nghệ Năng lượng Quốc gia và Trung tâm Siêu máy tính Pittsburgh đã tiên phong trong việc mô phỏng động lực học chất lỏng tính toán đầu tiên trên động cơ wafer-scale của Cerebras. Bạn có thể mô tả chính xác là gì động cơ wafer-scale và nó hoạt động như thế nào?

Bộ xử lý Wafer-Scale Engine (WSE) của chúng tôi là bộ xử lý AI cách mạng cho hệ thống máy tính học sâu của chúng tôi, CS-2. Không giống như các bộ xử lý chung chung chung, WSE được xây dựng từ đầu để tăng tốc học sâu: nó có 850.000 lõi được tối ưu hóa cho AI cho các hoạt động tensor thưa thớt, bộ nhớ băng thông cao trên chip khổng lồ và kết nối nhanh hơn nhiều so với một cụm truyền thống có thể đạt được. Tất cả đều cung cấp cho bạn tài nguyên tính toán học sâu tương đương với một cụm máy cũ trong một thiết bị duy nhất, dễ dàng lập trình như một nút duy nhất – giảm đáng kể sự phức tạp của lập trình, thời gian tính toán và thời gian giải quyết.

Bộ xử lý WSE-2 thế hệ thứ hai của chúng tôi, cung cấp năng lượng cho hệ thống CS-2 của chúng tôi, có thể giải quyết vấn đề cực kỳ nhanh. Nhanh đến mức cho phép mô hình thời gian thực, độ trung thực cao của các hệ thống kỹ thuật quan tâm.

Và đó là những gì Phòng thí nghiệm Công nghệ Năng lượng Quốc gia và Trung tâm Siêu máy tính Pittsburgh đang sử dụng nó. Chúng tôi vừa công bố một số kết quả thú vị của mô phỏng động lực học chất lỏng tính toán, bao gồm khoảng 200 triệu tế bào, ở tốc độ gần thời gian thực. Video này cho thấy mô phỏng độ phân giải cao của đối lưu Rayleigh-Bénard, xảy ra khi một lớp chất lỏng được đun nóng từ dưới và làm mát từ trên. Những dòng chất lỏng nhiệt này ở khắp mọi nơi – từ những ngày gió, đến những cơn bão tuyết trên hồ, đến dòng magma trong lõi Trái đất và chuyển động plasma trong Mặt trời. Như người dẫn chương trình nói, điều quan trọng không chỉ là vẻ đẹp trực quan của mô phỏng mà còn là tốc độ mà chúng tôi có thể tính toán nó. Lần đầu tiên, bằng cách sử dụng Bộ xử lý Wafer-Scale của chúng tôi, NETL có thể xử lý một lưới gần 200 triệu tế bào gần thời gian thực.

Loại dữ liệu nào đang được mô phỏng?

Khối lượng công việc được kiểm tra là các dòng chất lỏng nhiệt, cũng được gọi là đối lưu tự nhiên, là một ứng dụng của động lực học chất lỏng tính toán (CFD). Dòng chất lỏng xảy ra tự nhiên khắp mọi nơi – từ những ngày gió, đến những cơn bão tuyết trên hồ, đến chuyển động của các tấm kiến tạo. Mô phỏng này, bao gồm khoảng 200 triệu tế bào, tập trung vào một hiện tượng gọi là “đối lưu Rayleigh-Bénard”, xảy ra khi một chất lỏng được đun nóng từ dưới và làm mát từ trên. Trong tự nhiên, hiện tượng này có thể dẫn đến các sự kiện thời tiết khắc nghiệt như downburst, microburst và derecho. Nó cũng chịu trách nhiệm cho chuyển động magma trong lõi Trái đất và chuyển động plasma trong Mặt trời.

Vào tháng 11 năm 2022, NETL đã giới thiệu một API mô hình phương trình trường mới, được cung cấp bởi hệ thống CS-2, đã nhanh hơn tới 470 lần so với những gì có thể đạt được trên siêu máy tính Joule của NETL. Điều này có nghĩa là nó có thể cung cấp tốc độ vượt quá những gì mà các cụm CPU hoặc GPU có thể đạt được. Sử dụng một API Python đơn giản cho phép xử lý wafer-scale cho phần lớn khoa học tính toán, WFA cung cấp lợi ích về hiệu suất và khả năng sử dụng mà không thể đạt được trên máy tính và siêu máy tính truyền thống – trên thực tế, nó đã vượt qua OpenFOAM trên siêu máy tính Joule 2.0 của NETL hơn hai bậc về thời gian giải quyết.

Bởi vì sự đơn giản của API WFA, kết quả đã đạt được trong vài tuần và tiếp tục sự hợp tác chặt chẽ giữa NETL, PSC và Cerebras Systems.

Bằng cách biến đổi tốc độ của CFD (luôn là một nhiệm vụ ngoại tuyến chậm) trên WSE của chúng tôi, chúng tôi có thể mở ra một loạt các trường hợp sử dụng mới, thời gian thực cho điều này và nhiều ứng dụng HPC cốt lõi khác. Mục tiêu của chúng tôi là bằng cách cho phép nhiều năng lực tính toán hơn, khách hàng của chúng tôi có thể thực hiện nhiều thí nghiệm hơn và phát minh ra khoa học tốt hơn. Giám đốc phòng thí nghiệm NETL Brian Anderson đã cho chúng tôi biết rằng điều này sẽ tăng tốc đáng kể và cải thiện quá trình thiết kế cho một số dự án lớn mà NETL đang làm việc để giảm thiểu biến đổi khí hậu và cho phép một tương lai năng lượng an toàn – các dự án như thu giữ carbon và sản xuất hydro xanh.

Cerebras liên tục vượt trội so với cạnh tranh khi nói đến việc phát hành siêu máy tính, những thách thức nào đằng sau việc xây dựng siêu máy tính hiện đại?

Một cách hài hước, một trong những thách thức lớn nhất của AI lớn là không phải AI. Đó là tính toán phân tán.

Để đào tạo các mạng nơ-ron hiện đại ngày nay, các nhà nghiên cứu thường sử dụng hàng trăm đến hàng nghìn đơn vị xử lý đồ họa (GPU). Và điều đó không dễ dàng. Việc mở rộng đào tạo mô hình ngôn ngữ lớn trên một cụm GPU đòi hỏi phải phân phối một khối lượng công việc trên nhiều thiết bị nhỏ, xử lý các hạn chế về kích thước bộ nhớ thiết bị và băng thông bộ nhớ, cũng như quản lý cẩn thận sự chồng chéo và chi phí đồng bộ hóa.

Chúng tôi đã tiếp cận một cách hoàn toàn khác nhau để thiết kế siêu máy tính của mình thông qua sự phát triển của Cụm Wafer-Scale của Cerebras và chế độ thực hiện Weight Streaming của Cerebras. Với những công nghệ này, Cerebras giải quyết một cách mới để mở rộng dựa trên ba điểm chính:

Thay thế xử lý CPU và GPU bằng các bộ tăng tốc wafer-scale như hệ thống CS-2 của Cerebras. Sự thay đổi này giảm số lượng đơn vị tính toán cần thiết để đạt được tốc độ tính toán chấp nhận được.

Để đáp ứng thách thức về kích thước mô hình, chúng tôi sử dụng một kiến trúc hệ thống mà tách biệt tính toán khỏi lưu trữ mô hình. Một dịch vụ tính toán dựa trên một cụm hệ thống CS-2 (cung cấp đủ băng thông tính toán) được耦 hợp chặt chẽ với một dịch vụ bộ nhớ (có dung lượng bộ nhớ lớn) cung cấp các phần của mô hình cho cụm tính toán theo nhu cầu. Như thường lệ, một dịch vụ dữ liệu cung cấp các lô dữ liệu đào tạo cho dịch vụ tính toán khi cần.

Một mô hình sáng tạo cho việc lập lịch và phối hợp công việc đào tạo trên cụm CS-2 sử dụng song song dữ liệu, đào tạo từng lớp một với trọng số thưa thớt được truyền trực tuyến theo nhu cầu và giữ lại các hoạt động trong dịch vụ tính toán.

Có những lo ngại về việc chấm dứt Luật Moore trong gần một thập kỷ, ngành công nghiệp có thể nén thêm bao nhiêu năm và những loại đổi mới nào là cần thiết cho điều này?

Tôi nghĩ câu hỏi chúng ta đều đang vật lộn là liệu Luật Moore – như được viết bởi Moore – đã chết. Nó không còn mất hai năm để có được nhiều transistor hơn. Bây giờ nó mất bốn hoặc năm năm. Và những transistor đó không đến với cùng một giá – chúng đến với giá cao hơn nhiều. Vì vậy, câu hỏi trở thành, chúng ta có còn nhận được những lợi ích của việc di chuyển từ bảy đến năm đến ba nanomet? Lợi ích nhỏ hơn và chúng có giá cao hơn, và vì vậy các giải pháp trở nên phức tạp hơn là chỉ đơn giản là con chip.

Jack Dongarra, một kiến trúc sư máy tính hàng đầu, đã có một bài nói gần đây và nói: “Chúng ta đã trở nên tốt hơn nhiều trong việc tạo ra FLOPs và I/O.” Đó thực sự là sự thật. Khả năng di chuyển dữ liệu ngoài chip của chúng ta tụt lại phía sau khả năng tăng hiệu suất trên một chip rất nhiều. Tại Cerebras, chúng tôi rất vui khi ông ấy nói điều đó, vì nó xác nhận quyết định của chúng tôi là tạo ra một con chip lớn hơn và di chuyển ít hơn ngoài chip. Nó cũng cung cấp một số hướng dẫn về cách làm hệ thống với chip hoạt động tốt hơn. Có công việc cần được thực hiện, không chỉ là wringing ra nhiều FLOPs hơn mà còn về các kỹ thuật để di chuyển chúng và di chuyển dữ liệu từ chip này sang chip khác – thậm chí từ một con chip rất lớn sang một con chip rất lớn.

Có điều gì khác mà bạn muốn chia sẻ về Cerebras Systems?

Để tốt hơn hoặc tồi tệ hơn, mọi người thường đặt Cerebras vào danh mục “những người làm chip lớn thực sự.” Chúng tôi đã có thể cung cấp các giải pháp hấp dẫn cho các mạng nơ-ron rất lớn, do đó loại bỏ nhu cầu phải thực hiện tính toán phân tán đau đớn. Tôi tin rằng đó là vô cùng thú vị và ở trung tâm của lý do tại sao khách hàng của chúng tôi yêu thích chúng tôi. Lĩnh vực thú vị cho năm 2023 sẽ là làm thế nào để thực hiện tính toán lớn với độ chính xác cao hơn, sử dụng ít FLOPs hơn.

Công việc của chúng tôi về tính thưa thớt cung cấp một cách tiếp cận cực kỳ thú vị. Chúng tôi không làm việc không di chuyển chúng tôi đến vạch đích, và nhân với zero là một ý tưởng tồi. Chúng tôi sẽ phát hành một bài báo thực sự thú vị về tính thưa thớt sớm, và tôi nghĩ sẽ có nhiều nỗ lực hơn trong việc tìm hiểu cách chúng tôi đạt được những điểm hiệu quả này và làm thế nào chúng tôi làm như vậy với ít năng lượng hơn. Và không chỉ cho đào tạo; làm thế nào chúng tôi giảm thiểu chi phí và năng lượng sử dụng trong suy luận? Tôi nghĩ tính thưa thớt giúp đỡ cả hai mặt.

Cảm ơn bạn vì những câu trả lời sâu sắc này, những người đọc muốn tìm hiểu thêm nên truy cập Cerebras Systems.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.