sơ khai Thu nhỏ hình ảnh có độ phân giải cao bằng máy học - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Thu nhỏ hình ảnh có độ phân giải cao bằng máy học

mm
cập nhật on

Nghiên cứu mới từ Vương quốc Anh đã đề xuất một phương pháp học máy cải tiến để thay đổi kích thước hình ảnh, dựa trên giá trị cảm nhận của các phần khác nhau của nội dung hình ảnh, thay vì giảm bừa bãi kích thước (và do đó là chất lượng và các tính năng có thể trích xuất) cho tất cả các pixel trong bức hình.

Là một phần của mối quan tâm ngày càng tăng đối với các hệ thống nén do AI điều khiển, đây là một cách tiếp cận cuối cùng có thể cung cấp các codec mới để nén hình ảnh nói chung, mặc dù công việc này được thúc đẩy bởi hình ảnh sức khỏe, trong đó việc lấy mẫu tùy ý các hình ảnh y tế có độ phân giải cao có thể dẫn đến mất mát. thông tin cứu mạng.

Kiến trúc biểu diễn của hệ thống mới. Mô-đun biến dạng xen kẽ tạo ra một bản đồ biến dạng tương ứng với các khu vực quan tâm trong ảnh. Mật độ và hướng của các chấm đỏ biểu thị các khu vực này. Bản đồ không chỉ được sử dụng để lấy mẫu xuống mà còn để tái tạo lại các khu vực quan tâm chính khi nội dung hình ảnh được nâng cấp lại không đồng nhất ở phía bên kia của quy trình đào tạo. Nguồn: https://arxiv.org/pdf/2109.11071.pdf

Kiến trúc biểu diễn của hệ thống mới. Mô-đun biến dạng xen kẽ tạo ra một bản đồ biến dạng tương ứng với các khu vực quan tâm trong ảnh. Mật độ và hướng của các chấm đỏ biểu thị các khu vực này. Bản đồ không chỉ được sử dụng để lấy mẫu xuống mà còn để tái tạo lại các khu vực quan tâm chính khi nội dung hình ảnh được nâng cấp lại không đồng nhất ở phía bên kia của quy trình đào tạo.  Nguồn: https://arxiv.org/pdf/2109.11071.pdf

Hệ thống áp dụng phân đoạn ngữ nghĩa đối với hình ảnh – các khối rộng, được thể hiện dưới dạng các khối màu trong hình ảnh ở trên, bao gồm các thực thể được nhận dạng bên trong hình ảnh, chẳng hạn như 'đường', 'xe đạp', 'tổn thương', et al. Bố cục của các bản đồ phân đoạn ngữ nghĩa sau đó được sử dụng để tính toán phần nào của bức ảnh không được lấy mẫu quá mức.

Được phép Học cách lấy mẫu xuống để phân đoạn hình ảnh có độ phân giải cực cao, Các giấy mới là sự hợp tác giữa các nhà nghiên cứu từ Trung tâm Điện toán Hình ảnh Y tế tại Đại học College London và các nhà nghiên cứu từ bộ phận Tình báo Y tế tại Microsoft Cambridge.

Thế giới đào tạo thị giác máy tính (khá) có độ phân giải thấp

Việc đào tạo các hệ thống thị giác máy tính bị hạn chế đáng kể bởi khả năng của GPU. Các bộ dữ liệu có thể chứa hàng nghìn hình ảnh mà các tính năng cần được trích xuất từ ​​đó, nhưng ngay cả các GPU phạm vi công nghiệp cũng có xu hướng đạt mức cao nhất ở 24gb VRAM, với thiếu hụt liên tục ảnh hưởng đến tính khả dụng và chi phí.

Điều này có nghĩa là dữ liệu phải được cung cấp thông qua các lõi Tensor hạn chế của GPU theo lô có thể quản lý được, với 8-16 hình ảnh điển hình của nhiều quy trình đào tạo thị giác máy tính.

Không có nhiều giải pháp rõ ràng: ngay cả khi VRAM là không giới hạn và kiến ​​trúc CPU có thể đáp ứng loại thông lượng đó từ GPU mà không hình thành nút cổ chai kiến ​​trúc, kích thước lô rất cao sẽ có xu hướng thu được các tính năng cấp cao với chi phí chuyển đổi chi tiết hơn điều đó có thể rất quan trọng đối với tính hữu ích của thuật toán cuối cùng.

Việc tăng độ phân giải của hình ảnh đầu vào có nghĩa là bạn phải sử dụng các kích thước lô nhỏ hơn để vừa với dữ liệu trong 'không gian tiềm ẩn' của quá trình đào tạo GPU. Ngược lại, điều này có khả năng tạo ra một mô hình 'lập dị' và được trang bị quá mức.

Việc bổ sung thêm GPU cũng không giúp ích gì, ít nhất là trong các kiến ​​trúc phổ biến nhất: trong khi thiết lập nhiều GPU có thể tăng tốc thời gian đào tạo, chúng cũng có thể ảnh hưởng đến tính toàn vẹn của kết quả đào tạo, chẳng hạn như hai nhà máy liền kề cùng làm việc trên cùng một sản phẩm, chỉ với một chiếc điện thoại để phối hợp các nỗ lực của họ.

Hình ảnh được thay đổi kích thước thông minh

Điều còn lại là các phần có liên quan nhất của hình ảnh điển hình cho bộ dữ liệu thị giác máy tính, với phương pháp mới, có thể được giữ nguyên vẹn trong quá trình thay đổi kích thước tự động xảy ra khi hình ảnh có độ phân giải rất cao phải được thu nhỏ để phù hợp với đường dẫn ML.

Đây là một thách thức riêng đối với vấn đề đồ tạo tác bị mất trong bộ dữ liệu máy học, trong đó chất lượng bị giảm sút trong các quy trình thay đổi kích thước tự động do codec nén loại bỏ quá nhiều thông tin (thường không thể phục hồi).

Thay vào đó, trong trường hợp này, ngay cả khi lưu thành định dạng hình ảnh không mất dữ liệu (chẳng hạn như PNG với nén LZW) cũng không thể khôi phục thông tin thường bị loại bỏ khi thay đổi kích thước (ví dụ) quét Hình ảnh cộng hưởng từ (MRI) từ bình thường. kích thước phá kỷ lục đến độ phân giải 256×256 hoặc 512×512 pixel điển hình đáng tin cậy hơn.

Tệ hơn nữa, tùy thuộc vào yêu cầu của khung, các đường viền màu đen thường sẽ được thêm vào hình ảnh nguồn hình chữ nhật như một tác vụ xử lý dữ liệu thông thường, nhằm tạo ra định dạng đầu vào hình vuông thực sự cho quá trình xử lý mạng nơ-ron, tiếp tục làm giảm không gian có sẵn cho khả năng dữ liệu quan trọng.

Thay vào đó, các nhà nghiên cứu từ UCL và Microsoft đề xuất làm cho quy trình thay đổi kích thước trở nên thông minh hơn, sử dụng hiệu quả những gì luôn là giai đoạn chung trong quy trình để làm nổi bật các lĩnh vực quan tâm, giảm tải một số gánh nặng diễn giải từ hệ thống máy học mà qua đó hình ảnh cuối cùng sẽ vượt qua.

Các nhà nghiên cứu tuyên bố rằng phương pháp này cải thiện sản phẩm năm 2019 (hình ảnh bên dưới) nhằm tìm kiếm lợi ích tương tự bằng cách tập trung chú ý vào chất lượng tại ranh giới của các đối tượng.

Từ 'Phân đoạn hiệu quả: Học lấy mẫu xuống gần ranh giới ngữ nghĩa', Marin và cộng sự, 2019. Nguồn: https://arxiv.org/pdf/1907.07156.pdf

Từ 'Phân đoạn hiệu quả: Học lấy mẫu xuống gần ranh giới ngữ nghĩa', Marin và cộng sự, 2019. Nguồn: https://arxiv.org/pdf/1907.07156.pdf

Như công việc mới lưu ý, cách tiếp cận này giả định rằng các khu vực quan tâm tập trung ở các ranh giới, trong khi các ví dụ từ hình ảnh y tế, chẳng hạn như các vùng ung thư được chú thích, phụ thuộc vào bối cảnh cấp cao hơn và có thể xuất hiện dưới dạng các chi tiết dễ bị loại bỏ trong các khu vực rộng hơn trong một hình ảnh , thay vì ở các cạnh.

Bộ lấy mẫu có thể học được

Nghiên cứu mới đề xuất một bộ lấy mẫu xuống có thể học được được gọi là mô-đun biến dạng, được đào tạo chung với mô-đun phân đoạn song song và do đó có thể được thông báo về các khu vực quan tâm được xác định bằng phân đoạn ngữ nghĩa và ưu tiên các khu vực này trong quá trình lấy mẫu xuống.

Các tác giả đã thử nghiệm hệ thống trên một số bộ dữ liệu phổ biến, bao gồm Cảnh quan thành phố, DeepGlobe và bộ dữ liệu Mô học Ung thư Tuyến tiền liệt tại địa phương, 'PCa-Histo'.

Ba cách tiếp cận: ở bên trái, lấy mẫu xuống 'đồng nhất' hiện có; ở giữa, cách tiếp cận 'cạnh tối ưu' từ bài báo năm 2019; ở bên phải, kiến ​​trúc đằng sau hệ thống mới, được thông báo bằng nhận dạng thực thể trong lớp phân đoạn ngữ nghĩa.

Ba cách tiếp cận: ở bên trái, lấy mẫu xuống 'đồng nhất' hiện có; ở giữa, cách tiếp cận 'cạnh tối ưu' từ bài báo năm 2019; ở bên phải, kiến ​​trúc đằng sau hệ thống mới, được thông báo bằng nhận dạng thực thể trong lớp phân đoạn ngữ nghĩa.

Một cách tiếp cận tương tự đã được thử cho một bộ phân loại đề xuất trong 2019, nhưng các tác giả của bài báo hiện tại cho rằng phương pháp này không chuẩn hóa đầy đủ các lĩnh vực cần nhấn mạnh, có khả năng bỏ sót các khu vực quan trọng trong bối cảnh hình ảnh y tế.

Kết quả

Mô-đun biến dạng trong hệ thống mới là Mạng thần kinh chuyển đổi (CNN) nhỏ, trong khi lớp phân đoạn là kiến ​​trúc CNN sâu sử dụng HRNetV2-W48. Mạng phân tích cảnh kim tự tháp (mạng PSP) đã được sử dụng làm lớp kiểm tra độ chính xác cho các bài kiểm tra CityScapes.

Các bộ dữ liệu nói trên đã được thử nghiệm với khung mới, sử dụng phương pháp lấy mẫu lại thống nhất (phương pháp thông thường), phương pháp cạnh tối ưu từ năm 2019 và cách tiếp cận mới tận dụng phân đoạn ngữ nghĩa.

Các tác giả báo cáo rằng phương pháp mới cho thấy 'lợi thế rõ ràng trong việc xác định và phân biệt các lớp quan trọng nhất về mặt lâm sàng', với độ chính xác tăng 15-20%. Họ quan sát thêm rằng khoảng cách giữa các lớp này thường được định nghĩa là "ngưỡng từ khỏe mạnh đến ung thư".

Phân tích giao điểm theo lớp thông minh trên liên kết (IoU) qua ba phương pháp: trái, lấy mẫu lại tiêu chuẩn; giữa, cạnh tối ưu; và đúng, cách tiếp cận mới. CityScapes được lấy mẫu xuống chỉ còn 64 x 128, với PCaHisto xuống 80 x 800 và DeepGlobe xuống còn 300 pixel vuông.

Phân tích giao điểm theo lớp thông minh trên liên kết (IoU) qua ba phương pháp: trái, lấy mẫu lại tiêu chuẩn; giữa, cạnh tối ưu; và đúng, cách tiếp cận mới. CityScapes được lấy mẫu xuống chỉ còn 64 x 128, với PCaHisto xuống 80 x 800 và DeepGlobe xuống còn 300 pixel vuông.

Báo cáo nói rằng phương pháp của họ 'có thể tìm hiểu chiến lược lấy mẫu xuống, lưu giữ thông tin tốt hơn và cho phép đánh đổi tốt hơn.', kết luận rằng khuôn khổ mới 'có thể tìm hiểu một cách hiệu quả nơi để "đầu tư" ngân sách pixel hạn chế khi lấy mẫu xuống để đạt được lợi nhuận tổng thể cao nhất về độ chính xác của phân đoạn'.

 

Hình ảnh chính cho bài viết của tính năng này được lấy từ thispersondoesnotexist.com. Đã cập nhật lúc 3:35 chiều GMT+2 do lỗi văn bản.