Künstliche Intelligenz
Verkleinern Sie hochauflösende Bilder mit maschinellem Lernen

Neue Forschungsergebnisse aus dem Vereinigten Königreich haben eine verbesserte Methode des maschinellen Lernens vorgeschlagen, um die Größe von Bildern basierend auf dem wahrgenommenen Wert der verschiedenen Teile des Bildinhalts zu ändern, anstatt die Dimension (und damit die Qualität und die extrahierbaren Merkmale) für alle darin enthaltenen Pixel wahllos zu reduzieren das Bild.
Im Rahmen des wachsenden Interesses an KI-gesteuerten Komprimierungssystemen handelt es sich um einen Ansatz, der letztendlich zur Entwicklung neuer Codecs für die allgemeine Bildkomprimierung führen könnte. Die Motivation für die Arbeit liegt allerdings in der medizinischen Bildgebung, wo eine willkürliche Herunterskalierung hochauflösender medizinischer Bilder zum Verlust lebensrettender Informationen führen könnte.

Repräsentative Architektur des neuen Systems. Das interstitielle Deformationsmodul erstellt eine Deformationskarte, die den interessierenden Bereichen im Bild entspricht. Die Dichte und Richtung der roten Punkte zeigen diese Bereiche an. Die Karte wird nicht nur zum Downsampling verwendet, sondern auch zum Rekonstruieren der primär interessierenden Bereiche, wenn der Bildinhalt auf der anderen Seite des Trainingsprozesses ungleichmäßig neu hochskaliert wird. Quelle: https://arxiv.org/pdf/2109.11071.pdf
Es gilt das System semantische Segmentierung zu den Bildern – breite Blöcke, im Bild oben als Farbblöcke dargestellt, die erkannte Einheiten innerhalb des Bildes umfassen, wie z 'Straße', 'Fahrrad', „Läsion“, et al. Anhand der Anordnung der semantischen Segmentierungskarten wird dann berechnet, welche Teile des Fotos nicht übermäßig heruntergerechnet werden sollten.
Berechtigt Lernen, Downsampling für die Segmentierung von Bildern mit ultrahoher Auflösung durchzuführen, hat das neues Papier ist eine Zusammenarbeit zwischen Forschern des Centre for Medical Image Computing am University College London und Forschern der Healthcare Intelligence-Abteilung von Microsoft Cambridge.
Die (ziemlich) niedrigauflösende Welt des Computer Vision-Trainings
Das Training von Computer-Vision-Systemen wird durch die Kapazität von GPUs erheblich eingeschränkt. Datensätze können viele tausend Bilder enthalten, aus denen Merkmale extrahiert werden müssen, aber selbst GPUs im industriellen Maßstab erreichen in der Regel ihren Höhepunkt bei 24 GB VRAM anhaltende Engpässe Auswirkungen auf Verfügbarkeit und Kosten haben.
Das bedeutet, dass Daten in überschaubaren Stapeln durch die begrenzten Tensorkerne der GPU geleitet werden müssen, wobei 8–16 Bilder typisch für viele Computer-Vision-Trainingsworkflows sind.
Es gibt nicht viele offensichtliche Lösungen: Selbst wenn der VRAM unbegrenzt wäre und CPU-Architekturen diesen Durchsatz der GPU bewältigen könnten, ohne einen architektonischen Engpass zu bilden, werden bei sehr hohen Batchgrößen tendenziell High-Level-Funktionen auf Kosten der detaillierteren Transformationen abgeleitet Dies kann für die Nützlichkeit des endgültigen Algorithmus von entscheidender Bedeutung sein.
Eine höhere Auflösung der Eingabebilder führt dazu, dass Sie kleinere Batchgrößen verwenden müssen, um die Daten in den „latenten Raum“ des GPU-Trainings einzupassen. Dies führt jedoch wahrscheinlich zu einem „exzentrischen“ und überangepassten Modell.
Auch das Hinzufügen zusätzlicher GPUs hilft nicht, zumindest in den gängigsten Architekturen: Während Setups mit mehreren GPUs die Trainingszeiten verkürzen können, können sie auch die Integrität der Trainingsergebnisse gefährden, etwa wenn zwei benachbarte Fabriken mit nur einem Telefon an demselben Produkt arbeiten Linie, um ihre Bemühungen zu koordinieren.
Intelligent skalierte Bilder
Was bleibt, ist, dass die relevantesten Abschnitte eines typischen Bildes für einen Computer Vision-Datensatz mit der neuen Methode bei der automatischen Größenanpassung erhalten bleiben könnten, die erfolgt, wenn Bilder mit sehr hoher Auflösung verkleinert werden müssen, um in eine ML-Pipeline zu passen.
Dies ist eine separate Herausforderung für das Problem Verlustbehaftete Artefakte in Datensätzen für maschinelles Lernen, wo bei automatisierten Größenänderungspipelines Qualität verloren geht, weil der Komprimierungscodec zu viele (normalerweise nicht wiederherstellbare) Informationen wegwirft.
Vielmehr kann in diesem Fall selbst das Speichern in einem verlustfreien Bildformat (wie PNG mit LZW-Komprimierung) die Informationen nicht wiederherstellen, die normalerweise verworfen werden, wenn beispielsweise die Größe eines Magnetresonanztomographie-Scans (MRI) von oft rekordverdächtige Dimensionen zu einer glaubwürdigeren typischen Auflösung von 256×256 oder 512×512 Pixeln.
Erschwerend kommt hinzu, dass abhängig von den Anforderungen des Frameworks als routinemäßige Datenverarbeitungsaufgabe häufig schwarze Ränder zu rechteckigen Quellbildern hinzugefügt werden, um ein wirklich quadratisches Eingabeformat für die Verarbeitung neuronaler Netzwerke zu erzeugen, wodurch der verfügbare Platz möglicherweise weiter reduziert wird entscheidende Daten.
Die Forscher von UCL und Microsoft schlagen stattdessen vor, den Größenänderungsprozess intelligenter zu gestalten und effektiv eine schon immer generische Phase in der Pipeline zu nutzen, um interessante Bereiche hervorzuheben und so einen Teil der Interpretationslast vom maschinellen Lernsystem zu entlasten, durch das die Bilder werden letztendlich vergehen.
Die Methode, so behaupten die Forscher, verbessert ein Angebot aus dem Jahr 2019 (Bild unten), das ähnliche Vorteile durch die Fokussierung auf Qualität anstrebte Grenzen von Objekten.

Aus „Effiziente Segmentierung: Downsampling in der Nähe semantischer Grenzen lernen“, Marin et al., 2019. Quelle: https://arxiv.org/pdf/1907.07156.pdf
Wie die neue Arbeit feststellt, geht dieser Ansatz davon aus, dass sich interessierende Bereiche an Grenzen sammeln, wohingegen Beispiele aus der medizinischen Bildgebung, wie z. B. mit Anmerkungen versehene Krebsregionen, vom Kontext auf höherer Ebene abhängen und als leicht zu verwerfende Details in größeren Bereichen eines Bildes erscheinen können , und nicht an Kanten.
Lernbarer Downsampler
Die neue Forschung schlägt a lernbarer Downsampler Ein sogenanntes Deformationsmodul, das gemeinsam mit einem parallelen Segmentierungsmodul trainiert wird und daher über durch semantische Segmentierung identifizierte Interessensbereiche informiert werden kann und diese während des Downsampling-Prozesses priorisieren kann.
Die Autoren testeten das System anhand mehrerer beliebter Datensätze, darunter Stadtlandschaften, DeepGlobe und ein lokaler Histologie-Datensatz für Prostatakrebs, „PCa-Histo“.

Drei Ansätze: links das bestehende „einheitliche“ Downsampling; in der Mitte der „Optimal Edge“-Ansatz aus dem Papier von 2019; rechts die Architektur hinter dem neuen System, die auf der Entitätserkennung in einer semantischen Segmentierungsschicht basiert.
Ein ähnlicher Ansatz wurde für einen Klassifikator versucht in 2019 vorgeschlagen, aber die Autoren der aktuellen Arbeit behaupten, dass diese Methode die Schwerpunktbereiche nicht ausreichend regelt und möglicherweise wichtige Bereiche im Kontext der medizinischen Bildgebung außer Acht lässt.
Ergebnisse
Das Deformationsmodul im neuen System ist ein kleines Convolutional Neural Network (CNN), während die Segmentierungsschicht eine tiefe CNN-Architektur verwendet HRNetV2-W48. Pyramid Scene Parsing Network (PSP-Netz) wurde als Plausibilitätsprüfungsschicht für die CityScapes-Tests verwendet.
Die oben genannten Datensätze wurden mit dem neuen Framework getestet, wobei einheitliches Resampling (die übliche Methode), die Optimal-Edge-Methode aus dem Jahr 2019 und die Nutzung der semantischen Segmentierung durch den neuen Ansatz zum Einsatz kamen.
Die Autoren berichten, dass die neue Methode zeigt „klarer Vorteil bei der Identifizierung und Unterscheidung der klinisch wichtigsten Klassen“, mit einer Genauigkeitssteigerung von 15–20 %. Sie stellen außerdem fest, dass der Abstand zwischen diesen Klassen oft als „Schwelle von gesund zu Krebs“ definiert wird.

Klassenweise Schnittmengen-über-Union-Analyse (IoU) über die drei Methoden hinweg: links, Standard-Resampling; Mitte, optimaler Rand; Und richtig, der neue Ansatz. CityScapes wurde auf lediglich 64 x 128 heruntergerechnet, PCaHisto auf 80 x 800 und DeepGlobe auf 300 Pixel im Quadrat.
Der Bericht gibt an, dass ihre Methode „kann eine Downsampling-Strategie erlernen, Informationen besser bewahren und einen besseren Kompromiss ermöglichen.“ und kommt zu dem Schluss, dass der neue Rahmen „kann effizient lernen, wo das begrenzte Pixelbudget beim Downsampling „investiert“ werden muss, um die höchste Gesamtrendite bei der Segmentierungsgenauigkeit zu erzielen.“.
Das Hauptbild für den Artikel dieses Features stammt von thispersondoesnotexist.com. Aktualisiert um 3:35 Uhr GMT+2 wegen eines Textfehlers.












