Connect with us

Brug af AI-drevet web-skrapning til at demokratisere adgangen til offentlige webdata

Tankeledere

Brug af AI-drevet web-skrapning til at demokratisere adgangen til offentlige webdata

mm

AI-værktøjer er allerede en fast del blandt professionelle inden for offentlig webdata-skrapning, hvor de sparer tid og ressourcer, samtidig med at de forbedrer ydelsen. Nu muliggør en ny iteration af AI-drevne web-skrapere, at flere og flere ikke-eksperter kan drage fordel af web-intelligence. Spillere af forskellige størrelser og områder kan gøre mere med færre ressourcer, da AI strømliner processen med at omdanne offentligt tilgængelige oplysninger til værdifulde indsigt.

Offentlige webdata tilbyder en rigdom af muligheder

Offentlige webdata er en værdifuld ressource for professionelle inden for en bred vifte af sektorer. Forskere kan bruge dem til at teste deres hypoteser ved at opbygge store datasets om bestemte emner. Journalister kan gennemføre dybdegående undersøgelser af trendy emner.

For virksomheder har web-intelligence en række mulige anvendelser. Benchmarking af konkurrenceevne i forhold til markedet, test af nye forretningsidéer, evaluering og optimering af produkttilbud, og overvågning af cybersecurity-trusler, for blot at nævne få. Bemærkelsesværdigt, givet opkomsten af generativ AI (Gen AI), kan virksomheder bruge offentlige webdata til at træne machine learning-algoritmer (ML), der kan anvendes til en række analytiske og operationelle opgaver.

Det er derfor ikke overraskende, at investering i data og analytics er en top-prioritet for organisationer. I en ny undersøgelse af Censuswide, angav 74% af professionelle, at behovet for adgang til offentlige webdata i deres virksomhed er stigende.

Paradokset om offentlige data: lige adgang, ulige muligheder

Selvom offentlige webdata i teorien er lige tilgængelige for alle, er det i praksis ofte uden for rækkevidde for de fleste solo-iværksættere og lean-virksomheder. Imens afhænger førende virksomheder på tværs af brancher af web-skrapning, en marked værd $1,03 milliarder i 2025. Årsagen til denne ulighed inden for lige adgang er, at offentlig webdata-indsamling, især på stor skala, er svær.

Opbygning og vedligeholdelse af en offentlig data-indsamlingpipeline er en kompleks teknisk opgave. Den nødvendige infrastruktur omfatter software-værktøjer som web-skrapere og crawlere, samt adgang til en stor pool af proxy-servere. I Censuswides undersøgelse af skrapningseksperter, angav 61% af respondenterne, at opbygning af infrastruktur var den største udfordring, når det kommer til stor skala webdata-indsamling.

Selv med infrastrukturen på plads, kræves kontinuerlig vedligeholdelse. Traditionelt følger værktøjerne instruktioner baseret på webstedets struktur. Men en websteds struktur ændrer sig ofte, hvilket kan få skrapningsprocessen til at bryde sammen, indtil pipelinen justeres derefter. At gøre det manuelt er tidskrævende og kræver visse tekniske færdigheder.

Givet disse begrænsninger, er det ikke overraskende, at velresourcede virksomheder traditionelt har været dem, der har nydt godt af offentlige webdata. Små virksomheder manglede ressourcer, og ikke-udviklere manglede de tekniske færdigheder, selvom mange professionelle ville have glæde af hurtig og let adgang til web-intelligence.

AI-drevne løsninger er med til at jævne ud

Selvom offentlige webdata i sig selv er en offentlig ressource, der er lige tilgængelig for alle, påvirker uligheder i private ressourcer og evner, hvem der kan nyde godt af dem. Nogle gange opstår innovative løsninger for at mindske eller fjerne visse uligheder. I web-skrapning er dette sket med AI-fremgang. Med AI’s assistance, er det blevet nemmere, hurtigere og mere billigt for solopreneurs og virksomheder af alle størrelser at udtrække offentlige data fra webben.

Forståelse af naturlige sprog

Værktøjer til naturlig sprogbehandling gør det muligt for ikke-udviklere at skrape data ved at beskrive, hvad de ønsker i hverdags-sprog. I stedet for at lære at skrive kode og opbygge skrapnings-pipelines, behøver man nu kun at forstå grundlæggende skrapning for at give disse værktøjer instruktioner.

For eksempel kan brugere nu give en URL og indtaste en prompt som “get alle produkt-navne i kategori X”, og AI-værktøjet vil klare resten. Selvfølgelig, jo mere kompleks opgaven er, desto mere skal man forstå, hvordan man sætter de rigtige skrapnings-parametre og itererer for at få det ønskede resultat. Men vi er på et relativt tidligt stadium, og AI’s evner i dette område udvikler sig fortsat.

Opstående selv-healingsevner

AI kan også analysere og forbedre sin ydelse, hvilket giver professionelle mulighed for at bruge mindre tid på at fejlfinde kode og reparere pipelines. Derudover kræves mindre oversigt for junior-udviklere eller professionelle i andre fag, der ønsker at udnytte offentlige webdata. Når de støder på et problem, behøver de ikke længere nødvendigvis at søge menneskelig assistance. Værktøjet kan prøve at løse problemet på egen hånd.

For eksempel, når skrapnings-pipelinen bryder sammen, fordi måden, information vises på, ændrer sig, kan AI-drevne parsing-værktøjer omskrive parsing-instruktioner. Med andre ord kan de tilpasse sig til ændringer i websteds-layoutet.

Browser-agenter

Browser-agenter er under udvikling for at ændre måden, vi tilgår information online på. Virksomheder udvikler disse agenter til at være shopping-assistenter, bogsteder og mere. De kan også gøre web-intelligence baseret på offentlige data mere bredt tilgængelig.

AI-drevne browser-agenter navigerer mere effektivt på websteder end standard-bots og viser mere data. For eksempel kan du kun se den endelige pris ved afslutning af en handel på en e-handelsbutik, når den er tilføjet til en indkøbskurv. AI-drevne værktøjer kan håndtere handlinger som denne og øge, hvad der kan gøres uden menneskelig oversigt.

Det er vigtigt at gøre offentlig adgang offentlig

Borgere i demokratiske samfund ved alt for godt, at det at have lige rettigheder til offentlige ressourcer er afgørende, men ikke nok. Sand demokrati kommer fra retfærdig mulighed for at bruge disse rettigheder.

Offentlig webdata-indsamling kan synes som et niche-eksempel, men det berører mange områder, som vi betragter som væsentlige for et frit og blomstrende samfund. AI-drevne værktøjer, der driver ned kostningen af adgang til web-intelligence, demonstrerer, hvor meget der kan ændre sig med bedre midler til at bruge offentlige ressourcer.

I forretningsverdenen kan aspirerende iværksættere med begrænsede midler teste deres idéer og opbygge beviser for at tiltrække investeringer. Med dette bliver det demokratiske løfte, at alle kan bruge deres hårdt arbejde og talent til at klatre op ad den sociale stige, lidt mere virkeligt.

Imens bruger undersøgende journalister adgang til offentlige data til at holde de rige og magtfulde ansvarlige. Mens penge og indflydelse er kraftfulde ressourcer, er information også en kraftfuld ressource. Data-journalister har gang på gang bevist, hvor meget der kan afsløres ved at følge trådene i web-data. AI-drevne værktøjer giver selv journalister, der mangler tekniske færdigheder, mulighed for at følge disse trådene.

En anden pille i demokrati, fri og åben videnskab, afhænger af adgang til ressourcer, der kan nægtes af politiske eller økonomiske årsager. AI-værktøjer, der selv er et bevis på, hvad fri videnskabelig forskning kan opnå, hjælper forskere med at udtrække indsigt fra verdens største dataset – Internettet.

At gå videre

AI-værktøjer er naturligvis ikke en universel løsning, der kun vil fremme demokratisk adgang til data, når vi går videre. AI kan også bruges til at sprede misinformations-kampagner og generere falske oplysninger, der får én til at tvivle på sandheden.

Med disse farer i mente, bør vi ikke give efter for teknologi-apokalyptisk pessimisme. I stedet kan vi arbejde på at gøre AI-værktøjer og offentlige data endnu mere lige tilgængelige. Der er stadig meget arbejde at gøre. At lære, hvordan man bruger de værktøjer, vi allerede har, er en måde at gøre det mere effektivt.

Julius Černiauskas er Litauens teknologiindustrileder & administrerende direktør for Oxylabs. Siden han tiltrådte stillingen i 2015, har Julius Černiauskas succesfuldt omdannet Oxylabs' barneforretningsidé til det teknologigigant, det er i dag, ved at anvende sin dybe viden om big data og informationsteknologitrends.