στέλεχος Πέρα από τη «Λειτουργία ανάγνωσης» με τη μηχανική μάθηση - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Πέρα από τη «Λειτουργία Αναγνώστη» με τη Μηχανική Εκμάθηση

mm
Ενημερώθηκε on

Ερευνητές από τη Νότια Κορέα χρησιμοποίησαν μηχανική εκμάθηση για να αναπτύξουν μια βελτιωμένη μέθοδο εξαγωγής πραγματικού περιεχομένου από ιστοσελίδες, έτσι ώστε τα «έπιπλα» μιας ιστοσελίδας – όπως πλαϊνές γραμμές, υποσέλιδα και κεφαλίδες πλοήγησης, καθώς και μπλοκ διαφημίσεων – να εξαφανίζονται για τον αναγνώστη .

Αν και αυτή η λειτουργικότητα είτε είναι ενσωματωμένη στα πιο δημοφιλή προγράμματα περιήγησης ιστού είτε είναι εύκολα διαθέσιμη μέσω επεκτάσεων και προσθηκών, αυτές οι τεχνολογίες βασίζονται σε σημασιολογική μορφοποίηση που μπορεί να μην υπάρχει στην ιστοσελίδα ή που μπορεί να έχει παραβιαστεί σκόπιμα από τον κάτοχο του ιστότοπου στο προκειμένου να αποτρέψει τον αναγνώστη να κρύψει την «γεμάτη» εμπειρία της σελίδας.

Μία από τις δικές μας ιστοσελίδες «αδυνάτισε» με την ενσωματωμένη λειτουργία Reader View του Firefox.

Μία από τις δικές μας ιστοσελίδες «αδυνάτισε» με την ενσωματωμένη λειτουργία Reader View του Firefox.

Αντίθετα, η νέα μέθοδος χρησιμοποιεί ένα σύστημα που βασίζεται σε πλέγμα που επαναλαμβάνεται μέσω της ιστοσελίδας, αξιολογώντας πόσο σχετικό είναι το περιεχόμενο με τον βασικό στόχο της σελίδας.

Η διοχέτευση εξαγωγής περιεχομένου διαιρεί πρώτα τη σελίδα σε ένα πλέγμα (επάνω σειρά) πριν αξιολογήσει τη σχέση των σχετικών κελιών που βρέθηκαν με άλλα κελιά (μέση) και τελικά συγχωνεύσει τα εγκεκριμένα κελιά (κάτω). Πηγή: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Η διοχέτευση εξαγωγής περιεχομένου διαιρεί πρώτα τη σελίδα σε ένα πλέγμα (επάνω σειρά) πριν αξιολογήσει τη σχέση των σχετικών κελιών που βρέθηκαν με άλλα κελιά (μέση) και τελικά συγχωνεύσει τα εγκεκριμένα κελιά (κάτω). Πηγή: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Μόλις αναγνωριστεί ένα σχετικό κελί, η σχέση του με τα κοντινά κελιά αξιολογείται επίσης πριν συγχωνευθεί στο ερμηνευόμενο «βασικό περιεχόμενο».

Η κεντρική ιδέα της προσέγγισης είναι να εγκαταλειφθεί η σήμανση βάσει κώδικα ως δείκτης συνάφειας (δηλ. ετικέτες HTML που κανονικά υποδηλώνουν την αρχή μιας παραγράφου, για παράδειγμα, οι οποίες μπορούν να αντικατασταθούν από εναλλακτικές ετικέτες που θα «ξεγελάσουν» τους αναγνώστες οθόνης και βοηθητικά προγράμματα όπως το Reader View) και συνάγουν το περιεχόμενο με βάση αποκλειστικά την οπτική του εμφάνιση.

Η προσέγγιση, που ονομάζεται Grid-Center-Expand (GCE), επεκτάθηκε από τους ερευνητές σε μοντέλα Deep Neural Network (DNN) που εκμεταλλεύονται τα μοντέλα της Google. TabNet, μια ερμηνευτική αρχιτεκτονική εκμάθησης πίνακα.

Φτανω στο σημειο

Η χαρτί είναι ο τίτλος Μην διαβάζετε, απλώς κοιτάξτε: Εξαγωγή κύριου περιεχομένου από ιστοσελίδες χρησιμοποιώντας οπτικά εμφανείς λειτουργίες, και προέρχεται από τρεις ερευνητές στο Πανεπιστήμιο Hanyang και έναν από το Ινστιτούτο Τεχνολογίας Σύγκλισης, που βρίσκονται όλοι στη Σεούλ.

Η βελτιωμένη εξαγωγή περιεχομένου βασικών ιστοσελίδων είναι δυνητικά πολύτιμη όχι μόνο για τον περιστασιακό τελικό χρήστη, αλλά και για συστήματα μηχανών που είναι επιφορτισμένα με την απορρόφηση ή την ευρετηρίαση περιεχομένου τομέα για τους σκοπούς της Επεξεργασίας Φυσικής Γλώσσας (NLP) και άλλων τομέων στο AI.

Ως έχει, εάν σε τέτοιες διαδικασίες εξαγωγής περιλαμβάνεται μη σχετικό περιεχόμενο, μπορεί να χρειαστεί να φιλτραριστεί με το χέρι (ή να επισημανθεί), με μεγάλο κόστος. χειρότερα, εάν το ανεπιθύμητο περιεχόμενο συμπεριληφθεί στο βασικό περιεχόμενο, θα μπορούσε να επηρεάσει τον τρόπο ερμηνείας του βασικού περιεχομένου και το αποτέλεσμα των συστημάτων μετασχηματιστή και κωδικοποιητή/αποκωδικοποιητή που βασίζονται σε καθαρό περιεχόμενο.

Μια βελτιωμένη μέθοδος, υποστηρίζουν οι ερευνητές, είναι ιδιαίτερα απαραίτητη επειδή οι υπάρχουσες προσεγγίσεις συχνά αποτυγχάνουν με μη αγγλικές ιστοσελίδες.

Οι γαλλικές, ιαπωνικές και ρωσικές ιστοσελίδες σημειώνονται με τη χειρότερη βαθμολογία σε ποσοστά επιτυχίας για τις τέσσερις πιο κοινές προσεγγίσεις «Προβολή Αναγνώστη»: Mozilla's Readability.js; Το DOM Distiller της Google. Web2Text; και Boilernet.

Οι γαλλικές, ιαπωνικές και ρωσικές ιστοσελίδες σημειώνονται με τη χειρότερη βαθμολογία σε ποσοστά επιτυχίας για τις τέσσερις πιο κοινές προσεγγίσεις «Προβολή Αναγνώστη»: Mozilla's Readability.js; Το DOM Distiller της Google. Web2Text; και Boilernet.

Σύνολα δεδομένων και Εκπαίδευση

Οι ερευνητές συνέταξαν υλικό δεδομένων από αγγλικές λέξεις-κλειδιά στο GoogleTrends-2017 και GoogleTrends-2020 δεδομένων, αν και παρατηρούν ότι, όσον αφορά τα αποτελέσματα, δεν υπήρχαν πρακτικές διαφορές μεταξύ των δύο συνόλων δεδομένων.

Επιπλέον, οι συγγραφείς συγκέντρωσαν μη αγγλικές λέξεις-κλειδιά από τη Νότια Κορέα, τη Γαλλία, την Ιαπωνία, τη Ρωσία, την Ινδονησία και τη Σαουδική Αραβία. Οι κινεζικές λέξεις-κλειδιά προστέθηκαν από α Δεδομένα Baidu, καθώς το Google Trends δεν μπορούσε να προσφέρει κινεζικά δεδομένα.

Δοκιμές και αποτελέσματα

Κατά τη δοκιμή του συστήματος, οι συγγραφείς διαπίστωσαν ότι προσφέρει το ίδιο επίπεδο απόδοσης με τα πρόσφατα μοντέλα DNN, ενώ παρέχει καλύτερη προσαρμογή για μια ευρύτερη ποικιλία γλωσσών.

Για παράδειγμα, η Boilernet η αρχιτεκτονική, ενώ διατηρεί καλή απόδοση στην εξαγωγή σχετικού περιεχομένου, προσαρμόζεται ελάχιστα στα κινεζικά και ιαπωνικά σύνολα δεδομένων, ενώ Web2Text, Οι συγγραφείς βρίσκουν ότι έχει «σχετικά κακή απόδοση» παντού, με γλωσσικά χαρακτηριστικά που δεν είναι πολύγλωσσα και είναι ακατάλληλα για εξαγωγή κεντρικού περιεχομένου από ιστοσελίδες.

της Mozilla Readbility.js βρέθηκε ότι επιτυγχάνει αποδεκτή απόδοση σε πολλές γλώσσες, συμπεριλαμβανομένων των αγγλικών, ακόμη και ως μέθοδος που βασίζεται σε κανόνες. Ωστόσο, οι ερευνητές διαπίστωσαν ότι η απόδοσή του μειώθηκε σημαντικά σε ιαπωνικά και γαλλικά σύνολα δεδομένων, υπογραμμίζοντας τους περιορισμούς της προσπάθειας ανάλυσης των χαρακτηριστικών μιας συγκεκριμένης περιοχής εξ ολοκλήρου με προσεγγίσεις βασισμένες σε κανόνες.

Εν τω μεταξύ της Google DOM Distiller, που συνδυάζει προσεγγίσεις ευρετικής και μηχανικής μάθησης, βρέθηκε να έχει καλή απόδοση σε όλους τους τομείς.

Πίνακας αποτελεσμάτων για μεθόδους που δοκιμάστηκαν κατά τη διάρκεια του έργου, συμπεριλαμβανομένης της ενότητας GCE των ερευνητών. Τα υψηλότερα νούμερα είναι καλύτερα.

Πίνακας αποτελεσμάτων για μεθόδους που δοκιμάστηκαν κατά τη διάρκεια του έργου, συμπεριλαμβανομένης της ενότητας GCE των ερευνητών. Τα υψηλότερα νούμερα είναι καλύτερα.

Οι ερευνητές καταλήγουν στο συμπέρασμα ότι «Το GCE δεν χρειάζεται να συμβαδίζει με το ταχέως μεταβαλλόμενο περιβάλλον Ιστού επειδή βασίζεται στην ανθρώπινη φύση—γνήσια παγκόσμια και πολύγλωσσα χαρακτηριστικά».