Skip to main content

Ecco quanto sono affidabili gli strumenti di rilevamento dei contenuti IA, come si verificano i falsi positivi e come è possibile affrontarli al meglio

Intelligenza artificiale – la nuova tecnologia sta suscitando scalpore, ma anche incertezza. Come si può essere sicuri che il testo ordinato provenga davvero dalla penna creativa di un vero scrittore? Gli strumenti di controllo dell’intelligenza artificiale sono davvero la soluzione e come si interpretano i risultati di queste applicazioni? Abbiamo fatto delle ricerche per voi e desideriamo darvi un’idea di cosa succede dietro le quinte di Textbroker e del ruolo che gli strumenti di rilevamento dell’IA svolgono in questo contesto.

 

Come funziona uno strumento di rilevamento dei contenuti IA?

 

Siate onesti: quando avete usato per la prima volta uno strumento del genere, avete pensato che la percentuale vi avrebbe detto quanta parte del testo è stata creata con l’IA, non è vero? Dopotutto, si sente dire ovunque che gli strumenti di verifica dell’IA promettono di riconoscere i testi creati con ChatGPT o altri generatori di testo IA simili. Purtroppo, questo non è del tutto corretto. Questi strumenti lavorano con le probabilità e non forniscono alcuna informazione se non questa: con una probabilità dell’X per cento, il testo controllato è stato creato con l’intelligenza artificiale.

 

Come fa a saperlo? Il principio alla base è piuttosto semplice. Fondamentalmente, questi strumenti di verifica dell’IA si basano su un modello linguistico con intelligenza artificiale come ChatGPT. Gli strumenti lo utilizzano per verificare la probabilità che il testo controllato sia stato creato con l’aiuto dell’intelligenza artificiale. Lo strumento di rilevamento dell’IA calcola quale parola del testo è più probabile che segua. Poiché l’IA lavora con modelli linguistici simili, questo comporta un elevato grado di compatibilità nei testi dell’IA. Tuttavia, se il testo è scritto da una persona, le differenze dovrebbero essere tali da indurre lo strumento di verifica dell’intelligenza artificiale a identificare il testo come creato manualmente: tutto questo in teoria.

 

Un altro punto che gli strumenti di rilevamento dell’intelligenza artificiale verifica sono gli errori ortografici e grammaticali. Gli errori nei testi sono fastidiosi, ma sono umani. L’intelligenza artificiale, invece, non commette errori di ortografia, quindi un testo assolutamente privo di errori può essere indice di un testo generato dall’intelligenza artificiale. Naturalmente, questo non significa che un testo privo di errori provenga automaticamente dall’IA o che gli errori siano automaticamente una prova della creazione umana. L’IA non è più infallibile di un essere umano.

 

Creatività vs. probabilità

 

Altri due fattori che questi strumenti di controllo dell’IA verificano sono la “perplessità” e la “Burstiness”. In entrambi i casi, un punteggio elevato indica che il testo dovrebbe essere stato scritto da un umano.

 

Perplessità

 

È facile riconoscere il significato di perplessità nei testi osservando alcuni esempi:

 

 Bassa perplessità  Alta perplessità
“La famiglia è andata alla stazione ferroviaria per prendere il treno”. “La famiglia è andata alla stazione a prendere gli amici e andare insieme allo zoo con gli e-scooter”.

 

La prima frase ha una continuazione molto probabile, il che significa una bassa perplessità. I contenuti si costruiscono l’uno sull’altro in modo logico e la seconda parte della frase è esattamente ciò che il lettore molto probabilmente si aspetta. Ed è proprio questo il nocciolo della questione: l’intelligenza artificiale genera molto spesso frasi dal contenuto prevedibile, perché non ha la creatività che i nostri autori mettono nella creazione dei testi.

 

I testi con un alto livello di perplessità, invece, tendono ad assomigliare alla seconda frase. C’è un colpo di scena nella narrazione che è molto lontano dal contenuto della prima parte. È improbabile che l’intelligenza artificiale crei una frase del genere. L’intelligenza artificiale crea quasi sempre frasi plausibili con un risvolto prevedibile.

 

Burstiness

 

Gli strumenti di rilevamento dei contenuti IA utilizzano la “burstiness” per valutare la variazione all’interno delle frasi. Questa si riferisce principalmente alla lunghezza e alla struttura delle frasi. L’IA ama costruire frasi secondo lo stesso schema e agisce in modo ripetitivo. Ciò significa che la lunghezza delle frasi è solitamente costante e la variazione è minima. Al contrario, gli esseri umani in genere usano un misto di frasi brevi e lunghe, alternano voce attiva e passiva o usano posizioni diverse delle frasi. Un’alta valutazione della “burstiness” è quindi indice di un testo scritto da un essere umano.

 

Gli strumenti di rilevamento dei contenuti IA non sono infallibili

 

Il fatto che gli strumenti di rilevamento dei contenuti IA siano in grado di identificare i testi di IA sembra inizialmente positivo. Purtroppo, però, gli strumenti non sono infallibili. Ciò è dovuto principalmente al fatto che gli strumenti di verifica e la tecnologia sono in continua evoluzione, proprio come i generatori di testi di IA. I risultati degli strumenti di rilevamento dei contenuti AI non sono quindi assolutamente affidabili e, purtroppo, non è raro che si verifichino i cosiddetti falsi positivi, ossia risultati in cui testi scritti da esseri umani vengono erroneamente classificati come generati dall’IA.

 

La precisione è stimata intorno al 60% nei test precedenti del 2023 in lingua tedesca. Questo risultato include testi che provengono dall’IA e non vengono identificati, così come un testo scritto da un umano che viene classificato come generato dall’IA dallo  strumento di rilevamento dei contenuti AI.

 

Possibili ragioni dei falsi positivi

 

Soprattutto la perplessità e la “burstiness” possono spesso portare a risultati falsi. Ad esempio, alcuni tipi di testo hanno una struttura specifica o lasciano poca libertà in termini di formulazione e creatività. Gli articoli di cronaca o gli elenchi, ad esempio, devono seguire una struttura molto specifica e prevista. Anche le descrizioni di aziende e servizi richiedono contenuti e formulazioni specifiche.

 

Anche i testi in cui l’autore deve incorporare determinate formulazioni o astenersi dal fare affermazioni chiare a causa di condizioni legali sono suscettibili di falsi positivi. È il caso, ad esempio, dei testi del settore sanitario o finanziario: in questo caso, gli autori devono evitare promesse di efficacia e quindi utilizzare formulazioni previste e descrizioni ausiliarie che spesso vengono attribuite ai generatori di testi IA.

 

Anche i testi brevi sono talvolta problematici. Semplicemente, non ci sono abbastanza punti di riferimento disponibili perché lo strumento possa fare una valutazione oggettiva. Per questo motivo, i risultati degli strumenti di rilevamento dell’IA devono essere considerati come un’indicazione, ma non come un risultato infallibile. Per gli strumenti di riconoscimento dell’IA vale quindi lo stesso principio di tutti gli altri strumenti: sono stati creati dagli esseri umani per gli esseri umani e c’è sempre bisogno di un utente che controlli e interpreti i risultati!

 

Strumenti di rilevamento IA

Ma quanto sono davvero affidabili gli strumenti di rilevamento dell’IA?

 

Per capire esattamente come siano possibili i falsi positivi, diamo un’occhiata alle informazioni che uno strumento di verifica dell’IA fornisce effettivamente nei risultati. Questi strumenti non forniscono una risposta assoluta alla domanda se un testo sia stato generato da un’intelligenza artificiale. Gli strumenti valutano invece la percentuale di possibilità che un testo provenga da un essere umano o da un’intelligenza artificiale. Ad esempio, una percentuale di 75 non significa che un’IA come ChatGPT e Co. abbia generato il 75% del testo. Significa solo che la probabilità che l’IA sia stata utilizzata nella scrittura è del 75% secondo questo strumento.

 

Per saperne di più su come interpretare i risultati, potete consultare l’articolo del blog di Originality.ai sull’argomento. Copyleaks fornisce in questo PDF con le domande più frequenti sul rilevatore di IA anche buoni esempi di ciò che rientra nell’uso dell’IA.

 

I gestori degli strumenti di verifica dell’intelligenza artificiale pubblicizzano un alto livello di precisione. Spesso citano percentuali di successo superiori al 90%. D’altro canto, però, questo significa anche che gli stessi fornitori non classificano i propri strumenti come privi di errori. Possono certamente verificarsi falsi positivi, ossia casi in cui un testo è stato scritto da un umano e lo strumento presume che l’IA sia l’autore per vari motivi. Gli stessi operatori lo sottolineano nelle loro FAQ e nei loro post sul blog, come si può leggere qui sotto. Questo è ovviamente particolarmente fastidioso per l’autore, che si è impegnato a fondo nella creazione del testo e non ha utilizzato un’IA. Abbiamo testato due dei più noti strumenti di verifica dell’IA presenti sul mercato e abbiamo fatto molte scoperte interessanti.

 

Il nostro test: ecco i risultati

 

Abbiamo sottoposto agli strumenti di test quattro testi tedeschi: due descrizioni di categoria per un portale fittizio di vendita di caffè online e due descrizioni di servizio per un servizio fittizio di fabbro. Uno di questi testi è stato scritto da autori umani, gli altri due dall’intelligenza artificiale. Perché questi tipi di testo? Perché, secondo la nostra esperienza, i testi con contenuti e formulazioni prevedibili sono più vulnerabili di falsi positivi rispetto ai generi di testo in cui gli autori hanno maggiore libertà creativa.

 

Abbiamo scelto esplicitamente testi in tedesco per testare le prestazioni degli strumenti. Molti strumenti di controllo dell’intelligenza artificiale sono stati sviluppati inizialmente per la lingua inglese e mostrano risultati migliori in inglese (come si può leggere nelle FAQ di Copyleaks, per esempio). Volevamo verificare in modo specifico se i risultati sono affidabili anche per i testi in lingua tedesca. Inoltre, abbiamo caricato i nostri quattro testi in diversi formati di input: una volta direttamente come file Word e una volta tramite il modulo di inserimento del testo sul sito web dello strumento di verifica dell’IA, quindi in ogni caso con e senza formattazione HTML.

 

Prima di tutto, è meglio chiarire un punto: il numero di testi testati è naturalmente ridotto, motivo per cui non possiamo e non vogliamo fare alcuna dichiarazione sull’accuratezza statistica dei risultati degli strumenti. Questo test ha uno scopo puramente illustrativo ed è inteso come spunto di riflessione.

 

Copyleaks

 

Copyleaks è il primo strumento del test:

 

Tipo di     caricamento /Formato Testo di prova 1: Umano (descrizione di categoria) Testo di prova 2: Umano (descrizione di servizio) Testo di prova 3:IA (descrizione di categoria) Testo di prova 4:IA (descrizione di servizio)
Caricamento in Word con HTML 0% IA

 

0% IA

 

0% IA

 

0% IA

 

Caricamento in Word senza HTML 0% IA

 

100% IA

 

100% IA

 

100% IA

 

Inserimento con copia-incolla con HTML 0% IA

 

0% IA

 

0% IA

 

0% IA

 

Inserimento con copia-incolla senza HTML 100% IA

 

100% IA

 

100% IA

 

100% IA

 

 

Lo strumento contrassegna tre volte il primo testo umano come 0 % IA – solo quando il testo viene inserito direttamente senza HTML Copyleaks è sicuro che il testo sia al 100 % IA – e a questo punto si sbaglia. Per il secondo testo, anch’esso scritto da un autore umano, Copyleaks indica solo due volte che il testo proviene chiaramente da una mano umana. Tuttavia, quando si carica il testo senza formattazione HTML, lo strumento si sbaglia di nuovo e indica il 100% IA. Questo risultato si ripete esattamente per i testi tre e quattro, sebbene questi siano stati generati interamente dall’IA.

 

È importante sapere che: la formattazione HTML viene convertita in cosiddette “entità HTML” durante il caricamento in entrambi i moduli. Questo sembra distorcere il risultato. Ecco quindi una raccomandazione di base: se volete far controllare i testi, è meglio farlo senza formattazione HTML!

 

Originality.ai

 

Ripetiamo lo stesso test con Originality.ai, in particolare con il modello multilingue progettato per lingue diverse dall’inglese:

 

Tipo di     caricamento /Formato Testo di prova 1: Umano (descrizione di categoria) Testo di prova 2: Umano (descrizione di servizio) Testo di prova 3:IA (descrizione di categoria) Testo di prova 4:IA (descrizione di servizio)
Caricamento in Word con HTML 50% IA

 

97% IA

 

100% IA

 

6% IA

 

Caricamento in Word senza HTML 50% IA

 

99% IA

 

100% IA

 

100% IA

 

Inserimento con copia-incolla con HTML 50% IA

 

97% IA

 

100% IA

 

6% IA

 

Inserimento con copia-incolla senza HTML 51% IA

 

100% IA

 

100% IA

 

100% IA

 

 

Lo strumento valuta il primo testo, scritto da un umano, come generato dall’IA al 50-51%. Per il secondo testo, anch’esso umano, Originality.ai indica addirittura il 97-100% di IA. Originality.ai identifica correttamente il terzo testo come 100% AI, indipendentemente dalla forma in cui lo carichiamo. Per il quarto testo, invece, indica i testi con formattazione HTML come generati dall’IA con una probabilità di solo il 6%. Quando si carica senza HTML, il risultato è di nuovo corretto con il 100% IA.

 

Cosa dicono gli operatori degli strumenti

 

Abbiamo anche chiesto agli operatori degli strumenti di rilevamento dell’intelligenza artificiale Copyleaks e Originiality.ai di parlare dell’accuratezza dei loro strumenti. Volevamo sapere da loro in quali circostanze gli strumenti forniscono i risultati migliori, perché possono verificarsi dei falsi positivi e se l’uso di strumenti di scrittura come i correttori ortografici può influire sul risultato. Abbiamo ricevuto da entrambi un feedback via e-mail, che abbiamo riassunto qui di seguito.

 

Copyleaks

 

Secondo il fornitore il loro sistema di rilevamento fornisce informazioni affidabili solo al di sopra di una certa lunghezza del testo. Si tratta di 350 caratteri se si utilizza l’estensione del browser e di 255 caratteri per l’applicazione web. Copyleaks attribuisce i falsi positivi all’uso di strumenti aggiuntivi che ottimizzano i testi. Ad esempio, LanguageTool.org offre una funzione che consente di riformulare le frasi oltre al correttore ortografico. L’IA viene utilizzata in questo caso in modo che gli strumenti di controllo dell’IA la riconoscano. Tuttavia, Copyleaks non parla di un falso positivo, ma di un’identificazione corretta:

“Sebbene gli strumenti di assistenza alla scrittura utilizzino l’IA da tempo, molte piattaforme si sono evolute fino a utilizzare i Large Language Models (LLM) per riscrivere parti del contenuto, il che può far sì che il testo venga contrassegnato come IA, il che tecnicamente non è un falso positivo, ma piuttosto una corretta identificazione del contenuto IA” (traduzione dall’inglese).

Un altro punto è la lingua. Secondo Copyleaks, lo strumento di controllo funziona meglio con i testi in inglese. Lo strumento di controllo dell’IA supporta anche altre lingue come il tedesco, il francese o l’italiano, ma l’affidabilità in questo caso non è ancora così elevata.

Copyleaks sottolinea che nei test interni condotti su 1000 testi in inglese, non ha riscontrato falsi positivi quando i testi sono stati corretti da un correttore ortografico:

“Per determinare la soglia in cui i contenuti modificati dagli assistenti di scrittura vengono etichettati come IA, abbiamo condotto un test con due programmi di scrittura guidati dall’IA: Grammarly e l’assistente di scrittura di Copyleaks. Per il test sono stati raccolti 1.000 file casuali da un dataset pubblico di testi in lingua inglese. Il set di dati è stato progettato per essere solo in inglese e non contiene IA. I testi sono stati poi modificati utilizzando l’assistente di scrittura Copyleaks e Grammarly. Ecco i risultati: mille file creati dall’uomo sono stati modificati con Copyleaks Writing Assistant, con una media di circa il 35% di modifiche apportate a ciascun file. Questi file aggiornati sono stati analizzati con Copyleaks AI Detector. Tutti i 1.000 file sono stati riconosciuti come contenuti umani”. (Copyleaks fornisce ulteriori informazioni nel post del blog “Do Writing Assistants Like Grammarly Get Flagged As AI?”).

 

Se invece si utilizzano funzioni per migliorare la struttura delle frasi, lo strumento di controllo ha identificato il 31,6% dei testi come generati dall’IA. Copyleaks cita i seguenti motivi principali per i falsi positivi: “Sebbene il rilevatore di IA di Copyleaks abbia un tasso di falsi positivi dello 0,2%, esiste sempre la possibilità che un testo generato dall’uomo venga contrassegnato come IA. Ciò può accadere per diversi motivi: il contenuto è stato modificato con un assistente di scrittura che utilizza funzioni alimentate da genAI come GrammarlyGo, che probabilmente sarà classificato come IA. Il contenuto è stato modificato utilizzando un text spinner o uno strumento simile. L’IA è stata utilizzata per creare una traccia o un modello”. (traduzione dall’inglese)

 

Recentemente, Copyleaks ha pubblicato anche un articolo che spiega nuovamente questi fatti: “Come funziona il rilevamento dell’IA?”. Spiegazioni dettagliate sono disponibili anche nel loro PDF con le domande più frequenti sullo strumento Copyleaks.

 

Originality.ai

 

Il feedback di Originality.ai è simile e ci rimanda all’articolo dettagliato del centro assistenza. Il fornitore sottolinea inoltre che un punteggio del 40% non significa che l’IA abbia creato il 40% del testo:

 

“Il nostro rilevatore di IA indica la probabilità che un contenuto sia IA o originale (creato da esseri umani). Fornisce un punteggio di affidabilità. 60% originale e 40% IA significa che il modello considera il contenuto originale (scritto da esseri umani) e ha il 60% di fiducia nella sua previsione.” (Fonte: Originality.ai, “Originality.ai, “AI Detection Score Meaning”)

 

Lo strumento valuta quindi la probabilità che l’IA sia stata utilizzata in qualche forma nella creazione del testo. Questo può anche significare che l’IA è stata utilizzata solo come strumento di pianificazione dei contenuti o per il controllo ortografico (fonte: Originality.ai, “Most Common Reasons for False Positives With Originality” ). In un post sui falsi positivi, Originality.ai arriva addirittura a dire: “Se una qualsiasi quantità di IA tocca il contenuto, può far sì che l’intero articolo venga etichettato come IA”. (Fonte: Originality.ai, “AI Content Detector False Positives – Accused Of Using Chat GPT Or Other AI?” ).

 

Strumenti di rilevamento - Google

Perché è così importante identificare l’IA quando si creano i testi?

 

Molti clienti attribuiscono grande importanza al fatto che i testi non provengano dall’IA. Ci sono buone ragioni per questo. Innanzitutto, un testo che proviene da un autore reale è generalmente di qualità superiore e ha una maggiore profondità. In secondo luogo, si tratta anche dell’accuratezza del contenuto. Questo vale in particolare per i cosiddetti argomenti YMYL (“Your Money Your Life”). Quando si tratta di argomenti come la salute, la legge o la consulenza finanziaria, le informazioni devono essere assolutamente affidabili e corrette in termini di contenuto. La competenza e la ricerca scrupolosa dell’autore superano di gran lunga le possibilità dell’IA.

Si teme inoltre che i testi generati dall’intelligenza artificiale si posizionino più in basso nei motori di ricerca. Per questi motivi, noi di Textbroker diamo al cliente la possibilità di scegliere se e in che misura consentire l’uso dell’intelligenza artificiale nella creazione dei suoi testi.

Tuttavia, rimane una domanda importante: a Google interessa se un testo è stato scritto da un essere umano o generato dall’intelligenza artificiale? Google stesso afferma che la qualità dei contenuti ha la massima priorità:

“La nostra attenzione è rivolta alla qualità dei contenuti, non al modo in cui vengono prodotti. È così che da anni riusciamo a fornire risultati di ricerca affidabili e di alta qualità”. (Fonte: Indicazioni della Ricerca Google sui contenuti creati con l’IA).

Il gigante di Internet sottolinea che i contenuti orientati all’utente sono al centro dell’attenzione. L’importante è che i contenuti apportino un valore aggiunto agli utenti!

Ciò solleva anche la questione se Google sia davvero in grado di riconoscere in modo affidabile i contenuti IA. In questo contesto va menzionato l’aggiornamento E-E-A-T di Google, nell’ambito del quale il gestore del motore di ricerca ha ampliato le sue linee guida per i valutatori di qualità. E-E-A-T sta per “Esperienza”, “Competenza”, “Autorevolezza” e “Affidabilità”. Questo ci riporta al valore aggiunto di cui sopra o a quello che Google chiama “contenuto utile”: gli utenti devono potersi fidare del fatto che il contenuto sia affidabile, accurato e unico e provenga da una persona con esperienza e competenza. Google classifica i contenuti che soddisfano questi criteri in modo più elevato. Questo vale soprattutto per i testi scritti da veri autori o, almeno, da loro accuratamente e coscienziosamente rivisti.

 

I nostri consigli finali per gestire i falsi positivi

 

È comprensibile che i clienti vogliano testi creati interamente senza intelligenza artificiale e noi naturalmente vogliamo garantirlo. Per questo motivo, controlliamo sempre tutti i testi con il nostro strumento di controllo. Se il nostro controllo IA trova un testo presumibilmente “sospetto”, effettuiamo anche un controllo manuale.

In questo controllo ci affidiamo alla nostra esperienza, al nostro team di redattori esperti e al fatto che abbiamo conosciuto a fondo lo stile di scrittura dei nostri autori nel corso degli anni. Non ci affidiamo quindi esclusivamente a uno strumento di revisione IA, ma piuttosto a una combinazione di vari criteri di valutazione e alla competenza di collaboratori esperti per classificare correttamente i testi.

Ciononostante, può accadere che uno strumento esterno di revisione dell’IA sospetti l’uso dell’IA nella creazione di un testo anche quando si revisionano i testi personalmente. Come già detto, tuttavia, l’ipotesi di uno strumento di IA non significa automaticamente che il testo sia stato creato da o con l’aiuto dell’intelligenza artificiale. Se desiderate esplicitamente un testo con un punteggio di IA pari allo 0% in uno strumento di vostra scelta, potete discuterne con l’autore nell’ambito di un DirectOrder. Naturalmente, siamo a disposizione come punto di contatto se avete bisogno di assistenza o avete ulteriori domande sull’argomento.

Per voi, in quanto clienti, questo significa che è giusto che esistano questi strumenti, perché possono aiutarvi e fornirvi indizi. Tuttavia, dovreste sempre trattare i risultati con cautela e analizzarli per individuare eventuali motivi di falsi positivi:

 

  • Il testo è abbastanza lungo per ottenere un risultato significativo?
  • Avete scelto lo strumento giusto per la vostra lingua?
  • Il testo richiede determinati contenuti, strutture e formulazioni che potrebbero influenzare il risultato?
  • L’autore potrebbe aver semplicemente utilizzato strumenti di controllo ortografico e stilistico per ottimizzare il testo?

 

Se tenete conto di questi punti e analizzate sempre i risultati degli strumenti di controllo dell’intelligenza artificiale con una dose di buon senso, arriverete sicuramente a una buona valutazione. E se così non fosse? Naturalmente siamo qui per voi, con le nostre conoscenze, la nostra esperienza e la nostra collaudata comunità di freelance.

 

Quali sono le vostre esperienze con gli strumenti di rilevamento dell’intelligenza artificiale? Condividetela con noi nei commenti!


Nessun commento disponibile


Hai una domanda o un'opinione su un articolo? Condividila con noi!

Il tuo indirizzo e-mail non sarà reso pubblico. I campi obbligatori sono segnati *

*
*

Managed-Service

Desideri che siano altri ad occuparsi di tuoi interi progetti e vuoi però essere sicuro di ottenere testi di alta qualità? Necessiti di altri servizi inerenti la creazione dei contenuti come ad esempio la gestione completa del tuo blog? Inizia a conoscere più da vicino la nostra offerta di Managed-Service e approfitta del nostro pacchetto All Inclusive.

Richiedi un preventivo!

Self-Service

Necessiti di contenuti attuali? Con il Self-Service di Textbroker puoi ordinare il testo che desideri in modo semplice e veloce – e alle migliori condizioni.

Registrati adesso gratuitamente!

L’Expert Center di Textbroker

Lo scopo del nostro Exper Center è quello di informare su tutte le novità riguardanti il Content Marketing, l’ottimizzazione per i motori di ricerca e i testi per il web. Qui i nostri clienti e i nostri autori troveranno articoli informativi, tutorial, video e molto altro.

Scopri di più