Google je sproveo testiranje efikasnosti i tačnosti AI četbotova koristeći FACTS Benchmark Suite.
Izveštaj pokazuje da nijedan od 15 testiranih četbotova nije dostigao 70% tačnosti.
Zahvaljujući upotrebi FACTS Benchmark Suite paketa, Google je bio u mogućnosti da testira i odredi efikasnost, kao i tačnost podataka koje pružaju popularni AI četbotovi. Zaključci iz ovog istraživanja nisu pozitivni.
Kako pokazuju podaci iz izveštaja, nijedan od 15 četbotova koje je kompanija testirala nije uspeo da pređe prag od 70 procenata tačnosti u odnosu na činjenice. To znači da u proseku skoro jedan od tri odgovora nije u skladu sa stvarnošću.
Najbolji model prema testovima je Gemini 3 Pro od Google, koji je postigao 69 procenata tačnosti. Sledeća mesta zauzeli su Gemini 3.5 Pro i GPT 5, koji su jedini još prešli prag od 60 procenata.
Ovo pokazuje da kreatore AI četbotova još čeka dug put do postizanja zadovoljavajućeg nivoa pouzdanosti. To je takođe upozorenje da sve podatke koje nude ova sredstva treba pažljivo proveravati.