Ce descrii cu partea vectorială nu e nou. Căutarea semantică are încercări de zeci de ani în diferite arome, doar că acum există putere de calcul ca să se și poată calcula chestiile astea într-un interval de timp cât de cât rezonabil, că hardware support. Pentru că vectorii sunt multidimensionali și vectorizarea înseamnă așezarea în spațiu a termenilor și clustering. Indexarea înseamă de fapt precalcularea de distanțe între termeni, unghiuri între vectori etc (depinde de algoritmii folosiți), ceea ce e exponențial atât ca timp cât și ca dimensiunea indecșilor, dacă te apuci să calculezi tot. Așa că optimizările se fac de obicei la clustering de termeni, ales ce să indexezi, ce fel de funcții de distanță folosești, exactitatea distanței (pe câți biți ții toate astea) etc. Iar hardware support înseamnă în mare parte înmulțit de matrici floating point, preferabil ținute în RAM-ul drăciei. De-asta nu vrea nimeni să bage mai mult RAM în plăci video "normale", ca să vândă monștri pe servere.