A TF-IDF (Term Frequency-Inverse Document Frequency) egy statisztikai módszer, amit a természetes nyelv feldolgozásában használunk, különösen szövegbányászatnál és információkeresésnél. Lényege, hogy egy adott szó fontosságát méri egy dokumentumban, miközben figyelembe veszi azt is, hogy ez a szó mennyire elterjedt az egész korpuszban. Vagyis, ha egy szó gyakran előfordul egy dokumentumban, de ritkán az egész korpuszban, akkor annak a szónak magas TF-IDF értéke lesz, tehát fontosnak számít az adott dokumentumban.
A számítás 2 részből áll:
-
TF (Term Frequency): Ez azt mutatja meg, hogy egy adott szó hányszor fordul elő egy dokumentumban. Gyakrabban előforduló szavak általában nagyobb súlyt kapnak.
-
IDF (Inverse Document Frequency): Ez azt mutatja meg, hogy a szó mennyire általános vagy ritka az egész korpuszban. Ha egy szó sok dokumentumban előfordul, az IDF alacsonyabb lesz.
Itt van néhány példa a TF-IDF alkalmazására:
- Kulcsszavak kiválasztása: Weboldal optimalizálásakor segít azonosítani a fontos kulcsszavakat.
- Szöveg osztályozás: Dokumentumok kategorizálásának megkönnyítésére használható.
- Dokumentumok hasonlósága: Kereséshez, ahol hasonló dokumentumokat keresünk, TF-IDF hasznos lehet.
- Összefoglalás generálás: Segíthet a szövegek automatikus összefoglalásakor azáltal, hogy kiemeli a releváns mondatokat vagy bekezdéseket.
A TF-IDF tehát egy hasznos eszköz, ha a nagy mennyiségű szöveget szeretnénk mélyebben megérteni vagy feldolgozni, hiszen segít az információ sűrítésében és a releváns részek kiemelésében.