T‮DI-F‬F (Term Frequency-Inverse Document Frequency)

2024.12.06.

2 perc olvasás

A TF-IDF (Term Frequency-Inverse Document Frequency) egy statisztikai módszer, amit a természetes nyelv feldolgozásában használunk, különösen szövegbányászatnál és információkeresésnél. Lényege, hogy egy adott szó fontosságát méri egy dokumentumban, miközben figyelembe veszi azt is, hogy ez a szó mennyire elterjedt az egész korpuszban. Vagyis, ha egy szó gyakran előfordul egy dokumentumban, de ritkán az egész korpuszban, akkor annak a szónak magas TF-IDF értéke lesz, tehát fontosnak számít az adott dokumentumban.

A számítás 2 részből áll:

TF (Term Frequency): Ez azt mutatja meg, hogy egy adott szó hányszor fordul elő egy dokumentumban. Gyakrabban előforduló szavak általában nagyobb súlyt kapnak.
IDF (Inverse Document Frequency): Ez azt mutatja meg, hogy a szó mennyire általános vagy ritka az egész korpuszban. Ha egy szó sok dokumentumban előfordul, az IDF alacsonyabb lesz.

Itt van néhány példa a TF-IDF alkalmazására:

Kulcsszavak kiválasztása: Weboldal optimalizálásakor segít azonosítani a fontos kulcsszavakat.
Szöveg osztályozás: Dokumentumok kategorizálásának megkönnyítésére használható.
Dokumentumok hasonlósága: Kereséshez, ahol hasonló dokumentumokat keresünk, TF-IDF hasznos lehet.
Összefoglalás generálás: Segíthet a szövegek automatikus összefoglalásakor azáltal, hogy kiemeli a releváns mondatokat vagy bekezdéseket.

A TF-IDF tehát egy hasznos eszköz, ha a nagy mennyiségű szöveget szeretnénk mélyebben megérteni vagy feldolgozni, hiszen segít az információ sűrítésében és a releváns részek kiemelésében.

Megosztás

T‮DI-F‬F (Term Frequency-Inverse Document Frequency)

Legtöbbet keresett szavak és kifejezések

Legfrissebb szavak a szótárban

Legkeresettebb szavak a lexikonban

Önmegvalósító

Ristorno

sub praetextu

scrupulózusan

Sumér

Aba

Stratégema

Sűrűsödött

Hegytetoválás

Meghatalmazott

Legkeresettebb szavak és kifejezések

szuverén

Önvizsgálat

Püthagorasz-tétel

Szusztermatt