tvx: nevím co dělají jiné vyhledávače, ale seznam to děla celkem jednoduše. Pokusí se z HTML vytáhnout text o kterým si myslí, že jej uživatel uvidí. Zjišťuje toto: Odstavec, tučně, nadpis, link. Odstavec znamená, že si vede odkud kam jsou odstavce a fráze vrámci odstavce mají lepší relevanci. Tučné část (b nebo strong) mají o chlup vyšší relevanci, a stejně tak nadpis a link. Ale pozor, pokud si někdo myslí, že vyžene relevanci tím, že všechno udělá tučně, tak to je omyl, faktory jsou pouze relativní v rámci stránky. Ještě se zvlášť posuzuje TITLE. Doporučuju i z hlediska uživatele mít každou stránku nazvanou tak, aby vyjadřovala obsah stránky(krátké summary, nadpis). TITLE dá stránce relevanci navíc, pokud se hledaná fráze nachází taky tam a navíc bude ve výpisu hezky vidět.
Důležité je, aby kód byl validní, aby se parser neztratil na neuzavřeném tágu. Ideální je uzavírat všechny tágy, výjma nepárových pochopitelně, čili BR a IMG (a to je myslím všechno).
Jo a pozor na reklamy. Lidi si myslej, že když někam umístí hromadu banerů na ostatní stránky s tím, aby si zvýšili rank, že jim to seznamácký robot zbašťí ;-). SPAM není jen v e-mailech a detekce spamu na stránkých je důležitá součást robota zvyšující relevanci výsledků. |