No sentido de permitir a construção de índices remissivos e de facilitar a procura das páginas do sítio do Atractor, foi criada uma classificação das páginas atribuíndo a cada uma um ou mais termos. Um termo, que também pode ter a designação de categoria, tipo ou classe, descreve um assunto versado nas páginas ou uma característica das páginas.
Por exemplo, a categoria Geometria é usada para classificar as páginas sobre Geometria, e Televisão 3D as que têm conteúdos estereoscópicos para TVs 3D.
Categorias e sub-categorias
Aumentando o número de categorias e refinando-se a classificação, é natural haver situações em que certas categorias são casos particulares de outras.
Por exemplo, a categoria Rectângulo é uma sub-categoria de Polígono, a qual por sua vez é uma sub-categoria de Geometria. Isto significa que qualquer página classificada por Rectângulo deve ser vista como estando também classificada por Polígono e por Geometria.
Para simplificar os índices remissivos e facilitar a procura, associa-se uma estrutura ao conjunto de categorias por forma a que uma página classificada por uma categoria \(C\) fica implicitamente classificada por qualquer categoria que seja mais geral que \(C\).
No exemplo anterior, qualquer página classificada por Rectângulo fica implicitamente classificada por Polígono e Geometria.
Nessa estrutura, habitualmente designada por hierarquia de termos, cada categoria \(C\) tem descendentes directos que são as suas sub-categorias mais gerais, isto é, aquelas que não são casos particulares de sub-categorias de \(C\). Diz-se também que \(C\) é o pai e os descendentes directos os filhos.
No mesmo exemplo, Rectângulo não é um descendente directo de Geometria pois Polígono é uma sub-categoria de Geometria e é mais geral que Rectângulo.
Esta hierarquização de categorias leva a que no índice remissivo obtido da classificação a página sobre uma categoria \(C\) apresentará
- ligações para as páginas dos seus descendentes directos: as suas sub-categorias mais gerais
- ligações para todas as páginas que estejam classificadas explicitamente por \(C\), as quais em princípio tratarão de questões relacionadas com \(C\) que não digam respeito apenas a uma sub-categoria de \(C\).
Para chegar às páginas classificadas implicitamente por \(C\) no índice remissivo será necessário percorrer as páginas de todas as suas sub-categorias: os seus descendentes na hierarquia, sejam directos ou não.
Notar que um mecanismo de procura com base na classificação, a existir, não faz esta separação entre páginas classificadas explicita ou implicitamente.
Outras propriedades da hierarquia de termos
Não tendo sentido que uma categoria seja considerada um caso particular de si própria, a hierarquia de termos não poderá ter ciclos: não poderá haver uma categoria que seja descendente de si própria.
É comum haver situações em que uma categoria é filha de duas ou mais categorias.
Um exemplo é Mecanismo que pode ser abordado dos pontos de vista geométrico e histórico, pelo que é uma sub-categoria de Geometria e de História da Matemática.
Consequentemente, haverá casos de categorias e páginas que aparecem referidos no índice remissivo em vários contextos diferentes.
Um outro aspecto é o de se poder querer distinguir entre formas de relacionamento entre categorias e páginas. A hierarquia desenvolvida para as páginas do Atractor permite separar para cada categoria entre as páginas que estão por ela inequivocamente classificadas e as que têm com ela uma relação menos forte.
Mais formalmente
Em classificações simples a estrutura para o conjunto de categorias será uma árvore: há uma categoria mais geral que todas as outros, que será a raiz da árvore, e cada categoria tem um único antecedente directo, pelo que existe um único caminho desde a raiz até cada categoria. Havendo categorias que têm mais de um antecessor directo, a estrutura será a de um grafo dirigido acíclico (ou digrafo acíclico).
Em geral, o conjunto de categorias usado tem associada uma estrutura de grafo dirigido acíclico, que é induzida pela relação binária ser uma sub-categoria mais geral de: sendo \(\cal D\) o conjunto de sub-categorias de \(C\), \(S\in \cal D\) é uma sub-categoria mais geral de \(C\) se e só se não existir em \(\cal D\) um outro elemento \(S'\) que seja mais geral que \(S\). Em termos da hierarquia, o vértice \(C\) tem como únicos descendentes directos os vértices das sub-categorias mais gerais de \(C\).
A classificação associa a cada vértice \(C\) o conjunto \(\cal P\) de páginas classificadas explicitamente por \(C\). No índice remissivo a página para \(C\) indica os descendentes directos de \(C\) e as páginas em \(\cal P\). Um mecanismo de procura nela baseado encontrará para \(C\) a união de \(\cal P\) com todos os conjuntos semelhantes na sub-hierarquia abaixo de \(C\).
Para distinguir entre formas de relacionamento diferentes entre \(C\) e as páginas classificadas explicitamente por \(C\), considera-se a existência de subconjuntos de \(\cal P\), cada um dos quais associado a uma das formas de relacionamento, podendo-se impor a restrição de que esses subconjuntos são necessariamente disjuntos, formando uma partição de \(\cal P\).