ISKO Italia. Documenti

Organizzazione della conoscenza

L'alfabeto e la sindrome di Sariette

da AIDA informazioni, 24: 2006, n. 3-4, p. 111-116

di Claudio Gnoli


Considerando i diversi strumenti per l'organizzazione della conoscenza (KOS), ci imbattiamo innanzitutto in un'alternativa classica: quella fra un'organizzazione alfabetica e una sistematica. La prima è quella che si serve di strumenti verbali, come i soggettari e le altre liste di termini controllati, o anche le più semplici parole-chiave attribuite dall'indicizzatore, dagli autori, o addirittura dagli utenti (le cosiddette folksonomy). La seconda ha la sua espressione più tipica negli schemi di classificazione, anche se la moda odierna preferisce spesso le sue varianti tecnologiche battezzate tassonomie e ontologie.

La differenza fondamentale, comunque, è quella dell'ordinamento che producono: nel primo caso gli utenti si troveranno a scorrere una lista di voci disposte secondo l'ordine alfabetico, per cui "antilopi" e "zebre" si troveranno alle estremità opposte, nel secondo invece l'ordine rifletterà una sistemazione concettuale, indipendente dalle forme verbali con cui i concetti sono espressi.

Naturalmente, ciascuna di queste alternative offre vantaggi e svantaggi: nell'ordine alfabetico la posizione di un concetto è facilmente prevedibile, purché si usi lo stesso termine adottato dal sistema; nello schema classificato invece occorre esplorare in successione i rami di un albero semantico, ma in compenso, oltre alla classe prescelta, si otterrà anche la sua posizione rispetto ad altre classi, che potranno aiutare ad ampliare o restringere la ricerca.

L'indice dizionario alfabetico, compilato secondo il principio della voce specifica e disposto in un'unica sequenza alfabetica, fornisce accesso immediato alle schede della bibliografia rilevante a condizione che (A) chi cerca abbia scelto la parola corretta per descrivere il suo soggetto, e (B) che la stessa parola sia utilizzata anche nell'indice. Se l'una o l'altra di queste condizioni non sussiste, l'indice può ancora portare al materiale giusto, se i suoi rinvii collegano le parole scelte con quelle usate per le voci d'indice. [...] L'indice classificato, disposto nella sequenza dei simboli di notazione, non fornisce accesso immediato ad alcun richiedente, poiché il suo primo passaggio è tradurre il termine da lui scelto in simboli di notazione. Una volta fatto questo, tuttavia, egli è condotto a una sezione dell'indice in cui trova non solo il termine che ha scelto, ma anche quelli associati nei modi che probabilmente gli occorreranno. [...] L'esperienza mostra poi che la naturale tendenza a classificare influenza fortemente la formulazione delle richieste nelle ricerche bibliografiche, e si può facilmente dimostrare che tutti i tipi di indici manuali, classificati e non, devono comunque far ricorso a uno schema di classificazione se vogliono far fronte efficacemente alle richieste degli utenti come sono espresse. Il servizio di documentazione ha bisogno della classificazione. [1]

I due tipi di sistema, dunque, non sono affatto indipendenti: come ama ricordare Carlo Revelli [2], anche sotto un repertorio alfabetico si trova una struttura classificata, che determina la granularità delle voci e i rinvii fra loro; e viceversa, uno schema di classificazione ha comunque un indice alfabetico, attraverso cui si può rintracciare la posizione sistematica del concetto cercato. Questa unità di fondo appare chiaramente nel leggere il miglior manuale sull'indicizzazione per soggetto [A] oggi disponibile [3], che considera dapprima in senso generale i vari aspetti della struttura dei KOS (relazioni gerarchiche, relazioni associative, faccette...), prima di addentrarsi nella descrizione di loro realizzazioni specifiche quali i Library of Congress subject headings o la Classificazione decimale di Dewey.

L'ordine alfabetico è convenzionale e di per sé privo di senso: ma è comodo, perché tutti lo conoscono e possono così scorrerlo senza passare attraverso ulteriori sovrastrutture. Uno schema di classificazione invece, per produrre l'ordine sistematico desiderato, deve introdurre una complicazione: associare a ciascun concetto una notazione simbolica che esprima la sua posizione rispetto agli altri concetti. Gli indici, o i libri sugli scaffali, saranno allora ordinati in base non alla successione delle forme verbali ma a quella dei simboli di notazione (seppur sempre applicando le regole dell'ordine alfabetico alle lettere, cifre e altri simboli che formano il codice), producendo così una sequenza più significativa dal punto di vista semantico.

Di solito agli utenti la notazione appare come un linguaggio esoterico: del resto, loro non sono tenuti a conoscerla, ma solo a riportarla fiduciosamente con precisione, una volta accertato che equivale al concetto che stanno cercando. Come ben sintetizza a questo proposito A.C. Foskett, «most people are not mathematically minded»: dunque deve sempre essere disponibile un indice alfabetico degli equivalenti verbali [4]. Tocca agli indicizzatori creare e interpretare opportunamente la notazione; e anzi qualcuno di loro può essere particolarmente incline a compiacersene:

Metodico e ostinatamente paziente, Sariette da solo aveva catalogato tutti i pezzetti di questo vasto complesso. Il sistema da lui concepito e applicato era complicatissimo; le segnature che dava ai libri si componevano di tante lettere, maiuscole e minuscole, latine e greche, cifre arabe e romane, accompagnate da asterischi, doppi asterischi, tripli asterischi e da quei segni che in aritmetica rappresentano le potenze e le radici, che per capirle tutte ci sarebbe voluto più tempo e fatica di quello che occorre per imparare l'algebra alla perfezione. Naturalmente non si riuscì a trovare nessuno che volesse dedicare, all'approfondimento di quegli oscuri simboli, delle ore che avrebbero potuto essere impiegate meglio a imparare le leggi dei numeri. Sariette restò quindi l'unico che poteva raccapezzarsi nelle sue classificazioni e senza il suo aiuto era impossibile trovare, tra i trecentosessantamila volumi affidati alla sua custodia, il libro di cui si aveva bisogno. Era questo il risultato della sua diligenza e, invece di lamentarsene, ne provava al contrario una profonda soddisfazione. [5]

Questo passaggio, di cui sono debitore ad Emanuela Casson, presenta la notazione come un oggetto astruso, che spaventa l'utente e lo allontana, anziché avvicinarlo, dai contenuti a cui anela. Ma allora, perché non sopprimerla? È quello che devono pensare i curatori dei numerosi repertori per soggetto del Web, i cui schemi hanno struttura gerarchica ad albero come i classici schemi di classificazione, ma non presentano alcuna notazione. Come disporre allora le voci entro ciascun livello? La scelta seguita da molti, ad esempio Yahoo e Open directory, è di elencarle in ordine alfabetico, ottenendo così un ibrido fra classificazione e soggettazione. Un'altra possibilità è quella di adottare comunque un ordine sistematico, che l'utente potrà scorrere in modo intuitivo, senza il riferimento della notazione; questa deve in qualche modo esistere, per determinare la sequenza di visualizzazione, ma non viene mostrata.

Secondo Jens-Erik Mai, addirittura, «la notazione è superflua sul Web, in quanto il meccanismo di accesso e i documenti fanno parte dello stesso sistema» [6]. Questa visione considera la notazione solo un dispositivo per indirizzare alla posizione fisica del documento, come succede per la collocazione dei libri sugli scaffali di una biblioteca. In realtà non è questa la funzione principale della notazione: altrimenti basterebbe disporre i libri sugli scaffali in ordine alfabetico di autore, senza bisogno di alcun codice. La cosa importante invece è produrre una disposizione significativa dei contenuti, il che può avvenire tanto sugli scaffali quanto nei cataloghi in rete o nei menù di siti che offrano la funzione di scorrimento (browsing). Questa rimane infatti una delle necessità fondamentali di chi sta cercando informazioni, sia nell'ambiente cartaceo che in quello digitale.

Non a caso, per Ranganathan la classificazione è innanzitutto "successione utile", e gerarchie e faccette non sono che tecniche per produrre quest'ultima, cioè per far risultare il più possibile vicini i documenti affini, nei limiti consentiti dalla disposizione lineare. Perché quindi vergognarsi di mostrare anche sul Web la notazione, il meccanismo che permette la generazione della successione utile? Non come unico mezzo di ricerca, certo, poiché conviene che l'accesso rimanga principalmente verbale, ma come ausilio di riferimento, magari visualizzato con minore evidenza, che suggerisca qual è il funzionamento dello schema a chi ci presti attenzione.

Un buon esempio ci è offerto dal progetto FATKS [7], sviluppato allo University College London con il dottorato di ricerca di Aida Slavic sotto la guida di Vanda Broughton. L'idea del progetto è sviluppare uno schema di classificazione per organizzare documenti del settore umanistico, digitali e non, applicando pienamente la teoria dell'analisi a faccette. A questo scopo è stata messa a punto una notazione espressiva, la cui struttura cioè riflette esplicitamente la gerarchia e le faccette dello schema. La classe 590 "religione" prevede fra l'altro le seguenti faccette:

E24 libri sacri
J2liturgia
M7eresie

Le lettere che esprimono ciascuna faccetta sono assegnate volutamente in un ordine crescente di, per così dire, significatività. In altre parole, la faccetta M (Proprietà) è considerata dare un contributo più significativo alla definizione del contenuto, rispetto ad esempio alla faccetta J (Operazioni), pur sempre utile ma più ausiliaria.

Al momento di classificare un documento, possiamo utilizzare le faccette che in esso ricorrono, tralasciando le altre (ché beninteso non dobbiamo cadere nella trappola "del quaderno a quadretti", credendo di doverle usare ogni volta tutte [8]). Il soggetto "eresie riguardo ai libri sacri" può quindi essere espresso per combinazione di 590 "religione", E24 "libri sacri" e M7 "eresie". Nel combinare le faccette, dobbiamo disporle nell'ordine rovesciato rispetto a quello delle tavole, per rispettare il principio di inversione: poiché nelle tavole E viene prima di M, all'interno del codice di classe dovrà essere l'inverso. Così avremo:

590M7E24 eresie : libri sacri

Ora, un altro documento su "eresie nella liturgia" sarà classificato come

590M7J2 eresie : liturgia

e uno su "eresie riguardo ai libri sacri nella liturgia" come

590M7J2E24 eresie : libri sacri : liturgia

Al momento di disporre le classi in un indice dei documenti sulla religione, faremo ordinare al calcolatore le voci in base alla notazione (potete provare voi stessi, usando un foglio di calcolo o anche un semplice editor di testi). Proprio grazie a come è costruita la notazione, "automagicamente" si produrrà una sequenza in cui (1) i documenti con faccette meno specifiche, come 590M7E24, vengono a trovarsi prima di quelli con faccette più specifiche, come 590M7J2; (2) i documenti nei quali sono specificate meno faccette, come 590M7, si trovano prima di quelli che ne hanno di più, come 590M7E24:

590M7eresie
590M7E24eresie : libri sacri
540M7J2eresie : liturgia
540M7J2E24 eresie : liturgia : libri sacri

Questa successione riflette un principio fondamentale della classificazione, ben enunciato da Henry Evelyn Bliss, per il quale il generico deve precedere lo specifico: ciò infatti avviene sia presentando per prime le faccette considerate più "generiche", sia, a parità di una certa faccetta, presentandola quando è da sola prima di quando è combinata con altre.

La finezza teorica di tale meccanismo potrebbe sembrare eccessiva, soprattutto quando è comunque possibile utilizzare una casella di ricerca per estrarre un termine desiderato. Ma quando i documenti presenti nella base-dati sono molto numerosi, ad esempio decine di migliaia, il loro ordine diventerà cruciale per guidarci fino al punto che più si avvicina ai concetti che ci interessano. Lo sappiamo bene quando guardiamo le risposte a una ricerca con Google: siamo infatti disposti a scorrere solo i primi dieci o venti risultati, prima di cambiare strategia, ed è perciò il ranking calcolato dal motore di ricerca a determinare quali risultati guarderemo e quali altri invece resteranno sepolti nelle decine di pagine successive.

Inoltre, la notazione può essere sfruttata anche nelle ricerche specifiche e nella visualizzazione dei loro risultati. Se siamo interessati ai libri sacri nella religione, possiamo incrociare con un operatore booleano le voci corrispondenti a 590 e a E24. Il sistema estrarrà allora tutte le voci la cui notazione contiene sia il frammento 590 che il frammento E24, e ce le presenterà, di nuovo, in ordine di specificità crescente:

590E24libri sacri
590J2E24libri sacri nella liturgia
590M7E24eresie riguardo ai libri sacri
590M7J2E24 eresie riguardo ai libri sacri nella liturgia

Questa funzione, va detto, si può realizzare facilmente soltanto se la notazione è espressiva, mentre richiederebbe molta più programmazione nel caso di notazioni non espressive, che cioè producano soltanto un ordine significativo ma senza riflettere la struttura gerarchica e le faccette dello schema, come nel caso della BC2. Ne riparleremo.

 

Note


1: Classification and indexing in the social sciences. p 83-84 / DJ Foskett – Butterworths: London: 1963
2: Soggettazione a faccette / Carlo Revelli – ISKO Italia : 2004-
3: Il soggetto / AC Foskett; Leda Bultrini: traduzione – Bibliografica: Milano: 2001
4: Di che parla questo catalogo? / Claudio Gnoli, Riccardo Ridi, Giulia Visintin = Biblioteche oggi. 22: 2004. 8. p 23-29
5: La rivolta degli angeli / Anatole France; Alessandra Baldasseroni: traduzione – Sansoni: Firenze: 1966
6: Classification of the Web: challenges and inquiries / Jens-Erik Mai = Knowledge organization. 31: 2004. 2. p 92-97
7: Facet analytical theory in managing knowledge structure for humanities / Aida Slavic – University College London: 2002-
8: A righe o a quadretti?... / Eugenio Gatto – ISKO Italia: 2006-

A: "Indicizzazione semantica" nella pubblicazione originale. L'autore preferisce ora evitare quest'ultima espressione, in voga presso i bibliotecari italiani nei decenni scorsi, per evitare confusione con il diverso senso di semantico invalso tra gli informatici negli ultimi anni.

 


L'alfabeto e la sindrome di Sariette = ISKO Italia. Documenti. Organizzazione della conoscenza. 2 — <http://www.iskoi.org/doc/rubrica2.htm> : 2016.03.31 -