domingo, 24 de novembro de 2013

Se o Dado é o rei, quem é a rainha?

Meu post desta semana estava quase pronto quando abri um parênteses e fui a um bate-papo sobre web semântica com o prof.Marcos Mucheroni, da USP (1). O prof. Mucheroni é da área da Ciência da Computação e docente na Biblioteconomia e Documentação da ECA/USP.

Em função da ótima discussão na mesa de um café, não cheguei a alterar o título do post, mas enriqueci o tema com o conteúdo da conversa que criei na nuvem de tag a seguir.
  
 VIAF        DBPedia              Web 3.0     RDF          XML


LOD (Linking Open Data)   Datalização     


Selfie                                           ONIX             

                 Web semântica                           SPARQL
                  


Antecipando a resposta do título do post, a rainha é a busca e a busca caminha a passos largos em direção à Web Semântica que já vem sendo reconhecida como sendo a Web​ 3.0 com várias iniciativas bastante amadurecidas.

Mas, onde se concentra a complexidade da busca?

O segredo dos algoritmos


A busca está se transformando e será a protagonista da web semântica, conceito surgido em 1994, e vem unindo a informação a partir dos atributos que a definem. Os dados na Web serão totalmente estruturados e assim a tecnologia contribuirá criando os links e enriquecendo a experiência de busca em relação à quantidade e qualidade de resultados obtidos. 

O dado é o  elemento que acompanhará e descreverá o objeto de pesquisa e portanto a qualidade do dado é fundamental, mas a busca tem de ser igualmente inteligente e de seu resultado dependem uma interface de busca bem planejada e alinhada com a entrada de dados e os algoritmos utilizados que contribuirão com a inteligência do resultado. 

Veja o que acontece com o Google quando se pesquisa uma organização e ele traz em primeiro resultado o site da instituição. Isso é inteligência aplicada à busca. Os algoritmos determinam a ordem de resultados e por isso a lógica do resultado da busca do Google é um mistério. O que determina a sequência de resultados que ele oferece na primeira página e que faz com que a grande maioria não chegue na segunda página de resultado fazem parte da inteligência de seus algoritmos.

No mundo binário de 0 e 1, um algoritmo é uma sequência lógica, finita e definida de instruções que executam uma tarefa, como uma busca. A performance da busca depende basicamente dos algoritmos e esse é o grande diferencial do Google. É como o segredo da Coca-cola. Todos querem ter a fórmula. 

Por que a experiência no Google é sempre prazerosa? Porque o Google passa noite e dia alterando e sofisticando seus algoritmos para termos cada vez mais a sensação de que o sistema nos conhece e irá nos propiciar uma experiência única.

Quem conhece a história do Facebook e assistiu o filme "A Rede Social", sabe que a briga de Mark   Zuckerberg  com seus rivais foi e torno de algoritmos e são eles que modificam todos os dias nossa experiência na Web.


O momento da busca


Eu diria que saindo do Google e indo pesquisar em fontes de informação governamentais, portais de conteúdo e sistemas de informação proprietários, nossa experiência com a busca ainda é muito primitiva. Não evoluímos sequer para a busca 2.0. A grande maioria das interfaces de busca é incompleta, com baixa usabilidade, baixa valorização de conteúdos com descrição pobre de objetos e recursos informacionais.

Encontrar a informação desejada em um sistema de informação depende de alguns fatores que devem estar necessariamente reunidos: uma interface de busca inteligente, dados qualificados e suficientes, ferramenta de busca com algoritmos inteligentes e resultado de busca com possibilidade de ordenação e refinamento (busca sobre busca).

Fuja da busca cega! O que não pode deixar de ter em uma interface de busca:

  • algoritmos inteligentes (teste a busca e avalie seu resultado)
  • ajuda /exemplos (sempre!!)
  • índices (sugestão de autor, titulo, assunto)
  • pesquisa avançada (combinações mais sofisticadas)
  • filtro e refinamento (reduz e qualifica universo a ser buscado)
  • possibilidade de salvar pesquisas (ter pequisas prontas)
  • módulo para vocabulário controlado (permite criar termos relacionados, Contribui com a busca semântica)
  • possibilidade de alterar a forma de visualização de resultados (por data, por ordem alfabética, por asssunto...)
  • possibilidade de rankear o resultado (o voto é um indicador de preferência)
  • comentários (enriquecem o registro)
  • Adicionar tags (a folksonomia é a possibilidade de o usuário adicionar seus termos ao registro encontrado, criando significado para o resultado encontrado)


E a busca na Web 3.0?


Acabo de ler um post de Renato Janine Ribeiro, professor titular de Ética e Filosofia Política na Universidade de São Paulo, que exemplifica bem uma aplicação da Web Semântica.

Diz Janine Ribeiro: "Esta sexta compartilhei um link que, brincando com a peça de Nelson Rodrigues, dizia que toda nudez será, não castigada, mas instigada. Quando me levantei, estava deletado, com uma mensagem do Face. Claro que fiquei chocado com o falso moralismo desses senhores..."

Esse episódio exemplifica bem a confusão que pode ocorrer se o termo não for contextualizado. Se o Facebook tivesse uma ferramenta para cruzar a palavra Nudez com outros termos do post como Nelson Rodrigues ou o próprio autor do post, perceberia que o termo Nudez estava contextualizado a outro sentido e não tinha nenhuma conotação pornográfica. É exatamente isso que a Web Semântica pretende fazer. Quando você pesquisar Nudez deverá selecionar em qual contexto deseja obter os resultados e eles serão refinados de acordo com o seu perfil. Agora, o Facebook deletar o post apenas pelo fato de conter palavras supostamente pornográficas revela a distância que ele ainda está da Web 3.0.

Os termos que coloquei na nuvem de tag acima representam minimamente os assuntos que já estão em pauta no W3C (2) e no universo das bibliotecas em relação a padrões. Padrão é a palavra-chave do momento para perseguir o objetivo da busca semântica. É preciso muita mobilização, muitas convergências de interesses institucionais de todos os setores e muito trabalho de infraestrutura para que a nudez não seja castigada como no post do professor.

Para aqueles que quiserem conhecer um pouco mais a fundo sobre as iniciativas na Web 3.0:

VIAF -Virtual International Authority File, uma iniciativa da OCLC (3) para padronizar mundialmente as entradas de autoria em registros de bibliotecas. 


BBPedia - Projeto que pretende extrair conteúdo estruturado das informações da Wikipédia. A DBpédia é um dos exemplos mais famosos da iniciativa Linking Open Data (LOD) - ou Ligando Dados Abertos, - projeto relacionado aos princípios da Web Semântica.

W3C Brasil - Consórcio mundial sobre a Web que vem criando os padrões da Web Semântica que impactarão na busca muito em breve. Acompanhe a página do W3C Brasil sobre o assunto.

Peter Morville, já dizia no subtítulo de seu livro de 2005, "Ambient Findability: What We Find Changes Who We Become"....o que encontramos nos transforma (tradução livre).

Seremos muito impactados e a sociedade da informação se transformará mais uma vez com a chegada da web semântica, pois a qualidade e quantidade do que recuperaremos será infinitamente maior e mais pertinente. Como processaremos, como filtraremos, como leremos e o que faremos com tanta informação fica como perguntas para um dia respondermos.

Parodiando as tirinhas do Facebook : O que queremos? Web Semântica! Quando queremos: Agora!! Como queremos? Não sabemos! 

(1)  O encontro foi idealizado por Claudia Chamas, idealizadora e moderadora do grupo Gestão Documental e Serviços de Organização de Arquivos e Acervos 
(2) W3C - página oficial do W3C Mundial
(3) OCLC - Cooperativa mundia de Bibliotecas


Alguns posts anteriores e recentes que você pode ter perdido.





Gestão do conhecimento organizacional: é preciso fazer a lição de casa  



3 comentários:

  1. Legal Renate! Compartilhar é sempre bom, adorei. E aí vai a minha resposta às indagações do final do post. Eu quero coerência nos resultados, para maior especificidade (considerando o contexto), menor revocação e maior precisão, e poder usufruir de maior revocação, quando a busca não for específica, pois é sinal que ainda não sei bem o que quero e o maior número de respostas podem me auxiliar na decisão. Na atualidade isso às vezes não é coerente, se especificamos, vem um monte de lixo, se jogamos qualquer coisa, vem a resposta exata. São dois pesos e duas medidas? Ou o tico e teco do 0 e 1 não estão equilibrados?

    ResponderExcluir
    Respostas
    1. Oi Ana, muito bacana seu comentário e super pertinente. Se vc está na web aberta (ex. Google) vc está refém dos algoritmos que o Google definiu como sendo lógicos e mais pertinentes o que não necessariamente irá te atender. O lixo digital é um problema na web e é como uma enchente, Quando se faz uma busca, vem de tudo se não houver um filtro inteligente mínimo como por exemplo um intervalo de data. A pesquisa avançada do Google também não ajuda muito. Aí o caminho pode ser busca federada que reúne várias bases de dados semelhantes como o caso das Teses e Dissertações do IBICT, o Google Acadêmico que faz um recorte e refina o resultado ou esperar mesmo pela web semântica que deverá ajustar o tico e o teco..rs. Até lá recomendo investir mais nas estratégias de busca.

      Excluir
  2. Ok! Que venha a web 3.0! Até lá vamos dando um jeito de se livrar do lixo. Compartilho agora a definição do Prof. Tiago Gil da UnB para as três eras da WEB: HTML, que organiza apenas formas (funciona como uma vitrine, podemos apenas ver, sem interferir); WEB 2.0, que é interativa e colaborativa (atua como um balcão, podemos chegar e pedir e somos atendidos) e a WEB 3.0, semântica, que organiza ideias e conteúdos, além das formas anteriores (atua como uma cozinha, podemos entrar, mexer, alterar, compor, mixar).

    ResponderExcluir