Informações compartilhadas envolvem oferta e demanda. Do lado da demanda, tem-se acesso a dados completos necessários para a tomada de decisões. Do lado da oferta, compartilha-se mais informações internas com parceiros, fornecedores e até mesmo com o público.
Quando você ouvir sobre Web Semântica, não pense apenas em uma página de procura do Google. A Web Semântica é uma extensão da Web atual, que permitirá aos computadores e às pessoas trabalharem em cooperação. Essa ferramenta interliga significados de palavras e, nesse âmbito, tem como finalidade atribuir um contexto aos conteúdos publicados na Internet de modo que seja perceptível tanto pelas pessoas como pelo computador.
A PwC acredita que um banco de dados Web proporcionará o desenvolvimento pleno dos documentos da Web atuais. Será possível encontrar e extrair partes de dados alocados em diferentes locais, agrupá-los sem a necessidade de um repositório de documentos e analisá-los de uma forma mais simples e poderosa do que é possível fazer atualmente.
Este artigo fornece algumas informações por trás da Tecnologia de Informações Compartilhadas, o primeiro passo semântico para um banco de dados Web. Otimizar o uso das informações, não somente internamente mas também por todo o ecossistema digital, é extremamente importante. Em um ecossistema digital, os ativos de outros podem beneficiar você diretamente e vice-versa. Tudo se trata de oferta e demanda.

O Apelo da Federação de Dados
Do início ao meio dos anos 80, as reivindicações sobre os banco de dados relacionais eram comparáveis às reivindicações atuais sobre a Web Semântica. Desde então, os bancos de dados relacionais, em que as tabelas ou os relacionamentos podem ser agrupados e consultados em conjunto, têm melhorado consideravelmente.
Mesmo assim, algumas alternativas vêm sendo introduzidas no mercado. Por exemplo, o banco de dados de objetos (que acelera o processamento de informações por meio de objetos) ou o XML (eXtensible Markup Language - um método de formato de arquivo e serialização de dados).
Os modelos de dados relacionais nunca foram planejados para a escala de integração que as empresas necessitam atualmente. Os bancos de dados relacionais podem ser fontes úteis, mas em uma escala Web, com alto grau de compartilhamento e conexões simples com outras fontes, o modelo de dados deve ter uma outra dimensão, ou seja, deve ser desenhado para ser utilizado por outros. A maior parte das alternativas para banco de dados relacionais não vai suficientemente longe em direção a uma verdadeira federação de dados em escala Web. Apesar disso, a Web Semântica ainda não pode competir com as técnicas relacionais no que diz respeito à velocidade. A vantagem das técnicas de semântica está na federação de dados em escala Web.
RDF e a Web Semântica
O próximo passo em direção à verdadeira federação de dados em escala Web deve ser o Resource Description Framework (RDF), que incorpora lições do XML e melhora a tecnologia de dados relacionais. O RDF é um dos principais critérios de Web Semântica, que também inclui melhores práticas, como o SPARQL - Semantic Protocol and RDF Query Language, que norteiam o método de relacionamento entre as coisas. Essa abordagem é muito mais poderosa do que um simples documento Web.
Identificadores globais chamados de Universal Resource Identifies (URIs) são fundamentais ao RDF. Os URIs são superconjuntos de Universal Resource Locators (URLs) ou os habituais endereços de Web. Os URIs são mais específicos no contexto de Web Semântica do que os URLs, eles devem ser globais, contínuos e confiáveis para serem utilizados amplamente.
Imagine se cada elemento do dado que você precisa tivesse um endereço fixo e você pudesse apontar esse endereço. Quando você estivesse seguro da fonte e de sua relevância, você poderia simplesmente fazer a conexão com essa fonte ao endereço do elemento do dado e trabalhar com ele. Essa é a inspiração por trás dos URIs.
Algumas empresas como a BBC (British Broadcasting Corporation) já estão utilizando os URIs. A BBC associa a URIs informações de uma versão estruturada da Wikipedia no endereço dbpedia.org.
Na visão RDF, os dados não estão em cubos ou tabelas. Eles estão em gráficos compostos de uma tríplice - combinação de sujeito-predicado-objeto. Nesse universo de nomes e verbos, os verbos articulam as conexões ou os relacionamentos entre os nomes. Cada nome então se conecta como um nó em uma estrutura interligada de rede, e a escalabilidade acontece facilmente em razão da simplicidade e da uniformidade de suas conexões tipo Web. Essa exposição dos dados e a facilidade de conexão entre os elementos diferenciam o conjunto RDF dos padrões de dados relacionais. Como exemplo dessa lógica, podemos citar o relacionamento de um identificador global “cantor” com outro identificador global relacionado, chamado “gravadora”. A combinação expõe uma lógica que permite aos computadores unir elementos distribuídos. A combinação de máquinas e pessoas pode adicionar ou modificar informações nesse contexto.
Ontologias para Fácil Compartilhamento e Mapeamento
Na ciência da computação, uma ontologia descreve as características de elementos de dados e seus relacionamentos nos domínios. Ontologias descrevem relacionamentos em um significado n-dimensional, disponibilizando facilmente informações por meio de diferentes perspectivas, enquanto taxonomias mostram apenas os relacionamentos de forma hierárquica, como mostrado na figura a seguir:

Ontologias são repositórios de conceitos de domínios específicos, assim as unidades de negócios podem criá-las para descrever a sua parte da empresa em uma linguagem que os computadores possam interpretar. Ferramentas visuais, como TopQuadrant da TopBraid Composer, tornam o desenvolvimento de ontologias menos complexo. O desenvolvimento de ontologias está se tornando uma técnica de integração mais popular entre as empresas, particularmente, porque a informação passa a exercer um papel amplo na economia global. As indústrias farmacêuticas, de meios de comunicação e petrolíferas, que necessitam lidar com um alto nível de conhecimento distribuído e compartilhado, foram as primeiras a adotarem a ontologia. Em março de 2009, a Microsoft anunciou um adicional de ontologia ao Word 2007. A adoção em larga escala de ontologias promete melhorar a visão entre os domínios de negócios, que são praticamente inexistentes em grandes corporações, e, com seu uso, ampliar o compartilhamento de informações e proporcionar maior interação entre máquinas e pessoas.
SPARQL: Uma Linguagem Destemida de Pesquisa
O SPARQL é um padrão recomendado pelo W3C para pesquisa de dados em gráficos RDF e é o principal e mais recente padrão da Web Semântica. O SPARQL é comparável a linguagens de pesquisas bem conhecidas no mundo das bases de dados relacionais, mas ele pode pesquisar qualquer dado federado via gráfico. O SPARQL depara-se com menos obstáculos, porque gráficos podem receber informações e convertê-las em números de diferentes formatos de dados. A estrutura de gráfico simplifica a relação entre elementos e ontologias. Exemplos como o site da BBC sugerem como a Web Semântica pode funcionar na próxima década.
Na essência, quanto mais amplo for o conjunto de dados, mais específicos e relevantes podem ser os resultados de pesquisas. Isso provê a habilidade de filtrar as informações de uma nova maneira e, por consequência, extrair ideias mais interessantes.
Esses padrões de Web Semântica superam algumas das principais barreiras tecnológicas para a federação de dados em escala Web. Antes da definição de padrões da Web Semântica, reverter a condição de silo dos dados era uma ação impossível de ser realizada em larga escala e sem um alto investimento de tempo e recursos.
O Desafio de Criar Abertura e Eliminar Silos
O que parece alcançável agora é uma abertura, ou seja, mais e mais vantagens em escala Web, e não uma restrição. Isso é significativo. Entretanto, a questão cultural é uma grande razão para que os ambientes de dados ainda existam em silos. Por um lado, existe uma necessidade de compartimentação. Por outro lado, há uma crescente pressão na necessidade de uma organização mais colaborativa. O equilíbrio deve mudar a direção para a colaboração, mas as empresas não estão habituadas a compartilhar dados em uma escala Web e tratar os dados de uma forma bem diferente do que vem sendo tratados até agora. É por isso que pequenos projetos têm maior chance de explorar a tecnologia e dar às pessoas a noção do quanto esse potencial é importante.
As organizações precisam ter controle sobre alguns dados, mas não sobre todos os dados. Para tirar o devido proveito da Web, você deve estar apto a tirar vantagens de sua escalabilidade, e isso não é possível sem ceder algum controle. David Weinberger do Berkman Center for Internet & Society da Universidade de Harvard chama isso de caminho Webby. “A Web é uma área de liberdade”, afirma. “É isso que permite sua escalabilidade.” O controle, segundo ele, não permite a escalabilidade. Então limite seu ambiente controlado somente onde você não necessita de escalabilidade.
Tom Scott é editor digital da BBC Earth. Nesta entrevista, Scott descreve como a BBC está usando a tecnologia e a filosofia da Web Semântica para otimizar o acesso ao conteúdo dos programas da BBC e sites de músicas de uma forma escalonável.
Por que a BBC decidiu utilizar a Web Semântica?
Para que o usuário final tivesse acesso a muito mais conteúdo e tivesse uma experiência coerente nos sites da BBC, inclusive com a oportunidade de navegação horizontal. O relacionamento entre os domínios e dados e o compartilhamento de informações com fontes externas foi fundamental para o alcance desse objetivo.
Como o sistema funciona?
Há bancos de dados lógicos rodando por trás das cenas que dispõem de metadados dos programas. Mas a BBC também utilizou informações sobre artistas e gravadoras de uma fonte externa, chamada MusicBrainz.com, que mantém repositórios de metadados de músicas. Isso é agrupado com as informações da Wikipedia e o conteúdo proprietário da BBC. Tudo isso é então transformado em RDF (Resource Description Framework), JSON (JavaScript Object Notation), XML (eXtensible Markup Language) e nas páginas website dos programas da BBC (http://www.bbc.co.uk/programmes).
O que o RDF faz que os modelos antigos não faziam?
A principal diferença está na origem dos dados. A princípio, a Web te libertou da preocupação de detalhes técnicos de rede e servidores. Tudo se tornou uma questão de apontar o documento na página Web. A tecnologia de semântica te liberta de limitações de uma arquitetura orientada por página e garante um modo aberto, flexível e estruturado de acessar os dados que podem estar embutidos ou relacionados a uma página na Web.
Existe uma camada de semântica na apresentação dos dados da BBC ou apenas há a preocupação com sua estrutura?
A BBC queria que a apresentação fosse boa, por isso partiram para a Web Semântica. Eles queriam provar que se você estrutura suas informações de um modo simples, como é requerido pelas Informações Compartilhadas, você cria a experiência ideal para o usuário final. Informações Compartilhadas estão relacionadas à provisão de recursos para o mundo real das coisas e aos documentos que fazem asserções sobre essas coisas. O primeiro passo para criar um serviço útil é desenhá-lo com base nas informações que são importantes para as pessoas. Informações pelas quais as pessoas se importam.
| Voltar ao topo |