ISSN 2359-5191

16/02/2016 - Ano: 49 - Edição Nº: 13 - Ciência e Tecnologia - Escola Politécnica
Software localiza posição geográfica de notícias
Potencial aliado do jornalismo, Geofier utiliza técnicas de inteligência artificial para classificação geográfica de textos sem intervenção humana
O Geofier é um software disponível como demonstração na web. Imagem: Marcos Nona.

Estudos prevêem que, em apenas 15 anos, o volume de dados armazenados dentro e fora da web será seis vezes maior. Com o aumento contínuo da quantidade de informação disponível na rede, está cada dia mais trabalhoso buscar uma informação de interesse - função auxiliada pelos chamados motores de busca, como Google e Bing. Eduardo Marcelo Maçan, graduado em Engenharia de computação pela Unicamp, iniciou em 2012 um projeto de pesquisa na área de classificadores de texto e aprendizagem de máquina, culminando em sua proposta de mestrado. O fruto desta pesquisa foi o Geofier, um software baseado em machine learning que faz a classificação de textos em relação à sua posição geográfica.

Geofier

Em linhas gerais, o software analisa textos que se referem a um local - como notícias - interpretando os caracteres e fazendo a classificação geográfica do texto, localizando-o no mapa. O Geofier não requer intervenção humana, como uma anotação prévia de elementos do texto, e também agrega o potencial de minerar informações de acordo com a sua posição geográfica, tornando-se um poderoso aliado dos motores de busca. “Um exemplo trivial de aplicação seria consumir notícias por proximidade”, explica Eduardo. “Eu quero saber não o que está sendo publicado pelo site x ou y, mas o que está acontecendo ao meu redor, e eu imagino um mecanismo de busca que te permita fazer isso”.

O que na prática soa bastante simples, porém, envolve uma série de algoritmos e técnicas de aprendizagem de máquina. Para que o software aprenda a classificar textos sem a intervenção humana, é fornecida uma grande quantidade de textos já geolocalizados, constituindo o chamado “conjunto de treinamento”. Com base nesse conjunto, o algoritmo constrói um vocabulário com uma lista de termos considerados importantes para determinar uma localização. Ao analisar um texto, o software se utiliza dessa lista para encontrar evidências de localidades, concede diferentes pesos para cada uma delas, faz comparações com os exemplos do conjunto de treinamento e, por fim, atribui uma possível posição geográfica. O Geofier - cujo nome vem da contração de Geographical Classifier - foi treinado com textos sobre regiões do Brasil e Estados Unidos.

Edson Gomi, orientador de Eduardo e pesquisador do KNOMA - Laboratório de Engenharia de Conhecimento da POLI-USP, explica que o conjunto de treinamento do Geofier é constituído por verbetes da Wikipedia, pois trata-se de uma base de dados pública: “descobrimos que ela tem uma quantidade enorme, na ordem de 100 mil textos, de verbetes já geolocalizados”. Nos verbetes sobre a cidade de São Paulo, por exemplo, aparece a coordenada geográfica do centro da cidade - existe uma localização já previamente escrita. Eduardo fala sobre a dificuldade de se conseguir material textual para o conjunto de treinamento: “o algoritmo foi treinado com verbetes da Wikipedia porque infelizmente não temos um conjunto de dados já georreferenciados, principalmente notícias de um portal disponibilizado para a comunidade científica”. A publicação dos resultados não é possível sem a cooperação de uma agência de notícias que permita a utilização de seus textos.

Palavras ambíguas

Um grande desafio encontrado pelo software ao analisar os textos foi o alto número de ambiguidades. Eduardo exemplifica: “São Paulo pode se referir à cidade de São Paulo, mas também pode se referir ao estado, time de futebol ou ao ao santo da igreja católica. Se você simplesmente atribuir a presença dessa sequência de caracteres no texto a uma coordenada, você está incorrendo em falha”. O pesquisador também aponta que, além das ambiguidades não-geográficas - quando o nome de um local é constituído por palavras comuns, como “Rio Claro” - também são frequentes as ambiguidades geográficas, quando diferentes localidades no mapa possuem o mesmo nome. “Existem mais de 3.500 ruas São José em todo o Brasil, segundo dados do IBGE. Se você possui um texto que diz “aconteceu na rua São José”, a qual das dessas três mil ruas o texto está se referindo?”.

Vantagens

Os métodos criados até então possuem algoritmos baseados em heurísticas: regras empíricas que determinam uma ação diante de uma situação específica. Um exemplo: em caso de ambiguidade, havia uma heurística que forçava o algoritmo a escolher sempre a alternativa com o maior número de exemplos. “Ao ficar entre duas cidades distintas, o algoritmo tinha uma chance muito grande de ignorar tudo o que fosse sobre a cidadezinha pequena. Mesmo que ali caísse um avião e isso produzisse muitas notícias sobre aquele lugar”, conta Eduardo. O Geofier mostrou-se uma alternativa inteligente ao substituir muitas destas heurísticas pela identificação, nos textos, de termos encontrados com frequência no conjunto de treinamento. “O algoritmo me surpreendeu várias vezes ao selecionar algumas coisas no vocabulário que eu não teria pensado em selecionar”, relata o pesquisador.

Eduardo trabalhou na Editora Abril, e relata que há um grande interesse em geolocalização de notícias. “Antes mesmo da Abril, eu trabalhei como gerente de pesquisas de desenvolvimento do Apontador. Desde essa época, os reviews de locais e restaurantes, depois notícias, enfim, tudo aquilo que poderia ser interpretado por um computador e tivesse um aspecto geográfico me interessava“. Edson Gomi ressalta a integração entre as diferentes plataformas: “hoje, todo mundo tem um smartphone no bolso. Em movimento, eu posso estar em uma certa região, e posso querer descobrir quais informações há sobre a posição onde estou, o que há de interessante ali. Isso depende essencialmente de fazer a identificação de textos que estejam relacionados com aquele local, e o trabalho do Eduardo está inserido neste contexto”.

Em um cenário onde notícias são amplamente consumidas pela proximidade entre o leitor e o fato, softwares como o Geofier abrem novas possibilidades para o desenvolvimento de mecanismos de busca cada vez mais eficazes. O software está disponível como demonstração através do link:

http://www.knoma.pcs.usp.br/geofier/

Leia também...
Agência Universitária de Notícias

ISSN 2359-5191

Universidade de São Paulo
Vice-Reitor: Vahan Agopyan
Escola de Comunicações e Artes
Departamento de Jornalismo e Editoração
Chefe Suplente: Ciro Marcondes Filho
Professores Responsáveis
Repórteres
Alunos do curso de Jornalismo da ECA/USP
Editora de Conteúdo
Web Designer
Contato: aun@usp.br