Corpus do GMHP
INFORMAÇÕES IMPORTANTES
a) Este material foi organizado com o intuito de auxiliar, sobretudo, os trabalhos de pesquisa que vêm
sendo desenvolvidos pelos integrantes do GMHP;
b) O GMHP, por sua vez, utiliza programas específicos de manipulação de dados para trabalhar com o
material em questão, de modo que os arquivos de texto foram padronizados conforme as especificações desses
programas, apresentando determinadas marcações que não pertencem à obra original, mas que serão utilizados
como parâmetros por esses programas;
c) As marcações são pequenos cabeçalhos, inseridos ao longo de algumas obras, que apresentam o
seguinte formato:
\num [xxx]
\txt
sendo que \num indica o início do cabeçalho, [xxx] indica qualquer tipo de divisão presente na
obra (capítulo, cena, etc), e \txt indica o fim da linha de cabeçalho e início do texto;
d) Pelo motivo já citado anteriormente, os arquivos foram salvos em formato de texto simples
compactado,
anulando opções de formatação como caracteres em itálico e negrito, o que não interfere no tipo de análise
para o qual este material se destina, tornado-o impróprio, no entanto, para fins editoriais;
e) O material que está disponível foi preparado para ser utilizado estritamente em meios eletrônicos e para
uso acadêmico, não possuindo finalidades comerciais e, também, não sendo adequado para qualquer tipo de impressão;
f) As obras foram distribuídas por séculos, haja em vista que os estudos do GMHP estão voltados para o
caráter histórico-evolutivo da língua. Ressalte-se, contudo, que a disposição dos arquivos por séculos
fornece apenas uma visão panorâmica das obras ao longo do tempo, visto que não é possível determinar com
exatidão a data de produção de todos os textos;
g) Ainda com relação à disposição cronológica das obras, é importante lembrar que há um número considerável
de autores cuja produção literária abrange séculos distintos. Nesses casos, foram considerados os períodos
de maior produção de cada escritor e os movimentos literários a que esses autores são tradicionalmente vinculados
para situá-los dentro de um certo período. Fica a cargo de cada pesquisador, no entanto, certificar-se de que
determinado texto – caso este venha a apresentar dados relevantes para a sua pesquisa – enquadra-se, de fato,
naquele período;
h) Além da distribuição por séculos, foi feita também uma divisão das obras em cinco grande gêneros
literários denominados da seguinte forma: (1) romance-novela, (2) conto-crônica, (3) teatro, (4) poesia e
(5) prosa (outros). Essa divisão foi feita apenas com o propósito de tentar agrupar textos com estilos
semelhantes, sem a intenção de resolver questões de caráter literário como, por exemplo, a questão
da diferença entre um conto e uma novela e outros casos semelhantes. Nos casos duvidosos, foram seguidos
alguns critérios, como a classificação mais recorrente referente à obra (citada em livros didáticos e
outras fontes confiáveis), assim como sua extensão e estrutura geral;
i) Resta enfatizar, ainda, que grande parte do conteúdo deste
corpus foi extraído de material já
previamente digitalizado e disponível em outras mídias e/ou páginas da Internet, de modo que os
colaboradores do GMHP não se responsabilizam pela presença de eventuais erros verificados nesses arquivos,
embora muitos problemas já tenham sido detectados e corrigidos;
j) O material disposto nesta página é constantemente atualizado e
todos os dados estão sujeitos a correções e alterações. Pede-se que qualquer erro encontrado, tanto
nas classificações de data e gênero, como dentro dos arquivos, seja comunicado à equipe do GMHP para o aperfeiçoamento
do
corpus.
k) Sugere-se o uso do
software
AntConc 3.2.2 para o processamento dos textos.