Já neste início de aprendizado do Voyant, há pelo menos três parâmetros interessantes, de que vamos tratar aqui. Os dois primeiros – segmentos e corpus/documento – já foram parcialmente endereçados neste caderno, mas voltaremos a eles porque permitem explorações muito interessantes. O terceiro – categorias – é bem mais elaborado, e damos nesta página apenas um tratamente básico para deslanchar a curiosidade e a percepção de valor quando se domina mais tecnicamente o seu uso. Vamos a eles.
Corpus, Documentos e Segmentos
A análise de texto pode tomar como objeto um ou mais documentos. Ao conjunto de documentos tomados para a análise chamamos de corpus (palavra latina, cujo plural é corpora). Quando toda a extensão de texto está contida em um único documento, a análise de "corpus" ou de "documento" apresenta o mesmo resultado. Veja a comparação nos dois casos abaixo.
|
Tomemos um novo texto para análise. No Projeto Gutemberg, temos uma versão do romance "O Triste Fim de Polycarpo Quaresma", de Lima Barreto. Depois de baixá-la, enviamos o documento para análise pelo Voyant. Você pode acessá-lo nesta URL: https://voyant-tools.org/?corpus=457adff4a399629de4e3c7588a813ba3 A ferramenta "Reader" mostra o conteúdo do texto aqui e o livro tem a seguinte estrutura de capítulos: |
Aqui você visualiza a ferramenta "Trends", que mostra as frequências relativas dos termos "Polycarpo", "Quaresma" e a expressão |
O ideal de segmentação seria dividir o livro em documentos separados, um para cada capítulo. Assim, as informações de frequência dos "nomes" pelos quais Lima Barreto se referiu a Polycarpo no livro pode ser mais exata.
Neste arquivo zip você encontrará o clássico de Lima Barreto subdividido nas três partes. Deixamos a divisão em capítulos para você, caso queira treinar o conceito e o interesse de explorar os resultados.
Na visualização a seguir, você pode examinar a freuência dos termos e expressão de nosso interesse em cada uma das três partes do livro. Cada coluna corresponde a uma parte. Se você clicar numa coluna, vai poder fazer o "drill down" (literalmente, trata-se de furar para explorar o que há debaixo da superfície).
Aqui vemos como comandar o drill-down pela interface do Voyant. O drill down pode escolher uma análise onde se visualizam Termos ou o Documento. Para saber mais sobre o "drill down" da ferramenta "Trends", consulte a ajuda do Voyant.
É interessante ver o efeito de uma análise do romance dividido em capítulos (veja detalhes do sumário à esquerda), comparativamente ao de uma análise utilizando o arquivo inteiro (veja detalhes do sumário à direita).
| "> |



