El siguiente trabajo va a consistir
en un examen de análisis de lexicografía a través del programa AntConc, este es
un programa de ayuda para el análisis de corpus. Permite sacar datos de un
corpus con frecuencias de palabras. Antconc no analiza el corpus, lo que hace
consiste en mostrar el texto de forma diferente por frecuencias, por patrones
de búsqueda.
Para mi análisis de lexicografía he
utilizado un blog de política en el que se trata de la corrupción en España y
los políticos que están en este mundo. El blog de Libertad Digital escrito por
Percival Manglano, titulado ¿hay algún
político honrado en España?
El primer paso fue descargar Antconc
y a continuación a través del Files cargar el documento del blog sobre política
que había guardado en bloc de notas. Pero anteriormente y después de muchísimas
pruebas tuve que ir probando a ver cuál era el tipo de codificación letra que
me iba bien para que existiese una relación entre carácter y su representación
por la máquina. Cada carácter textual es reconocido por el ordenador por un
código numérico binario: para lo que nosotros es una letra o un número, para el
ordenador es un conjunto de siete u ocho ceros y unos y que no me saliesen
caracteres extraños o palabras cortadas por la mitad. El tipo de codificación
que he utilizado ha sido la de Unicode UTF-8
A continuación y a través del espacio
de Word List hice una extracción términos y después de eliminar artículos,
pronombres etc., vi que la palabra que más se ha usado con 14 frecuencias ha
sido la de político, pero en cambio el tema de este blog que es la corrupción tan
sólo aparece dos veces y al final de la lista.
También aparece con 4 posiciones la palabra política.
La primera columna (Ranc) nos muestra
la posición de la palabra
La segunda columna (frec) muestra el número
de veces que se repite la palabra
La tercera columna (Word) muestra la
palabra en sí.
Las palabras que más se han repetido
han sido con 6 frecuencias españoles y poder.
En cambio han aparecido con dos
posiciones las palabras que darían sentido al tema de este texto como capacidad, caos, cinismo,
ciudadano, corrupción, corromperse.
RANC FREC WORD
7
|
13
|
politicos
|
15
|
6
|
españoles
|
17
|
6
|
poder
|
28
31
|
4
4
|
Leyes
política
|
33
37
|
3
3
|
Estado
revolución
|
46
47
48
49
50
51
54
56
61
64
66
68
71
72
73
74
75
77
|
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
|
casos
cinismo
ciudadano
confianza
corromperse
corrupción
desengaño
dictadura
engañas
español
gente
heridas
partido
prestaciones
vigentes
robando
tentación
vida
|
Encima de estas columnas aparecen el numero total de Tokens que consiste en el conjunto de caracteres separados por espacio en blanco y el numero de types que son Tokens iguales
En el apartado de concordances, al
pinchar la palabra que más se ha utilizado en este blog ha sido (político) y han
aparecido las frases donde estaba situada la palabra y las que la acompañaban.
No hay comentarios:
Publicar un comentario