lunes, 8 de junio de 2015

El siguiente trabajo va a consistir en un examen de análisis de lexicografía a través del programa AntConc, este es un programa de ayuda para el análisis de corpus. Permite sacar datos de un corpus con frecuencias de palabras. Antconc no analiza el corpus, lo que hace consiste en mostrar el texto de forma diferente por frecuencias, por patrones de búsqueda.
Para mi análisis de lexicografía he utilizado un blog de política en el que se trata de la corrupción en España y los políticos que están en este mundo. El blog de Libertad Digital escrito por Percival Manglano, titulado ¿hay algún político honrado en España?
El primer paso fue descargar Antconc y a continuación a través del Files cargar el documento del blog sobre política que había guardado en bloc de notas. Pero anteriormente y después de muchísimas pruebas tuve que ir probando a ver cuál era el tipo de codificación letra que me iba bien para que existiese una relación entre carácter y su representación por la máquina. Cada carácter textual es reconocido por el ordenador por un código numérico binario: para lo que nosotros es una letra o un número, para el ordenador es un conjunto de siete u ocho ceros y unos y que no me saliesen caracteres extraños o palabras cortadas por la mitad. El tipo de codificación que he utilizado ha sido la de Unicode UTF-8
A continuación y a través del espacio de Word List hice una extracción términos y después de eliminar artículos, pronombres etc., vi que la palabra que más se ha usado con 14 frecuencias ha sido la de político, pero en cambio el tema de este blog que es la corrupción tan sólo aparece dos veces y al final de la lista.  También aparece con 4 posiciones la palabra política.
La primera columna (Ranc) nos muestra la posición de la palabra
La segunda columna (frec) muestra el número de veces que se repite la palabra
La tercera columna (Word) muestra la palabra en sí.
Las palabras que más se han repetido han sido con 6 frecuencias españoles y poder.
En cambio han aparecido con dos posiciones las palabras que darían sentido al tema de  este texto como capacidad, caos, cinismo, ciudadano, corrupción, corromperse.
 RANC                                               FREC                                  WORD
7         
            
13
politicos
15                                                                    
6                         
españoles
17       
            
6                         
poder
28                       

31       
4

4
Leyes

política             
33       
37                                    
 3
3
Estado
revolución
46                       
47                       
48
49       
50                       
51
54                       
56                       
61                       
64
66
68       
71
72                       
73       
74                       
75
77       
                                                       
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
casos
cinismo            
ciudadano      
confianza
corromperse 
corrupción
desengaño
dictadura        
engañas
español
gente
heridas
partido
prestaciones
vigentes
robando
tentación
vida




 Encima de estas columnas aparecen el numero total de Tokens que consiste en el conjunto de caracteres separados por espacio en blanco y el numero de types que son Tokens iguales


En el apartado de concordances, al pinchar la palabra que más se ha utilizado en este blog ha sido (político) y  han aparecido las frases donde estaba situada la palabra y las que la acompañaban.




No hay comentarios:

Publicar un comentario