Les dejamos, en este post, el codigo a emplear para el analisis de textos. Para usarlo, solo tienen que copiar y pegar la definicion de funcion que encontraran al pie de este post.
Esperamos que les resulte util.
* Codigo *
import numpy as np
import matplotlib.pyplot as plt
import re
from collections import Counter
def analisis_palabras(archivotxt):
# leemos archivo de texto
file = open(archivotxt, ‘r’)
# convertimos a minusculas
text = file.read().lower()
file.close()
# removemos cosas que no sean letras
text = re.sub(‘[^a-z\ \']+’, “”, text)
listado_de_palabras = list(text.split())
counts = Counter(listado_de_palabras)
labels, values = zip(*counts.items())
# ordenamos en orden descendente
indSort = np.argsort(values)[::-1]
# reordenamos
labels = np.array(labels)[indSort]
values = np.array(values)[indSort]
indexes = np.arange(len(labels))
N = len(values)
idx = np.linspace(1,N,N)
plt.figure()
plt.loglog(idx,values,’.')
plt.grid(‘on’)
return idx, values