Analisis de textos

Les dejamos, en este post, el codigo a emplear para el analisis de textos. Para usarlo, solo tienen que copiar y pegar la definicion de funcion que encontraran al pie de este post.

Esperamos que les resulte util.

* Codigo *

import numpy as np
import matplotlib.pyplot as plt

import re
from collections import Counter

def analisis_palabras(archivotxt):
# leemos archivo de texto
file = open(archivotxt, ‘r’)
# convertimos a minusculas
text = file.read().lower()
file.close()

# removemos cosas que no sean letras
text = re.sub(‘[^a-z\ \']+’, “”, text)
listado_de_palabras = list(text.split())

counts = Counter(listado_de_palabras)

labels, values = zip(*counts.items())

# ordenamos en orden descendente
indSort = np.argsort(values)[::-1]

# reordenamos
labels = np.array(labels)[indSort]
values = np.array(values)[indSort]

indexes = np.arange(len(labels))
N = len(values)
idx = np.linspace(1,N,N)

plt.figure()
plt.loglog(idx,values,’.')
plt.grid(‘on’)

return idx, values