自然语言处理人工智能 NLP深入学习（三）：TF-IDF 详解以及文本分类/聚类用法

文章目录

0. 引言1. 什么是 TF-IDF2. TF-IDF 作用3. Python 使用3.1 计算 tf-idf 的值3.2 文本分类3.3 文本聚类

4. 参考

0. 引言

前情提要：《NLP深入学习（一）：jieba 工具包介绍》《NLP深入学习（二）：nltk 工具包介绍》

1. 什么是 TF-IDF

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索和文本挖掘的常用加权技术，用于评估一个词语对于一个文档集合中某一篇文档的重要程度。它结合了两个关键概念：

词频（Term Frequency, TF）：

表示某个特定词语在一个文档中出现的次数或频率。直观上讲，如果一个词语在文档中频繁出现，那么这个词对该文档内容的重要性可能就较高。逆文档频率（Inverse Document Frequency, IDF）：

是一种调整因子，用来衡量词语在整个文档集合中的普遍性。如果一个词语在大量文档中都频繁出现，则认为该词缺乏区分度，因此 IDF 值会较低；反之，如果一个词语仅在少数文档中出现，那么它的 IDF 值会相对较高，表示这个词具有较高的鉴别能力。例如，“你、我、他、得、的、地”这类词汇会出现很多次，但是对整体文档而言其实意义不大，所以乘于其频率的倒数就会降低其权重。

综合上述两项指标，TF-IDF值是词频（TF）与逆文档频率（IDF）的乘积：

tfidf(t, d) = tf(t, d) * idf(t)

其中:

t 代表词语（term）d 代表文档（document）tf(t,d)是文档 d 中 t 的词频idf(t) 是词语 t 在整个文档中的频率倒数

2. TF-IDF 作用

TF-IDF 用于衡量一个词对于一个文档集合中某个特定文档的重要性，在实际运用中，TF-IDF 可以用于以下几个方面：

信息检索： TF-IDF 在搜索引擎中广泛使用。当用户输入查询关键词时，搜索引擎使用 TF-IDF 来评估文档与查询的相关性，并按照相关性对文档进行排名。这样，包含查询关键词的文档会更有可能出现在搜索结果的前面。文本分类：在文本分类任务中，TF-IDF 可以用来提取文档的关键特征。通过计算每个词的 TF-IDF 值，可以得到一个特征向量，用于训练分类模型。这样的模型可以用于将文档分为不同的类别，例如垃圾邮件过滤、情感分析等。关键词提取： TF-IDF 可以帮助识别文档中最重要和具有代表性的关键词。通过计算每个词的 TF-IDF 值，可以找到那些在文档中频繁出现但在整个文档集合中罕见的词，这些词通常是文档主题的关键词。推荐系统：在推荐系统中，TF-IDF 可以用于衡量用户对某些内容的兴趣程度。通过分析用户的历史行为，计算不同文档或项目的 TF-IDF 值，可以为用户推荐他们可能感兴趣的内容。文本聚类： TF-IDF 也可以用于文本聚类，将相似的文档分组到同一类别。通过计算文档之间的相似度，可以使用聚类算法将文档分成具有相似主题或内容的群组。

在这些应用中，TF-IDF 是一种简单而有效的技术，但也有一些局限性。例如，它无法考虑词语的语义关联性，因此在一些场景下可能需要更复杂的模型来处理。

3. Python 使用

3.1 计算 tf-idf 的值

在 Python中，使用 TF-IDF，可以借助 sklearn 这个包，使用sklearn库中的TfidfVectorizer类。

假设你有一个包含多个文本样本的列表或DataFrame，每个样本代表一个文档。

documents = [

"这是第一个文档",

"这是第二个文档，其中包含了特定词语",

# 更多文档...

]

示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer

# 假设我们有一些文档

documents = [

"这是第一个文档",

"这是第二个文档，其中包含了特定词语",

]

# 初始化TfidfVectorizer实例

vectorizer = TfidfVectorizer()

# 将文档转换为TF-IDF向量，转换完成后，tfidf_matrix是一个稀疏矩阵

tfidf_matrix = vectorizer.fit_transform(documents)

# 打印词汇表

print("词汇表：", vectorizer.get_feature_names_out())

# 获取“特定词语”的索引

word_index = vectorizer.vocabulary_.get('特定词语')

# 如果该词语存在，则打印其在各个文档中的TF-IDF值

if word_index is not None:

word_tfidf_values = tfidf_matrix[:, word_index].toarray()

print("特定词语的TF-IDF值：", word_tfidf_values)

TF-IDF 向量可以用于后续的文本分类、聚类分析、相似度计算等任务。请注意，'特定词语'需要出现在词汇表中，否则它的索引将是 None 。此外，上述示例假设你的文本是中文时，无需额外分词处理；如果处理英文文本，TfidfVectorizer 默认会进行分词；而对于其他语言或者需要自定义分词器的情况，可能需要先对文本进行预处理和分词操作。

3.2 文本分类

在文本分类任务中使用 TF-IDF 的代码通常分为以下几个步骤：

准备数据：获取用于文本分类的文档集合，每个文档都有一个与之相关的类别标签。文本预处理：对文档进行清理和预处理，包括去除停用词、标点符号，进行词干化（stemming）或词形还原（lemmatization）等。计算 TF-IDF：使用 TF-IDF 来表示每个文档。通常，可以使用现有的机器学习库（如scikit-learn）来计算 TF-IDF。构建模型：使用 TF-IDF 表示的文档作为特征，将其与类别标签一起用于训练分类模型。评估模型：对模型进行评估，通常使用测试集来评估模型的性能。

下面是一个使用 Python 中的 sklearn 库进行文本分类的简单示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import MultinomialNB

from sklearn.metrics import accuracy_score, classification_report

# 准备数据（示例数据）

documents = ["文档1的文本内容", "文档2的文本内容", ...]

labels = ["类别1", "类别2", ...]

# 文本预处理可以在这里进行，例如去除停用词、标点符号等

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(documents, labels, test_size=0.2, random_state=42)

# 计算 TF-IDF

tfidf_vectorizer = TfidfVectorizer()

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)

X_test_tfidf = tfidf_vectorizer.transform(X_test)

# 构建分类模型（这里使用朴素贝叶斯分类器）

clf = MultinomialNB()

clf.fit(X_train_tfidf, y_train)

# 预测

y_pred = clf.predict(X_test_tfidf)

# 评估模型

accuracy = accuracy_score(y_test, y_pred)

print(f"Accuracy: {accuracy:.2f}")

print("Classification Report:")

print(classification_report(y_test, y_pred))

在实际应用中，需要更多的文本预处理步骤，如词干化、去除特殊字符等。

3.3 文本聚类

文本聚类的代码与文本分类相比，主要的不同在于聚类是无监督学习的任务，因此不需要标签。以下是一个使用 Python 中的 sklearn 库进行文本聚类的示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.cluster import KMeans

from sklearn.metrics import silhouette_score

import numpy as np

# 准备数据（示例数据）

documents = ["文档1的文本内容", "文档2的文本内容", ...]

# 文本预处理可以在这里进行，例如去除停用词、标点符号等

# 计算 TF-IDF

tfidf_vectorizer = TfidfVectorizer()

X_tfidf = tfidf_vectorizer.fit_transform(documents)

# 寻找最佳的聚类数量（可选步骤）

# 通过尝试不同的聚类数量，选择使轮廓系数（silhouette score）最大的值

best_score = -1

best_k = 0

for k in range(2, 10):

kmeans = KMeans(n_clusters=k, random_state=42)

kmeans.fit(X_tfidf)

labels = kmeans.labels_

score = silhouette_score(X_tfidf, labels)

print(f"Silhouette Score for {k} clusters: {score}")

if score > best_score:

best_score = score

best_k = k

# 使用最佳聚类数量进行聚类

kmeans = KMeans(n_clusters=best_k, random_state=42)

kmeans.fit(X_tfidf)

labels = kmeans.labels_

# 输出聚类结果

for i, cluster in enumerate(labels):

print(f"文档{i+1} 属于聚类 {cluster + 1}")

# 如果需要，可以输出每个聚类的代表性词语

# 获取每个聚类中 TF-IDF 值最高的词语

order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1]

terms = tfidf_vectorizer.get_feature_names_out()

for i in range(best_k):

top_terms = [terms[ind] for ind in order_centroids[i, :5]] # 输出每个聚类的前5个词语

print(f"Cluster {i + 1} 的代表性词语: {', '.join(top_terms)}")

在这个示例中，使用了 KMeans 聚类算法，并通过轮廓系数来选择最佳的聚类数量。此外，也可以尝试其他聚类算法，例如层次聚类、DBSCAN 等。

4. 参考

《NLP深入学习（一）：jieba 工具包介绍》《NLP深入学习（二）：nltk 工具包介绍》

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

也欢迎关注我的wx公众号：一个比特定乾坤

精彩内容

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

自然语言处理人工智能 NLP深入学习（三）：TF-IDF 详解以及文本分类/聚类用法

自然语言处理 Python系列：NLP系列二：命名实体识别（NER）、用深度学习实现命名实体识别（NER）

自然语言处理 bert处理超过512的长文本（强制改变位置编码position

发表评论取消回复

金钥匙

自然语言处理 人工智能 NLP深入学习（三）：TF-IDF 详解以及文本分类/聚类用法

自然语言处理 Python系列：NLP系列二：命名实体识别（NER）、用深度学习实现命名实体识别（NER）

自然语言处理 bert处理超过512的长文本（强制改变位置编码position

相关文章

发表评论取消回复

自然语言处理人工智能 NLP深入学习（三）：TF-IDF 详解以及文本分类/聚类用法