View
3
Download
0
Category
Preview:
Citation preview
1
Text Mining
杨建武
Email:yangjw@pku.edu.cn
文 本 挖 掘 技 术
研究生课程 (2012春)
北京大学计算机科学技术研究所
2
基本信息
周四18:40—21:10 三教 206
课程网页:http://www.icst.pku.edu.cn/course/Mining/11-12Spring/index.html
助教:
梁丰 liangfeng@pku.edu.cn
3
教材
(无)
参考书
Jiawei Han、Micheline Kamber 著,
Data Mining:Concepts and Techniques
高等教育出版社 2006年
范明、孟小峰等译,数据挖掘概念与技术(第2版)
机械工业出版2007年3月
Hinrich 著,苑春法等译,统计自然语言处理基础
(Foundations of Statistical Natural Language Processing) 电子工业出版社2005年1月
Ricardo Baeza-Yates, Berthier Ribeiro-Neto
现代信息检索(影印本)(Modern Information Retrieval) 机械工业出版社 2004年2月
教材及参考书
4
课程主要内容
第一章:引言(2学时)
第二章:文本特征提取技术(4学时)
第三章:文本检索技术(6学时)
第四章:文本自动分类技术(3学时)
第五章:文本自动聚类技术(3学时)
第六章:话题检测跟踪技术(3学时)
第七章:文本过滤技术(3学时)
第八章:关联分析技术(1学时)
第九章:文档自动摘要技术(2学时)
第十章:信息抽取(3学时)
第十一章:智能问答(QA)技术(3学时)
第十二章:文本情感分析技术(3学时)
第十三章:Ontology(2学时)
第十四章:半结构化文本挖掘方法(1.5学时)
第十五章:文本挖掘工具与应用(1.5学时)
5
课程考试
平时作业50%,期末考试成绩50%
平时作业:
阅读文章写报告(10%)
系统实现(40%)
• 系统设计文档(15%)
• 源程序代码(15%)
• 运行演示(10%)
期末闭卷考试
基本概念、原理
算法
加分:课堂发言;扣分:缺席
6
第一章 引言
7
文本挖掘的概念
“文本挖掘” Text Mining,
Text Data Mining,
Knowledge Discovery in Text,
Knowledge Discovery in Textual Data(bases)
Text mining mainly is about somehow extracting the information and knowledge from text
对KDD定义进行扩展:文本挖掘是从大量文本数据中抽取隐含的,未知的,可能有用的信息。
8
文本挖掘的研究意义
数字化的文本数量不断增长
Web中99%的可分析信息是以文本形式存在的
• Web网页总量已达数百亿,每天新增网页数千万
机构内90%的信息以文本形式存在
• 数字化图书馆/数字化档案馆/数字化办公
80%以上的信息是以文本方式存在的.
传统检索技术难以满足应用需求
基于关键词的简单检索
=> 全准、推送、综合描述、规律趋势
9
主要应用
新一代搜索引擎
企业知识管理
企业内知识共享、企业相关外部信息
Call Center notes categorization
CRM systems
个人智能信息访问
e-mail categorization and routing
互联网内容安全
互联网舆情、网络低俗内容
10
11
企业知识管理: CRM
12
个人智能信息访问:
Finding Topic-Specific Experts
13
互联网内容安全
方正智思互联网(舆情)信息采集分析系统
思考:其它应用实例?
15
语言难点:文本不是给计算机阅读的
复杂的语言结构(语法、语义、语用)
歧义(更困难的)
多语言
KDD算法难点
海量(大规模的数据集)
高维
时效性(随时间变化的数据和知识)
噪音数据
挖掘出的模式的可理解性
研究难点
Data mining: the core of knowledge discovery process.
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
KDD 处理过程
17
文本挖掘模型结构示意图
文本源
用户界面
结果展示
用
户
浏览
检索
结果
文本结构
分析器
分词
文本分析
实体识别
日期处理
数字处理
词性标注
特征提取
特征词
及权重
关键词
摘要
特定信息抽取
分 类
聚 类
过 滤
检 索
TDT
18
文本挖掘任务分类
Words Documents
Supervised
learning
POS Tagging,
Word Sense
Disambiguation
Text Categorization,
Filtering,
Information Extraction
Topic Detection and Tracking
Sentiment analysis
Unsupervised
learning
Latent Semantic Indexing,
Key Phrase Extraction
Word Sense Discovery
Document Clustering,
Summarization
Topic Detection and Tracking
Sentiment analysis
19
Recommended