博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【python】获取网页中中文内容并分词
阅读量:4461 次
发布时间:2019-06-08

本文共 595 字,大约阅读时间需要 1 分钟。

1 # -*- coding: utf-8 -*- 2  3 import urllib2 4 import re 5 import time 6 import jieba 7  8  9 url="http://www.baidu.com"10 html=urllib2.urlopen(url).read()11 html=unicode(html,'utf-8')12 word=re.findall(ur"[\u4e00-\u9fa5]+",html)13 14 s=""15 for w in word:16     s+=w17     18 seg_list=jieba.cut(s,cut_all=False)19 fenci="/ ".join(seg_list)20 print 'get web-->',s21 print 'div result-》',fenci22 time.sleep(10)

其中使用了 urllib2 re jieba三个模块 第一个模块用于获得网页内容,第二个模块用正则表达式提取中文字符 第三个模块用于分词

参考:

【附】安装python模块将其下载后将对应的文件夹拷入python安装目录下的 Lib/site-packages/  下

转载于:https://www.cnblogs.com/colipso/p/3521233.html

你可能感兴趣的文章
使用 WordPress 的导航菜单
查看>>
input只能输入数字和小数点,并且只能保留小数点后两位 - CSDN博客
查看>>
js 不固定传参
查看>>
远程调试UWP遇到新错误Could not generate the root folder for app package ......
查看>>
[倍增][最短路-Floyd][dp]
查看>>
SpringAOP用到了什么代理,以及动态代理与静态代理的区别
查看>>
利用STM32CubeMX来生成USB_HID_Mouse工程【添加ADC】(1)
查看>>
【leetcode】Populating Next Right Pointers in Each Node
查看>>
获取请求参数乱码的问题
查看>>
代码实现:判断E盘目录下是否有后缀名为.jpg的文件,如果有,就输出该文件名称...
查看>>
Android客户端测试点
查看>>
Jquery:怎样让子窗体的div显示在父窗体之上
查看>>
01概率
查看>>
Shell脚本
查看>>
MatLab Load cv::Mat 导入数据
查看>>
html+css相关笔记(一)
查看>>
基于块流协议保证音频优先发送
查看>>
关于互联网的一些数据
查看>>
数据预处理:独热编码(One-Hot Encoding)
查看>>
python将对象名的字符串类型,转化为相应对象的操作方法
查看>>