解决正则表达式中用中文匹配的方法

摘要:
例如,网页源代码中有以下中文字段(charset='utf-8'):据新华社报道,世界上最大的太阳能飞机“如果你想删除上面文本中的红色字段,importlxml.ttreaesetreeselector=etree.HTML(HTML)body=selector.xpath('//div[@id=“article”]//p/text()')body=re.sub(u'release([wW]+?

例如在网页源代码中有如下中文字段(charset=‘utf-8’):

发布: 2016-7-27 11:18 |  作者:  |  
查看: 63次据新华社电全球最大太阳能飞机“阳光动力”2号当地时间26日凌晨在阿联酋首都阿布扎比巴廷商务机场平稳降落,完成全程约3.5万公里的环球飞行,创造了全球不耗费任何燃料、完全依靠太阳能作为动力的飞机环球飞行纪录。

要想去除上段文字中的红色字段,正则表达式如下:

import lxml.etree as etree
selector = etree.HTML(html)
body = selector.xpath('//div[@id="article"]//p/text()')
body = re.sub(u'发布([wW]+?)次','',u''.join(body))
print body
#结果如下:据新华社电全球最大太阳能飞机“阳光动力”2号当地时间26日凌晨在阿联酋首都阿布扎比巴廷商务机场平稳降落,完成全程约3.5万公里的环球飞行,创造了全球不耗费任何燃料、完全依靠太阳能作为动力的飞机环球飞行纪录。

正则表达式中,需要把所有中文字符都转化为unicode(如  u'发布([wW]+?)次'  u' '.join(body))!

第一个正则匹配是把‘发布([wW]+?)次’全部转化为unicode(pycharm会自动识别其中的正则表达式),

第二个则是将body列表中的所有元素转化为unicode.

免责声明:文章转载自《解决正则表达式中用中文匹配的方法》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇vc6开发ActiveX并发布全攻略(一)(转)python面向对象 : 抽象类(接口类),多态,封装(私有制封装)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

ReactNative WebView组件详解

在开发Android的时候,一般我们会有一些加载网页的需求,或者执行一些JavaScript,我们都知道在Android中实现这个功能的控件是WebView,在ReactNative中也有实现此类需求额的组件,它的名字也是WebView。那么今天的这篇文章就来详细说说在ReactNative WebView的使用。本文示例效果图 webview.gif...

SQL Server中执行正则表达式

总体方案:写function,再执行update语句。 一、查询函数 -- ============================================= -- Author: <liudong> -- Create date: <2012/11/06> -- Description: <sq...

Halcon 识别车牌学习笔记

有一张车牌照片如下: read_image (Image, 'C:/Users/LiZhiqiang/Desktop/车牌2.jpg')//读取照片 rgb1_to_gray (Image, GrayImage)//转化成灰度图像 threshold (GrayImage, Regions, 21, 163)//设定阈值 connection (Reg...

element 导航菜单 控制路由跳转

首先复制官网的例子,在这基础上再修改成我们想要的样子。 <el-menu :default-active="activeIndex" class="el-menu-demo" mode="horizontal" @select="handleSelect"> <el-menu-item index="1">处理中心</el...

Java生鲜电商平台-提现模块的设计与架构

Java生鲜电商平台-提现模块的设计与架构 补充说明:生鲜电商平台-提现模块的设计与架构,提现功能指的卖家把在平台挣的钱提现到自己的支付宝或者银行卡的一个过程。 功能相对而言不算复杂,有以下几个功能需要处理。 业务逻辑如下;                        1. 卖家登陆自己的B2B系统提交提现功能。                    ...

文件的上传&amp;amp;预览&amp;amp;下载学习(一)

注:主要是说明后端逻辑和数据库表设计 1.当前主流的几种文件上传&预览&下载方式 把文件直接存储在服务器 分布式存储OSS,比如阿里OSS、Minio 2.数据库表设计 由于文件都是跟业务关联的,比如评论里面掺杂评论图片,常规的设计就是在'评论表'添加上传'图片名称'字段和'图片相对路径',在上传成功后返回给前端 1.1 如果是加入多个...