当前在线人数13700
首页 - 分类讨论区 - 电脑网络 - 数据科学版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
NLP 问题 python
[版面:数据科学][首篇作者:victoria369] , 2019年03月14日16:50:59 ,874次阅读,5次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
victoria369
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: victoria369 (), 信区: DataSciences
标  题: NLP 问题 python
发信站: BBS 未名空间站 (Thu Mar 14 16:50:59 2019, 美东)

Python初学者,

现在需要split一个Column, 这个column里面有两部分,
一部分是类似
01jan2019_order_1977663:
或者是
877920_jan_19799"

类似这种pattern, 那regular expression部分则么写比较好?

试了*_*_*" 或者 *_*_*:
都不好用

谢谢!
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 12.]

 
jjttww
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: jjttww (jjttww), 信区: DataSciences
标  题: Re: NLP 问题 python
发信站: BBS 未名空间站 (Thu Mar 14 22:58:57 2019, 美东)

"877920_jan_19799".split("_")
or
re.split("_", "877920_jan_19799")


【 在 victoria369 () 的大作中提到: 】
: Python初学者,
: 现在需要split一个Column, 这个column里面有两部分,
: 一部分是类似
: 01jan2019_order_1977663:
: 或者是
: 877920_jan_19799"
: 类似这种pattern, 那regular expression部分则么写比较好?
: 试了*_*_*" 或者 *_*_*:
: 都不好用
: 谢谢!



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 173.]

 
victoria369
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: victoria369 (), 信区: DataSciences
标  题: Re: NLP 问题 python
发信站: BBS 未名空间站 (Fri Mar 15 18:38:42 2019, 美东)

哎呀,问题没说清楚

比如有一列是客户的comment, 但是像是这样的
01JAN2019_order_3879940"I like this product, but the parkage is broken"
already replace an order and sent to customer
01mar2019_SAP_3879940:the parkage is broken, all things are mess
01JAN2019_order_3879940-3778"wrong color, I order golden, but comes yellow"
contacted customer to refund
01JAN2019_order_3879940
01JAN2019_dfegf_3879940"I like this product, but the parkage is broken"
already replace an order and sent to customer
01JAN2019_order_3879940:"I like this product, but the parkage is broken"
already replace an order and sent to customer
01JAN2019_order_3879940_"I like this product, but the parkage is broken"
already replace an order and sent to customer
it feels mold inside
color is not right" contacted with customer


现在就是想除掉不是客户留言的第一部分,试了几个都不好用。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 73.]

 
HarvardThief
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: HarvardThief (博后肄业), 信区: DataSciences
标  题: Re: NLP 问题 python
发信站: BBS 未名空间站 (Fri Mar 15 19:40:32 2019, 美东)

你这是已经在e-commerce做ds或者da了吧。那劝你认真学下常用字符串相关函数和
regular expression,没多少东西就一天的事,否则以后这种没完没了你还得问。


【 在 victoria369() 的大作中提到: 】
<br>: 哎呀,问题没说清楚
<br>: 比如有一列是客户的comment, 但是像是这样的
<br>: 01JAN2019_order_3879940"I like this product, but the parkage is broken
"
<br>: already replace an order and sent to customer
<br>: 01mar2019_SAP_3879940:the parkage is broken, all things are mess
<br>: 01JAN2019_order_3879940-3778"wrong color, I order golden, but comes
yellow"
<br>: contacted customer to refund
<br>: 01JAN2019_order_3879940
<br>: 01JAN2019_dfegf_3879940"I like this product, but the parkage is broken
"
<br>: already replace an order and sent to customer
: ...................
<br>
--
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 76.]

 
jjttww
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: jjttww (jjttww), 信区: DataSciences
标  题: Re: NLP 问题 python
发信站: BBS 未名空间站 (Fri Mar 15 22:49:24 2019, 美东)

re.split('[0-9a-zA-Z]+_[a-zA-Z]+_[0-9]+_?', '01JAN2019_order_3879940_I like
this product, but the parkage is broken"')[1]

【 在 victoria369 () 的大作中提到: 】
: 哎呀,问题没说清楚
: 比如有一列是客户的comment, 但是像是这样的
: 01JAN2019_order_3879940"I like this product, but the parkage is broken"
: already replace an order and sent to customer
: 01mar2019_SAP_3879940:the parkage is broken, all things are mess
: 01JAN2019_order_3879940-3778"wrong color, I order golden, but comes yellow
"
: contacted customer to refund
: 01JAN2019_order_3879940
: 01JAN2019_dfegf_3879940"I like this product, but the parkage is broken"
: already replace an order and sent to customer
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 173.]

 
moonrain
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: moonrain (Just One Night), 信区: DataSciences
标  题: Re: NLP 问题 python
发信站: BBS 未名空间站 (Sat Mar 16 01:15:07 2019, 美东)

你这是data cleaning
不是NLP

--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:c0:c300:10]

[分页:1 ]
[快速返回] [ 进入数据科学讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996