日存档: 2009年10月12号

处理Panabit的url日志

[ad]
这个是初始版本

先用syslog记录日志

然后用awk把url记录拿出来

接下来用python处理,把处理结果放在sqlite3数据库里面,sqlite3数据库有两个表

domain(domainID,domian,count)

url(urlID,domainID,url,count)

import os
import re
import sqlite3

logfile = open('tmplog','r')
conn = sqlite3.connect("panabitlog.db3")
cur = conn.cursor()
conn.text_factory=str
conn.execute("delete from domain")
conn.execute("delete from url")
strp1 = "[\w-]*\.[com|cn|org|net|gov|cc]*[\.cn|\.hk]*[\/|:]"
#strp1 = "\/\/[\w*\.]+\w*[:\d*]*\/"
p = re.compile(strp1)

 继续阅读 »