本文目录一览:

用python操作excel数据之避坑秘技

用python操作excel表里的数据非常方便,可以把不同报表,不同类型的数据各种乾坤大挪移,汇集到一起进行展示。但初学者可能会遇到一些大坑,百思不得其解,而不得不放弃这个神器。现把我在自学过程中遇到的一些坑与大家分享,给初学者参考,欢迎批评指正!

坑一:用pandas的to_excel写入EXCEL时,会把原数据清空。

解决方案:先用openpyxl的load_workbook打开工作薄,再用pandas的ExcelWriter新建写入器,把之前打开的工作薄赋值给写入器的工作薄。

坑二:把带有公式的sheet1数据导入再写入sheet2时,会发现带公式的数据全部为空。

解决方案:可用win32com.client中的Dispatch把EXCEL表打开再保存。

坑三:当把复制文件,新建文件,打开保存文件,数据写入都写在一个程序时,往往由于EXCEL打开保存时间较长而与后续程序冲突报错。

解决方案:每个环节建模块顺序执行,各环节间用time.sleep隔开。

python 操作excel 读 写 xlsx

原文非常清晰,全程无bug,调试通过,留作记录以防丢失

一、xlrd和xlwt

使用之前需要先安装,windows上如果直接在cmd中运行python则需要先执行pip3 install xlrd和pip3 install xlwt,如果使用pycharm则需要在项目的解释器中安装这两个模块,File-Settings-Project:layout-Project Interpreter,点击右侧界面的+号,然后搜索xlrd和xlwt,然后点击Install Package进行安装。

对于excel来说,整个excel文件称为工作簿,工作簿中的每个页称为工作表,工作表又由单元格组成。

对于xlrd和xlwt,行数和列数从0开始,单元格的行和列也从0开始,例如sheet.row_values(2)表示第三行的内容,sheet.cell(1,2).value表示第二行第三列单元格的内容。

1.xlrd模块读取excel文件

使用xlrd模块之前需要先导入import xlrd,xlrd模块既可读取xls文件也可读取xlsx文件。

获取工作簿对象 :book = xlrd.open_workbook('excel文件名称')

获取所有工作表名称 :names = book.sheet_names(),结果为列表

根据索引获取工作表对象 :sheet = book.sheet_by_index(i)

根据名称获取工作表对象 :sheet = book.sheet_by_name('工作表名称')

获取工作表行数 :rows = sheet.nrows

获取工作表列数 :cols = sheet.ncols

获取工作表某一行的内容 :row = sheet.row_values(i) ,结果为列表   【sheet.row(i),列表】

获取工作表某一列的内容 :col = sheet.col_values(i)  结果为列表   【sheet.col(i),列表】

获取工作表某一单元格的内容 :cell = sheet.cell_value(m,n)、 sheet.cell(m,n).value、sheet.row(m)[n].value,sheet.col(n)[m].value,结果为字符串或数值    【sheet.cell(0,0),xlrd.sheet.Cell对象】

示例:假设在py执行文件同层目录下有一fruit.xls文件,有三个sheet页Sheet1、Sheet2、Sheet3,其中Sheet1内容如下:

import xlrd

book = xlrd.open_workbook('fruit.xls')print('sheet页名称:',book.sheet_names())

sheet = book.sheet_by_index(0)

rows = sheet.nrows

cols = sheet.ncolsprint('该工作表有%d行,%d列.'%(rows,cols))print('第三行内容为:',sheet.row_values(2))print('第二列内容为%s,数据类型为%s.'%(sheet.col_values(1),type(sheet.col_values(1))))print('第二列内容为%s,数据类型为%s.'%(sheet.col(1),type(sheet.col(1))))print('第二行第二列的单元格内容为:',sheet.cell_value(1,1))print('第三行第二列的单元格内容为:',sheet.cell(2,1).value)print('第五行第三列的单元格内容为:',sheet.row(4)[2].value)print('第五行第三列的单元格内容为%s,数据类型为%s'%(sheet.col(2)[4].value,type(sheet.col(2)[4].value)))print('第五行第三列的单元格内容为%s,数据类型为%s'%(sheet.col(2)[4],type(sheet.col(2)[4])))# 执行结果# sheet页名称: ['Sheet1', 'Sheet2', 'Sheet3']# 该工作表有5行,3列.# 第三行内容为: ['梨', 3.5, 130.0]# 第二列内容为['单价/元', 8.0, 3.5, 4.5, 3.8],数据类型为class 'list'.# 第二列内容为[text:'单价/元', number:8.0, number:3.5, number:4.5, number:3.8],数据类型为class 'list'.# 第二行第二列的单元格内容为: 8.0# 第三行第二列的单元格内容为: 3.5# 第五行第三列的单元格内容为: 300.0# 第五行第三列的单元格内容为300.0,数据类型为class 'float'# 第五行第三列的单元格内容为number:300.0,数据类型为class 'xlrd.sheet.Cell'

可以看出通过sheet.row(i)、sheet.col(i)也可获取行或列的内容,并且结果也是一个列表,但是列表中的每一项类似字典的键值对,形式为数据类型:值。

而sheet.cell(0,0)获取单元格内容,结果是一个键值对,并且是一个xlrd.sheet.Cell对象。

2.xlwt写入excel文件

使用xlwt模块之前需要先导入import xlwt,xlwt模块只能写xls文件,不能写xlsx文件(写xlsx程序不会报错,但最后文件无法直接打开,会报错)。

创建工作簿 :book = xlwt.Workbook(),如果写入中文为乱码,可添加参数encoding = 'utf-8'

创建工作表 :sheet = book.add_sheet('Sheet1')

向单元格写入内容 :sheet.write(m,n,'内容1')、sheet.write(x,y,'内容2')

保存工作簿 :book.save('excel文件名称'),默认保存在py文件相同路径下,如果该路径下有相同文件,会被新创建的文件覆盖,即xlwt不能修改文件。

import xlwt

book = xlwt.Workbook()

sheet = book.add_sheet('Sheet1')

sheet.write(0,0,'hello')

sheet.write(1,0,'你好')

book.save('hello.xls')

逐个单元格写入excel比较麻烦,可以按行或者列写入。

import xlwt

proj = ['名称','单价/元','库存/kg']

fruit = ['苹果','梨','香蕉','橘子']

price = [8,3.5,4.5,3.8]

storage = [150,130,100,300]

book = xlwt.Workbook()

sheet = book.add_sheet('Sheet1')foriin range(0,len(proj)):

    sheet.write(0,i,proj[i]) #按行插入行标题foriin range(0,len(fruit)):

    sheet.write(i+1,0,fruit[i])#插入第一列水果名称foriin range(0,len(price)):

    sheet.write(i+1,1,price[i])#插入第二列单价foriin range(0,len(storage)):

    sheet.write(i+1,2,storage[i])#插入第三列库存book.save('fruit2.xls')

二、openpyxl模块

openpyxl模块可实现对excel文件的读、写和修改,只能处理xlsx文件,不能处理xls文件,使用之前同样需要先安装该模块,再导入 import openpyxl。

对于openpyxl,行数和列数都从1开始,单元格的行和列也从1开始。例如sheet.cell(1,2).value表示第一行第二列单元格的内容

1.openpyxl读取excel文件

获取工作簿对象:book = openpyxl.load_workbook('excel文件名称')

获取所有工作表名称:names = book.sheetnames

获取工作表对象:sheet1 = book.worksheets[n]、sheet2 = book['工作表名称']、sheet3 = book[book.sheetnames[n]]

获取工作表名称:title = sheet1.title

获取工作表行数:rows = sheet1.max_row

获取工作表列数:cols = sheet1.max_column

获取某一单元格内容:cell = sheet.cell(1,2).value、sheet['单元格'].value例如sheet['B1'].value

假设有一fruit2.xlsx,除后缀名其他与上述fruit.xls完全一样

import openpyxl

book = openpyxl.load_workbook('fruit2.xlsx')print('所有sheet页名称:',book.sheetnames) 

sheet = book.worksheets[0]

sheet2 = book['Sheet1']

sheet3 = book[book.sheetnames[0]]print('工作表名称:',sheet3.title)

rows = sheet.max_row

cols = sheet.max_columnprint('该工作表有%d行,%d列.'%(rows,cols))# 执行结果# 所有sheet页名称: ['Sheet1', 'Sheet2', 'Sheet3']# 工作表名称: Sheet1# 该工作表有5行,3列.

2.行和列生成器

对于xlrd模块来说,可直接通过sheet.row[i]和sheet.col[i]获取行和列的内容,但是对于openpyxl模块来说,无法直接获取某一行或列的内容,openpyxl模块的sheet.rows和sheet.columns表示行和列的生成器,即generator object,需要通过循环或转换成列表、元组的形式得到行或列的值。

print(sheet.rows,sheet.columns)forcolin sheet.columns:

    print(col)forrowin sheet.rows:

    foriin row:

        print(i.value,end='')

    print()# 执行结果# generator object Worksheet._cells_by_row at 0x00000230E011A2A0 generator object Worksheet._cells_by_col at 0x00000230E102FC00# (Cell 'Sheet1'.A1, Cell 'Sheet1'.A2, Cell 'Sheet1'.A3, Cell 'Sheet1'.A4, Cell 'Sheet1'.A5)# (Cell 'Sheet1'.B1, Cell 'Sheet1'.B2, Cell 'Sheet1'.B3, Cell 'Sheet1'.B4, Cell 'Sheet1'.B5)# (Cell 'Sheet1'.C1, Cell 'Sheet1'.C2, Cell 'Sheet1'.C3, Cell 'Sheet1'.C4, Cell 'Sheet1'.C5)# 名称  单价/元  库存/kg# 苹果  8  150# 梨  3.5  130# 香蕉  4.5  100# 橘子  3.8  300

如果要获取某一行或者列的内容,可将行、列生成器对象转换成列表或者元组,再循环列表或者元组得到内容。

前面说过openpyxl模块的行和列都从1开始,但是由于将生成器转化成了列表list(sheet.rows),而列表的索引从0开始,因此list(sheet.rows)[1]还是表示第二行的内容,不是第一行的内容。

foriinlist(sheet.rows)[1]:

    print(i.value,end='')print()foriin list(sheet.columns)[0]:

    print(i.value,end='')# 执行结果# 苹果  8  150# 名称  苹果  梨  香蕉  橘子

获取单元格的内容

print(sheet.cell(1,2).value)#第一行第二列单元格的内容print(sheet['a2'].value)#使用excel单元格的表示法,字母不区分大小写

3.openpyxl写excel文件 

创建工作簿 :book = openpyxl.Workbook(),如果写入中文为乱码,可添加参数encoding = 'utf-8'

创建工作表: sheet = book.create_sheet('工作表名称',0),0表示创建的工作表在工作薄最前面

向单元格写入内容 :sheet.cell(m,n,'内容1')、sheet.cell(x,y,'内容2')

保存工作簿 :book.save('excel文件名称'),默认保存在py文件相同路径下,如果该路径下有相同文件,会被新创建的文件覆盖。

book = openpyxl.Workbook()

sheet = book.create_sheet('Sheet1',0)

proj = ['名称','单价/元','库存/kg']

fruit = ['苹果','香蕉','梨','橘子']

price = [8,3.5,4.5,3.8]

storage = [150,130,300,100]foriin range(len(proj)):

    sheet.cell(1,i+1,proj[i])foriin range(len(fruit)):

    sheet.cell(i+2,1,fruit[i])foriin range(len(price)):

    sheet.cell(i+2,2,price[i])foriin range(len(storage)):

    sheet.cell(i+2,3,storage[i])

book.save('fruit2.xlsx')

4.openpyxl修改excel文件

sheet.insert_rows(m)和sheet.insert_cols(n)分别表示在第m行、第n列前面插入行、列

sheet.delete_rows(m)和sheet.delete_cols(n)分别表示删除第m行、第n列

rows = sheet.max_row

sheet.insert_rows(rows+2)

cherry = ['樱桃',17,80]  forjin cherry:

    sheet.cell(rows+1,cherry.index(j)+1,j)

book.save('fruit2.xlsx')

修改单元格内容:sheet.cell(m,n) = '内容1'或者sheet['B3'] = '内容2' 

sheet.cell(3,2,4)

sheet['B3'] = 5book.save('fruit2.xlsx')

在最后追加行:sheet.append(可迭代对象)

straberry = ['草莓',20,50]

sheet.append(straberry)

book.save('fruit2.xlsx')

三、xlsxwriter 模块

只能操作xlsx,只能写。在excel中插入图片

import matplotlib.pyplot as plt

  2 import pandas as pd

  3 import random

  4 import xlsxwriter

  5

  6 ts = pd.Series(random.randrange(10))

  7 fig = plt.figure()

  8 ax = fig.add_subplot(1,1,1)

  9 ts.plot(ax=ax)

10 fig.savefig('foo.png')

11

12 workbook = xlsxwriter.Workbook('pngxls.xlsx')    # 创建excel文件

13 worksheet1 = workbook.add_worksheet('png')  # 括号内为工作表表名

14 # 第一个参数是插入的起始单元格,第二个参数是图片你文件的绝对路径

15 worksheet1.write('A1','hello')

16 worksheet1.insert_image('B2','foo.png')

18 workbook.close()

xlrd、xlwt和openpyxl处理excel文件,在写入文件的时候不如pandas简单,pandas处理excel文件见另外一篇博客

python怎么读写excel文件

最近用python处理一个小项目,其中涉及到对excel的读写操作,通过查资料及实践做了一下总结,以便以后用。

python读写excel文件要用到两个库:xlrd和xlwt,首先下载安装这两个库。

1、#读取Excel

import xlrd

data = xlrd.open_workbook(excelFile)

table = data.sheets()[0]

nrows = table.nrows #行数

ncols = table.ncols #列数

for i in xrange(0,nrows):

rowValues= table.row_values(i) #某一行数据

for item in rowValues:

print item

2、写Excel文件

'''往EXCEl单元格写内容,每次写一行sheet:页签名称;row:行内容列表;rowIndex:行索引;

isBold:true:粗字段,false:普通字体'''

def WriteSheetRow(sheet,rowValueList,rowIndex,isBold):

i = 0

style = xlwt.easyxf('font: bold 1')

#style = xlwt.easyxf('font: bold 0, color red;')#红色字体

#style2 = xlwt.easyxf('pattern: pattern solid, fore_colour yellow; font: bold on;') # 设置Excel单元格的背景色为黄色,字体为粗体

for svalue in rowValueList:

strValue = unicode(str(svalue),'utf-8')

if isBold:

sheet.write(rowIndex,i,strValue,style)

else:

sheet.write(rowIndex,i,strValue)

i = i + 1

'''写excel文件'''

def save_Excel(strFile):

excelFile = unicode(strFile, "utf8")

wbk = xlwt.Workbook()

sheet = wbk.add_sheet('sheet1',cell_overwrite_ok=True)

headList = ['标题1','标题2','标题3','标题4','总计']

rowIndex = 0

WriteSheetRow(sheet,headList,rowIndex,True)

for i in xrange(1,11):

rowIndex = rowIndex + 1

valueList = []

for j in xrange(1,5):

valueList.append(j*i)

WriteSheetRow(sheet,valueList,rowIndex,False)

wbk.save(excelFile)

style2 = xlwt.easyxf('pattern: pattern solid, fore_colour yellow; font: bold on;')

在设置上Excel单元格的背景色时,fore_colour 支持的颜色是有限的,仅支持一下颜色

aqua 0x31

black 0x08

blue 0x0C

blue_gray 0x36

bright_green 0x0B

brown 0x3C

coral 0x1D

cyan_ega 0x0F

dark_blue 0x12

dark_blue_ega 0x12

dark_green 0x3A

dark_green_ega 0x11

dark_purple 0x1C

dark_red 0x10

dark_red_ega 0x10

dark_teal 0x38

dark_yellow 0x13

gold 0x33

gray_ega 0x17

gray25 0x16

gray40 0x37

gray50 0x17

gray80 0x3F

green 0x11

ice_blue 0x1F

indigo 0x3E

ivory 0x1A

lavender 0x2E

light_blue 0x30

light_green 0x2A

light_orange 0x34

light_turquoise 0x29

light_yellow 0x2B

lime 0x32

magenta_ega 0x0E

ocean_blue 0x1E

olive_ega 0x13

olive_green 0x3B

orange 0x35

pale_blue 0x2C

periwinkle 0x18

pink 0x0E

plum 0x3D

purple_ega 0x14

red 0x0A

rose 0x2D

sea_green 0x39

silver_ega 0x16

sky_blue 0x28

tan 0x2F

teal 0x15

teal_ega 0x15

turquoise 0x0F

violet 0x14

white 0x09

yellow 0x0D"""

另外一种方式是 用pyExcelerator

from pyExcelerator import *# excel 第一行数据excel_headDatas = [u'发布时间', u'文章标题', u'文章链接', u'文章简介']

articles =[

{u'发布时间':u'2017年5月9日',

u'文章标题':u'Python项目实战教程:国内就能访问的google搜索引擎',

u'

u'文章简介':u'大家可以留言、想了解python那个方向的知识、不然我也不知道'},

{u'发布时间':u'2017年5月4日',

u'文章标题':u'对于学习Django的建议、你知道的有那些',

u'文章链接':',

u'文章简介':u'随着Django1.4第二个候选版的发布,虽然还不支持Python3,但Django团队已经在着手计划中,据官方博客所说,Django1.5将会试验性的支持python3'}

]# 定义excel操作句柄excle_Workbook = Workbook()

excel_sheet_name = time.strftime('%Y-%m-%d')

excel_sheet = excle_Workbook.add_sheet(excel_sheet_name)

index = 0#标题for data in excel_headDatas:

excel_sheet.write(0, index, data)

index += 1index = 1#内容for article in articles:

colIndex = 0    for item in excel_headDatas:

excel_sheet.write(index, colIndex, article[item])

colIndex += 1

index += 1#保存test.xlsx到当前程序目录excle_Workbook.save('test.xlsx')# db = mongoDB.mongoDbBase()# db.Get_information_stat()