安全运维中心梳理

【背景】

目前正在部门内部推动运维管理,无论自上而下还是自下而上,整个团队必须统一认识、达成一致目标。

项目的成功有来自高层的支持固然事半功倍,但是更重要的是实际使用者对系统、工具、流程、思想持续不断的改进优化。

先从思想理念开始启发,让大家思考起来,整个ppt分,运维现状、解决办法、如何实现

核心是整理数据,流程控制,发掘能力,输出服务。



一、运维现状

1.IT
运维工作忙而不受重视

忙:平台出现问题,基本都找运维处理;运维在各个业务部门间解决和处理问题,就像“救火员”、疲于奔命。即使这样运维人员的工作始终得不到认可,还经常抱怨“找不到人”、“解决问题太慢”。
莽:苦活累活一直做,烦不了,做到后面瞎做了;有时候碍于面子,有些不符合规定的操作也做,不出事还好,出了事情只有自己默默抗;
茫:每每提笔写周报时都不知道这周瞎忙了些啥,好不容易想到一个花费较大精力的事情,却又不好意思把这点鸡毛蒜皮的事情写上去;工作难以量化。
盲:看不到明天会发生什么,等着出问题,好一点就等着收到告警;看不到明天会改变什么,这些都是开发说了算,运维没有话语权;看不到明天自己会是什么样子,没有目标。
备注:忙而不盲,忙而不乱。

2.IT
系统复杂,维护难度高,风险压力大

物:硬软件不断增加,新技术的引入增加运维的复杂性,包括各类开发系统、各类应用架构、不同品牌厂商设备等等,需要不断增加人力投入,增加了维护难度。又有几个人能说起目前有多少资产、多少系统,它们之间的关联?
人:拿着农民工的钱,操着中南海的心;敬业些的人整天提心吊胆,求神拜佛 保佑系统与业务不挂,还有些不知者不惧,等着出问题,出现问题后反而松了口气。


3.
内部问题

自我认可:大多数时候,运维人员都在进行着机械枯燥重复的工作,且很难得到肯定;
流程串联:本是自家兄弟,沟通交流有障碍;
数据失准 :实施了部分自动化,却没有真正解脱,无法判断手头信息是否真实可信,往往需要登录服务器再次确认;
监控失信:千百条告警堆积无法判断问题真正的根源,甚至重要告警被忽略。
PS
:人员流动、职业前景、成就感、决策智能


二、运维管理解决办法

1.
告诉所有人,运维是如何做事的
运维做事也需要条件的,拒绝一句话需求;
告诉大家谁在做,做到哪一步了;
客观的以数据说话,告诉大家结果;

2.
信息、状态可查可配可信任
资产信息、系统信息……全部统一入库;
设备、应用、服务……被监控可告警;
出现问题能找到处理人、故障点、操作手册……

3.
建立维护中心的基础
从原始人的体力劳动进入使用工具的石器时代;
根据维护中心标准和流程来优化现有数据与工具;

三、服务意识

1.
服务意识萌芽
使自身掌握的资源与能力变为服务,向内部、外部提供这种服务。
梳理整合自身的资源,再结合自身的能力,制定服务的标准,定义服务的内容。

2.
何为服务
系统资源服务
1.
硬件资源运算/存储/灾备等能力+技术(VM/HA)=资源服务;
2.
用户提供:产品规划、 UV/PV 、存储/接口等需求;
3.
维护沟通评估提供:服务器(cpumemdisk)、带宽、ip
4.
周期性报告:使用前测试报告、使用后状态报告、阶段的从业务角度分析服务运行报告。
监控服务
在提供监控能力后,需要后续的反馈监控的效果与各项指标,帮助需求方不断改进监控成效。
安全服务
查询服务
等等

3.
建立服务意识
首先,了解自身能提供哪些能力与服务
服务可大可小,要显现出各自岗位中的能力与价值;
其次,服务需形成闭环
服务并不是在操作完成后即结束,还需在之后统计与分析,找出其中的问题,体现服务的价值;
最后,需不断改进
改进服务本身;帮助用户/产品/部门提升;
备注:个人觉得运维必须具有的两个意识:服务意识、安全意识

四、如何实现

1.
选型:
服务台-- OTRSITIL
配置管理--CMDB
自动化-- PuppetZabbix
其他-- WikiGLPIHadoopDataLogSOC
ps
:大家不用纠结使用什么工具或系统,主要是结合现在使用的、团员掌握熟练的进行优化、定标、整合。

0点赞了文章

网友评论

0条评论

发表

网友评论

0条评论

发表

最新评论

推荐文章

彩龙

Copyright © 2008-2020 彩龙社区(https://www.clzg.cn) 版权所有 All Rights Reserved.

免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。

经营许可证编号:滇B2-20090009-7

下载我家昆明APP 下载彩龙社区APP