实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案

摘要:
报告和收集后台应用程序管理日志是互联网公司的基本需求。1、 解决方案选择1.1 protobuffersjson探讨了以最有效的方式报告和解析管理数据是一个系统问题。有许多子问题需要解决,例如降低网络传输成本、降低串行化和反序列化的性能开销、峰值时段的可靠性和水平扩展以及非耦合编码。许多公司以简单且通用的json格式报告其管理日志。例如,“第四范式”推荐系统使用json格式作为
背景

app打点日志的上报和收集,是互联网公司的基本需求。

一.方案选择

1.1 protobuffer vs json

探究一种以最高效的方式上报和解析打点数据是一个系统性的问题,需要解决的子问题有很多,例如降低网络传输成本,减少序列化反序列化的性能开销,可靠性和高峰期的水平扩展,以及非耦合的编码等等。

很多公司的打点日志会采用比较简单通用的json格式来上报,比如"第四范式"的先荐系统就是使用json格式作为数据上报格式的,这样做便于开发和理解,但是从处理性能方面来考虑并不是最好的选择。

附上protobuffer和json的序列化反序列化性能评测对比: http://www.52im.net/thread-772-1-1.html

在2019年的数据库峰会上,腾讯广告联盟的负责人曾介绍了广告数据平台的原始日志格式,用的就是protobuffer,并且为了方便直接查原始数据格式,自研了一个名为dragon的数据存储格式。

实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案第1张

1.2  OpenResty (nginx+lua)

Nginx作为一款开源高性能且稳定的web服务器,经历了10年的发展,已经打败了Apache,IIS等巨头,成为了互联网界的新宠。

Nginx的异步非阻塞,以及模块化的特性,再加上lua脚本的轻量级的特性,让我们很方便的就能开发出一套可扩展且高可靠性的日志收集系统,开发人员只需要关注功能实现本身即可。

1.3 处理流程图

 实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案第2张

这里只画出了收集部分的步骤,通过Flume收集和处理日志的步骤请见我的另一篇博客:《将nginx收集的日志通过flume转到hive》

二.实现步骤

 2.1 定义日志格式

由于每个客户端5秒发送一批日志,可能会包含1条或者多条,为了防止重复发送uuid、客户端版本号等在一次发送周期中不会改变的数据,可以抽取这部分客户端公共的属性作为独立字段;而如点击、播放、翻页等非公共的属性才通过protobuf数组的形式发送。  

post日志的上传格式如下:

1) body就是事件体数组部分,每个事件单独一条数据;

2)其他的字段是可共用的公共属性部分,一批事件中这些属性相同。

3)token字段是信令字段,如果token错误,则可能是身份不明者伪造的上报数据。token的格式是(时间戳+密钥)的md5编码。密钥部分可以随意指定,客户端和服务端保持一致即可。出于安全考虑本处打码。

实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案第3张

 eventobj的格式定义:

event:{

'eventtype': 'sv', #事件类型

'pg': 'home' #事件发生的一级页面

'spg': 'recommend' #事件发生的二级页面

 'ts': 1527238632,  #timestamp 为事件发生的unix时间戳(+当前时区),精确到秒 

 'arg': ''  # 字符串类型,每个事件对应的其他参数,可能0个或者多个,0个的为空字符串,多个的话用符号&链接。

 }

2.2 编写event.proto文件

本文中不会详细的介绍protobuffer的知识,只会针对该案例讲解操作步骤。如需要了解更多protobuffer的知识可以自行学习。

(有个比较坑的地方是工信部禁了developers.google.com,苦了找文档的各位童鞋。)

如下示例中指定了若干事件类型,若干一级页面和二级页面。文件名为event.proto。

syntax = "proto3";  //protobuff 

option java_outer_classname = "EventsProtos";

message Event {

  enum T { // event type
    SCANV = 0; // sv,  scan video
    PLAYV = 1; // pv, play video
    LIKEV = 6;//lv,  like video
    CLIKEV = 7; // clv, canceld like video
    SHAREV = 8; //shv, share video
  }
  
  enum Pg{ // first level page type
    HOME = 0; // 
    SEARCH = 1; //
    UPLOAD = 2; //
  }
  
  enum Spg{ // second level page type
    RECOMMEND = 0; //home 
    FRESH = 1; // home 
    HOT = 2; //home
  }

  T eventtype = 1;
  Pg pg = 2;  
  Spg spg = 3;
  int32 ts = 4; 
  string arg = 5;  

}

message Events {
  repeated Event events = 1;
}

2.3 生成protobuffer客户端文件。

EventsProtos.java 为Android 端用, Events.pbobjc.h Events.pbobjc.m 为ios端用,

2.4 让OpenResty的lua模块支持protobuffer

1 mkdir /root/project/ 
2 mkdir /root/project/lua-protobuf 
3 git clone https://github.com/starwing/lua-protobuf lua-protobuf/ 
4 cd lua-protobuf/
5 gcc -O2 -I/usr/local/openresty/luajit/include/luajit-2.1/ -fPIC -shared -Wl,-rpath=./   pb.c -o pb.so
6 cp pb.so /usr/local/openresty/lualib/
7 cp serpent.lua /usr/local/openresty/lualib/
8 cp protoc.lua /usr/local/openresty/lualib/

免责声明:文章转载自《实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇hdu 4614 线段树 二分C# 操作Word知识汇总下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

HttpClient 教程 (A)

前言 超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。 尽管java.net包提供了基本通过HTTP访问资源的功能,但它没有提供全面的灵活性和其它很多应用程序需要的功能。Ht...

Burpsuite-Intruder模块详解

Burpsuite之Intruder模块详解 一、简介 Burp Intruder是一个强大的工具,用于自动对Web应用程序自定义的攻击,Burp Intruder 是高度可配置的,并被用来在广范围内进行自动化攻击。你可以使用 Burp Intruder 方便地执行许多任务,包括枚举标识符,获取有用数据,漏洞模糊测试。合适的攻击类型取决于应用程序的情况,可...

一文带你了解 HTTP 黑科技

这是 HTTP 系列的第三篇文章,此篇文章为 HTTP 的进阶文章。 在前面两篇文章中我们讲述了 HTTP 的入门,HTTP 所有常用标头的概述,这篇文章我们来聊一下 HTTP 的一些 黑科技。 HTTP 内容协商 什么是内容协商 在 HTTP 中,内容协商是一种用于在同一 URL 上提供资源的不同表示形式的机制。内容协商机制是指客户端和服务器端就响应的资...

js 无刷新监听URL的变化

无刷新改变路由的两种方法 通过hash改变路由 代码: window.location.hash='edit' 效果: http://xxxx/#edit 通过history改变路由 history.back(): 返回浏览器会话历史中的上一页,跟浏览器的回退按钮功能相同 history.forward():指向浏览器会话历史中的下一页,跟浏览器的前进...

关于HTTP协议,一篇就够了

HTTP简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。 HTTP是一个属于应用层的面向对象的协议,由于其简捷...

vue中 拖动元素边框 改变元素宽度

先上效果图: 如图所示,通过拖动来改变表单的宽度。 但实际上,这边并不是表单的边框,而是一个单独的组件。通过监听鼠标的down,move以及up事件。 我们可以单独的写个组件handle.vue。 <template> <div @mousedown="mouseDown"></div> </templa...