讨论网站处理数据交换时的序列化和反序列化
2020-12-30 13:47:05 阅读(161) 评论(0)
#摘要序列化和反序列化几乎是工程师每天都要面对的事情,但要准确地掌握这两个概念并不容易:一方面,它们往往作为框架的一部分而消失在框架中;另一方面,它们会出现在其他更容易理解的概念中,如加密和持久性。然而,序列化和反序列化的选择是系统设计或重构的重要环节,在分布式和大数据系统设计中更为明显。适当的序列化协议不仅可以提高系统的通用性、强度、安全性和优化性能,还可以使系统更容易调试和扩展。本文从多个角度分析和解释了“序列化和反序列化”,并比较了几种流行的序列化协议,希望能帮助读者进行序列化选择。作者服务于美团推荐和个性化团队,致力于为美团用户提供高质量的个性化推荐和排序服务。从Terabyte级别的用户行为数据到Gigabyte级别的Deal/Poi数据;从实时地理位置数据到定期后台job数据,推荐和重排序系统需要多种类型的数据服务。推荐和重排序系统客户包括各种内部服务、美团客户端和美团网站。为了提供高质量的数据服务,实现与上下游系统的良好对接,序列化和反序列化的选择往往是我们系统设计的重要考虑因素。本文以下方式组织:第一部分给出了序列化和反序列化的定义,以及它们在通信协议中的位置。第二部分从用户的角度探讨了序列化协议的一些特征。第三部分描述了典型的序列化组件在具体实施过程中,并与数据库组建进行了类比。第四部分解释了几种常见的序列协议的特性、应用场景和相关组件的例子。最后一部分,根据各种协议的特点和相关的benchmark数据,提出了作者的技术选择建议。#互联网的定义和相关概念带来了机器间通信的需求,互联网通信双方需要采用约定的协议,序列化和反序列化是通信协议的一部分。通信协议通常采用分层模型,不同模型的功能定义和粒度不同,如:TCP/IP协议是四层协议,而OSI模型是七层协议模型。显示OSI七层协议模型中的层(PresentationLayer)主要功能是将应用层的对象转换为连续的二进制串,或将二进制串转换为应用层的对象——这两个功能是序列化和反序列化。一般而言,TCP/IP协议的应用层对应于OSI七层协议模型的应用层、显示层和会话层,因此序列化协议是TCP/IP协议应用层的一部分。本文对序列化协议的解释主要基于OSI七层协议模型。序列化:将数据结构或对象转换为二进制串的过程反序列化:将序列化过程中产生的二进制串转换为数据结构或对象的过程数据结构、对象和二进制串的计算机语言、数据结构、对象和二进制串的表达方式不同。数据结构和对象:对于Java等完全面向对象的语言,工程师所操作的一切都是对象(Object),实例化来自类。POJOJO是Java语言中最接近数据结构的概念(PlainOldJavaObject)或者Javabeann--只有setter/getter方法的类别。而在C 在这种半面向对象的语言中,数据结构对应struct,对象对应class。二进制串:序列化生成的二进制串是指存储在内存中的数据。C 语言有内存操作符,因此二进制串的概念很容易理解,例如,C 传输层可以直接使用语言字符串,因为它本质上是'\0'内存中最后存储的二进制串。在Java语言中,二进制串的概念很容易与String混淆。事实上,String是Java的一流公民,是一个特殊的对象(Object)。对跨语言通信而言,序列化后的数据当然不能是某种语言的特殊数据类型。Java中的二进制串指的是byte[],byte是Java8中原生数据类型之一(Primitivedatatypes)。#每个序列协议都有优缺点,在设计之初就有自己独特的应用场景。在系统设计过程中,需要考虑序列化需求的各个方面,综合比较各种序列化协议的特点,最终给出折衷的解决方案。一是技术层面,序列化协议是否支持跨平台、跨语言。若不支持,技术层面的通用性将大大降低。第二,流行程度、序列化和反序列化需要多方参与,很少有人使用的协议往往意味着昂贵的学习成本;另一方面,低流行的协议往往缺乏稳定成熟的跨语言和跨平台公共包。强健性/鲁棒性以下两个原因会导致协议不够强:第一,成熟度不够,从制定到实施再到最终成熟的协议往往是一个漫长的阶段。该协议的强度取决于大量和全面的测试。对于致力于提供高质量服务的系统,在测试阶段采用序列协议将带来很高的风险。第二,语言/平台的不公平。为了支持跨语言、跨平台的功能,序列协议的制定者需要做大量的工作;然而,当支持的语言或平台之间存在不可调和的特征时,协议制定者需要做出一个艰难的决定——支持更多人使用的语言/平台,或者支持更多的语言/平台而放弃特征。如果协议的制定者决定为某一语言或平台提供更多的支持,那么对于用户来说,协议的强度就会被牺牲。调试可调/可读序列化和反序列化的数据正确性和业务正确性往往需要很长时间,良好的调试机制将大大提高开发效率。序列化后的二进制串往往没有人眼可读性。为了验证序列化结果的正确性,写入方不得同时编写反序列化程序或提供查询平台——这需要时间;另一方面,如果读取方未能成功实现反序列化,将给问题搜索带来巨大挑战——难以定位是由于自己的反序列化程序的bug还是写入方序列化后的错误数据造成的。对于跨公司调试,由于以下原因,问题会更加严重:一是支持不到位,问题出现后跨公司调试可能得不到及时支持,大大延长了调试周期。二是访问限制,调试阶段的查询平台可能不公开,增加了读取方的验证难度。人眼可读数据如果序列化,将大大提高调试效率,XML和JSON具有人眼可读性的优点。性能性能包括时间复杂性和空间复杂性两个方面:第一,空间费用(Verbosity),序列化需要在原始数据上添加描述字段,以为反序列化解析是有用的。如果序列化过程引入的额外费用过高,可能会导致网络、磁盘等方面的压力过大。对于大量的分布式存储系统,数据量往往以TB为单位,巨大的额外空间成本意味着成本高。第二,时间开销(Complexity),对于整个系统来说,复杂的序列化协议会导致较长的分析时间,这可能会使序列化和反序列化阶段成为瓶颈。在可扩展性/兼容性移动互联网时代,业务系统需求的更新周期变得更快,新需求不断涌现,旧系统仍需维护。如果序列协议具有良好的可扩展性,并且支持在不影响旧服务的情况下自动增加新的业务字段,这将大大提供系统的灵活性。在序列化选择过程中,安全性/访问限制,跨局域网访问场景中经常会出现安全性考虑。当通信发生在公司之间或跨机房时,出于安全考虑,跨局域网的访问通常仅限于基于HTTP/HTTPS的80和443端口。如果使用的序列化协议没有成熟的HTTP传输层框架支持,则可能导致以下三个结果之一:第一,由于访问限制,服务可用性降低。二是被迫重新实现安全协议,导致实施成本大幅增加。以牺牲安全为代价,开放更多的防火墙端口和协议访问。#第三,典型的序列化和反序列化组件的序列化和反序列化过程往往需要以下组件:IDL(Interfacedescriptionlanguage)文件:参与通信的各方需要就通信内容达成相关协议(Specifications)。为了建立与语言和平台无关的协议,需要使用与具体开发语言和平台无关的语言进行描述。这种语言被称为接口描述语言(IDL),IDL写的协议称为IDL文件。IDLCompiler:为了在每种语言和平台上看到IDL文件中约定的内容,需要一个编译器将IDL文件转换为每种语言对应的动态库。Stub/SkeletonLib:负责工作代码的序列化和反序列化。Stub是部署在分布式系统客户端的代码。一方面,它接收应用层的参数,并通过底层协议栈将其序列化发送到服务端。另一方面,它接收服务端序列化后的结果数据,反序列化后交给客户端应用层;Skeleton部署在服务端。其功能与Stub相反。它从传输层接收序列参数,反序列化后交给服务端应用层。并将应用层的执行结果序列化,最终传输给客户端Stub。Client/Server:它指的是应用层程序代码,它们面对的是IDL生存的特定语言的class或struct。Client/Server:它指的是应用层程序代码,它们面临着IDL生存的特定语言的class或struct。底层协议堆栈和互联网:序列化后的数据通过底层传输层、网络层、链路层和物理层协议转换为互联网中的数字信号。对许多工程师来说,序列化组件与数据库访问组件的对比数据库访问相对熟悉,使用的组件也相对容易理解。下表类比了序列化过程中使用的部分组件与数据库访问组件的对应关系,以便更好地把握序列化相关组件的概念。#互联网早期的序列化协议主要包括COM和CORBA。COM主要用于Windows平台,并没有真正实现跨平台。此外,COM的序列化原理利用编译器中的虚表,使其学习成本巨大(想想这个场景,工程师需要一个简单的序列化协议,但他们必须首先掌握语言编译器)。扩展属性非常麻烦,因为序列化数据与编译器紧密耦合。在早期阶段,CORBA更好地实现了跨平台、跨语言的序列协议。COBRA的主要问题是参与者太多,版本兼容性差,使用复杂晦涩。这些政治经济、技术实现和早期设计不成熟的问题最终导致COBRA的逐渐消亡。J2SE1.后续版本提供了基于CORBA协议的RMI-IIOP技术,使Java开发者能够使用纯Java语言开发CORBA。这里主要介绍和比较几种流行的序列化协议,包括XML、JSON、Protobuf、Thrift和Avro。前面提到的一个例子,序列化和反序列化的出现往往晦涩而隐蔽,往往与其他概念相互包容。为了更好地理解每个协议中序列化和反序列化相关概念的具体实现,我们在各种序列化协议的解释中穿插了一个例子。在这个例子中,我们希望在多个系统中传输用户信息;在应用层中,如果使用Java语言,类对象如下所示:Javacode将内容复制到剪贴板class Address { private String city; private String postcode; private String street; } public class UserInfo { private Integer userid; private String name; private List address; } XML&SOAPXML是一种常用的序列化和反序列化协议,具有跨机器、跨语言等优点。XML历史悠久,其1.0版本早在1998年就形成了标准,并得到了广泛的应用。XML历史悠久,其1.0版本早在1998年就形成了标准,并得到了广泛的应用。XML的最初目标是互联网文档(Document)标记,所以它的设计理念包含了人和机器的可读性。然而,当这个标记文档的设计被用来序列对象时,它是冗长和复杂的(VerboseandComplex)。XML本质上是一种描述语言
推荐阅读
- 马云正式卸任,他的创业神话能否被复制?
2019年9月10日,也就是昨天,阿里巴巴成立20周年,55岁的马云正式卸任阿里巴巴集团董事局主席,将接力棒交给现任CEO张勇。图片来源:@乡村教师代言人-马云微博 卸任之后,马云还会继续担任阿里巴巴集团董事会成员,直至2020年阿里巴巴年…查看详情
- 2021国内oa办公系统排行榜
随着oa系统行业近些年发展越来越迅猛,越来越多的企业也意识到一款适合自身的oa办公系统的重要性。那么协同办公市场那么大,我们该如何找到真正一款真正适合自己企业的呢?今天我为大家整理出了近年国内oa办公系统排行榜,供众参考。 一、泛微oa办…查看详情
- 免费的微信小程序开发靠谱吗?这些套路请你务必了解
最近这几年,商城微信小程序特别火,很多企业、商家都会开发一个收费或免费的微信小程序。为什么小程序开发如此受欢迎,主要有以下两点原因。 图片来源于网络1、没有佣金任何类型的微信小程序,都是0佣金,也就是不抽取一分钱佣金。但诸如:某宝、某东等传…查看详情
- 智能手环排行榜前十名,这几个品牌值得选
现在能够提升生活质量的智能设备是越来越多了,除了平板和电脑还有手机之外,智能手环也成为了大家不能够缺少的智能设备之一,使用这样的手环,能够将生活中的锻炼,还有睡眠和饮食进行实时的记录,还可以跟手机同步使用,能够指导大家健康的生活…查看详情
- oracle目前最新版本
oracle19c和12c区别?1.19c其实也属于12c的一个小版本,只是Oracle改变了版本策略,现在都叫18c\19c\20c,一年一个版本。 2.Oracle19c相当于12.2.0.3版本,是Oracle12c的最终版,所以这…查看详情
- 韩国十大口碑电影排行榜
优质答案(1) 1.嫌疑人x的献身 嫌疑人x的献身,这部影片受改编自日本小说家东野圭吾的同名小说,主要讲述了数学天才,帮助自己的邻居设局,从而摆脱杀害自己前夫罪名的故事,警察在这个谜局之中无法找真相。 2.杀人者的记忆法 《杀人…查看详情
- eclipse怎么导入项目
别人发给你的代码怎样导入eclipse中运行?别人发给你的代码导入eclipse中运行方法: 1.打开eclipse,点击项目的空白处,选择import; 2.选择ExistingProjectintoWorkspace,点击next,…查看详情
- 版权登记完后需要发布吗?不需要,版权获得与发表出版无关
版权登记完后需要发布吗?通常会问这个问题的人,都是担心作品不发表会影响著作权。实际上,版权获得与发表出版无关。所以,版权登记完成后不需要发布。 图片来源于网络 ■ 版权登记完后需要发布吗? 我国著作权法采用自动保护原则。作品一经产生,不论…查看详情
- 搜狗输入法皮肤音效怎么关闭
搜狗输入法是一款常用的输入法工具,它提供了各种皮肤和音效,以增强用户的输入体验。如果你希望关闭搜狗输入法的皮肤和音效,可以按照以下步骤进行操作。1. 打开搜狗输入法设置:在电脑上,找到搜狗输入法的图标,单击该图标,然后选择"设置"选项,这将…查看详情
- 发票识别系统工作原理解析,让财务更智能
发票作为财务系统流程中不可忽略的重要部分,也是让财务人员非常头疼的问题,一套稳定便捷的发票识别系统对于企业来说更是无可估量的一项潜在财富。 一、发票识别系统的工作原理 至于什么是发票识别系统?发票识别系统是一款针对增值税发票以及常见的表单、…查看详情
- 免费的电子签名软件有哪些?
现在很多的适合都会用到电子签名,不管是非正式工作场合还是工作场景中,下面万商云集小编就给大家来详细介绍一下免费的电子签名软件有哪些?希望能帮助到大家解决电子签名的相关问题;。 1.一笔签名 一笔签名设计免费版是小编为大家寻找的一款签名设…查看详情
- pct专利修改期限是多久?
在平时很多的小伙伴都不知道pct专利修改期限的基本情况,而且对pct专利修改期限都不是很熟悉,下面万商云集小编就为大家整理了pct专利修改期限这方面的相关内容,希望下面的内容能帮助到各位。 一、pct专利修改期限 根据PCT第19条…查看详情
- 怎么申请一个网站怎么搭建一个网站
企业有了网站之后能够在网页上展现自己的企业信息,而且还能够将产品更好的展示出来,所以说网站对一个企业来讲是非常重要的,在申请网站的时候也应该要了解相关的步骤和方法。那么怎么申请一个网站怎么搭建一个网站?接下来就给大家详细的介绍一下申请一个网…查看详情
- 发明权与专利权的区别 发明权与专利权有什么区别
在平时很多的小伙伴都不知道发明权与专利权区别的基本情况,而且对发明权与专利权区别都不是很熟悉,下面万商云集小编就为大家整理了发明权与专利权区别这方面的相关内容,希望下面的内容能帮助到各位。 一、发明权与专利权有什么区别 众所…查看详情
- 进出口贸易有限公司是做什么的?
进出口贸易有限公司经营范围怎填?进出口贸易有限公司在填写经营范围时,应当按照《中华人民共和国进出口贸易管理条例》的要求,按自身经营情况,填写详细的商品名称和类别。什么是贸易公司?贸易公司是一个以进出口贸易为主的商业实体,其主要业务是通过进出…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






