服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

详解YouTube的架构原则和扩展经验

2020-12-31 11:38:18 阅读(184 评论(0)

YouTube发展迅速,每天视频点击量超过1亿,但维护站点并保证伸缩性的人却寥寥无几。这类似于PlentyOffish,少数人维护庞大的系统。原因是什么?放心,绝对不是靠性格,也不是靠孤独。我们来看看YouTube的整体技术结构。平台    ApachePythonLinux(SuSe)MySQLpsyco,动态Python到C的编译lightpd取代Apache进行视频查看状态,支持2005年2月和2006年3月每天3000万视频点击,2006年7月每天1亿视频点击,2个可伸缩软件架构师2个软件开发工程师,2个网络工程师,1DBAWeb服务器1,NetScaler用于负载均衡和静态内容缓存2fast_cgi运行Apache3,使用Python应用程序服务器来处理要求的路由4,应用程序服务器与多个数据库和其他信息源交互,以获取数据和格式化html页面5,通常可以添加更多的机器来提高web层的可伸缩性6,Python的Web层代码通常不是性能瓶颈,大部分时间阻塞在RPC7,Python允许快速灵活地开发和部署8,通常每个页面服务不到100毫秒的时间9,使用Psyco(类似JIT编译器的动态Python到C的编译器)来优化内部循环10。对于一些昂贵的块使用预先生成和缓存的html12,数据库使用行级缓存13,缓存完整的python对象14,一些数据被计算并发送到每个程序,因此这些值缓存在本地内存中。这是一种使用不当的策略。这是一种使用不当的策略。应用服务器中最快的缓存不需要太多时间就能将预计值发送给所有服务器。只需得到一个代理来监控变更,预计算,然后发送。视频服务1,成本包括带宽、硬件和能源消耗2,每个视频由一个迷你集群组成,每个视频由一台以上的机器持有3,使用一个集群意味着:  -更多的硬盘持有内容意味着更快  -failover。如果一台机器出了问题,另一台机器可以继续服务  -在线备份4,使用lighttpd作为Web服务器提供视频服务:  -Apache的费用太大了  -使用epoll等待多个fds  -从单过程配置到多过程配置,处理更多的连接5,大部分流行内容转移到CDN: -CDN在多个地方备份内容,这样,内容更接近用户的机会就会更高 -CDN机器往往内存不足,因为内容太流行,内容进出内存的颠簸很少。6.不太流行的内容(每天浏览1-20次)在很多colo站点使用YouTube服务器。 -长尾效应。一个视频可以播放多个视频,但是很多视频都在播放。多个视频可以播放,但许多视频正在播放。随机硬盘块被访问 -在这种情况下,缓存不是很好,所以花钱在更多的缓存上可能没有多大意义。 -调整RAID控制,注意其他低级问题 -调整每台机器上的内存,不要太多或太少 视频服务关键点    1.保持简单和便宜。2.保持简单的网络路径。内容和用户之间不应该有太多的设备。3.使用常用硬件,很难找到昂贵的硬件来帮助文档。4.使用简单而常见的工具,使用大多数建在Linux或以上的工具5,可以很好地处理随机搜索(SATA,tweaks)缩略图服务1,达到高效惊人的难度2,每个视频大概有4个缩略图,所以缩略图比视频多很多3,缩略图只有几台机器上的host4,持有一些小东西遇到的问题:  -OS级别的大量硬盘搜索、inode和页面缓存问题  -单目录文件限制,特别是Ext3,后来移动到多层结构。最近内核2.6的改进可能使Ext3允许大目录,但在文件系统中存储大量文件并不是一个好主意  -每秒都有大量的请求,因为web页面可能会在页面上显示60个缩略图  -Apache在这种高负载下的表现非常糟糕  -在Apache前端使用squid,这样工作了一段时间,但由于负载继续增加,以失败告终。它把每秒300个请求变成了20个请求  -尽量使用lighttpd,但由于使用单线程,它陷入了困境。遇到多过程问题,因为它们保持自己独立的缓存  -这么多图片,一台新机器只能接管24小时  -重启机器需要6-10个小时来缓存5,YouTube开始使用GogleBigTable来解决所有这些问题,分布式数据存储:  -避免小文件问题,因为它收集文件在一起  -快,容忍错误  -由于使用分布式多级缓存,延迟较低,该缓存与多个不同的collocation站点一起工作  -更多信息参考GoogleArchitecture,GoogletalkArchitecture和Bigtable数据库    1,早期  -使用MySQL存储元数据,如用户、tags和描述  -用RAID10存储整个10硬盘的数据  -YouTube依靠信用卡租用硬件  -YouTube经历了一场常见的革命:单服务器,然后是单master和多readslaves,然后是数据库分区,然后sharding模式  -痛苦和备份延迟。master数据库是多线程的,运行在大机器上,所以可以处理很多工作。slaves是单线程的,通常运行在较小的服务器上,备份是异步的,所以slaves会远远落后于master。  -更新导致缓存失效,慢I/O硬盘导致慢备份  -使用备份架构需要大量的money来获得更高的写作性能  -YouTube的解决方案之一是将数据分为两个集群,将传输分为优先级:视频查看池和一般集群2,后期  -数据库分区  -分为shards,不同的用户指定不同的shards  -扩散读写  -更好的缓存位置意味着更少的IO  -硬件减少30%  -备份延迟减少到0  -依靠信用卡,可以随意完善数据库的可伸缩性数据中心策略1,因此,一开始只能使用受管主机提供商2,受管主机提供商无法提供可伸缩性,无法控制硬件或使用良好的网络协议3,YouTube改为使用colocationarangement。现在YouTube可以定制一切,并同意自己的合同4,使用5到6个数据中心和CDN5,视频来自任何数据中心,而不是最近的匹配或其他任何东西。现在YouTube可以定制一切并同意自己的合同4,使用5到6个数据中心和CDN5,视频来自任何数据中心,而不是最近的匹配或其他任何东西。如果一个视频足够受欢迎,它将移动到CDN6,这取决于视频带宽,而不是真正的延迟。可以来自任何colo7,图片延迟非常严重,特别是当一个页面有60张图片时,使用bigtable将图片备份到不同的数据中心,代码查看谁是最近的扩展思维,虽然下面不是一个新想法,但我希望它能帮助你。分而治之是扩展技术的灵魂。考虑以层次化的方式完成所有工作。这也是数据分片的症结。要知道如何将数据分区,以及如何将分区的数据连接起来。总而言之,保持简单和松散的耦合是非常必要的。充分利用Python的动态特性,构建易于扩展的软件架构。近似的正确性。相信监控系统报告的系统运行状态。假如问题没有出现,就认为一切都很好。不一致的数据模型。比如读评论的人和写评论的人会对你刷新页面的动作有不同的反应,但是不需要完全基于事务处理进行系统设计,会显得过度矫枉过正。我们仍然需要不一致的数据模型。分布式系统的随机性。像气象系统一样,分布式系统在调试分布式系统时会有更多的随机性。例如,缓存过期。一般情况下,服务器会缓存流行视频24小时。如果缓存同时过期,服务器将同时开始缓存,负载如雷声!最快的函数调用是不做任何调用。合理设计事务处理的间隔和次数。仔细观察API,心中有数。如何定义输入和输出?本质上,所有的函数调用都是围绕数据发生的。函数调用后会发生什么?RPC重定向应用于Python。程序员是代码的构建者,所以要做好协议。如果代码不幸失败,也可以从RPC输出中追踪原因。没有完美的组件。一个组件的运行周期可能会持续1-6个月,没有人知道它会持续多久。随着时间的推移,我们会用Python和C重写一些东西,这证明你正在淘汰旧组件,当你观察到一个新组件出现时,它就诞生了。没有人知道整个系统的运行机制。因此,我们需要定义组件。视频转码与视频搜索完全不同,建立良好的数据规范非常重要。效率与可扩展性并重。最有效的是用C实现过程,但这种方法缺乏可扩展性。关注宏观层面、组件及其失败的原因。使用RPC明智吗?内联如何?分解研究可能会发现不同之处。重视算法。与其绞尽脑汁用Python来实现高效算法,不如用它来做更实用的事情。C语言在这方面有其优势。很少从事面向对象的设计。我们使用大量的名称空间来组织数据,但很少面向对象。我愿意用以下词来形容我们的代码树:简单、实用、优雅、正交、可组合,这是我们的追求。总结YouTube解决问题的哲学只有一个词:简单。许多YouTube产品最初来自一个简单的Python脚本。这是我们的一句老话,不积小步,不至千里;不积小流,不能成江海。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

马云正式卸任,他的创业神话能否被复制?

2019年9月10日,也就是昨天,阿里巴巴成立20周年,55岁的马云正式卸任阿里巴巴集团董事局主席,将接力棒交给现任CEO张勇。图片来源:@乡村教师代言人-马云微博 卸任之后,马云还会继续担任阿里巴巴集团董事会成员,直至2020年阿里巴巴年…查看详情

2021国内oa办公系统排行榜

随着oa系统行业近些年发展越来越迅猛,越来越多的企业也意识到一款适合自身的oa办公系统的重要性。那么协同办公市场那么大,我们该如何找到真正一款真正适合自己企业的呢?今天我为大家整理出了近年国内oa办公系统排行榜,供众参考。 一、泛微oa办…查看详情

免费的微信小程序开发靠谱吗?这些套路请你务必了解

最近这几年,商城微信小程序特别火,很多企业、商家都会开发一个收费或免费的微信小程序。为什么小程序开发如此受欢迎,主要有以下两点原因。 图片来源于网络1、没有佣金任何类型的微信小程序,都是0佣金,也就是不抽取一分钱佣金。但诸如:某宝、某东等传…查看详情

智能手环排行榜前十名,这几个品牌值得选

现在能够提升生活质量的智能设备是越来越多了,除了平板和电脑还有手机之外,智能手环也成为了大家不能够缺少的智能设备之一,使用这样的手环,能够将生活中的锻炼,还有睡眠和饮食进行实时的记录,还可以跟手机同步使用,能够指导大家健康的生活…查看详情

oracle目前最新版本

oracle19c和12c区别?1.19c其实也属于12c的一个小版本,只是Oracle改变了版本策略,现在都叫18c\19c\20c,一年一个版本。 2.Oracle19c相当于12.2.0.3版本,是Oracle12c的最终版,所以这…查看详情

韩国十大口碑电影排行榜

  优质答案(1)  1.嫌疑人x的献身  嫌疑人x的献身,这部影片受改编自日本小说家东野圭吾的同名小说,主要讲述了数学天才,帮助自己的邻居设局,从而摆脱杀害自己前夫罪名的故事,警察在这个谜局之中无法找真相。  2.杀人者的记忆法  《杀人…查看详情

eclipse怎么导入项目

别人发给你的代码怎样导入eclipse中运行?别人发给你的代码导入eclipse中运行方法: 1.打开eclipse,点击项目的空白处,选择import; 2.选择ExistingProjectintoWorkspace,点击next,…查看详情

版权登记完后需要发布吗?不需要,版权获得与发表出版无关

版权登记完后需要发布吗?通常会问这个问题的人,都是担心作品不发表会影响著作权。实际上,版权获得与发表出版无关。所以,版权登记完成后不需要发布。 图片来源于网络 ■ 版权登记完后需要发布吗? 我国著作权法采用自动保护原则。作品一经产生,不论…查看详情

搜狗输入法皮肤音效怎么关闭

搜狗输入法是一款常用的输入法工具,它提供了各种皮肤和音效,以增强用户的输入体验。如果你希望关闭搜狗输入法的皮肤和音效,可以按照以下步骤进行操作。1. 打开搜狗输入法设置:在电脑上,找到搜狗输入法的图标,单击该图标,然后选择"设置"选项,这将…查看详情

发票识别系统工作原理解析,让财务更智能

发票作为财务系统流程中不可忽略的重要部分,也是让财务人员非常头疼的问题,一套稳定便捷的发票识别系统对于企业来说更是无可估量的一项潜在财富。 一、发票识别系统的工作原理 至于什么是发票识别系统?发票识别系统是一款针对增值税发票以及常见的表单、…查看详情

免费的电子签名软件有哪些?

现在很多的适合都会用到电子签名,不管是非正式工作场合还是工作场景中,下面万商云集小编就给大家来详细介绍一下免费的电子签名软件有哪些?希望能帮助到大家解决电子签名的相关问题;。  1.一笔签名  一笔签名设计免费版是小编为大家寻找的一款签名设…查看详情

pct专利修改期限是多久?

  在平时很多的小伙伴都不知道pct专利修改期限的基本情况,而且对pct专利修改期限都不是很熟悉,下面万商云集小编就为大家整理了pct专利修改期限这方面的相关内容,希望下面的内容能帮助到各位。  一、pct专利修改期限  根据PCT第19条…查看详情

怎么申请一个网站怎么搭建一个网站

企业有了网站之后能够在网页上展现自己的企业信息,而且还能够将产品更好的展示出来,所以说网站对一个企业来讲是非常重要的,在申请网站的时候也应该要了解相关的步骤和方法。那么怎么申请一个网站怎么搭建一个网站?接下来就给大家详细的介绍一下申请一个网…查看详情

发明权与专利权的区别 发明权与专利权有什么区别

    在平时很多的小伙伴都不知道发明权与专利权区别的基本情况,而且对发明权与专利权区别都不是很熟悉,下面万商云集小编就为大家整理了发明权与专利权区别这方面的相关内容,希望下面的内容能帮助到各位。    一、发明权与专利权有什么区别  众所…查看详情

进出口贸易有限公司是做什么的?

进出口贸易有限公司经营范围怎填?进出口贸易有限公司在填写经营范围时,应当按照《中华人民共和国进出口贸易管理条例》的要求,按自身经营情况,填写详细的商品名称和类别。什么是贸易公司?贸易公司是一个以进出口贸易为主的商业实体,其主要业务是通过进出…查看详情

最新文章