【爬虫数据集】滇西小哥YouTube频道TOP10热门视频的热评数据,共2W条!

目录
  • 一、背景介绍
  • 二、爬取目标
  • 三、结果展示
  • 四、演示视频
  • 五、附完整数据

一、背景介绍

滇西小哥是一位来自中国云南省的视频博主,他在YouTube上拥有超过1000万的订阅者和上亿的观看量。他的视频内容主要涵盖中国文化、美食、旅行、音乐和艺术等方面。滇西小哥通过分享自己的文化体验和独特的观点,成功地将中国文化传递到了国际社会并获得了广泛的关注。通过他的视频,许多外国人可以了解中国的文化遗产和传统习俗。滇西小哥讲解的内容既有很具代表性的中国传统文化,如风水、中医、茶艺等,也包括现代时尚的文化,如网络流行语等。通过他的视频,外国观众可以更好地了解当代中国文化,并更好地理解中国人的思维方式和价值观。并且在视频分享中传递出中国人温馨、友善、好客的传统美德。

二、爬取目标

爬取目标:滇西小哥频道TOP10热门视频的TOP2000热门评论(共计2w条)

每个视频下方的TOP2000评论,同样按热门排序。比如TOP1视频的评论如下:

也就是滇西小哥频道的10个视频,每个视频2000条评论,共2w条评论,爬取完成。(10*2000=2w)

三、结果展示

先看下我整理的滇西小哥TOP10热门视频列表:

下面看爬取到的评论数据。
共10个评论数据文件,每个文件对应一个视频,每个文件内含2000条评论。
(文件名并不是乱码,而是YouTube视频id号哦)

随便打开一个文件,比如TOP1热门视频的评论,看下内容:
包含字段:评论id、评论内容、评论时间、评论作者、作者频道、点赞数。

四、演示视频

【爬虫数据集】爬取滇西小哥YouTube频道TOP10热门视频的热门评论

五、附完整数据

完整数据:【爬虫数据集】滇西小哥YouTube频道TOP10热门视频的热评数据,共2W条


by 马哥python说

本文转载于网络 如有侵权请联系删除

相关文章

  • 今天我们来谈谈POI

    什么是POIPOI是“PolntofInformation”的缩写,中文可以翻译为“信息点”。是地图上任何非地理意义的有意义的点,如商店,酒吧,加油站,医院,车站等。像城市,河流,山峰这些具有地理意义的点就不属于POIPOI的来源传统的地图测绘人员采用精密的测绘仪器去获取一个信息点的经纬度,然后再标记下来。像村委会村级行政区,还有部分政府机关单位,医院学校等国家单位的坐标点都是由gps测量得到的,每年的地理国情普查,土地调查等国家测绘项目都会进行更新。现在地图上的POI一般是商家用手机gps和在线地图在地图平台上申请商户标注和认领,如店铺,旅店,商店超市等点。POI的获取第一种POI点的获取方式大致有如下几种来源,一种是北大地理数据平台的地理数据(https://geodata.pku.edu.cn),中国科学院地理科学与资源研究所的数据(http://www.resdc.cn)具体来源不太清楚第二种基于百度,高德,腾讯,谷歌等地图的坐标拾取服务所获取的POI(由于国内POI数据的获取来源极少来自谷歌,因此本文不做介绍)基本上经常使用的POI获取渠道都是基于这些互联网大厂的地图坐标拾取

  • 面向AI应用的测试思考

    “人工智能(AI)已无处不在,AI正在为各行各业赋能,并以前所未有的速度全方位地改变着我们的生活。然而,由于AI是一种新的编程范式,无论在学术界还是工业界,对于AI测试的研究和实践尚处于起步阶段。”AI引导了新一轮的产业变革,随着AI在各行各业的应用日益广泛,对AI应用测试的需求也与日俱增。举几个例子,如果自动驾驶的智能系统做出错误的决策,将大大增加车祸的风险。如果金融风控模型做出错误的预测,将导致不可估量的经济损失(逾期坏账)。如果广告推荐系统做出错误的推荐,将带来较差的用户体验且降低转化率。由此可见,对于AI应用的质量保障显得愈发重要。1AI测试面临挑战关于AI应用(系统)的组成,通常是由软件工程和机器学习模型结合。机器学习能够从历史样本中不断地自学习,分析信息,生成预测模型后可输出新样本的预测结果。这个过程相较于传统软件系统要复杂得多。对于AI应用的测试,往往缺乏统一的方法、明确的标准,且存在TestOracle问题。AI系统的预测会伴随样本数据的变化而发生偏移。传统软件测试是基于固定输入和预期输出做比较,有明确的标准。相比于传统软件系统测试,AI测试更难预测评估,保证AI应用的

  • linux下rpm查询软件包依赖和被依赖关系

    通常我们在Linux下利用rpm做软件包的管理,一般删除软件包需要慎重,因为如果你一不小心把一些底层库依赖的软件包,那对你系统将是大伤害,甚至导致你系统的不可用,比如glibc被update或者删除。 如上就是一个活生生例子啊。1.查询软件包依赖哪些软件这里演示的案例是postfix软件包1.1rpm方式[root@nock~]#rpm-qapostfix#查看对应的rpm包 postfix-2.10.1-6.el7.x86_64 [root@nock~]#rpm-qRpostfix#R参数的意思就是requires就是依赖哪些软件包 /bin/bash /bin/sh /bin/sh /bin/sh /bin/sh /bin/sh /bin/sh /usr/sbin/alternatives /usr/sbin/alternatives /usr/sbin/groupadd /usr/sbin/useradd config(postfix)=2:2.10.1-6.el7 libc.so.6()(64bit) libc.so.6(GLIBC_2.11)(64bit) libc.so.

  • 刷B站的年轻人,到底在刷什么?

    来源:DT财经(ID:DTcaijing) 随着1月初B站跨年晚会爆红,大家纷纷感慨,这才是真正属于年轻人的春晚。要知道,这台晚会的节目单,多半就是靠着B站用户过去一年的点击和弹幕拼凑出来的。这给我们启发——吃透B站,就能抓住年轻人。 获取B站的全量内容库工作量太大(也不可能),于是我们决定,搞懂B站最受欢迎的部分就够了。正好,B站自己每年都会根据“创作力、影响力、口碑力”等维度,评选出数据表现最为出色的百大UP主。翻译一下,就是一张人气高、好评多、产量丰的B站头部UP主名单,给我们提供了一个很好的分析样本。我们试图通过“解剖”这些最受欢迎的UP主和视频作品,结合一些公开数据,看看年轻的B站用户到底都在看什么、喜欢什么,给大家奉上一份当代年轻人精神生活指南。1生活、游戏、鬼畜B站人气三大台柱先从大方向看起。在B站公布的2019年百大UP主名单中,有34位来自于生活区,紧跟在生活区后面的是游戏区和鬼畜区。我们简单算了下,这三个分区合计占去了百大UP主中的7成。所以也可以说,生活、游戏和鬼畜,撑起了B站人气的大半壁江山。不过,对于想要了解年轻人到底在干嘛的我们,那些对人气UP榜单贡献大幅上

  • 雷军称最贵5G手机不及友商起步价 是小米的荣光还是悲哀

    一部手机如果能赚2000块钱,你还会选择只赚200块钱吗?配置比对方高却定价更低,谁更不自信一目了然。金科社李杰9月26日报道9月24日是小米和米粉的大日子---小米5G新品发布会,雷军自信地向米粉介绍着充电功能强大的小米9Pro,和可能和大多数米粉无缘的概念机MIXAlpha。当然,还有我们熟悉的对“友商”的吐槽。雷军吐槽华为5G手机售价高雷军发布会吐槽友商5G手机定价高(金科社截图)“最最重要是,5G刚刚开始,我觉得很多人没有体会过5G的手机,我希望这是小米在国内发布的第一款5G手机,我希望用这样的诚意(3699元的起步价),让更多人开始体验5G的魅力,最贵的12GB+512GB也才4299,可能都不到友商的5G手机的起步价!”这是9月24日雷军在小米5G新品发布会上的原话。金科社注意到,雷军口中的小米PRO最贵配置售价不到友商5G手机起步价的“友商”,应该是华为和vivo:华为Mate20X5G手机起步价为6199元,超出最贵小米9Pro5G接近2000元;vivoNEX3手机5G版本的起售价为5698元。其实中兴首款5G手机“中兴天机10Pro5G”日前也发布了,起售价为499

  • java 中将引用置为null能help gc吗?

    在idea是搜索helpgc会出现如下图所示结果:可以发现,有很多将引用置为null的操作,然后注释写的是helpgc。那么,这个helpgc操作真的有用吗?有一种说法是,现在jvm已经足够智能,会进行自动优化,不需要这样做。另一个说法是,具体有没有用,得看具体的代码。如果那个引用从来都没有逃逸出去,这样写就是没有什么作用的。有人说,逃逸分析是在1.6才实现,置null操作在1.6之前可能有些用处。在即使逃逸分析已经很牛的现在,在Tree、链表这种结构中依旧要置null,因为还有一个问题是:浮动垃圾。浮动垃圾:floatgarbage参考:https://stackoverflow.com/questions/10106191/openjdks-linkedblockingqueue-implementation-node-class-and-gc在链表、Tree这类结构中,有1个~N个字段指向后继节点。比如单向链表中的next,TreeNode中的left、right等。置null操作是有helpgc的作用的。另外,EffectiveJava3rd的Item7:Eliminateob

  • 使用 smem 可视化显示Linux内存使用情况

    缺乏足够的物理内存(RAM)的系统的运行速度将显着降低,因为进程在RAM和交换之间移动。如果Linux系统开始运行缓慢,则首先解决的任务之一是释放物理内存。有多种工具可用于监视Linux系统上的内存使用情况,其中包括我们已经讨论的top。Smem是另一种工具,用于监视内存使用情况。除了在命令行上显示进程的内存使用外,smem还可以显示颜色编码的饼图和/或条形图。使用smem,您可以轻松地在Linux系统上可视化内存使用。安装在Debian和Ubuntu系统中,可以使用命令sudoapt-getinstall安装smemCheck内存使用将smem作为非特权用户显示所有使用当前用户ID的进程所使用的内存,由PSS从最少到最多排序。smem默认情况下,有七列,进程ID,用户名,用于启动进程的命令,分配给进程的交换空间量,以及USS,PSS和RSS。以root显示smem显示系统上所有用户的所有进程。sudosmem可视化内存使用可视化报告几乎肯定比基于文本的结果更容易阅读。使用smem,您可以将内存使用情况视为饼图或条形图。查看当前用户的PSS,USS和RSS的条形图确认PSS是系统上可用

  • 《Oracle Concept》第二章 - 21 (12c内容补充)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bisal/article/details/89522990 这是杂货铺的第465篇文章背景: 按照《OracleConecpt》的结构一起了解Oracle数据库,这是学习Oracle从入门到精通的基础。 本文主题:第二章《TablesandTableClusters》-OverviewofTables,以下是12c内容补充。使用区(Zone)降低I/O一个区(Zone)表示的是一组连续的数据块,其中会存储相关列的最小值和最大值。当一条SQL语句包含存储在区中的列作为谓词,数据库就会在SQL执行期间用谓词的值和区中存储的最小和最大值进行比较,以此确定使用哪一个区。SQL执行过程,会跳过不满足检索条件的数据对应的表或索引块,以此达到降低I/O的目的。他能极大地降低表扫描所消耗的I/O和CPU成本。 区映射区映射是一个独立的访问结构,他会将数据块分到区中。Oracle将每个区映射实现为一种物化视图的类型。 无论何时在表中指定了CLUSTERING,数据库就会基于指定的聚簇列创建一

  • 最新邮件曝光,斯坦福大学教授完全知情贺建奎基因编辑实验

    策划&撰写:巫盼 去年一起基因编辑婴儿事件在科学界引起轩然大波,“罪魁祸首”贺建奎也成为科学家以及伦理学家谴责的对象,斥责其实验完全违反伦理道德,而根据《纽约时报》的最新消息,贺建奎在做该实验期间,其博士后导师史蒂芬·奎克对其研究完全知情,他目前也正在接受斯坦福大学的调查。 有人指控奎克教授为贺建奎提供了基因编辑婴儿实验的准备和实施,论文的发表、推广和新闻发布,以及新闻发布后作出反应策略的指示,不过,奎克否认这些指控,表示他是个高道德标准的人,并一再提醒贺建奎一定要获得相关机构的批准再进行试验。 图|贺建奎(中)出席中国香港大学举行的第二届人类基因组编辑国际峰会 根据已经曝光的邮件,贺建奎和其在斯坦福大学的导师奎克一直有联系,两人就基因编辑婴儿实验项目做了诸多讨论,贺建奎也经常告知奎克项目的进展,比如贺建奎给导师发消息“这位女性怀孕了,基因编辑成功了!”奎克回复道,“这可是非同小可的成就,希望她怀孕顺利……”之后,贺建奎还告知奎克基因编辑双胞胎女孩相当早熟并且住院数周等消息。 实验期间,奎克博士一直建议贺建奎获得中国机构的道德批准,并提交同行评审期刊的结果。2017年6月,贺建

  • Springsecurity之Authentication

      Authentication是个接口,如下图1所示,此图来自于《ProSpringSecurity》,建议读者阅读原书:                                   图1Authentication的继承图  原书,讲的很好,原文是:    "AnAuthenticationobjectisusedbothwhenanauthenticationrequestiscreated(whenauserlogsin),tocarryaroundthedifferentlayersandclassesoftheframeworktherequestingdata,andthenwhenitisvalidated,containingtheauthenticatedentityandstoringitinSecurityContext.    ThemostcommonbehavioristhatwhenyoulogintotheapplicationanewAuthenticationobjectwillbecreatedstoringyouruserna

  • redis中各种数据类型的常用操作方法汇总

    一、Redis的五大数据类型1.String(字符串)string是redis最基本的类型,你可以理解成与Memcached一模一样的类型,一个key对应一个value。 string类型是二进制安全的。意思是redis的string可以包含任何数据。比如jpg图片或者序列化的对象。 string类型是Redis最基本的数据类型,一个redis中字符串value最多可以是512M2.Hash(哈希,类似java里的Map)Redishash是一个键值对集合。 Redishash是一个string类型的field和value的映射表,hash特别适合用于存储对象。 类似Java里面的Map<String,Object>3.List(列表)Redis列表是简单的字符串列表,按照插入顺序排序。你可以添加一个元素导列表的头部(左边)或者尾部(右边)。 它的底层实际是个链表4.Set(集合)Redis的Set是string类型的无序集合。它是通过HashTable实现实现的,保证唯一性5.Zset(sortedset:有序集合)zset(sortedset:有序集合) Rediszs

  • 强大的 Wolfram 11.0(下)

    █本文译自2016年8月8日的StephenWolfram的博客——TodayWeLaunchVersion11!(http://blog.stephenwolfram.com/2016/08/today-we-launch-version-11/)本号之前介绍了《从Mathematica1.0到Wolfram11.0,一场持续了30多年的智慧之旅!》、《强大的Wolfram11.0(上)》等文,今天带您继续一起领略Wolfram11.0强大的新功能——整合一切Wolfram语言的一个中心目标是让一切无缝合作。版本11中就有一些这样的新例子。 比如,时间序列现在可以直接使用算数。所以你可以用两个气压的时间序列相减。当然,如果序列中的时间点都按顺序排列这一运算过程会很简单,但是在版本11中它们不需要排列:Wolfram语言会自动处理任意不规则的时间序列。另一个例子是关于单位的。版本11中,统计分布现在可以和单位无缝合作。所以现在正态分布的方差可以不仅仅是2.5,还可以是2.5米。并且,现在所有计算和单位转换都可以完全自动处理。几何和几何区域已被无缝整合进系统的更多部分了。以前只能用变量的

  • 边缘计算和物联网的发展将会齐头并进

    如今,新兴技术的发展齐头并进这并不常见,但人们偶尔会发现一些相互依赖的技术共同发展。例如操作系统和CPU之间的关系是完全相互依赖的,因为它们都需要对方的支持。另一个例子就是边缘计算和物联网的同时发展和增长,有时候人们将边缘计算称之为雾计算。由于物联网的设计,它需要边缘计算来发挥其最大的潜力,而且这两种技术都处于早期发展阶段。如今,新兴技术的发展齐头并进这并不常见,但人们偶尔会发现一些相互依赖的技术共同发展。例如操作系统和CPU之间的关系是完全相互依赖的,因为它们都需要对方的支持。另一个例子就是边缘计算和物联网的同时发展和增长,有时候人们将边缘计算称之为雾计算。由于物联网的设计,它需要边缘计算来发挥其最大的潜力,而且这两种技术都处于早期发展阶段。由于同样的原因,边缘计算和雾计算的应用强劲上升:这是因为物联网数据泛滥。调研机构HitachiVanata公司的一份报告估计,连续监测所有连接的车辆每小时将产生25GB的数据。云计算存储提供商ClearSkyData首席技术官LazarusVekiarides表示:“物联网是下一代终端。如果考虑到这些产生数据的物联网设备的庞大数量,其数据要比人类

  • mysql数据库语句

    新增数据MySQL使用insertinto语句来插入数据insertintotable_name(fiel1,field2,.....fieldN)values(value1,value2,value3,...valueN);复制如果数据是字符型,就必须使用单引号或者双引号,如’value’下面举个例子吧先创建一个user表createtableuser(idintprimarykeyauto_increment,namevarchar(100),ageint,phone_numbervarchar(20));复制然后插入数据insertintouser(name,age,phone_number)values('xiaoli',21,15236547896),('qiansan',18,15212345678),('zhangsan',30,18210721111);复制查询数据在MySQL数据库中使用select语句来查询数据在数据库中通用的select语句语法如下:SELECTcolumn_name,column_nam

  • 腾讯云智能创作删除媒体api接口

    1.接口描述接口请求域名:cme.tencentcloudapi.com。 根据媒体Id删除媒体。 默认接口请求频率限制:20次/秒。 APIExplorer提供了在线调用、签名验证、SDK代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成SDK调用示例。 2.输入参数以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见公共请求参数。 参数名称 必选 类型 描述 Action 是 String 公共参数,本接口取值:DeleteMaterial。 Version 是 String 公共参数,本接口取值:2019-10-29。 Region 否 String 公共参数,本接口不需要传递此参数。 Platform 是 String 平台名称,指定访问的平台。 MaterialId 是 String 媒体Id。 Operator 否 String 操作者。填写用户的Id,用于标识调用者及校验媒体删除权限。 3.输出参数 参数名称 类型 描述 RequestId String 唯一请

  • 解决jenkins配置ssh秘钥登录时的两种异常

    在验证jenkins中ssh登录时,如果验证失败,首先应该尝试直接通过ssh命令能否连接成功。 #在配置了公钥私钥的情况下执行: #ssh-p你的端口号(很可能不是22)用户名(一般为root最大权限)@你的ip地址 #比如我的 ssh-p51000root@192.168.110.119复制 网上大多数推荐的复制公钥到目标服务器方式为ssh-copy-id,但该命令要求输入目标服务器密码,有时候我们并不能拿到目标服务器的密码,比如我司的服务器全部迁移到堡垒机上,那我们是没有root密码的,所以无法通过ssh-copy-id命令操作,只好手动复制粘贴到目标服务器的authorized_keys文件。如果发现自己在jenkins容器上生成了秘钥,并将公钥复制粘贴到了要连接的服务器上,但通过ssh直连测试发现仍然提示需要输入密码,那有两种可能: 1、说明复制粘贴的公钥不正确,最大的可能就是直接从控制台复制粘贴的公钥有换行符!!!需要手动删掉换行符才行。 2、.ssh文件夹及其内部文件访问权限不够。    这个时候可以在远程服务器通过 journalctl-

  • 【leetcode】Largest Number

    题目简述: Givenalistofnonnegativeintegers,arrangethemsuchthattheyformthelargestnumber. Forexample,given[3,30,34,5,9],thelargestformednumberis9534330. Note:Theresultmaybeverylarge,soyouneedtoreturnastringinsteadofaninteger. 解题思路: 这有一种很简单的思路: 我们无非是要判断哪个串放在哪个的前面或者后面,这其实就是两个数的比较问题,只不过大小的比较方式不是通常的形式。当然通过字符串的处理有很多的方式,不过都略显复杂了,反正两个数的比较就两种情况,所以我们不妨列拿出来比较下得出结果就行。 #coding=utf-8 classSolution: defcmp(self,x,y): ifx*(10**len(str(y)))+y<y*(10**len(str(x)))+x: return1 elifx*(10**len(str(y)))+y==y*(10**len(str(

  • Linux sed 命令

    Linuxsed命令 Linuxsed命令是利用脚本来处理文本文件 sed可以找脚本的指令来处理,编辑文本文件 sed主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写程序等 #语法 sed[-hnV][-e<script>][-f<script文件>][文本文件] #参数说明 -e<script>或--expression=<script>以选项中指定的script来处理输入的文本文件 -f<script>或--file=<script文件>以选项中指定的script文件来处理输入的文本文件 -h或--help显示帮助 -n或--quiet或--silent仅显示script处理后的结果 -V或--version显示版本信息 #动作说明 a:新增,a的后面可以接字符串,这些字符串将出现在新一行(当前行的下一行) c:取代,c的后面可以接字符串,这些字符串可以取代n1,n2之间的行 d:删除,因为是删除,d后面通常不跟任何内容 i:插入,i的后面可以接字符串,这些字符串将出现在新一行(当前行的上一行)

  • Android日期格式化

    Android日期格式化 为完成Android编程权威指南中CriminalIntent项目的日期格式化挑战,需要用到android.text.format.DateFormat类。 该类提供了Java中的三种时间对象,提示下面三种静态方法可以直接调用,如下: finalstaticCharSequenceformat(CharSequenceinFormat,DateinDate)//传入Date对象 GivenaformatstringandaDateobject,returnsaCharSequencecontainingtherequesteddate. finalstaticCharSequenceformat(CharSequenceinFormat,CalendarinDate)//Calendar对象 GivenaformatstringandaCalendarobject,returnsaCharSequencecontainingtherequesteddate. finalstaticCharSequenceformat(CharSequenceinForma

  • 动态网页爬取流程总结

      众所周知,动态网站通常使用例如ajax等异步加载技术来加载网页,相比于静态网页,动态网页通常包含多个请求,且数据往往并不存在于网页源码中,我们便需要通过抓包来寻找数据所在的请求并分析,编写响应的爬虫代码。动态网站的爬取包含下以下三个步骤:抓包,分析参数,提取数据。(以下使用爬取b站评论来作为讲解案例)   一、抓包   抓包有很多方式,比较常见的有用例如fiddle这种抓包软件以及浏览器自带的开发者调试工具(即f12),这里只介绍chrome的f12。   f12里有许多的菜单,这里我们只需要用到network,下面是我们会经常用到的功能         上面三个箭头指向的按钮功能从左到右依次为   1.开关,变红即为开始抓包,变灰则为停止,当开启时会清空之前的抓包历史记录   2.清空历史记录   3,搜索功能,可以查询哪些包中存在指定的字段   下面一栏为过滤器,可以选择看哪种类型的包,一般动态网页的包都为xhr     接下来就开始抓包了,抓包一般有两种方法:   1.通过触发指定事件来定位数据所存在的包      分析一下网站,可以很明显的发现,能触发b

  • 【2017.11.29 周三 转载之李航博士的文章:大数据分析到底需要多少种工具?】

    原文地址:http://blog.sina.com.cn/s/blog_7ad48fee0102vb9c.html   摘要 JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。 1.分类方法大比武 大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。    图1  机器学习分类体系 最近、Fernández-Delgado等人在JMLR(JournalofMa

相关推荐

推荐阅读