皇冠体育寻求亚洲战略合作伙伴,皇冠代理招募中,皇冠平台开放会员注册、充值、提现、电脑版下载、APP下载。

首页科技正文

皇冠登3出租(rent.22223388.com):18世纪 ji[就有GTA?Google图书词频统计器有另一部「近“jin”现代史」

admin2022-01-1623

ADVERTISEMENT

2010年12月,Google与哈佛大学合作推出了科学实验专案「Google Ngram Viewer」,大概可以翻译为「Google图书词频统计器」。 

简而言之,这〖zhe〗个统计器是针对图书出版物的一种「Google趋势」。统计器提供关键字搜寻,搜寻的范围是Google的数位图书馆「Google图书」,分析关键字在图书、报纸、期刊中出现的频率,并按照年份依次排开,最终基于使用者给定的时间跨度,提供一条显示关键字流行及发展趋势的曲线。 

横轴为年份,纵轴为词频

在语言学范畴上,Google给定的文本范围可以被称作一种「语料库」,而Google语料库可能是迄今为止最大的人文及社会科学研究语料库。 

刚上线时,Google语料库中拥有超过500万本图书,占世界上所有已出版书籍的4%,其中以英语书占多数。2020年7月,Google语料库更新至2019版本,收录从1500年到2020年2月的书籍文本,涵盖英文、简体中文、法文、德文等八种语言,图书数量已超过千万本。 

Google表示,词频统计器得出的资料允许免费下载并用于任何用途,因此 ci[这项工具受到欧美学术界的热烈欢迎与频繁引用。 

然『ran』而,更多的人把统计器用在了不那么学术的用途上。在以造梗与玩梗著称的网友中,流传着这么一种玩法:用词频统计【ji】器搜寻〖xun〗一些21世纪才出现的流行“xing”语及特有名词,等待统计器提供一条令人细思恐极的曲线。 

例如,在搜寻框输入「Grand theft auto」——也就是GTA的全称,你就会发现GTA在1770年左右拥有比21世『shi』纪还要高的词频。

也许,历史老师在讲授那段历史时,有意向你隐瞒了些什么。 

词频统计器的这种玩法,是由法国人率先发现并大加传播的。至少在第二次世界大战之前,法国一直是公认的欧洲乃至世界强权,而词频统计器对那段历史的学术研究贡献之大,也许唤醒了他们对光荣时刻的追忆。 

2020年7月27日,Google更新2019语料库没多久,法国网友PasEdward使用统计器的法语语料库,搜寻了一个俚语单词:「Wesh」。这个词源自阿尔及利亚语,约在上世纪90年代传入法国,意思相近于英文中的「What’s up」,中文里的「嘿」或「发生了什么“me”」。 

结果显示,趋势曲线在1800年的位置上出现了一次波折,意味着「Wesh」在1800年的著作中有使用记录。虽然不明白原委,PasEdward还是把自己的发现放到推特上分享‘xiang’,同时配上一张简陋的P图,为法国大革命时期的著名政治家马克西米连罗伯斯比戴上了一顶现『xian』代帽子。

第二天,另两位法国网友搜{sou}寻了一些欧洲歌手的名字,并在18-19世纪这一区间内找到了对应的索引结果。他们随即把歌手的头像P到法国国王路易十四与路易十六的画像上,同样上传至推特。

推特@30SecondsDamso

推特@Sitam37

不久,词频统计器的新玩法流传至英语圈及短片APP TikTok。结合法国人的创作成果,短片作者们确立了一种两段式的影片模「mo」式,为统计器成为新兴网路梗奠定了基础: 

首先使用统计器搜寻当下的流行人物与事物,得到相关词汇曾在21世纪以前被使用的记录;然后动用P图与剪辑技术,制造出可能用到这一词汇的历史场景。 

Aimbot,射击游戏的自瞄外挂 最早「出现」于1776年美国独立战争「华盛顿将军,我们要输了」 「不用担心兄弟,超级瞄准已部署」 图片来源TikTok@phattboyyy

时间快转到2021年,统计器的热度有所消退,可是又在法国人的努力下迎来了一次复兴。 

2021年10月10日,法国网友qouaa依照上「shang」面的格式制作了一部短片,他搜寻的词汇是「Fdp」,意思与英文中的「Son of Bitch」( *** )接近。趋势曲线在1700年左右有所上涨,接下来的一幕中出现穿着潮牌说著脏话的路易十四,也显得顺理成章。

这则影片仅在一周“zhou”内获得了超过300万次播放,也正式掀起了使用Google图书词频统计器「考据」的风潮。从TikTok、Youtube,甚至到B站,相同格式的影片不断涌现,影片作者致力于将那段「可能被埋没的历史」重现于世间,搜寻关键字也五花八门。 

词频统计器告诉我们,16世纪有PC(个人电脑),17世纪有RGB(最常见的三原色),证明近代欧洲人已经在使用电脑,并且对电脑硬体上的彩光特效情有独钟。 

TikTok@thadspcsTikTok@cinebench

硬体在发展,程式设计语言也在进步,1817年的程式师用Java写个程式,好像也没啥值得大惊小怪的。 

Youtube@1m

词频统计器还显‘xian’示,17世纪以来的推特使用率居高不下;到了第一次世界大战时期,才轮到短片应用红极一时。 

莎士比亚推文:「生存还是毁灭」 图源Youtube@Daaninator

一战导火索:斐迪南大公遇刺的珍贵短片影像 图源Youtube@Techlin

在音乐方面,麦可杰克森【sen】的名号响彻了整整两个世纪,而瑞克艾斯里大概从17世纪起就开始唱流行金曲了。

Youtube@MyCoolJacksonTV图片来源:Youtube@Manuel Vsp 

二次元文化也盛行了几百年,据悉在第二次世界大战爆发时,世界上最受欢迎的日「ri」本动漫是《火影忍者》。

TikTok@dzvjk__senpaiTikTok@katsu.kunn

把搜寻关键字换成今天的电子游戏,同样会得到令人们瞠目结舌的新发现:我们玩到的游戏其实都是老祖宗们玩剩下的。 

16世纪的《绝地求生》 图片来源:TikTok@wncem 

17世纪的《Apex英雄》 图片来源:TikTok@zrunez_1945年的《当个创世神》 图片来源Youtube@Daaninator 

,

皇冠登3出租rent.22223388.com)是皇冠(正网)接入菜宝钱包的TRC20-USDT支付系统,为皇冠代理提供专业的网上运营管理系统。皇冠登3出租系统实现注册、充值、提现、客服等全自动化功能。采用的USDT匿名支付、阅后即焚的IM客服系统,让皇冠代理的运营更轻松更安全。

,

老祖宗们甚至有着在游戏结束时打出「GG」(Good Game)的习惯,这大抵体现了〖liao〗他们对礼仪的规范与注重。 

Youtube@Techlin

 

2

 

代表权威资料的Google图书词频统计器,改出了太多令网友们啼笑皆非的「野史」。不过需要注意,统计器出现这种差之千里的谬误,有时也不全是资料的错。 

假如你出于好奇打开统计器复现网友们的搜寻结果,就会发现一些结果与影片画面对不上。影片作者可能透过修改网页元素或者嫁接P图、剪辑的方式,制作了假的趋势曲线。 

举例而言,前文中提到过的Aimbot(自动瞄准机器人),在1893年以前的著作中毫无记载。 

Case-Insensitive选项能够得出区分大小写的结果

在B站有人查到「shabi」一词最早在美国《独立宣言》颁布的1776年出现,这也不符合真实索引结果。至少在Google英语语料库,这个词的纯小写形式直到1824年才首次有人使用。 

就算查到了与影片中一模一样的趋势曲线,也不代表真实索引结果具有足够的说服力。网友们输入的单词‘ci’或片语,可能对应多种含义,而Google的程式尚且无法做到划分不同语义的程度。 

《当个创世神》游戏风靡全球前 Minecraft一般指海军的布雷与扫雷艇 

例如,PC、RGB、GG等特定片语的缩写形式,结合不同文本语境,可指代无数种具体事物;有时还会用作人名【ming】或机构名称的缩写。如果不进一步限定搜寻范围,得到的结果不会有规律可循,自然缺乏应有的参考价值。 

直接使用统计器搜寻某个人名,也不是值得过多提倡的行为。历史记载中同名同姓者多如牛毛,更不用提外国人的人名“ming”大多出自圣经,拥有远比中文夸张的重复率。 

另外,TikTok与Twitter,本就是英语中的拟声《sheng》词,在百余年前的英文著作中出现也根本不稀奇。 

1880年的一本诗集中用twitter一词形容鸟叫当然,玩梗没必要太过当真,本文也无意否定【ding】任何作者为了博观众一笑所耗费【fei】的大量心血,仅是指出在一部分影片中,作为工具本身的Google词频统计器没什么需要指摘的地方。 

而在另一些关键字较为明晰的案例中,词频趋势曲线在20世纪前的增长态势有〖you〗迹可循,使得统计器间接起到了反映历史与社会{hui}变动的职责。 

世界意义上的近现代史,正是各大洲各民 min[族建‘jian’立

  • 紧密联系的关键历史时期,不同文化的交流与冲突,势必为包括英语在内的各种语言带来数不胜数的外来词汇。 

    前文提到的Java在当(dang)下的语境中常指一种程式设计语言,放到殖民时期多半指的是16世纪初由 you[葡萄牙殖民者发现的东南亚爪哇岛。今天的Anime是由日语的「动漫」一词音译而来,然而百余年前的英国水手听到这个词,顶多联想到美洲大陆出产的某种树脂。

    1908年《英华大辞典》中对anime一词的解释Shabi一词在19世纪出现几率很高,是因为英国的殖民统治达到鼎盛,进而与东方文明产生了空前的交流。Shabi常出现在与中国、印度、 *** 文化相关的英文著作中,指代的意思各不相同,放到中国是「沙弼」,即沙弥、小和尚一词的音译;放“fang”到 *** 语里就变成了惯用的人名。

     

    虽然我们使用统计器的方法有时不太科学,但Google的工具也绝非完美无瑕。事实上,早在Google图书词频统计器诞生始于的2010年,就已经有学者吐槽过某些21世纪特有名词在语料库中的「穿越」现象。 

    网友们颇有微词时会把微词变成梗,而学者们的微词会变成学术研究与学术论文。近几年来的研究调查证明,Google的资料也没那么权威,其统计器与语料库存在的问题可不少。 

    最致命的问题是文本扫 sao[描错误。将图书扫描成电子文本所使用的光学字元辨识技术,简称OCR,其可靠程度会根据图书的印刷品质产生浮动,在读取百余年前的文本时总是会出错。 

    以前的英文著作经常把字母s写作作形近于字母f的「长s」,直至18-19世纪印刷技术取得长足进步,「长s」才渐渐消亡。Google的〖de〗OCR一度识别不出「长s」,导致许多带有s与f字母的单词之间产生可怕的混淆,直至2019年Google语料库更新,这一错误才得以(yi)大幅修正。 

    诗集《失乐园》(Paradise lost)的封面页 小写的字母s基本都印作「长s」

    但有些相比之下并不明显的错误至今依然存在。就以网友们玩梗提出的那些关键字为例,把Google图书的搜寻结果搬来和统计器作下对比,便会明白OCR偶尔会错到十分离谱的地步。 

    19世纪及以前的英文印刷品经常出现每行或每页末尾写不下完整单词的情况,印刷商会在没写完的单词后接上一根横杠(gang)「-」,让读者{zhe}去下一行或下一页找到单词的后半部分。正是这个「-」,会被OCR识别成字母,像是「pub-」,就会出现在《绝地求生》缩写「pubg」的搜寻结果中。

    一些形近意思却完全不同的单词或片语,对于OCR而言亦是灾难。如「Infernet」,这个法国人的姓氏经常被错认为「Internet」(网际网路);「fortune」(幸运)或是「for these」(为了这些),更是会被阴差阳错地识别成《要塞英雄》的英文名「fortnite」。

    Google扫描图书时,需要填充图书的标题、出版日期、作者、页数等中继资料。这一过程与OCR类‘lei’似,都由程式自动进行,因此也有漏洞。 

    文章开头影片中的GTA,即「grand theft auto」,在美国对应一种盗窃机动车的罪名。在Google图书搜寻「grand theft auto」,并把搜寻时间限定至18世纪的话,我们会查到一部实际在1981年出版、文中多次提到GTA的美国加利福尼亚州议会法案,它的出版日期被Google错标成了「1771年」。

    单是这一本书的标注错误,就贡献了一条篡改历史的趋势曲线和一部让数百万人忍俊不禁的玩梗影片。如今各个影片网站类似的影片数以千计,而语料库中OCR与中继资料出错的文献,恐怕还不止这个数量。 

    当然,任何科学测量工具都不可能做到百分百完美,资料与演算法也不例外。能够在短短数秒之内完成定量分析,得出某种事物在数百年中的大致发展动向,正是Google图书词频统计器的价值所在。 

    不过,在《zai》这个语料库不知何时才有的下一次更新之前,这些谬误将一直作为网友们造梗的源泉而存在,这大概是开发者所没有想到“dao”的了。

  • 网友评论

    1条评论
    • 2022-01-16 00:25:45

      虽然只是一碗小小的杂酱面,却让许多网友看到了明星真实生涯的一面,并没有人人想象的那么奢侈和太过,此行为也力破了之前所传出的天价餐费听说。我真的服