1-6 大模型基础-大模型之旅
目录
2 GLUE Benchmark:
提出背景:
概念:
3 预训练语言模型的显著优势:
3.1 表现优秀:
3.2 小样本学习能力:
1 预训练语言模型PLMs的发展之旅:
可以发现除了RNN是监督学习,其余的模型都是自监督学习:
那么什么是自监督学习呢?
答:和无监督学习不同,自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。换句话说自监督学习的监督信息不是人工标注的,而是算法在大规模无监督数据中自动构造监督信息,来进行监督学习或训练。
2 GLUE Benchmark: (基准测试)
提出背景:
你一定很好奇,语言生成模型生成的内容千差万别,我们怎么评价这些语言生成模型的优劣呢?哪个表现更好呢?实际上,目前的大部分评测集都不约而同地把benchmark设计成了判断题或选择题,这样就非常方便评测了。
概念:
GLUE 全称是 General Language Understanding Evaluation,是多任务语言模型评测benchmark(基准)。集合了问答、情感分析、文本蕴含,和一个用于模型评估、比较、分析的在线平台。
3 预训练语言模型的显著优势:
3.1 表现优秀:
和之前的语言模型已经产生了很大的gap,并且甚至比人类的表现还要好。
而且它整体呈现出这样一种趋势:随着参数和数据量的增长,模型的表现效果也越来越好。
3.2 小样本学习能力:
不同于深度学习(Data Hungry范式),需要大量的标注数据;GPT3在大量无标注数据的基础上学习,然后只需要少量的样本(带标注数据)就能表现很好。
CSDN-Ada助手: 不知道 算法 技能树是否可以帮到你:https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
笨笨sg: 确实确实,之前没看到,已经改正
笨笨sg: 好像是没有的。你可以看看https://www.bilibili.com/video/BV1ma4y1g791/?spm_id_from=333.788&vd_source=70d7223336bfa8b6218f04a90f35ad3a
Vanffer: 博主,请问快排的最大递归深度和最小是不是写反了啊
m0_64483715: 这个有lstm吗