YG电子游艺

首页 > 正文

今日头条升级灵犬反低俗助手

www.hb-fence.com2019-08-15

22: 00: 22经济日报

宣布推出新版狗狗反粗俗助手,同时支持图像和文字识别。这是半年后“灰狗”的另一次重要升级。

bb87ebe1b231ddce590c0d1e50b1ec1d.jpeg

基于其反庸俗模式,它推出了狗的反流氓助手,以检测内容的健康状况,并打击低质量和低质量的内容。

Byte Beat人工智能实验室主任王长虎表示,新版“灰狗”在文本识别领域,在应用“Bert”和半监督技术的同时,训练数据集包含920万个样本,准确率提高到91%;在图像识别领域,已经应用深度学习,并且已经在数据,模型和计算能力方面进行了有针对性的优化。

在信息爆炸的时代,打击粗俗和低质量的内容是当前全球信息平台面临的难题。 “反庸俗不能仅仅依靠技术或手动解决方案。粗俗的定义相对普遍,很难完全准确地定义。这项工作对于人们来说并不容易,而且对于机器而言,更难以实现,但在当前的内容中。在创造和消费大幅增长的趋势下,纯手工制作,效率低,无法有效满足用户的需求。“王长虎说。

内置了数百种反色情,反俗,反标题,防伪信息,反低质量等模式,投入近名专业审计团队。

王长虎说,新版“灰狗”扩大了其反俗识别型和模型能力。它现在已经涵盖了图片识别和文本识别,并将支持语音识别和视频识别。

这是第一次推出“灰狗”,支持检测文本和文章链接。 2018年5月16日,“灰狗”完成了服务容量升级,增加了反色情短文型和谣言模式,并将准确率从73%提高到82%。 2019年2月20日,“Greyhound 2.0”正式上线。除了反色情粗俗模式外,还增加了反暴力和反标题党模式,以涵盖主要的粗俗和低质量内容类型,整体识别准确率接近85%。截至2019年6月,灵狗的反流氓助手的使用已超过300万。

用户只需要在“灰狗”中输入文本或文章链接,“灰狗”可以帮助他检测内容健康指数并返回识别结果。对于用户输入的内容,“灰狗”将首先提取,分段和语义识别,然后根据相关规则输出相应的分数,等级和结论。这一切都在几秒钟内完成。图片和图片链接检测相同,用户可以通过上传“灰狗”中的图片或图片链接快速获取识别结果。

这看起来很简单,但必须大大改进其背后的技术和数据集才能提供支持。例如,第一代“Greyhound”的训练数据集包含350万个数据样本,第二代“Greyhound”的训练数据集是840万个数据样本,当前的“Grey Dog”训练数据集是9.2百万个样本。

与文本识别不同,图像识别的技术难点主要在于三个方面:不平衡,内部差异和必不可少,即粗俗图片占整体图片内容的比例较低,粗俗图片丰富复杂,这构成了粗俗的图片。特征差异很大。

在这方面,“灰狗”使用的解决方案是深度学习。 “我们在数据,模型和计算能力方面做了很多优化,”王长虎说。在数据层面,已经累积了数千万级的训练数据。在模型级别,模型结构针对许多困难样本进行了优化,并尝试解决复杂问题,如多尺寸,多尺度和小目标。在计算层面,分布式训练算法和GPU用于训练集群,以加速模型的训练和调试。

“低俗判断问题的复杂性和不同判断方法的局限性,一方面需要不断发展技术模型,一方面要有效地结合技术和人工判断。”王长虎说。

宣布推出新版狗狗反粗俗助手,同时支持图像和文字识别。这是半年后“灰狗”的另一次重要升级。

bb87ebe1b231ddce590c0d1e50b1ec1d.jpeg

基于其反庸俗模式,它推出了狗的反流氓助手,以检测内容的健康状况,并打击低质量和低质量的内容。

Byte Beat人工智能实验室主任王长虎表示,新版“灰狗”在文本识别领域,在应用“Bert”和半监督技术的同时,训练数据集包含920万个样本,准确率提高到91%;在图像识别领域,已经应用深度学习,并且已经在数据,模型和计算能力方面进行了有针对性的优化。

在信息爆炸的时代,打击粗俗和低质量的内容是当前全球信息平台面临的难题。 “反庸俗不能仅仅依靠技术或手动解决方案。粗俗的定义相对普遍,很难完全准确地定义。这项工作对于人们来说并不容易,而且对于机器而言,更难以实现,但在当前的内容中。在创造和消费大幅增长的趋势下,纯手工制作,效率低,无法有效满足用户的需求。“王长虎说。

内置了数百种反色情,反俗,反标题,防伪信息,反低质量等模式,投入近名专业审计团队。

王长虎说,新版“灰狗”扩大了其反俗识别型和模型能力。它现在已经涵盖了图片识别和文本识别,并将支持语音识别和视频识别。

这是第一次推出“灰狗”,支持检测文本和文章链接。 2018年5月16日,“灰狗”完成了服务容量升级,增加了反色情短文型和谣言模式,并将准确率从73%提高到82%。 2019年2月20日,“Greyhound 2.0”正式上线。除了反色情粗俗模式外,还增加了反暴力和反标题党模式,以涵盖主要的粗俗和低质量内容类型,整体识别准确率接近85%。截至2019年6月,灵狗的反流氓助手的使用已超过300万。

用户只需要在“灰狗”中输入文本或文章链接,“灰狗”可以帮助他检测内容健康指数并返回识别结果。对于用户输入的内容,“灰狗”将首先提取,分段和语义识别,然后根据相关规则输出相应的分数,等级和结论。这一切都在几秒钟内完成。图片和图片链接检测相同,用户可以通过上传“灰狗”中的图片或图片链接快速获取识别结果。

这看起来很简单,但必须大大改进其背后的技术和数据集才能提供支持。例如,第一代“Greyhound”的训练数据集包含350万个数据样本,第二代“Greyhound”的训练数据集是840万个数据样本,当前的“Grey Dog”训练数据集是9.2百万个样本。

与文本识别不同,图像识别的技术难点主要在于三个方面:不平衡,内部差异和必不可少,即粗俗图片占整体图片内容的比例较低,粗俗图片丰富复杂,这构成了粗俗的图片。特征差异很大。

在这方面,“灰狗”使用的解决方案是深度学习。 “我们在数据,模型和计算能力方面做了很多优化,”王长虎说。在数据层面,已经累积了数千万级的训练数据。在模型级别,模型结构针对许多困难样本进行了优化,并尝试解决复杂问题,如多尺寸,多尺度和小目标。在计算层面,分布式训练算法和GPU用于训练集群,以加速模型的训练和调试。

“低俗判断问题的复杂性和不同判断方法的局限性,一方面需要不断发展技术模型,一方面要有效地结合技术和人工判断。”王长虎说。

热门浏览
热门排行榜
热门标签
日期归档