Sitemap

A list of all the posts and pages found on the site. For you robots out there is an XML version available for digesting as well.

Pages

Posts

跑步训练日志

Published:

在朋友清扬的鼓励下,连续参加了2022和2023的亚特兰大半程马拉松,成绩都在2小时+。终于下定决心,挑战一把2024年亚特兰大全程马拉松。目前打算认真记录一下备战训练日志。 Read more

2019年总结-以学术为志业

Published:

从18年起一直在为博士申请而努力。18年上半年一边上班一边准备Toefl和GRE;18年下半年在ASU做访问学生;到19年总算收获了几个offer。综合考虑研究方向、学校、气候,位于亚特兰大的Emory成为我博士生涯的起点。感谢的话虽然老套但非常重要。感谢指导我的老师们:小米的王老师,北邮的李老师,ASU的Dr. Yang和Dr. Ren, MSU的Dr. Liu和 Dr. Tang, Emory的Dr. Qin, 我从老师们的身上感受到对科研的热情和对新入门者的包容。感谢鼓励和帮助我的朋友们。感谢支持我的家人们,支持我“任性”的职业选择。 Read more

猫咪飞机托运记录

Published:

最近需要更换居住城市,小龙虾的去处成为了一个难题。好说歹说,我妈同意帮我养。剩下的主要问题就是猫如何从北京运回江西。
根据在网上的调研,猫咪长距离托运主要有两种方式:火车和飞机。两种方法各有优劣:火车费用低但时间长,且高铁不能托运;飞机费用贵但时间短,且比火车更危险。 Read more

基于统计信息的新词挖掘实践

Published:

分词、词性标注、命名实体识别等自然语言处理基础任务,反作弊、知识图谱、新闻热点识别等文本挖掘应用中,未登录词是难以绕开的一个问题。从陌生语料中自动化的新词挖掘是解决该类问题的一种有效方法。 Read more

中文分词算法简介

Published:

与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。 Read more

我的2017年度读书报告

Published:

刚刚看了一圈豆友们的读书报告,动辄一周一本的阅读量让我自愧不如。今年读的书大概不到10本,一半是专业书,一半是闲书吧。 Read more

词向量的前世今生

Published:

神经网络掀起了人工智能的浪潮,深度学习的热度也逐步盖过了机器学习。深度学习(Deep Learning)并不是一个新的概念,早在上个世纪七八十年代,深度神经网络(Deep Neural Netword)就诞生了。但由于数据集、运算能力的限制,深度学习经历了很长的低潮期,直到最近才在语音和图像应用上产生了突破性进展。不同于语音和图像领域,深度学习在自然语言处理(NLP)领域还没能表现出全面领先于传统统计机器学习方法的能力。不过,目前已有的一些研究也展露了深度学习在NLP应用上的潜力,词向量(word embedding)正是其中最基本也最广泛应用的。词向量目前常见的应用有: Read more

MovieTaster-使用Item2Vec做电影推荐

Published:

自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”[1]提出词向量的概念后,NLP领域仿佛一下子进入了embedding的世界,Sentence2Vec、Doc2Vec、Everything2Vec。词向量基于语言模型的假设——“一个词的含义可以由它的上下文推断得出“,提出了词的Distributed Representation表示方法。相较于传统NLP的高维、稀疏的表示法(One-hot Representation),Word2Vec训练出的词向量是低维、稠密的。Word2Vec利用了词的上下文信息,语义信息更加丰富,目前常见的应用有:

  1. 使用训练出的词向量作为输入特征,提升现有系统,如应用在情感分析、词性标注、语言翻译等神经网络中的输入层。
  2. 直接从语言学的角度对词向量进行应用,如使用向量的距离表示词语相似度、query相关性等。
Read more

2016年总结-成为社会人

Published:

2016年是研究生的最后一个年头,明年是成为社会人的第一个年头,也是本命年,希望能过好这个坎。 Read more

Python 随机数标准库(2) – shuffle()

Published:

Python random包可以用来生成随机数。随机数不仅可以用于数学用途,还经常被嵌入到算法中,用以提高算法效率,并提高程序的安全性。如果想要更加高级的数学功能,可以考虑选择标准库之外的numpyscipy项目,它们不但支持数组和矩阵运算,还有丰富的数学和物理方程可供使用。 Read more

Python 随机数标准库(1) – random()

Published:

Python random包可以用来生成随机数。随机数不仅可以用于数学用途,还经常被嵌入到算法中,用以提高算法效率,并提高程序的安全性。如果想要更加高级的数学功能,可以考虑选择标准库之外的numpyscipy项目,它们不但支持数组和矩阵运算,还有丰富的数学和物理方程可供使用。 Read more

云主机如何挂载云硬盘

Published:

有时我们需要对云主机扩容,挂载一块新的云硬盘是很好的方法。下面具体介绍如何在云主机上挂载云盘。 Read more

逻辑回归模型–分类标签的概率分布

Published:

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个sigmod函数,但也就由于这个sigmod函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。 关于LR模型的数学原理和参数求解方法,已经有很多优秀的文章介绍过,在此我不再赘述。今天给大家介绍的主题是逻辑回归模型中分类标签的概率分布。 Read more

孤独也是一种正能量——芬兰留学感想

Published:

这是我离开芬兰前的最后一堂课,阿尔托大学的老师在屏幕上展示了这张图片: “ What do you feel when you look at this picture, positive or negative? “ (你们看到这张图片,是感受到积极还是消极?) Read more

芬兰居留权攻略

Published:

下学期我就要去芬兰当交换生了,所以最近一直在忙居留权的事儿,其中也遇到了一些坑,特此向大家分享我的经验。 Read more

在源文件间共享变量–C

Published:

在c语言中,使用extern关键字是解决上述问题的最好方法。假设你正在编写一个含有多个源文件的程序,例如,在file1.c中定义了一个变量,在file2.c中需要引用该变量。 Read more

portfolio

publications

talks

teaching