这本书买了好久了。 想读些书,但小说完全读不下去,感觉是在浪费时间,没读一会儿就感觉很焦虑。 我是用 Acrobat 读的这本书,读的时候,我一边读,一边写Comment(应该翻译成“评论”?“笔记”?我用的 Acrobat 是英文版),读完也不至于空有感慨,什么重点都说不上来。 很早之前我就想,把 SafariBooksOnline 上面的书抓下来打包成 epub 文档。我可以手动完成,因为提供有现成的API,但怎么把这个过程自动化,我做不到啊。。。直到 SafariBooksOnline 改名字,我还是做不到。 读完这本书,我尝试了一下,还是没做到。理论和现实是有差距的。 我应该也成功登录了上去,但访问 api 的时候依然提示:
{"detail":"Authentication credentials were not provided."}
不知道是怎么着被发现了。 读这本书的收获还是蛮大的,数据采集的方方面面都写到了,虽然不深入,但让我有了方向。 下面是书里一些很有趣的句子的摘录:
BeautifulSoup 库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。
当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时,他有一段著名的回答:“很简单,你只要用锤子把石头上不像大卫的地方敲掉就行了。”
计算机科学里曾经有个笑话:“如果你有一个问题打算用正则表达式(regular expression)来解决,那么就是两个问题了。”
我们即将用来做数据归纳的文字样本源自美国第九任总统威廉·亨利·哈里森的就职演说。哈里森的总统生涯创下美国总统任职历史的两个记录:一个是最长的就职演说,另一个是最短的任职时间—32天。
正如一句谚语所说:“如果你喜欢某个东西,就放开手。”
在使用自动化技术采集互联网数据时,其实很少遇到完全无法解决的问题。记住一点就行:互联网其实就是一个用户界面不太友好的超API。