等的好久啊...
以前
Yahoo Mail 剛推出 API 的時候,很多人都在紛紛詢問,到底要怎麼撈通訊錄的名單呢?當時的官方說法是,
根本不提供這個 API。但是像是 flickr 的 friends finder 就很明顯有內部的 api 可以使用,也因此被不少人詬病說開放只開一半。
但是這方面的需求始終不少,所以很多人都用一些旁門左道的方式來撈 - 比方說把使用者的寄信匣中的收件人撈一次,可以得到類似通訊錄的效果。
現在開始終於不用走這些旁門左道啦。今天看到,
Yahoo Addressbook 終於也開放了 API 可以讀取。以後如果要讓 user 互相匯入匯出使用者資料就方便多囉。
雖然是這樣,但是公告上面每天 5000 個 queries 還是實在有點小氣。大一點的網站,像是 LinkedIn 提供的功能,每個小時就不只 5000 個 queries 了吧?不過雖然小氣了點,至少隔了一年多 API 總是開出來了,也算是踏出了好的開始啊。
原始 blog post
在這邊。
Posted in:
internet,
mail,
tech,
web2.0,
yahoo
|
|
|
今天看到
消息,
Amazon EC2 已經開始提供兩個新的 instance type,給 CPU 需求量較大的人使用。新的 instance type 分別是:
- $0.2/hour,1.7G ram,5 個 EC2 computing units,32bit platform
- $0.8/hour,7G ram,20 個 EC2 computing units,64bit platform
如果 application 是 CPU-bound 的話,也許新種的 instance type 會比較合用。不過我倒是比較希望看到,只要 $0.05/hour 的 mini-instance,這樣對 prototyping 比較合適 :p
Anyway,
EC2 網站上也已經公告新的 instance type 了。
Posted in:
amazon,
internet,
tech,
web2.0
|
|
|
我還滿好奇的,
NetApp 怎麼還沒倒啊?
大家都知道,Amazon 提供的 webservices 搭配起來可以多強多猛。EC2 + S3 + SQS + SimpleDB 簡直就是無敵。但是問題在 EC2 的 instance 上面,沒有可靠的儲存裝置可以使用。S3 雖然很保險,可是操作 S3 沒有辦法像操作 filesystem 那樣方便,而 S3 的 latency 也不允許一層
FUSE 的介面操作。
上個月 Amazon
公佈說,將來會開始支援 persistence storage 了。你可以動態要求任意大小的單位容量 - 小從 1 GB 大到 1TB - 而且還不限制單位數目。也就是說你可以輕輕鬆鬆要好幾個 1TB 的儲存單位,放置你想放的東西。還支援 snapshot 備分到 S3 上面,達到更強固的備分效果。Amazon 的 Jeff Barr 也在他們官方的 blog 上面
貼了一篇簡單教學,告訴你應該怎麼操作。
聽起來很棒對不對?真的是很棒。可惜現在 API 還沒有正式上線。這段時間如果覺得需要 persistent storage 的人,就只能自己硬幹了。... 可是我沒想到這年頭還真的有人這麼熱血!XD
今天在
這邊看到一篇文章,是一篇完整的 howto,用 DRBD、LVM、Heartbeat 等元素組出來一套建構在 EC2 上面的「persistent storage」。雖然說是 persistent 但是畢竟不如 Amazon 官方製作的一般,可以完全獨立於 EC2 instance 以外。但是大部分功能都已經很齊備了,諸如 failover、redundancy、snapshot 等功能一應俱全。雖然建構起來頗費工夫,但是對於已經需要上線運作 (換句話說沒空等 Amazon 官方 release 的 solution)、又很擔心資料完整性的人,倒是很適合的。
話說回來,等到 Amazon EC2 官方版的 persistent storage 上線以後,還有多少人要買
NetApp?XD 這年頭買 NetApp,根本已經完全不符合成本效益了。
Posted in:
amazon,
internet,
storage,
tech,
web2.0
|
|
|
Amazon EC2 確實便宜大碗,但是之前最為人所詬病的,就是必須用 CNAME 或是 dyndns 的方式來指定 domain name。今天收到信,現在 Amazon
推新版的 EC2 API,終於提供了 static IP 的功能,還讓人可以自由選擇自己的 instance 要開在哪個機房的 cloud 中。
雖然機房位置可以選的並不多,static IP 也只提供一組,不過已經是不小的進步了。
詳細資訊可以看:
Posted in:
amazon,
internet,
startup,
tech,
web2.0,
website
|
|
|
企業形象果然很重要啊...
今天看到一篇 blog post,是在講微軟推了新的服務來跟 Amazon 的 SimpleDB 打對台:
SQL Server Data Services, SSDS。稍微看了幾眼,推的東西跟 SimpleDB 真的很像:他在背後綁著微軟 SQL Server ,前端開個 web service api 給你操作,讓你省 DBA 的功夫和金錢。
為什麼說企業形象很重要呢?
因為我發現那篇 blog post 是在 3/7 寫的。可是這幾天國內可都沒聽說什麼人在講這回事。別說其他人,你聽到微軟出這個 solution 會很振奮嗎?你會覺得微軟這個 solution 對你很有幫助、讓你很放心嗎?
SSDS 網頁上面並沒有標價,目前是 free beta。但是每個人聽到的第一個反應都是:「那微軟要收多少錢?」戒心十足。
企業形象果然是很重要的啊。
Posted in:
data,
database,
internet,
microsoft,
tech
|
|
|
今天幫家人送電腦硬碟去修,不過我怕有人順手幫忙做檔案備份,所以先拿刪除工具把硬碟的資料抹乾淨。在網路上找了一下,相關的免費工具大概有:
- Eraser,軟體正如其名,拿來刪檔案用的。
- DBAN,可以製作開機光碟或是 usb floppy 來開機刪除。
- Windows 使用者可以用微軟內附的 cipher 刪除檔案。
我個人喜歡 DBAN,因為對整個磁碟資料清光比較方便。不知道怎麼取捨的人,
這裡有個比較表可以參考。
[Update 2008/03/04]: 想到之前
強者 Rick 曾經寫過
一篇類似的,而且也有仔細介紹過 cipher 的速度。大家可以參考一下。難怪我的 delicious 裡面會有 cipher 的連結啊,想必是當初看 Rick 的 blog 看來的 XD
Posted in:
privacy,
security,
tech
|
|
|
傳言已久的
YUI 2.5.0 終於出了。
看來這個版本,改變比較大的,是多了類似 flickr uploader 之類的
uploader、從
這邊 merge 過去的
image cropper、類似新版 Y! Mail 的
layout、改良過的
datatable,以及更強悍的
profiler。
除此之外,也多了方便的
resize 工具,和看來不知道有什麼用的
cookie...
Posted in:
internet,
javascript,
js,
tech,
website,
yahoo
|
|
|
去年,Google 開始辦
conference on scalability,獲得許多好評。有許多
講題的影片內容紮實而精采,讓我花了不少時間 k 影片 =_=
今年又要來一次了!地方還是在 Seattle,時間是 6/14,註冊免費 (但是還沒開放註冊,連 session 都還沒定出來呢 XD) 。要投稿的,請便 :p (這應該算是 CFP 吧?)
今年我應該還是會繼續等網路上的影片版來看吧 :p
Posted in:
conference,
google,
internet,
scalability,
tech
|
|
|
大概是受不了大家狂抽猛送了 XD
話說第一次看到
Amazon Simple Queue Service 的時候,發現他的計價單位是以傳送的 queue message 來計算,而不是以 request 數量。當時的直覺反應就是:既然這樣誰還要管什麼 messaging 架構?如果有多種 system 之間需要溝通,直接往 SQS 塞就好,其他都不用煩惱。反正另一邊只管狂 poll,不斷查詢有沒有給自己的新訊息就可以了 XD 反正查詢不用錢嘛!
Amazon 大概是受害甚深,現在
公佈要「調降」價格了:以前是每 1000 個 message 算 $0.01 美金,現在變成每 10000 個 request $0.01 美金。換句話說,如果還是用老方式狂 poll amazon 的機器的話,用新的方案就會比較貴;如果自己乖一點,有適當的 backoff 機制的話,新方案或許就會比較便宜。
新的價格也已經 announce 在
SQS 官方網頁上了。不過這個消息公佈到定價調整之間沒有什麼空檔,倒是稍嫌過分了點。至少也該讓惡搞的人有點時間改程式嘛。論語也教我們,「不教而殺謂之虐」啊。
假降價之名,其實是在告訴大家「別再操我們的機器了!不要亂搞我們的服務!」
這也算是典型的以價制量吧 :p
Posted in:
amazon,
internet,
tech,
web2.0
|
|
|
話說
YDN 台灣版浩浩蕩蕩的 launch 了,台灣這邊也相對應推出了
生活+ 的 api 來打頭陣。可是除了上次 YDN 研討會上
tempo 學長開砲的一天兩千次 request 實在太少以外,還有個小問題。如果點下去「生活+ Beta v0.1」,進去看 API 詳細資訊的時候...
如果點下第一頁看到的前兩個 link,想看看 API server 的話...
迎接我們的就是 404 error @_@
Posted in:
developer,
internet,
kimo,
taiwan,
tech,
yahoo,
ydn
|
|
|
Well, Yahoo 終於正式加入 OpenID 陣營了。自從前陣子 Yahoo 宣布 flickr API 可以套 OpenID 之後,許多人就在等這最後的臨門一腳。有興趣的可以看
http://openid.yahoo.com/。
稍微看了一下,似乎是拿 Yahoo 原本的
BBAuth 來串的。所以使用者要在 OpenID 輸入欄位上面打 yahoo.com,然後再被導去 BBAuth 那邊做認證。仔細想想,以 Yahoo 的包袱當然不可能像是
MyOpenID 那樣大方搞 xxx.myopenid.com,但是連個類似 AOL 的 http://openid.aol.com/<screen_name>
都沒有搞,好像誠意不太夠啊 XD 這樣難道對方 site 收到 Yahoo user 來的 identifier 就都是 "yahoo.com" 嗎?
換句話回來說,對使用者來講,OpenID 推不起來主因之一就是門檻略高。使用者可不愛打一堆亂七八糟長的 url,從這個角度來說只打 yahoo.com 似乎是個稍有改進的解法。但是對 user 來說,他們最希望的應該還是「Y 牌使用者點這裡就可以登入」。看來還是 BBAuth 稍微 promising 一點啊... 雖然 2 week expiry 有點遜,不過如果只是要辨認 userhash,倒是不受 token expiry 的限制呢。
Posted in:
internet,
tech,
website,
yahoo
|
|
|
Amazon 快要一統江湖了。
剛剛一邊泡茶,一邊在
AWS 翻查
EC2 和
SQS 的資料的時候,突然發現旁邊的 webservices 多了一個以前沒看過的 Simple DB... 愣了一下,腦海裡響著:「前陣子才在想 Amazon AWS 系列獨缺 DB 一塊,怎麼這麼快就補上來了?」馬上點下去看,發現原來確實是今天剛出的 Orz 果然早起的鳥兒有蟲吃啊...
話說
SimpleDB 不像 RDBMS 一樣支援那麼強大的 Query 方式,提供的是基本的 =、!=、<、>、<=、>=、STARTS-WITH、AND、OR、NOT、交集和聯集等查詢條件。但是好處是你不再需要一個經驗豐富的 DBA 來替你處理 DB schema 和 indexing,也不用考慮 scalability 和 load balancing,這些全部交給 amazon 煩惱就好。對於資料關聯不複雜、處理 database 經驗不足的開發者來說是不小的誘因。
不過話說回來,這個 SimpleDB 目前還在 limited beta 階段,白老鼠有限,不曉得還有沒有什麼怪地雷還沒被踩過。另一方面來說,目前的版本還是有些限制:每個人只能開 100 個 domain (可以把 domain 想像成 table),一個 domain 只能放 10G 的資料。然後每個 attribute (可以想像成 column) 最高只能 1024 bytes。最後,不論 10G 的限制有沒有達到,一個 domain 不能有超過 2500 萬個 attributes。
這對於真正希望 SimpleDB 替他解決 scalability 的人來說不是很好的消息。不過目前 SimpleDB 才剛推出,或許將來這些限制也會慢慢被降低。整體來說,SimpleDB 對於喜歡用 Berkeley DB 的 lightweight、不愛 MySQL 這種重量級大砲的人來說,倒是個很好的 solution。尤其 Berkeley DB 處理多台電腦 access 資料的 solution 不多,而且 SimpleDB 提供的功能遠比 Berkeley DB 強大。
看來,以後有志於 web startup 的人,根本不需要具備太多 scalability 的技巧。只要有一些 common sense,租一台 EC2,需要 storage 就用 S3,需要處理不同架構間的 IPC 就用 SQS,要存資料就放 SimpleDB... 你還需要些什麼?Amazon 根本就已經把 solution 都做好給你了。
不過,相對於 Amazon S3、Amazon EC2、Amazon SQS 的價廉物美來說,Amazon SimpleDB 的價格略嫌貴了一些,我想我應該會等他降價再來考慮看看吧。
[Update] 果然是 Limited beta,我想申請的時候居然跟我說:「The Limited Beta will be opened to the public in the next few weeks. We will contact you via e-mail when the beta program opens and a spot becomes available.」原來根本還沒開始賣啊?=_=
Posted in:
amazon,
data,
database,
tech,
web2.0,
website
|
|
|
對 web programming 的人來說,XSS 很早以前就不是新聞,而且不管是為了 XSS、SQL injection 或是其他理由,任何 user input 都不應該被信任,在使用以前就應該先被 validate 或是 filter 過。
但是問題來了,一般的 filter 都很好解,有許多現成的工具,甚至大不了就用駝鳥法把 html 的特殊字元 escape 掉。但是對於需要依賴使用者輸入 html 的東西怎麼辦?最明顯的例子就是 blog site。Blog 站台總不能不讓使用者輸入 HTML 吧?甚至插插圖、秀秀跑馬燈、放個 YouTube video 之類的,應該也都是稀鬆平常的事情。但是要達到這種效果,該怎麼做呢?
比較明顯的有幾個解法:
- 鴕鳥法,XSS 管他去死。(別懷疑,真的有人這樣子) 網站安全度不重要,先讓使用者爽再說。
- 使用不同 domain 來避免 XSS 問題。例如 Blogger 的操作是在 blogger.com,但是 blog 是出現在 blogspot.com。
- 使用自己的 html 過濾器,重新濾一次使用者輸入的 html。安全又可以不用換 domain,缺點就是使用者一定會有些想用的 tag 被濾掉而感覺到不便。
對於像是 GYM 規模的公司來說,一定會有自己的 html input filter 工具。可是對於外界的 user 來講就不那麼方便了。現成 open source 領域中,大部分的 filter 大多未經考驗,或是功能太弱。
不過情況似乎有了些改變。現在 Edward Yang 寫了一套
HTML purifier,使用 LGPL license 釋出。看起來彈性空間很大,filter 的效果也很好。有興趣的可以看 HTML purifier
對目前常見的 XSS 過濾效果,或是它的
docs 了解一些 tune 的方式。唯一的缺點是 - 目前只有 PHP 版,而且想當然耳,要 parse 清楚這麼複雜的 HTML 當然程式碼又大又肥 ...。不過即使如此,這大概還是 Open Source 界堪用最好的 HTML filter 了吧。
看完 HTML Purifier,我的感想跟 Joseph Halter 一樣....
You save my day by allowing me not to write another damned HTML parser.
Posted in:
filter,
html,
input,
internet,
opensource,
php,
security,
tech,
validation,
xss
|
|
|
上次說到 6/23 在 Seattle 有個 Conference on Scalability,昨天發現這些影片早就已經上線了。對於跟我一樣沒有參加 conference 卻對主題內容有興趣的人來說,可真是方便啊...
我把影片跟各個 session 的順序整理一下,一來自己需要,二來有興趣的人也可以直接取用 :)
Bon appetite.
Posted in:
amazon,
conference,
google,
lustre,
lustrefs,
scalability,
tech,
youtube verisign
|
|
|
最近因為需要做 search,於是找了
Lucene 來看,順便寫了些簡單的 index、search 的 code 摸摸看感覺。用
Lucene 的理由很多,速度快、scalability 好都是原因之一,很多大站 (digg、livejournal、CNet、Joost) 都採用也是原因,但是最重要的理由則是我對商業環境使用 Open Source 軟體的哲學...
「要用 Open Source 的玩意兒,就要用 community 最大、最 active 的」。因為這樣,白老鼠才夠多,support 才夠廣,支援度也夠好。有地雷的話,會有人先替你踩過,有問題會有人先修好 XD
廢話說完了,該來說
Solr (發音同 Solar)。話說今天下午,寫一些簡單的 code 測試 Lucene,結果在翻 documents 的時候意外翻到
Solr。看了幾下子以後開始幹聲連連... (我怎麼不早點看到這玩意兒啊?) 看來
Solr 根本把所有站內搜尋應該做的事情做完了嘛。
簡單說,
Solr 是完全把
Lucene 整個包起來,藏成一個搜尋的黑盒子。你不要管
Lucene 裡面怎麼做 Tokenizer、Analyzer
(雖然如果想改也可以),而只需要透過 XML/HTTP 來跟
Solr 溝通即可。要新增文件去搜尋,就用 HTTP POST 塞資料給它。要做搜尋的時候,再另外做 HTTP GET 就好。非常符合 KISS 原則 (Keep It Simple, Stupid)。
雖然還沒進行壓力測試,不過
Solr 的底層是
Lucene,又是 CNet 的人寫出來的,看起來應該是還不錯用才對。
還是那句話,我怎麼摸
Lucene 好幾天以後才看到這種好東西呢...
Posted in:
lucene,
search,
searchengine,
solr,
startup,
tech
|
|
|
因為剛回國,把一些旅遊的照片開始往 flickr 上面丟。在上傳、整理照片的過程裏面,無意間注意到 flickr 的 page source 裡面藏了一段頁面產生時間:
類似這樣的字眼。隨機抽看了幾個頁面,我發現我的相簿 page gen 時間都高達 2.x 秒或是三秒。這不是頁面 load 完畢的時間喔。這只是 flickr web server 把 html 碼 gen 好吐出來的時間而已。真的好慢啊...
看起來是 flickr 該加機器了?Or is
Smarty not such a good idea after all? :P
Posted in:
album,
flickr,
internet,
page,
performance,
photo,
tech,
web2.0,
yahoo
|
|
|
上次才看到
DK 大長輩聊到前幾天的新聞,University of Wisconsin
表明以後除非有法院傳票,否則不會交出學生資料。(幹的好啊!) 結果今天又看到一個更好笑的
新聞,University of Nebraska 說,因為他們的學生是動態取得 ip,而且誰取得什麼 ip 的 log 檔只保留一個月。一個月以後,你要找的資料我通通都沒有。
如果 RIAA 還要持續無理地要求我提供這些我根本提不出來的資料,那請 RIAA 付錢給我,讓我可以增加設備和人員來處理這些需求。
於是就形成了一個很好笑的標題:「
大學反過來要求 RIAA 付費」。:p
Posted in:
america,
copyright,
dhcp,
industry,
internet,
law,
nebraska,
news,
record,
riaa,
tech,
university,
wisconsin
|
|
|
剛剛看到一個 slashdot 新聞:
Googlebot and Document.write,有一個人在好奇 Google 到底會不會把 javascript document.write 的內容 index 進去。所以他做了一份
網頁,裡面用 document.write 寫了幾個 google 搜尋不到的、亂七八糟的字,然後想試試看過幾天到底會不會出現在 Google index 裡面。他也把內容記錄在
這個 blog 裡面。
不過,眾所周知,slashdot 的精髓一直都在 comments 裡面。這則新聞最有價值的 comment 應該是
這篇吧:
"我想,他真正想做的「實驗」應該是這樣:
- 把大家早就知道的事情,寫成六個段落的長篇大論
- 把這個東西丟到 slashdot,假裝好像有新聞價值
- 把那個長篇大論塞滿 Google 廣告
- 賺錢。
很想看他下一篇說明,他靠這個實驗可以賺多少錢?"
Score 5, insightful.
Posted in:
google,
internet,
news,
search,
tech,
web2.0
|
|
|
剛剛在
這裡看到了一個
Yahoo Site Explorer Badge,似乎和 delicious 的
tagometer 類似,都可以讓使用者看到自己被連結了多少次。不過拿 search index 來作出的數據,應該會比
delicious 的多一些吧?
Posted in:
internet,
misc,
tech,
web2.0
|
|
|
有則
新聞是在說,在採訪
MySQL CEO 時,他
透露出 MySQL 有要公開上市的計畫。聲稱雖然募集來的創投資金多數尚未動用,不過已經有在進行 IPO 的計畫,甚至可能在年底之前就準備上市。
聽起來好像是不錯的消息,可是 MySQL 雖然廣受 open source 歡迎,但是目前的 customer 數目只有大約一萬個,這樣產生的收益足夠作為 IPO 的題材嗎...?
Posted in:
internet,
investment,
tech
|
|
|