mysql - 關(guān)于標簽數(shù)據(jù)庫的設(shè)計,如何解決標簽重定向,國際化或同義標簽等問題?
問題描述
要在數(shù)據(jù)庫設(shè)計一個標簽系統(tǒng),給各個實體打上標簽。然后又需要可以體現(xiàn)層次關(guān)系,比如紅黑樹是屬于數(shù)據(jù)結(jié)構(gòu)標簽的子標簽這種結(jié)構(gòu)。
還要考慮到相同意義的標簽重定向的情況,比如線段樹和區(qū)間樹其實講的是一個東西,另外就是像國際化或者大小寫這樣的,Trie,trie,字典樹又是一個東西。
現(xiàn)在想法是,給標簽設(shè)一個parent_id來指向父標簽來表示層次性,另外設(shè)一個redirect_id來進行重定向來做同類標簽,然后統(tǒng)一用英文來設(shè)標簽最后通過翻譯來解決不同語言的同義標簽問題,因為這個標簽可能也會作為百科詞條這樣的設(shè)計,所以如何解決同義標簽問題確實比較糾結(jié)。
感覺想并查集一樣了,不知道這樣設(shè)計好不好,有沒有更好的設(shè)計方法等,因為這個標簽也可能會作為百科詞條一樣的功能,所以想問問一般實際開發(fā)中是怎么處理這類問題的。
問題解答
回答1:題主這個設(shè)計基本靠譜,有幾點分歧供探討:
標簽本身感覺是個平坦和松散的東西,分層次似乎不太搭。最多說標簽有個類別category,而不是層次,像segmentfault和很多網(wǎng)站都是如此。否則就搞成電商那種層次化分類了
標簽國際化有點奇怪,中國人也會設(shè)很多英文標簽,就像問題里說的trie和字典樹,中國人都會叫。如果我做國際化,會把中文英文標簽分開來記錄,中文登錄看到的標簽和英文登錄看到的完全是兩回事。假設(shè)某人中文登錄給某個實體加上了trie和字典樹兩個標簽,英文登錄時會顯示沒有任何標簽,除非在英文情況下另建標簽
我現(xiàn)在是更傾向用mongodb、elasticsearch這種文檔型的nosql來存儲這種文章、標簽的東西。用關(guān)系數(shù)據(jù)庫特別是mysql(不支持數(shù)組字段)來搞類似的東西很痛苦,像帶著鐐銬跳舞
回答2:本人沒有相關(guān)行業(yè)經(jīng)驗。
贊同@manong 的答案,如果你用parent_id來定義父子標簽關(guān)系,萬一哪天這個子標簽有可能同屬兩個不同的父標簽?zāi)蔷蛯擂瘟恕S妙悇e來管理比較靈活(當然,如果你當前的業(yè)務(wù)并不復(fù)雜的話,不建議考慮那么長遠的事情)。
標簽國際化這個……不能理解。。舉個例子:我打了個Chrome的標簽,程序員都知道;結(jié)果國際化后變成鉻,這就尷尬了……當然,有沒有國際化需求還得根據(jù)你們的業(yè)務(wù)來決定(畢竟增加了維護成本),我只是從程序員角度舉個例子。
redirect_id算是一種比較快速簡單的實現(xiàn),靈活一點的可以建一個中間關(guān)系表。
線段樹和區(qū)間樹其實講的是一個東西,另外就是像國際化或者大小寫這樣的,Trie,trie,字典樹又是一個東西。
另外,關(guān)于你提到的這一點,需要有個字典表去表達這些關(guān)系(自然也就需要去人工維護),除非你用算法去判斷。

網(wǎng)公網(wǎng)安備