Discussion:
Porządek leksykograficzny nazwisk
(Wiadomość utworzona zbyt dawno temu. Odpowiedź niemożliwa.)
Maciek
2004-10-28 13:21:54 UTC
Permalink
Wcięło mi krospost, więc powtarzam.
Mam nadzieję, że nie pojawi się dwukrotnie... :-(



W Wikipedii trwa dyskusja na temat traktowania cząstek
de, d', la, O', van, von, der
przy porządkowaniu nazwisk europejskich i porządkowania
innych nazwisk (arabskich, hinduskich, japońskich itd).
Wygląda na to, że dyskutancji mają sporo zapału, lecz
nie dostaje im wiedzy.

http://pl.wikipedia.org/wiki/Dyskusja_Wikipedii:Zasady_porz%C4%85dkowania_nazwisk_obcoj%C4%99zycznych

Czy są w Sieci jakieś źródła normujące te zagadnienia?
Jak widać z przytoczonych w dyskusji przykładów nawet
internetowa encyklopedia PWN nie zawsze jest tu
konsekwentna.

Jeśli nie ma odpowiednich źródeł w Sieci, to jakie
są papierowe?

Przy okazji - czy są jakieś reguły międzynarodowe,
czy tez poszczególne narody wypracowują sobie własne?


Osobna zagadka, w tej dyskusji nie poruszona, a pewnie
też warta omówienia: w jakiej kolejności wplata się
diakrytyki w alfabet łaciński? Czy np. ç (ccedilla,
w razie gdyby się spsuło w drodze do serwera) jest przed
polskim ć, czy za? W jakiej kolejności mają stać ö i ó?
I czy duńskie przekreślone (nie wchodzi w iso-8859-2)
ma być pomiędzy nimi, przed, czy za oboma?


Czy to wszystko jest gdzieś opisane? Google
z Szukaczem wyjątkowo mętnie mi dziś odpowiadają...


Maciek
Jan Rudziński
2004-10-28 13:42:00 UTC
Permalink
Cześć wszystkim

Maciek wrote:
[...]
Post by Maciek
Osobna zagadka, w tej dyskusji nie poruszona, a pewnie
też warta omówienia: w jakiej kolejności wplata się
diakrytyki w alfabet łaciński? Czy np. ç (ccedilla,
w razie gdyby się spsuło w drodze do serwera) jest przed
polskim ć, czy za? W jakiej kolejności mają stać ö i ó?
I czy duńskie przekreślone (nie wchodzi w iso-8859-2)
ma być pomiędzy nimi, przed, czy za oboma?
Kiedyś o to pytałem - ponoć nie ma uzgodnionej kolejności znaków
specjalnych z różnych języków.
Zresztą to pół biedy, ciekawe, czy takie posrtowanie jest w ogóle
możliwe? To znaczy, czy nie ma sytuacji, że w dwóch różnych językach ta
sama para znaków sortuje się w odwrotnej kolejności.
--
Pozdrowienia
Janek http://www.astercity.net/~janekr
Niech mnie diabli porwą!
Niech diabli porwą? To się da zrobić...
Jarosław Sokołowski
2004-10-28 14:00:02 UTC
Permalink
Pan Jan Rudziński napisał:

[...o sortowaniu alfabetycznym...]
ciekawe, czy takie posrtowanie jest w ogóle możliwe? To znaczy,
czy nie ma sytuacji, że w dwóch różnych językach ta sama para
znaków sortuje się w odwrotnej kolejności.
Tu akurat łatwo o rozstrzygnięcie negatywne. W hiszpańskim "ll"
ma oddzielną pozycję w alfabecie, a w polskim i wielu innych
językach nie, a to już wpływa na sortowanie.
--
Jarek
Jacek Skrzymowski
2004-10-29 09:53:01 UTC
Permalink
Post by Jarosław Sokołowski
Tu akurat łatwo o rozstrzygnięcie negatywne. W hiszpańskim "ll"
ma oddzielną pozycję w alfabecie, a w polskim i wielu innych
językach nie, a to już wpływa na sortowanie.
Podobnie jest w niderlandzkim, gdzie np. 'tj' [cz] jest jednym znakiem, co
dobrze widać na mapach. Gdy litery są rozstrzelone, to taki znak-dwuznak jest
zawsze "w kupie".
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Jarosław Sokołowski
2004-10-29 11:50:32 UTC
Permalink
Post by Jacek Skrzymowski
Post by Jarosław Sokołowski
Tu akurat łatwo o rozstrzygnięcie negatywne. W hiszpańskim "ll"
ma oddzielną pozycję w alfabecie, a w polskim i wielu innych
językach nie, a to już wpływa na sortowanie.
Podobnie jest w niderlandzkim, gdzie np. 'tj' [cz] jest jednym
znakiem, co dobrze widać na mapach. Gdy litery są rozstrzelone,
to taki znak-dwuznak jest zawsze "w kupie".
Podobnie, ale niezupełnie tak samo. Owo 'tj' jest takim znakiem-dwuznakiem
należącym do alfabetu języka niderlandzkiego, a używając bardziej
fachowej terminologii -- ligaturą. Podobnie jest z ligaturami 'ae'
i 'oe' występującymi w kilku językach europejskich. Różnica taka, że
'ae', 'oe', 'AE' i 'OE' łatwiej zlewają się w jeden znak graficzny,
a 'tj' nie. Myśmy też nie tak dawno jeszcze używali ligatury 'ß' na
oznaczenie dwuznaku 'sz'. Jak się przyjrzeć dokładniej znakowi 'ß',
widać, że jest to połączenie długiego 's' z literą 'z'. Długie 's',
to też jeszcze niedawno używana forma litery 's', która wygląda jak
litera 'f' bez kreseczki. Długie używane było na początku i w środku
słowa, krótkie -- wyłącznie na końcu. Podobnie jest z grecką sigmą.
Dzisiaj zostało nam jedno 's', a Grecy nadal mają dwie sigmy.

Można powiedzieć, że hiszpańskie 'll' to też ligatura, wymawia się
ją mniej więcej jak [j]. Ale sami Hiszpanie tego tak nie traktują,
nie mają oporów przed rozdzieleniem tych dwóch literek (na przykład
na mapach). Podobnie jest u nas z dwuznakiem 'sz', też niegdysiejszą
ligaturą.

Na koniec jeszcze uwaga, by tego wszystkiego nie mylić z ligaturami
typograficznymi w rodzaju 'ff', 'fi', 'fl' czy wieloma innymi.
--
Jarek
Maciek
2004-10-28 14:09:06 UTC
Permalink
Post by Jan Rudziński
Cześć wszystkim
[...]
Post by Maciek
Osobna zagadka, w tej dyskusji nie poruszona, a pewnie
też warta omówienia: w jakiej kolejności wplata się
diakrytyki w alfabet łaciński? Czy np. ç jest przed
polskim ć, czy za? W jakiej kolejności mają stać ö i ó?
I czy duńskie przekreślone (nie wchodzi w iso-8859-2)
ma być pomiędzy nimi, przed, czy za oboma?
Kiedyś o to pytałem - ponoć nie ma uzgodnionej kolejności
znaków specjalnych z różnych języków.
Zresztą to pół biedy,
Fakt, możnaby ustalić porządek Unicode. Wszystkie diakrytyki
wylatują wtedy poza podstawowy alfabet, ale przynajmniej
raz na (plus minus) zawsze byłby porządek.
Post by Jan Rudziński
ciekawe, czy takie posrtowanie jest w ogóle możliwe?
To znaczy, czy nie ma sytuacji, że w dwóch różnych językach
ta sama para znaków sortuje się w odwrotnej kolejności.
Tzn. że u nas jest np. O-Ó, a u kogoś-tam Ó-O...?
Tego nie wiem. Ale wiem, że są inne niespodzianki.

Na przykład bracia Czesi, dobrze rozróżniając głoskę
oznaczoną dwuznakiem CH od głoski oznaczonej literą H,
honorują jednak ich podobieństwo, i stosownie do niego
ustawiają wyrazy tak:
... F - G - H - CH - I - J ...
Przykład: http://www.gisoft.cz/s_csen_an.htm


Maciek
Ludek Vasta
2004-10-28 14:17:13 UTC
Permalink
Post by Maciek
Tzn. że u nas jest np. O-Ó, a u kogoś-tam Ó-O...?
Jak juz zahaczyles o czeski, to w czeskim sortuje sie spolgloski ze
znaczkami (np. č, ř, š, ž) za litera bez znaczkow (c, r, s, z), ale
kreseczka nad samogloskami (á, í, é, ó, ú/ů) nie ma zadnego wplywu na
sortowanie.

Ludek
Jan Rudziński
2004-10-28 14:18:09 UTC
Permalink
Cześć wszystkim

Maciek wrote:
[...]
Post by Maciek
Post by Jan Rudziński
Kiedyś o to pytałem - ponoć nie ma uzgodnionej kolejności
znaków specjalnych z różnych języków.
Zresztą to pół biedy,
Fakt, możnaby ustalić porządek Unicode. Wszystkie diakrytyki
wylatują wtedy poza podstawowy alfabet, ale przynajmniej
raz na (plus minus) zawsze byłby porządek.
Raczej miałem na myśli porządek, w którym ustalamy arbitralnie
kolejność znaków tak, aby zachować zgodność sortowania dla każdego
języka z osobna - więc w sumie obojętne, jak usytuujemy cedillę i 'ć',
aby w stosunku do 'c' były tak jak trzeba.
Jednak pytanie, czy taki porządek istnieje.
--
Pozdrowienia
Janek http://www.astercity.net/~janekr
Niech mnie diabli porwą!
Niech diabli porwą? To się da zrobić...
Marcin Ciura
2004-10-28 14:46:18 UTC
Permalink
Post by Jan Rudziński
Raczej miałem na myśli porządek, w którym ustalamy arbitralnie
kolejność znaków tak, aby zachować zgodność sortowania dla każdego
języka z osobna - więc w sumie obojętne, jak usytuujemy cedillę i 'ć',
aby w stosunku do 'c' były tak jak trzeba.
Jednak pytanie, czy taki porządek istnieje.
Nie. http://www.unicode.org/reports/tr10/index.html
Marcin
Marcin 'Qrczak' Kowalczyk
2004-10-28 15:21:44 UTC
Permalink
Post by Maciek
Fakt, możnaby ustalić porządek Unicode. Wszystkie diakrytyki
wylatują wtedy poza podstawowy alfabet, ale przynajmniej
raz na (plus minus) zawsze byłby porządek.
To nie ma sensu, taki porządek nie jest naturalny dla człowieka. I nie
ma potrzeby. Sam Unikod definiuje pewien językowo neutralny porządek,
do którego dodawane są reguły dostosowujące go do poszczególnych
języków. Taki porządek oczywiście dotyczy wszystkich znaków. Nie jest
całkiem konsekwentny i są pewne propozycje zmian, ale lepsze to niż
porządek po gołych kodach znaków.
--
__("< Marcin Kowalczyk
\__/ ***@knm.org.pl
^^ http://qrnik.knm.org.pl/~qrczak/
Marcin 'Qrczak' Kowalczyk
2004-10-28 15:19:38 UTC
Permalink
Post by Jan Rudziński
Kiedyś o to pytałem - ponoć nie ma uzgodnionej kolejności znaków
specjalnych z różnych języków.
W polskich spisach alfabetycznych konwencja jest taka, że polskie
litery - oczywiście - mają osobne pozycje, a obce litery z akcentami
są wymieszane z odpowiednimi literami bez akcentów, niezależnie od
reguł języka, z którego pochodzą. Na przykład w starej encyklopedii
PWN, którą mam, są dwa hasła MÓR, dość daleko od siebie; miasto na
Węgrzech jest sortowane obok haseł zaczynających się na MOR.

I to jest rozsądne, bo człowiek szukający obcej nazwy własnej nie musi
znać reguł porządku leksykograficznego danego języka. Wystarczy porządek
języka, w którym jest robiony spis, rozszerzony jakoś na obce litery.
Post by Jan Rudziński
Zresztą to pół biedy, ciekawe, czy takie posrtowanie jest w ogóle
możliwe? To znaczy, czy nie ma sytuacji, że w dwóch różnych językach
ta sama para znaków sortuje się w odwrotnej kolejności.
Owszem, np. Ö po niemiecku jest razem z O, a po szwedzku jest pod
koniec alfabetu. Ale z tego wynika tylko tyle, że nie istnieją jedne
reguły ustalania kolejności liter, które pasowałyby wszystkim językom
naraz. Nie szkodzi. Bo dany spis jest z reguły w kontekście jakiegoś
języka i wtedy używamy reguł tego języka, np. po polsku jak napisałem
wyżej.

Jeśli sam spis jest prawdziwie międzynarodowy i nie można powiedzieć,
że jest w jakimś języku, to można próbować łączyć reguły różnych
języków i stosować do każdego słowa reguły odpowiadające językowi,
z którego pochodzi. Tyle że to nie zawsze jest dobrze zdefiniowane
(np. jeśli dwa języki niezależnie od siebie dodają kilka liter na
końcu alfabetu, to nie jest wyznaczona ich wzajemna kolejność),
a użytkownik musiałby znać reguły wielu języków, więc ja bym tego
unikał.
--
__("< Marcin Kowalczyk
\__/ ***@knm.org.pl
^^ http://qrnik.knm.org.pl/~qrczak/
Jan Rudziński
2004-10-28 15:23:43 UTC
Permalink
Cześć wszystkim

Marcin 'Qrczak' Kowalczyk wrote:
[...]
Post by Marcin 'Qrczak' Kowalczyk
Owszem, np. Ö po niemiecku jest razem z O, a po szwedzku jest pod
koniec alfabetu. Ale z tego wynika tylko tyle, że nie istnieją jedne
reguły ustalania kolejności liter, które pasowałyby wszystkim językom
naraz. Nie szkodzi.
IMHO szkodzi.
Post by Marcin 'Qrczak' Kowalczyk
Bo dany spis jest
z reguły w kontekście jakiegoś
Jak na razie - z reguły.
Post by Marcin 'Qrczak' Kowalczyk
języka i wtedy używamy reguł tego języka, np. po polsku jak napisałem
wyżej.
--
Pozdrowienia
Janek http://www.astercity.net/~janekr
Niech mnie diabli porwą!
Niech diabli porwą? To się da zrobić...
Mo
2004-10-28 19:49:02 UTC
Permalink
Post by Marcin 'Qrczak' Kowalczyk
W polskich spisach alfabetycznych konwencja jest taka, że polskie
litery - oczywiście - mają osobne pozycje, a obce litery z akcentami
są wymieszane z odpowiednimi literami bez akcentów, niezależnie od
reguł języka, z którego pochodzą. Na przykład w starej encyklopedii
PWN, którą mam, są dwa hasła MÓR, dość daleko od siebie; miasto na
Węgrzech jest sortowane obok haseł zaczynających się na MOR.
No to ja bym nie znalazła. Mając jeden mór na właściwym miejscu, nie
szukałabym drugiego.
Post by Marcin 'Qrczak' Kowalczyk
I to jest rozsądne, bo człowiek szukający obcej nazwy własnej nie musi
znać reguł porządku leksykograficznego danego języka. Wystarczy porządek
języka, w którym jest robiony spis, rozszerzony jakoś na obce litery.
W takim przypadku Mór powinien iść przed morem...
Post by Marcin 'Qrczak' Kowalczyk
Jeśli sam spis jest prawdziwie międzynarodowy i nie można powiedzieć,
że jest w jakimś języku, to można próbować łączyć reguły różnych
języków i stosować do każdego słowa reguły odpowiadające językowi,
To już byłby całkowity burdel. W jednej z bibliotek panuje porządek
łaciński, bez uwzględnienia znaczków. Czyli np. Świstakowski idzie przed
Szczypczyńskim.
Post by Marcin 'Qrczak' Kowalczyk
z którego pochodzi. Tyle że to nie zawsze jest dobrze zdefiniowane
(np. jeśli dwa języki niezależnie od siebie dodają kilka liter na
końcu alfabetu, to nie jest wyznaczona ich wzajemna kolejność),
a użytkownik musiałby znać reguły wielu języków, więc ja bym tego
unikał.
No właśnie. To nie byłby żaden porządek...
--
Pozdrawiam
M.

Bywają takie chwile z życiu człowieka, kiedy żadne radio nie gra jego
ulubionej piosenki...
W.Kotwica
2004-11-02 08:50:23 UTC
Permalink
Post by Mo
Post by Marcin 'Qrczak' Kowalczyk
W polskich spisach alfabetycznych konwencja jest taka, że polskie
litery - oczywiście - mają osobne pozycje, a obce litery z akcentami
są wymieszane z odpowiednimi literami bez akcentów, niezależnie od
reguł języka, z którego pochodzą. Na przykład w starej encyklopedii
PWN, którą mam, są dwa hasła MÓR, dość daleko od siebie; miasto na
Węgrzech jest sortowane obok haseł zaczynających się na MOR.
No to ja bym nie znalazła. Mając jeden mór na właściwym miejscu,
nie szukałabym drugiego.
Spodziewałabyś się typowego polskiego znaku ("ó") w węgierskim słowie?
Węgierskie "ó" nie oznacza tego samego, co nasze "ó" ([u]). Dobrze więc,
że trafia w inne miejsce.
--
HQ
Mo
2004-11-02 20:15:32 UTC
Permalink
Post by W.Kotwica
Post by Mo
No to ja bym nie znalazła. Mając jeden mór na właściwym miejscu,
nie szukałabym drugiego.
Spodziewałabyś się typowego polskiego znaku ("ó") w węgierskim słowie?
Węgierskie "ó" nie oznacza tego samego, co nasze "ó" ([u]). Dobrze więc,
że trafia w inne miejsce.
Ale ja jestem głupia, szczególnie jeśli chodzi o węgierski. Jeślibym to
usłyszała, szukałabym owszem, pod Mor, ale wyczytawszy poleciałabym do
'ó' (no, to teraz jestem taka mądrzejsza, aczkolwiek też nie do końca
pewna... ;-) )
--
Pozdrawiam
M.

Bywają takie chwile z życiu człowieka, kiedy żadne radio nie gra jego
ulubionej piosenki...
Hanna Burdon
2004-10-28 14:53:25 UTC
Permalink
Post by Maciek
Jeśli nie ma odpowiednich źródeł w Sieci, to jakie
są papierowe?
Przy okazji - czy są jakieś reguły międzynarodowe,
czy tez poszczególne narody wypracowują sobie własne?
Obawiam się, że sytuacja może być jeszcze bardziej skomplikowana - wcale
nie jestem przekonana, że istnieją takie reguły na poziomie narodowym.
Różne encyklopedie i słowniki przyjmują różne konwencje.

Biblioteki na pewno kierują się określonymi zasadami. Może dobrze byłoby
zadzwonić (albo przejść się) do biblioteki, najlepiej do wojewódzkiej -
osoby zajmujące się katalogowaniem zbiorów powinny być w stanie podać
źródła, którymi się kierują.

Hania
Veronika
2004-10-28 15:03:37 UTC
Permalink
Post by Maciek
W Wikipedii trwa dyskusja na temat traktowania cząstek
de, d', la, O', van, von, der
przy porządkowaniu nazwisk europejskich i porządkowania
innych nazwisk (arabskich, hinduskich, japońskich itd).
Wygląda na to, że dyskutancji mają sporo zapału, lecz
nie dostaje im wiedzy.
PN-80/N-01223. Szeregowanie alfabetyczne.
Od A do Z i pomiędzy. :-)

V-V
--
============= P o l N E W S ==============
archiwum i przeszukiwanie newsów
http://www.polnews.pl
Hanna Burdon
2004-10-28 15:23:03 UTC
Permalink
Post by Veronika
PN-80/N-01223. Szeregowanie alfabetyczne.
Dobry trop - ta norma jest omówiona tutaj:
http://www.ia.pw.edu.pl/~wujek/tex/idx/porzadek.html

Hania
Marcin Ciura
2004-10-28 15:19:41 UTC
Permalink
Post by Maciek
Osobna zagadka, w tej dyskusji nie poruszona, a pewnie
też warta omówienia: w jakiej kolejności wplata się
diakrytyki w alfabet łaciński? Czy np. ç (ccedilla,
w razie gdyby się spsuło w drodze do serwera) jest przed
polskim ć, czy za? W jakiej kolejności mają stać ö i ó?
I czy duńskie przekreślone (nie wchodzi w iso-8859-2)
ma być pomiędzy nimi, przed, czy za oboma?
Czy to wszystko jest gdzieś opisane? Google
z Szukaczem wyjątkowo mętnie mi dziś odpowiadają...
Oderwij się od monitora i weź do ręki pierwszą lepszą encyklopedię.
W mojej stoi jak byk "Za podstawę układu haseł w Encyklopedii
powszechnej PWN przyjęto kolejność liter alfabetu polskiego - od małych
liter do dużych. Znaki diakrytyczne nie wpływają na miejsce w alfabecie,
np. Beccaria, Bečej, Bechczyc-Rudnicka; Buhen, Bühler, Buhturi, Al-"

Zasada jest prosta i skuteczna.

A wszelkie pomysły, które wymagają od użytkowników pamiętania kolejności
znaków w Unicodzie albo znajomości faktu, że we francuskim "ç" się
sortuje razem z "c", a w albańskim po "c", to [[głupie dowcipy i czysty
bezsens]].

Zdrówko,
Marcin
Adam Dziura
2004-10-30 09:41:04 UTC
Permalink
Dnia Thu, 28 Oct 2004 15:23:58 +0200, Maciek
To kopia wiadomości z grupy news:pl.hum.polszczyzna
FUT pl.hum.polszczyzna
[...]

http://42.pl/url/9ia - jeżeli ktoś chce to jest link do dyskusji.
--
Pozdrowienia || Adam Dziura || http://www.mojaopera.idu.pl
"W domu będzie ogień, a do domu proste drogi
wiodą słusznie moje stopy. Nie zabraknie mi sił."
Coma - "100 tysięcy jednakowych miast"
Loading...