mboost-dp1
Script der kan genkende tekstens sprog..?
- Forside
- ⟨
- Forum
- ⟨
- Programmering
Hey alle i kloge hoveder..! ;)
Jeg arbejder på at lave et bookmarking site i php og kunne godt tænke mig at php selv fandt ud af hvilket sprog teksten på en given side er på..
nogen gode forslag til hvordan jeg laver sådan en funktion..? eller måske kan linke til et færdigt script..?
Jeg arbejder på at lave et bookmarking site i php og kunne godt tænke mig at php selv fandt ud af hvilket sprog teksten på en given side er på..
nogen gode forslag til hvordan jeg laver sådan en funktion..? eller måske kan linke til et færdigt script..?
Det skal ikke kunne oversætte noget. Det skal bare kunne give et kvalificeret gæt på hvilket sprog teksten er..
#1
1) Du kunne lave et script der søger siden igennem og gemmer hvilket land der bliver nævnt flest gange.
---
2) Lave et script der gemmer 10-20 ord fra sidens tekstindhold og så lave et script der bruger en online translator til at finde ud af hvilket sprog ordene bedst passer til og så gemme det.
Du kan supplere med at checke URL'ens landekode (dk, se, no).
Alt i alt, en rimelig slatten og øm affære! :)
1) Du kunne lave et script der søger siden igennem og gemmer hvilket land der bliver nævnt flest gange.
---
2) Lave et script der gemmer 10-20 ord fra sidens tekstindhold og så lave et script der bruger en online translator til at finde ud af hvilket sprog ordene bedst passer til og så gemme det.
Du kan supplere med at checke URL'ens landekode (dk, se, no).
Alt i alt, en rimelig slatten og øm affære! :)
"En" optræder da gerne på både fransk og engelsk... "At" er også ret brugt i engelsk.
Forresten er det også muligt for webserveren at sende "sproget" med i headeren... den hedder ....
Forresten er det også muligt for webserveren at sende "sproget" med i headeren... den hedder ....
Content-Language:...den kan du også bruge til at checke sproget med... Hvis altså webserveren sender den header afsted...
The languages of the variant, specified as an Internet standard language tag from RFC 1766 (e.g., en for English, kr for Korean, etc.).
Det er et problem hvor såkaldte heuristiske tilgange skal til via divide-n-conquer. Jeg ville:
- Checke tegnsættet
- Via HTTP header
- Om tegnene er double-byte (Cyrillic/Kinisisk osv)
- Checke for specielle tegn (et Æ/Ø/Å vil pege på dansk eller norsk, ü på Tysk, ê/é/è på fransk osv.)
- Smide alle ord i et vægtet hashmap og definere nogle meget brugte ord (som arne_v nævner) og ud fra sproget med flest matches imod de 10 hyppigste ord danne en konklusion omkring sproget.
Men husk først og fremmest, at google er din ven!
- Checke tegnsættet
- Via HTTP header
- Om tegnene er double-byte (Cyrillic/Kinisisk osv)
- Checke for specielle tegn (et Æ/Ø/Å vil pege på dansk eller norsk, ü på Tysk, ê/é/è på fransk osv.)
- Smide alle ord i et vægtet hashmap og definere nogle meget brugte ord (som arne_v nævner) og ud fra sproget med flest matches imod de 10 hyppigste ord danne en konklusion omkring sproget.
Men husk først og fremmest, at google er din ven!
Jeg ville nok også gøre som #8, og checke på en masse faktorer. Først og fremmest ville jeg nok køre en analyse på en masse tekster på de forskellige sprog, for at lede efter "fingeraftryk" i form at ofte brugte ord.
Herefter ville jeg se på tegnsæt, header og ikke mindst hostnavn. Efter hvad scriptet finder vil jeg tildele hvert sprog et antal point, og til sidst udvælge det mest sandsynlige.
Herefter ville jeg se på tegnsæt, header og ikke mindst hostnavn. Efter hvad scriptet finder vil jeg tildele hvert sprog et antal point, og til sidst udvælge det mest sandsynlige.
Gå til top
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.